---
title: Open Source vs. Closed Source KI: Was wirklich zählt
description: Die echten Unterschiede zwischen Open- und Closed-Source-KI-Modellen. Wann was Sinn ergibt, was du dafür aufgibst und warum diese Unterscheidung für deine Arbeit zählt.
date: February 5, 2026
author: Robert Soares
category: ai-fundamentals
---

Die Lücke zwischen offenen und geschlossenen KI-Modellen ist zusammengeschrumpft. Vor einem Jahr lagen offene Modelle auf Standard-Benchmarks noch 17.5 Prozentpunkte hinter ihren proprietären Pendants. Heute beträgt [diese Lücke 0.3 Punkte](https://mitsloan.mit.edu/ideas-made-to-matter/ai-open-models-have-benefits-so-why-arent-they-more-widely-used). Llama, Mistral, DeepSeek und Qwen ziehen bei den meisten Tests inzwischen mit GPT-4 und Claude gleich.

Warum kassieren geschlossene Modelle dann immer noch [80 % der Nutzung und 96 % des Umsatzes](https://openrouter.ai/state-of-ai)?

Das ist die Frage, die sich zu entpacken lohnt. Nicht, was „besser“ ist – sondern wann was Sinn ergibt und welchen Tausch du tatsächlich eingehst.

## Was „Open“ und „Closed“ bedeuten (es ist chaotischer, als du denkst)

Die Begriffe werden ziemlich locker herumgeworfen. Hier ist der echte Unterschied.

**Closed-Source-Modelle** wie GPT-4, Claude und Gemini laufen auf den Servern des Anbieters. Du schickst Text über eine API, bekommst eine Antwort zurück. Du siehst die Modellgewichte nicht, du kannst sie nicht verändern, du kannst das Modell nicht auf eigener Hardware laufen lassen. Das Modell ist eine Blackbox, für die du Zugang mietest.

**Open-Source-Modelle** (oder genauer: „Open-Weight“-Modelle) wie Llama, Mistral und DeepSeek veröffentlichen ihre Modellgewichte. Du kannst sie herunterladen. Auf deinem eigenen Rechner laufen lassen. Für bestimmte Aufgaben feinabstimmen. Nachsehen, was sie tun. Sie dort ausrollen, wo du willst.

Für lockere Nutzung ist der Unterschied weniger wichtig. Wenn du Claude etwas fragst oder eine Marketing-Mail erzeugst, ist es dir wahrscheinlich egal, ob du die Gewichte sehen kannst. Aber für Unternehmen, die Produkte auf KI bauen, ist der Unterschied erheblich: Kontrolle über Daten, Anpassbarkeit, Kostenstruktur – und was passiert, wenn der Anbieter etwas ändert.

## Der Kostenabstand ist größer, als die meisten glauben

Geschlossene Modelle sind grob [87 % teurer im Betrieb](https://mitsloan.mit.edu/ideas-made-to-matter/ai-open-models-have-benefits-so-why-arent-they-more-widely-used). Im Schnitt: $1.86 pro Million Token versus $0.23 bei offenen Alternativen.

Bei wenig Volumen merkst du das kaum. Wenn du $50 im Monat für API-Aufrufe ausgibst, sind 87 % Ersparnis $43. Nett, aber kein Grund, deine Architektur umzubauen.

In großem Maßstab kippt die Rechnung komplett. Forschende von MIT Sloan schätzen, dass eine optimale Verlagerung von geschlossenen zu offenen Modellen die globale KI-Wirtschaft um etwa [$25 Milliarden pro Jahr](https://mitsloan.mit.edu/ideas-made-to-matter/ai-open-models-have-benefits-so-why-arent-they-more-widely-used) entlasten könnte.

Aber Kosten sind nicht nur der Preis pro Token. Wenn du ein offenes Modell selbst betreibst, brauchst du Hardware, Wartung, Entwicklungszeit. Ein typisches Llama-70B-Setup braucht 8x A100-GPUs, [ungefähr $80.000 pro Jahr an Cloud-Kosten](https://hatchworks.com/blog/gen-ai/open-source-vs-closed-llms-guide/) – plus ein Team, das das Ganze betreibt. Das rechnet sich gegenüber GPT-4-API-Kosten etwa ab 20-30 Millionen Token pro Monat.

Unterhalb dieser Schwelle ist es oft günstiger, den API-Aufpreis zu zahlen, als eigene Infrastruktur zu betreiben. Oberhalb davon ergibt Selbstbetrieb finanziell Sinn.

Wie Frank Nagle, ein Forscher der MIT-Studie, [es ausdrückte](https://mitsloan.mit.edu/ideas-made-to-matter/ai-open-models-have-benefits-so-why-arent-they-more-widely-used): "The difference between benchmarks is small enough that most organizations don't need to be paying six times as much just to get that little bit of performance improvement."

## Die wichtigsten Anbieter

Die Landschaft hat sich in den letzten zwei Jahren aufgesplittert. So sieht es aktuell aus.

**Closed Source:**
- OpenAI (GPT-4, GPT-4o, o1, o3) ist für viele weiterhin der Standard. Starkes allgemeines Schlussfolgern, schnelle Weiterentwicklung, tiefe Integrationen.
- Anthropic (Claude 3.5 Sonnet, Claude 4) hat sich einen Ruf für nuanciertes Schreiben und sicherheitsorientierte Antworten erarbeitet. [Über 60 % der Programmierarbeit](https://openrouter.ai/state-of-ai) auf OpenRouter geht an Claude.
- Google (Gemini) bietet riesige Kontextfenster und enge Integration in Googles Ökosystem.

**Open Source:**
- Metas Llama-Familie dominiert das westliche Open-Source-Ökosystem. Llama 4, veröffentlicht im April 2025, umfasst Modelle von 17B bis 288B Parametern. Die Downloads haben sich zwischen Juli und Dezember 2024 nahezu [von 350 Millionen auf 650 Millionen verdoppelt](https://developers.redhat.com/articles/2026/01/07/state-open-source-ai-models-2025).
- DeepSeek hat sich als großer Spieler etabliert und liegt bei der [Token-Nutzung unter Open Source vorn](https://openrouter.ai/state-of-ai): 14.37 Billionen verarbeitete Token. Ihr R1-Reasoning-Modell fordert OpenAIs o1 direkt heraus.
- Mistral, das französische Startup, liefert effiziente Modelle, die über ihre Gewichtsklasse hinaus boxen – besonders für europäische Unternehmen, denen Datenhoheit wichtig ist.
- Qwen von Alibaba ist schnell gewachsen und liegt bei der [Open-Source-Nutzung auf Platz zwei](https://openrouter.ai/state-of-ai) mit 5.59 Billionen Token.

Die Dynamik verschiebt sich. [Ende 2025](https://trendforce.com/news/2026/01/26/news-chinese-ai-models-reportedly-hit-15-global-share-in-nov-2025-fueled-by-deepseek-open-source-push/) kamen chinesische Modelle (vor allem DeepSeek und Qwen) auf rund 15 % der weltweiten KI-Nutzung – gegenüber etwa 1 % ein Jahr zuvor. Kein einzelnes Modell überschreitet inzwischen 25 % Anteil an den Open-Source-Token.

## Datenschutz und Datenkontrolle

Hier wird die Entscheidung persönlich.

Bei geschlossenen Modellen gehen deine Daten auf fremde Server. OpenAI, Anthropic und Google behaupten alle, API-Eingaben nicht zum Training zu nutzen (unter bestimmten Bedingungen) – aber du vertraust ihrem Wort und ihrer Sicherheit. Wenn du im Gesundheitswesen, in der Finanzbranche, in der Rechtsberatung oder in einer Branche mit strengen Vorgaben zur Regelkonformität arbeitest, ist dieses Vertrauen eine echte Abwägung.

Bei offenen Modellen kannst du alles lokal betreiben. Daten verlassen deine Infrastruktur nicht. Du kontrollierst Verschlüsselung, Zugriff, Aufbewahrung.

Ein [Hacker-News-Kommentator](https://news.ycombinator.com/item?id=42768072) hat die Rechnung so formuliert: "Spending ~$3.000+ on a laptop to run local models is only economically sensible if you are VERY paranoid." Das ist Simon Willison, ein bekannter Entwickler im KI-Bereich. Er liegt nicht falsch: lokaler Betrieb kostet. Aber für manche Organisationen heißt „sehr paranoid“ schlicht: Regelkonformität.

Beim Datenschutz wird es mit chinesischen Open-Source-Modellen komplizierter. Italien hat DeepSeek-R1 im April 2025 [wegen DSGVO-Verstößen verboten](https://brlikhon.engineer/blog/deepseek-r1-vs-gpt-5-vs-claude-4-the-real-llm-cost-performance-battle). Forschende haben Fälle dokumentiert, in denen DeepSeeks internes Denken bei sensiblen politischen Themen eine Analyse zeigt, aber nach außen eine andere Antwort ausgibt. Du kannst diese Modelle lokal betreiben – aber ihr Training und ihre Ausrichtung bringen einen bestimmten Kontext mit.

## Leistung: Es hängt davon ab, was du tust

Die pauschale Frage „was ist besser?“ verfehlt den Punkt. Verschiedene Modelle sind in verschiedenen Dingen stark.

Geschlossene Modelle führen bei den anspruchsvollsten Aufgaben noch immer. Komplexes Schlussfolgern, nuanciertes Schreiben, bestimmte Programmier-Benchmarks. Claude ist besonders bei Entwicklern zum Go-to geworden, wenn es um schwierige Programmierprobleme geht.

Offene Modelle haben für die meisten praktischen Anwendungen aufgeholt. Und für bestimmte Anwendungsfälle lassen sie sich so feinabstimmen, dass sie allgemeine Closed-Source-Modelle bei engen Aufgaben schlagen.

Wie ein [Hacker-News-User](https://news.ycombinator.com/item?id=41999151) es ausdrückte: "Deepseek is my favourite model to use for coding tasks...it has outstanding task adhesion, code quality is consistently top notch & it is never lazy."

Das Muster in den Nutzungsdaten: Geschlossene Modelle ziehen die hochwertigen Aufgaben an, offene Modelle das große Volumen mit geringerem Wert pro Anfrage. [Laut OpenRouters Analyse](https://openrouter.ai/state-of-ai): "a simple heuristic: closed source models capture high value tasks, while open source models capture high volume lower value tasks."

Diese Faustregel ist hilfreich, aber nicht universell. Viele hochwertige Produktionssysteme laufen auf offenen Modellen. Die Abwägungen sind real – aber die Leistungsfähigkeit eben auch.

## Was Open Source kann, was Closed Source nicht kann

Es gibt Dinge, die du mit einem geschlossenen Modell schlicht nicht tun kannst.

**Feinabstimmung mit proprietären Daten.** Mit APIs geschlossener Modelle geht das so halb, aber du bist an das gebunden, was der Anbieter zulässt. Mit offenen Modellen hast du volle Kontrolle. Trainiere auf dem Jargon deiner Branche, der Dokumentation deines Unternehmens, deinem Fachgebiet.

**Abgeschottet betreiben (air-gapped).** Manche Umgebungen dürfen keine externen APIs erreichen. Verteidigung, bestimmte Gesundheitssysteme, abgeschirmte Unternehmensnetze. Offene Modelle sind dort die einzige Option.

**Verhalten auf Modellebene anpassen.** Nicht nur anders prompten – sondern wirklich verändern, wie das Modell verarbeitet und antwortet.

**Anbieterbindung vermeiden.** Wenn dein ganzes Produkt von einer API abhängt, hängst du an Preis, Verfügbarkeit und Richtlinien dieses Anbieters. Im Januar 2025, als DeepSeek R1 veröffentlichte und der KI-Aktienmarkt kurz Panik schob, wurden Unternehmen auf Closed-APIs daran erinnert, wie sehr sie vom Fahrplan anderer abhängig sind.

## Was Closed Source kann, was Open (meistens) nicht kann

Die Abwägungen funktionieren in beide Richtungen.

**Spitzenleistung.** Die absolut besten Modelle auf den härtesten Benchmarks sind noch immer geschlossen. Wenn du maximale Fähigkeit brauchst und es dir leisten kannst, bleibt Claude Opus oder GPT-4 oft die Antwort.

**Einfachheit.** Keine Infrastruktur, die du verwalten musst. Keine GPU-Kosten. Keine Modell-Updates, die du abfangen musst. Nur ein API-Schlüssel und eine Rechnung. Für kleine Teams oder schnelle Prototypen ist diese Einfachheit etwas wert.

**Unternehmensfunktionen.** SOC 2 compliance, Enterprise-SLAs, Admin-Oberflächen, Audit-Protokolle. Anthropic und OpenAI haben die Infrastruktur gebaut, die große Organisationen erwarten.

**Kontinuierliche Verbesserung.** Anbieter geschlossener Modelle aktualisieren ihre Modelle regelmäßig. Manchmal zerbricht dabei etwas (frag jeden, der sich auf bestimmte GPT-4-Eigenheiten verlassen hat, die sich geändert haben), aber meistens heißt es: bessere Leistung im Zeitverlauf, ohne dass du einen Finger rührst.

## Der eigentliche Entscheidungsrahmen

Vergiss den Tribalismus. So ergibt jede Seite Sinn.

**Open Source passt, wenn:**
- Du riesiges Volumen verarbeitest (Millionen Token pro Monat)
- Daten aus Gründen der Regelkonformität oder Sicherheit deine Infrastruktur nicht verlassen dürfen
- du auf spezialisierten Fachdaten feinabstimmen musst
- du bei einer Kernfunktion nicht von einer API abhängig sein willst
- du die Kapazität hast (oder einstellen kannst), um Modelle zu betreiben und zu warten

**Closed Source passt, wenn:**
- du maximale Leistungsfähigkeit brauchst, Kosten sind zweitrangig
- das Volumen moderat genug ist, dass API-Kosten nicht dominieren
- du schnell vorankommen willst, ohne Infrastruktur-Mehraufwand
- du prototypisierst oder validierst, bevor du dich auf eine Architektur festlegst
- dein Team auf Produkt fokussiert ist, nicht auf Modellbetrieb

Viele Organisationen enden bei beidem. Geschlossene Modelle für komplexe Aufgaben, bei denen Qualität am wichtigsten ist. Offene Modelle für volumenstarke, kostensensitive Anwendungen. Der klügere Zug ist oft nicht, sich für eine Seite zu entscheiden, sondern zu wissen, wann welches Werkzeug passt.

## Die Annäherung, die vor uns liegt

Offene Modelle erreichen bei Veröffentlichung inzwischen [89,6 % der Leistung geschlossener Modelle](https://mitsloan.mit.edu/ideas-made-to-matter/ai-open-models-have-benefits-so-why-arent-they-more-widely-used) und holen sie typischerweise innerhalb von 13 Wochen ein. Vor einem Jahr lag diese Aufholzeit noch bei 27 Wochen.

Die Leistungslücke schrumpft weiter. Die Kostenlücke nicht. Wenn überhaupt, werden offene Modelle günstiger, während die Preise geschlossener Modelle relativ stabil geblieben sind.

Das heißt nicht, dass geschlossene Modelle zum Untergang verurteilt sind. Sie werden die Spitze wahrscheinlich halten – zumindest bei den härtesten Problemen. Und die Einfachheit von „einfach die API nutzen“ verschwindet nicht. Aber das wirtschaftliche Argument für Open Source wird stärker, und die Ausrede, man müsse aus Leistungsgründen darauf verzichten, wird schwächer.

Unklar bleibt, ob sich das aktuelle Ökosystem langfristig selbst tragen kann. Meta steckt Milliarden in die Entwicklung von Llama und veröffentlicht es kostenlos. DeepSeeks Effizienzsprünge kamen aus einem chinesischen Labor mit Zugang zu günstiger Rechenleistung. Keines von beiden Geschäftsmodellen ergibt wirklich Sinn, außer du schielst auf Effekte zweiter Ordnung (Meta will KI überall, um Engagement zu treiben; DeepSeek ist ein Hedgefonds, der bessere KI fürs Trading will). Die Frage, wer offene KI-Entwicklung bezahlt – und wie das prägt, was gebaut wird – ist noch nicht gelöst.