--- title: Von GPT-1 bis GPT-4: Wie ein Sprachmodell alles veränderte description: Die echte Geschichte von GPTs Entwicklung: vom Forschungspapier aus dem Jahr 2018 bis zur Technologie, die ganze Branchen umkrempelt. Technische Sprünge, öffentliche Kontroversen und was sich zwischen den Versionen tatsächlich verbessert hat. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- Im Juni 2018 veröffentlichte OpenAI einen Fachartikel, den fast niemand bemerkte. Der Titel war trocken: "Improving Language Understanding by Generative Pre-Training." Das beschriebene Modell hatte 117 Millionen Parameter. Es konnte Sätze vervollständigen und einfache Fragen zu Textpassagen beantworten. Fünf Jahre später schrieb GPT-4 juristische Schriftsätze, entwirrte komplexe Softwarefehler und bestand Prüfungen, an denen die meisten Menschen scheitern. Der Sprung von diesem Fachartikel aus 2018 hin zum multimodalen System von 2023 ist einer der schnellsten Fähigkeitssprünge in der Geschichte des Computings. Aber der Weg war nicht geradlinig. Er enthielt eine Kontroverse über „gefährliche KI“, die rückblickend absurd wirkt, eine Wette auf Skalierung, von der viele Forschende dachten, sie sei falsch, und einen Produktstart, von dem niemand erwartete, dass er zur am schnellsten wachsenden Verbraucher-App werden würde, die je gebaut wurde. ## GPT-1: Der Beweis, den niemand sah Der ursprüngliche GPT-Fachartikel erschien in einem ruhigen Moment der KI-Forschung. Transformer waren ein Jahr zuvor vorgestellt worden. Forschende waren noch dabei herauszufinden, was die Architektur überhaupt leisten konnte. OpenAIs Beitrag war konzeptionell. Sie zeigten, dass man ein Sprachmodell mit riesigen Mengen unbeschrifteten Textes trainieren und es dann für konkrete Aufgaben mit kleinen Mengen beschrifteter Daten feinabstimmen kann. Erst trainieren. Danach spezialisieren. Das ist wichtig, weil beschriftete Daten teuer sind. Jemand muss jedes Beispiel lesen und markieren, ob es positive oder negative Stimmung ausdrückt, ob es eine benannte Entität enthält, ob es eine Frage korrekt beantwortet. Millionen beschrifteter Beispiele zu beschaffen kostet echtes Geld und echte Zeit. Unbeschrifteter Text ist im Grunde kostenlos. Das Internet produziert ihn ständig. GPT-1 bewies, dass man aus Rohtext nützliches Wissen extrahieren und dieses Wissen dann mit minimalem zusätzlichem Training auf nachgelagerte Aufgaben anwenden kann. Das Modell erreichte 72,8 auf GLUE, einem Benchmark für Sprachverständnis. Der vorherige Rekord lag bei 68,9. Eine spürbare Verbesserung, aber keine, die nahelegte, dass die Technologie innerhalb eines halben Jahrzehnts ganze Branchen umformen würde. Die meisten KI-Forschenden konzentrierten sich damals auf andere Ansätze. GPT-1 war interessant. Es war nicht offensichtlich weltverändernd. ## GPT-2: Die Kontroverse, die schlecht gealtert ist OpenAI veröffentlichte GPT-2 im Februar 2019. Es hatte 1,5 Milliarden Parameter. Das ist grob dreizehnmal größer als GPT-1. Das Modell konnte zu fast jedem Thema zusammenhängende Absätze erzeugen. Dann passierte etwas Ungewöhnliches. OpenAI kündigte an, das vollständige Modell nicht zu veröffentlichen. Der Grund: Sorge vor Missbrauch. Die Presse sprang sofort darauf an. Eine KI, zu gefährlich zum Veröffentlichen? Schlagzeilen schrieben sich von selbst. Die Reaktion der Fachcommunity war gemischt, und rückblickend erwies sich die Skepsis als berechtigt. Auf [Hacker News](https://news.ycombinator.com/item?id=41159735) brachte es der Nutzer empiko auf den Punkt: "I remember when GPT-2 was 'too dangerous' to release. I am confused why people still take these clown claims seriously." Andere vermuteten, die Rahmung sei strategisch. Nutzer sva_ bemerkte: "The GPT2 weights have later been released which made some people suspect the 'too dangerous to release' stuff was mostly hype/marketing." OpenAI veröffentlichte das vollständige Modell schließlich im November 2019, neun Monate nach der ersten Ankündigung. Die erwartete Flut KI-generierter Desinformation blieb aus. Zumindest nicht durch GPT-2. Was an GPT-2 zählt, ist nicht die Kontroverse. Die Kontroverse ist schlecht gealtert. Was zählt, ist, dass OpenAI zeigte, dass Skalierung funktioniert. Ein Modell, das dreizehnmal größer war, war dramatisch besser. Das waren Daten, keine Theorie. Und es prägte alles, was danach kam. ## GPT-3: Als die Skeptiker falsch lagen GPT-3 kam im Juni 2020. Die Zahlen waren absurd. 175 Milliarden Parameter. Trainiert auf 570 Gigabyte Text. Das Modell war mehr als hundertmal größer als GPT-2. Viele Forschende hielten das für Verschwendung. Größere Modelle sind teuer zu trainieren und teuer zu betreiben. Die Annahme war, dass die Erträge abnehmen. Man kann nicht einfach immer größer bauen und proportionale Verbesserungen erwarten. GPT-3 widerlegte diese Annahme. Das Modell zeigte „Lernen mit wenigen Beispielen“ auf eine Weise, die sogar seine Schöpfer überraschte. Man konnte ihm ein paar Beispiele einer Aufgabe geben, und es erkannte das Muster ohne Feinabstimmung. Zeigen Sie ihm drei Beispiele für englische Sätze, die ins Französische übersetzt wurden, und es übersetzt den vierten. Zeigen Sie ihm drei Fragen mit Antworten, und es beantwortet die vierte. Als OpenAI die API für Entwickler öffnete, gingen die Reaktionen weit auseinander. Auf [Hacker News](https://news.ycombinator.com/item?id=23489653) beschrieb Nutzer denster die Euphorie: "we were just _blown away_. Very cool!!" Aber nicht alle waren beeindruckt. Nutzer Barrin92 hielt dagegen: "All GPT-3 does is generate text...it doesn't actually understand anything." OpenAIs CEO Sam Altman versuchte, die Erwartungen zu dämpfen. "The GPT-3 hype is way too much," schrieb er. "It's impressive but it still has serious weaknesses." Er hatte recht mit den Schwächen. Das Modell halluzinierte selbstbewusst. Es konnte keine einfache Arithmetik zuverlässig ausführen. Es hatte kein dauerhaftes Gedächtnis zwischen Sitzungen. Es erzeugte manchmal toxische oder verzerrte Inhalte. Aber die Wette auf Skalierung war aufgegangen. Größere Modelle waren klügere Modelle. Diese Einsicht trieb die nächsten drei Jahre KI-Entwicklung und Milliarden Dollar an Investitionen. ## Die fehlende Zutat: Es benutzbar machen GPT-3 existierte zweieinhalb Jahre, bevor ChatGPT startete. Das zugrunde liegende Modell war nicht dramatisch anders. Was sich änderte, war die Oberfläche. GPT-3 brauchte einen API-Schlüssel. Man musste wissen, was ein Prompt ist. Man musste verstehen, dass das Modell Kontext und Beispiele braucht, um gut zu funktionieren. Die Einstiegshürde war real. ChatGPT entfernte das alles. Kostenlos. Konversationell. Durch Reinforcement Learning aus menschlichem Feedback so optimiert, dass es hilfreich und harmlos ist. Man tippte einfach, und es antwortete. Fünf Tage nach dem Start: eine Million Nutzer. Zwei Monate später: hundert Millionen. Nichts bei Technik für Endnutzer war je so schnell gewachsen. Das Modell, das Menschen tatsächlich nutzen konnten, änderte alles daran, wie sie über KI dachten. Vor ChatGPT war KI etwas, womit Spezialisten arbeiteten. Nach ChatGPT war es etwas, zu dem Ihre Tante Sie an Thanksgiving befragte. Das ist wichtig, um GPT-4 zu verstehen. Der Technologiesprung war real, aber der Nutzungsdurchbruch kam daher, fortgeschrittene KI für gewöhnliche Menschen zugänglich zu machen – nicht allein durch rohe Leistungsfähigkeit. ## GPT-4: Der Sprung, der den Punkt bewies OpenAI kündigte GPT-4 am 14. März 2023 an. Das Modell konnte nun Bilder neben Text verarbeiten. Man konnte ein Foto hochladen und Fragen dazu stellen. Man konnte ihm ein Diagramm zeigen und um eine Erklärung bitten. Die Verbesserungen waren erheblich. GPT-4 bestand das Bar Exam mit einem Ergebnis im 90. Perzentil. GPT-3.5 lag im 10. Perzentil. Das ist keine inkrementelle Verbesserung. Das ist ein qualitativer Fähigkeitssprung. Auf [Hacker News](https://news.ycombinator.com/item?id=35154527) merkte Nutzer hooande an, was Entwickler begeisterte: "The ability to dump 32k tokens into a prompt (25.000 words) seems like it will drastically expand the reasoning capability." Die Einführung in Unternehmen beschleunigte sofort. Stripe integrierte GPT-4, um Unternehmenswebsites für den Kundendienst zusammenzufassen. Duolingo baute es in eine neue Abo-Stufe ein. Morgan Stanley entwickelte ein System für Finanzanalysten. Khan Academy entwickelte einen automatisierten Tutor. Die Multimodalität war wirklich neu. Frühere Sprachmodelle verarbeiteten nur Text. GPT-4 konnte ein Foto ansehen und beschreiben, was passiert, Objekte identifizieren, Text in Bildern lesen und über visuelle Beziehungen nachdenken. OpenAI hielt technische Details zu GPT-4s Architektur und Trainingsdaten zurück. Das Unternehmen, das sich einst sorgte, GPT-2 sei zu gefährlich zum Veröffentlichen, war bei deutlich mächtigerer Technologie deutlich verschlossener geworden. Die Ironie entging Beobachtern nicht. ## Was sich zwischen den Versionen tatsächlich änderte Die Entwicklung von GPT-1 zu GPT-4 umfasste drei grundlegende Verschiebungen. **Skalierung**. GPT-1 hatte 117 Millionen Parameter. Die Parameterzahl von GPT-4 wurde offiziell nie bestätigt, aber glaubwürdige Schätzungen setzen sie auf über eine Billion. Das ist in sechs Jahren etwa ein zehntausendfacher Zuwachs. Jeder Sprung in der Größe brachte Fähigkeiten hervor, die aus kleineren Modellen nicht vorhersehbar waren. **Trainingsdaten**. GPT-1 trainierte auf Büchern. GPT-3 fügte Common Crawl hinzu, eine riesige Web-Erfassung. GPT-4s Trainingsdaten bleiben unoffen, aber das Modell zeigt Wissen, das nur aus umfangreicher Exposition gegenüber Code, wissenschaftlichen Arbeiten und spezialisierten Domänen stammen kann. **Ausrichtungstechniken**. Rohe Sprachmodelle optimieren auf Vorhersage. Sie erzeugen den Text, der angesichts des Prompts statistisch am wahrscheinlichsten ist. Reinforcement Learning aus menschlichem Feedback, eingeführt zwischen GPT-3 und ChatGPT, brachte den Modellen stattdessen bei, auf Hilfreichsein und Harmlosigkeit zu optimieren. Das machte die Technologie für normale Menschen nutzbar, die keine Ahnung hatten, wie man Prompts schreibt. Die architektonischen Änderungen waren weniger dramatisch, als oft angenommen wird. GPT-4 nutzt immer noch Transformer. Der Aufmerksamkeitsmechanismus ist aus dem Fachartikel von 2017 wiederzuerkennen, der alles ins Rollen brachte. Die Revolution kam aus Größe, Daten und Trainingsmethodik – nicht aus grundlegenden architektonischen Innovationen. ## Die Zahlen erzählen die Geschichte Hier ist, was jede Version konnte, gemessen an den Benchmarks, die zählen: GPT-1 erreichte 72,8 auf GLUE. Das schlug den vorherigen Rekord von 68,9. Bedeutender Fortschritt. Nicht transformativ. GPT-2 erzeugte Text, der zusammenhängend genug war, um flüchtige Leser zu täuschen. Es konnte Anweisungen nicht zuverlässig befolgen oder Kontext über lange Gespräche halten. GPT-3 brachte Lernen mit wenigen Beispielen. Geben Sie ihm Beispiele, und es erkennt das Muster. Das war die erste Version, die sich für echte Arbeit wirklich nützlich anfühlte, auch wenn die Ausgaben stark nachbearbeitet werden mussten. GPT-4 bestand anspruchsvolle Prüfungen. Bar Exam: 90. Perzentil. GRE Verbal: 90. Perzentil. AP-Prüfungen in mehreren Fächern: Bestehenswerte. Das war die erste Version, die im Schnitt den durchschnittlichen Menschen auf kognitiven Benchmarks zuverlässig übertraf. Die Lücke zwischen „interessanter Forschung“ und „nützlichem Werkzeug“ entstand irgendwo zwischen GPT-2 und GPT-3. Die Lücke zwischen „nützlichem Werkzeug“ und „potenzieller Ersatz für einen Teil menschlicher kognitiver Arbeit“ entstand irgendwo zwischen GPT-3 und GPT-4. ## Warum GPT-2 mehr Aufmerksamkeit bekommt als GPT-1 Beachten Sie, dass GPT-1 in den meisten Erzählungen kaum vorkommt. Niemand diskutiert, ob GPT-1 hätte veröffentlicht werden sollen. Niemand erinnert sich daran, was er dachte, als er zum ersten Mal GPT-1-Ausgaben sah. GPT-2 ist anders. Das „zu gefährlich“-Framing schuf eine Geschichte. Menschen hatten Meinungen. Die Kontroverse erzeugte Berichterstattung, die die technische Leistung allein nicht bekommen hätte. Das ist wichtig, weil es zeigt, wie Technologie ins öffentliche Bewusstsein kommt. GPT-1 war wichtig wegen dessen, was es technisch bewies. GPT-2 war wichtig wegen der Debatte, die es auslöste. GPT-3 war wichtig, weil es nützlich war. GPT-4 war wichtig, weil es gut genug war, dass Menschen anfingen, sich um Jobs zu sorgen. Jede Version war aus anderen Gründen bedeutsam. Diese Gründe zu verstehen hilft Ihnen zu verstehen, was KI-Adoption und -Sorge tatsächlich antreibt. ## Das Muster, das man verstehen sollte Jede GPT-Version folgte einem Muster. Die technische Fähigkeit sprang. Die öffentliche Reaktion spaltete sich zwischen Begeisterung und Skepsis. Prognostizierte Schäden materialisierten sich entweder nicht oder materialisierten sich auf unerwartete Weise. Reale Anwendungen entstanden, die niemand vorausgesehen hatte. Die Fake-News-Ängste rund um GPT-2 wirken heute fast niedlich. Das Modell, das „zu gefährlich zum Veröffentlichen“ war, wird trivial von Systemen übertroffen, auf die jeder kostenlos zugreifen kann. Die „GPT-3 ist gar nicht so beeindruckend“-Takes sind schlecht gealtert. Das Modell, das manche als glorifiziertes Autovervollständigen abtaten, wurde zur Grundlage für Produkte, die Hunderte Millionen Menschen täglich nutzen. Die Sorgen um GPT-4 sind noch nicht geklärt. Ob es Fortschritt in Richtung nützlicher KI darstellt oder ein Schritt hin zu Systemen, die wir nicht kontrollieren können, hängt davon ab, wen Sie fragen und welchen Zeithorizont Sie anlegen. Was klar scheint: Jede Version machte KI fähiger und zugänglicher. Die Technologie, die 2018 als Forschungskuriosität begann, ist heute darin eingebettet, wie Millionen Menschen arbeiten. Die Lücke zwischen GPT-1 und GPT-4 ist die Lücke zwischen akademischem Machbarkeitsnachweis und Infrastruktur, von der Organisationen abhängen. ## Was als Nächstes kommt Diese Entwicklung zu verstehen ist wichtig, weil sie weitergeht. GPT-5 existiert. Konkurrenzmodelle von Anthropic, Google und Meta haben die Fähigkeiten weiter nach vorne geschoben. Das Tempo der Verbesserung zeigt keine Anzeichen, langsamer zu werden. Die Bilanz legt nahe, dass es unklug ist, gegen Fähigkeitsverbesserungen zu wetten. Dieselbe Bilanz legt nahe, dass die Auswirkungen – sowohl positive als auch negative – anders ausfallen werden als vorhergesagt. Die einzige Vorhersage, die sich konsistent gehalten hat: Die nächste Version wird besser sein als die letzte. Wie viel besser, und was das für unsere Arbeit und unser Leben bedeutet, bleibt wirklich offen. Sechs Jahre brachten uns von einem Fachartikel, den niemand las, zu einer Technologie, die 10 % der Erwachsenen wöchentlich nutzen. Die nächsten sechs Jahre werden wahrscheinlich ebenso dramatische Veränderungen bringen. Zu verstehen, woher wir kommen, ist die beste Vorbereitung darauf, herauszufinden, wohin wir gehen.