--- title: Wie ChatGPT wirklich funktioniert description: Die echte Mechanik hinter ChatGPT, klar erklärt. Transformer-Architektur, Aufmerksamkeitsmechanismen, Trainingsprozess und ehrliche Grenzen. Kein Hype, nur wie es funktioniert. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- Du hast ChatGPT benutzt. Vielleicht täglich. Aber wie funktioniert es eigentlich? Die ehrliche Antwort: viel Matrix-Mathematik, ein paar clevere Ingenieurtricks aus 2017 und ein Trainingsprozess, der darauf beruht, dass Menschen Ausgaben bewerten. Die Technik ist bemerkenswert. Sie ist auch mechanischer, als die meisten Leute denken – und genau das macht sowohl ihre Fähigkeiten als auch ihre Aussetzer leichter verständlich, sobald man das Getriebe sieht. Machen wir es auf. ## Das Fundament: das nächste Wort vorhersagen Im Kern macht ChatGPT genau eine Sache. Es sagt das nächste Wort in einer Textfolge voraus und nutzt diese Vorhersage dann, um das Wort danach zu erzeugen, und das Wort danach, bis es an einem Stoppunkt ankommt. Mehr ist es nicht. Jeder Essay, den es schreibt, jedes Codeschnipsel, das es produziert, jedes Gespräch, das es führt, entsteht aus genau dieser einen Operation – milliardenfach ausgeführt. Wie Nutzer akelly auf Hacker News erklärte, als er ChatGPTs Architektur beschrieb: "Start with GPT-3, which predicts the next word in some text and is trained on all the text on the internet." Das ist das Fundament. Alles andere baut auf der Vorhersage des nächsten Worts auf. Das Modell "denkt" in keinem menschlichen Sinn. Es berechnet Wahrscheinlichkeitsverteilungen über sein Token-Vokabular (ungefähr 50.000 Wortfragmente) und zieht daraus Stichproben. Wenn du ihm eine Frage stellst, ruft es keine gespeicherten Fakten aus einer Datenbank ab. Es erzeugt Text, der statistisch aus deiner Eingabe folgt – basierend auf Mustern, die es im Training gelernt hat. Das erklärt sowohl seine Stärken als auch seine seltsamen Fehlermuster. Es kann flüssig schreiben, weil es Billionen von Wörtern in flüssigen Sequenzen gesehen hat. Es kann falsche Informationen halluzinieren, weil statistisch plausibler Text nicht dasselbe ist wie wahrer Text. ## Transformer: die Architektur, die alles verändert hat ChatGPT läuft auf einer neuronalen Netzwerkarchitektur namens Transformer. Google-Forscher stellten sie 2017 in einer Arbeit mit dem Titel "Attention Is All You Need" vor. Der Titel spielt auf einen Beatles-Song an, aber die Arbeit hat die Verarbeitung natürlicher Sprache stärker verändert als jede einzelne Veröffentlichung in der Geschichte des Fachgebiets. Vor Transformern verarbeiteten Sprachmodelle Text sequenziell. Wort für Wort. Das schuf einen Engpass. Informationen vom Anfang einer langen Passage verblassten, während das Modell spätere Teile verarbeitete. Frühere Ansätze mit rekurrenten neuronalen Netzen konnten lange Sequenzen zwar technisch handhaben, aber sie taten sich in der Praxis schwer. Transformer lösten das durch einen Mechanismus namens Aufmerksamkeit. ### Aufmerksamkeit: die entscheidende Neuerung Was ist Aufmerksamkeit? Vereinfacht gesagt erlaubt sie es jedem Wort in einer Sequenz, auf jedes andere Wort zu schauen und zu entscheiden, welche davon am wichtigsten sind, um seine Bedeutung zu verstehen. Betrachte den Satz: "Der Kater saß auf der Matte, weil er müde war." Worauf bezieht sich "er"? Menschen wissen sofort, dass sich "er" auf den Kater bezieht, nicht auf die Matte. Aber wie sollte ein Computer das herausfinden? Mit Aufmerksamkeit berechnet das Modell Werte zwischen "er" und jedem anderen Wort im Satz. Das Wort "Kater" bekommt einen hohen Aufmerksamkeitswert, weil in den Milliarden Beispielen, die das Modell im Training gesehen hat, Pronomen wie "er" in ähnlichen Positionen normalerweise auf belebte Nomen wie "Kater" zurückverweisen, nicht auf unbelebte Nomen wie "Matte." In einer [Hacker-News-Diskussion zur GPT-Architektur](https://news.ycombinator.com/item?id=33942597) beschrieb Nutzer yunwal den Query-Key-Mechanismus so: "Q (Query) is like a search query. K (Key) is like a set of tags or attributes of each word." Jedes Wort stellt eine Frage (die Query) und jedes Wort hat beschreibende Information (der Key). Der Aufmerksamkeitsmechanismus bringt Queries mit relevanten Keys zusammen, sodass Wörter, die weit auseinanderliegen, die Repräsentationen des jeweils anderen direkt beeinflussen können. Das passiert gleichzeitig über mehrere "Aufmerksamkeitsköpfe", wobei unterschiedliche Köpfe unterschiedliche Arten von Beziehungen lernen: syntaktische Struktur, semantische Bedeutung, Koreferenz und Muster, für die Menschen keine Namen haben. ### Der Transformer-Aufbau Ein kompletter Transformer ist nicht nur eine Aufmerksamkeits-Schicht. GPT-Modelle stapeln viele Transformer-Blöcke übereinander. GPT-3 hat 96 Schichten. Jede Schicht verfeinert die Repräsentation des Eingabetexts und baut ein zunehmend abstraktes "Verständnis" auf, während Information durch das Netz fließt. Was entsteht aus all diesen Schichten und Aufmerksamkeitsberechnungen? Etwas, das fast wie Verständnis aussieht, obwohl es vollständig aus statistischen Mustern und linearer Algebra gebaut ist. Das Modell entwickelt interne Repräsentationen, die Bedeutung überraschend gut einfangen – obwohl ihm nie explizit beigebracht wurde, was Wörter bedeuten. Im selben Hacker-News-Thread merkte chronolitus (der eine visuelle Erklärung zur GPT-Architektur geschrieben hat) an: "After the model is trained it all really boils down to a couple of matrix multiplications!" Technisch stimmt das, auch wenn diese Multiplikationen über Milliarden Parameter in sorgfältigen Anordnungen laufen, die erst durch Jahre Forschung entdeckt wurden. ## Training: wo das Wissen herkommt Wie lernt ChatGPT, zu tun, was es tut? In zwei klar getrennten Phasen – beide sind für das Endprodukt entscheidend. ### Phase eins: Vortraining Zuerst wird das Modell mit riesigen Textmengen trainiert. Die genauen Trainingsdaten von ChatGPT sind nicht öffentlich, aber GPT-3 wurde mit Hunderten Milliarden Wörtern aus Büchern, Websites, Wikipedia und anderen Textquellen trainiert. Das Ziel ist simpel: Gegeben eine Wortfolge, sag das nächste Wort voraus. Das nennt man selbstüberwachtes Lernen, weil das Trainingssignal aus dem Text selbst kommt. Niemand muss etwas von Hand beschriften. Das Modell liest einfach enorme Textmengen und lernt, vorherzusagen, was als Nächstes kommt. Durch diesen Prozess sammelt das Modell bemerkenswerte Fähigkeiten auf. Es lernt Grammatik. Es lernt Fakten über die Welt (wenn auch unvollkommen). Es lernt Programmieren, weil es Millionen Code-Dateien gesehen hat. Es lernt, Gedichte zu schreiben, weil es Gedichte gesehen hat. Es lernt, wie Gespräche laufen, weil es Gespräche gesehen hat. Wie Nutzer ravi-delia in einer [Diskussion darüber, wie ChatGPT funktioniert](https://news.ycombinator.com/item?id=33939805) erklärte: "In learning to predict the next token, the model has to pick up lots of world knowledge. It has seen lots of python, and in order to predict better, it has developed internal models." Aber Vortraining allein ergibt noch kein ChatGPT. Ein vortrainiertes Modell ist ein Autovervollständiger. Stell ihm eine Frage, und es könnte deinen Text damit "vervollständigen", dass es weitere Fragen stellt – oder irgendeine andere Art Text erzeugt, die statistisch aus deiner Eingabe folgt. Es wird nicht zuverlässig so antworten, wie es ein hilfreicher Assistent tun würde. ### Phase zwei: Verstärkungslernen aus menschlichem Feedback (RLHF) Hier kommt OpenAIs Geheimzutat ins Spiel. Nach dem Vortraining wurde ChatGPT mit menschlichem Feedback feinabgestimmt. Der Ablauf sieht grob so aus. Zuerst schreiben Menschen Beispielgespräche, die zeigen, wie ein idealer KI-Assistent antworten sollte. Diese Beispiele bringen dem Modell Format und Stil hilfreicher Antworten bei. Dann kommt der clevere Teil. Das Modell erzeugt mehrere Antworten auf dieselbe Eingabe. Menschliche Bewerter ordnen diese Antworten von der besten bis zur schlechtesten. Aus diesen Rangfolgen trainiert OpenAI ein separates "Belohnungsmodell", das lernt vorherzusagen, wie Menschen jede beliebige Antwort bewerten würden. Zum Schluss wird das Sprachmodell weiter trainiert, um Antworten zu erzeugen, die nach dem Belohnungsmodell hoch punkten. Das ist der Schritt des Verstärkungslernens: Das Modell lernt, ein Belohnungssignal zu maximieren, das aus menschlichen Präferenzen abgeleitet wird. Das Ergebnis ist ein Modell, das Text nicht nur statistisch vervollständigt. Es erzeugt Antworten, von denen Menschen ihm beigebracht haben, dass sie hilfreich, harmlos und ehrlich sind. Im selben Hacker-News-Thread erwähnte Nutzer hcks: "I personally worked as a 'human trainer' for the fine tuning of ChatGPT. The pay was 50$ per hour." Tausende Stunden menschlichen Urteils stecken darin, ChatGPT gesprächsfähig zu machen – statt nur generativ. ## Was ChatGPT kann (und warum) Mit dieser Architektur und diesem Training ergeben bestimmte Fähigkeiten Sinn. **Flüssige Textgenerierung**: Das Modell hat Billionen von Wörtern gesehen. Es weiß, wie flüssiges Englisch aussieht. Grammatikalischen, kohärenten Text zu erzeugen ist genau das, wofür es optimiert wurde. **Anweisungen befolgen**: RLHF hat es gezielt darauf trainiert, Eingaben hilfreich zu befolgen. Wenn du nach einer Liste fragst, liefert es eine Liste. Wenn du nach Code fragst, schreibt es Code. Menschliche Bewerter belohnten Antworten, die taten, worum Nutzer baten. **Konzepte erklären**: Es hat Millionen Erklärungen zu Millionen Themen gesehen. Wenn du es bittest, Quantenphysik zu erklären, greift es auf Muster aus all diesen Erklärungen zurück, um eine neue zu erzeugen, zugeschnitten auf deine Frage. **Code schreiben**: Gleiches Prinzip. Es hat enorme Mengen Code gesehen – mit Kommentaren, die erklären, was der Code tut. Es kann Code erzeugen, der diesen Mustern folgt. **Zwischen Sprachen übersetzen**: Das Modell hat Text in vielen Sprachen gesehen, oft mit parallelen Übersetzungen. Aus diesen Daten hat es Entsprechungen zwischen Sprachen gelernt. **An Kontext anpassen**: Der Aufmerksamkeitsmechanismus lässt es Kontext über Tausende Tokens verfolgen. Es "merkt" sich, was du früher im Gespräch gesagt hast, weil diese Information seine Vorhersagen direkt beeinflusst. ## Was ChatGPT nicht kann (und warum) Die Grenzen sind genauso vorhersehbar, sobald man die Architektur verstanden hat. **Garantierte Faktenrichtigkeit**: Das Modell erzeugt statistisch wahrscheinlichen Text, keine verifizierten Fakten. Wenn eine plausibel klingende falsche Aussage in die statistischen Muster passt, wird das Modell sie erzeugen. Es hat keinen separaten Faktenprüf-Mechanismus. Keine Datenbank verifizierter Wahrheiten. Nur Muster, die aus Text gelernt wurden, der sowohl richtige als auch falsche Informationen enthielt. **Mathematisches Schlussfolgern**: Zahlen sind für das Modell nur Tokens. Wie bagels in einer [Hacker-News-Diskussion zur GPT-Architektur](https://news.ycombinator.com/item?id=33942597) anmerkte: "Numbers are just more words to the model." Es kann einfache Arithmetik, die es oft gesehen hat, per Mustererkennung treffen – aber neue Berechnungen gehen häufig schief, weil das Modell Text erzeugt, der wie richtige Mathematik aussieht, statt tatsächlich zu rechnen. **Stabiles Langzeitgedächtnis**: Innerhalb eines Gesprächs ist der Kontext durch das Kontextfenster des Modells begrenzt (die maximale Tokenanzahl, die es auf einmal verarbeiten kann). Über Gespräche hinweg erinnert es sich an nichts, wenn man es nicht explizit damit füttert. Jedes Gespräch beginnt neu. **Zugriff auf aktuelle Informationen**: Das Wissen des Modells stammt aus Trainingsdaten mit einem Stichtag. Es kann nicht im Internet stöbern, nicht auf Datenbanken zugreifen und nichts über Ereignisse nach dem Training wissen – außer du gibst diese Information in der Eingabe mit. **Echtes Verstehen**: Das ist die philosophische Baustelle. Das Modell manipuliert Symbole nach gelernten statistischen Mustern. Ob das in irgendeinem sinnvollen Sinn "Verstehen" ist, ist umstritten. In einem [Thread darüber, dass LLMs überhypt werden](https://news.ycombinator.com/item?id=33935018) formulierte Nutzer wan23 es drastisch: "There is a lot of knowledge encoded into the model, but there's a difference between knowing what a sunset is because you read about it on the internet vs having seen one." Das Modell hat nie etwas erlebt. Es hat nur Beschreibungen von Erlebnissen gesehen. Im selben Thread verglich Nutzer Jack000 LLMs mit Aliens ohne Sinneserfahrung und bemerkte, dass sie übermenschliche Mustererkennung besitzen, aber mit unvollständiger Information arbeiten. Sie können Sprache besser verarbeiten als jedes System zuvor, aber ihnen fehlt die Erdung, die daraus entsteht, tatsächlich in der Welt zu existieren. ## Die Größenordnung, die es möglich macht Ein Teil dessen, was ChatGPT effektiv macht, ist pure Größenordnung. GPT-3 hat 175 Milliarden Parameter. GPT-4 ist größer (genaue Größe nicht offengelegt). Jeder Parameter ist eine Zahl, die während des Trainings angepasst wird. Mehr Parameter bedeuten mehr Kapazität, Muster zu speichern und darzustellen. Der Rechenaufwand fürs Training ist absurd. Das Training von GPT-4 hat Berichten zufolge über 100 Millionen Dollar an Rechenressourcen gekostet. Das Modell hat im Training mehr Text gesehen, als ein Mensch in Tausenden Lebenszeiten lesen könnte. Diese Größenordnung ist wichtig, weil Transformer ab einer gewissen Größe emergente Fähigkeiten zeigen. Dinge, die in kleineren Modellen nicht existieren, tauchen in größeren plötzlich auf. Das Modell wird nicht nur schrittweise besser bei denselben Aufgaben. Neue Fähigkeiten entstehen, die nicht explizit antrainiert wurden. Warum das passiert, ist eine offene Forschungsfrage. Aber es deutet darauf hin, dass die Architektur Raum hat, Muster und Fähigkeiten zu entdecken, die ihre Entwickler nicht vorausgesehen haben. ## Das Stopp-Problem Eine Sache, die viele verwirrt: Woher weiß ChatGPT, wann es aufhören soll, Text zu erzeugen? Das Vokabular des Modells enthält spezielle Tokens. Eines davon steht für das "Ausgabeende". Wie Nutzer amilios im [Hacker-News-Thread zu ChatGPT](https://news.ycombinator.com/item?id=33939805) erklärte: "It predicts a special end-output token, something analogous to 'EOF.'" Wenn das Modell dieses Token als wahrscheinlichstes nächstes Token vorhersagt, hört es auf zu generieren. Das wird anhand von Beispielen gelernt. Beim Feinabstimmen sieht das Modell viele Beispiele von Gesprächen, in denen der Assistent eine vollständige Antwort gibt und dann aufhört. Es lernt, das Ausgabeende-Token an passenden Stellen vorherzusagen. ## Temperatur: Zufall steuern Wenn ChatGPT Text erzeugt, wählt es nicht immer das einzelne wahrscheinlichste nächste Token. Ein Parameter namens "Temperatur" steuert, wie viel Zufall in die Auswahl kommt. Bei Temperatur 0 nimmt das Modell immer das Token mit der höchsten Wahrscheinlichkeit. Die Ausgabe ist deterministisch und repetitiv. Bei höheren Temperaturen bekommen weniger wahrscheinliche Tokens eine bessere Chance, ausgewählt zu werden. Die Ausgabe wird kreativer – aber auch unberechenbarer. Wie Nutzer doctoboggan in einem [Hacker-News-Thread über GPT](https://news.ycombinator.com/item?id=39898221) erklärte: "At temperature of 0 the highest probability token is chosen." Darum kannst du ChatGPT dieselbe Frage zweimal stellen und unterschiedliche Antworten bekommen. Der Zufall ist beabsichtigt. Er lässt Gespräche natürlicher wirken und Antworten abwechslungsreicher. ## Warum das alles wichtig ist Zu verstehen, wie ChatGPT funktioniert, verändert, wie du es benutzt. Wenn du weißt, dass es eine statistische Muster-Maschine ist, erwartest du keine verlässlichen Fakten zu obskuren Themen. Du prüfst wichtige Behauptungen nach. Du verstehst, dass "selbstsicher formuliert" nicht "wahr" bedeutet. Wenn du weißt, dass es durch menschliches Feedback auf Hilfsbereitschaft getrimmt wurde, verstehst du, warum es dir gefallen will – selbst dann, wenn es eigentlich widersprechen sollte. Das Belohnungsmodell bevorzugte Antworten, die Menschen hoch bewerteten, und Menschen bewerteten zustimmende Antworten oft hoch. Wenn du weißt, dass Aufmerksamkeit Kontext verfolgen lässt, nutzt du Kontext gezielt. Pack wichtige Informationen früh in lange Eingaben. Erinnere es an zentrale Einschränkungen. Verweise auf frühere Teile des Gesprächs. Die Technik ist wirklich beeindruckend. Sie ist ein grundlegender Fortschritt darin, was Computer mit Sprache tun können. Aber sie ist keine Magie. Es ist Matrixmultiplikation in großem Maßstab, trainiert auf menschlichem Text und menschlichem Feedback, die Ausgaben produziert, die menschlicher Kommunikation ähneln, weil genau darauf sie optimiert wurde. ## Der Wendepunkt ChatGPT war nicht das erste große Sprachmodell. GPT-3 kam 2020 heraus. Wie Nutzer herculity275 in einem [Hacker-News-Thread darüber, warum LLMs plötzlich populär wurden](https://news.ycombinator.com/item?id=34968287) bemerkte: "ChatGPT was the watershed moment for the tech because suddenly anyone in the world could sign up for free." Diese Zugänglichkeit war entscheidend. Nutzer jerpint fügte hinzu: "Not to mention without needing expertise to deploy the thing." Die zugrunde liegende Technik hatte sich über Jahre entwickelt. Transformer kamen 2017. GPT-2 2019. GPT-3 2020. Aber dafür brauchte man technisches Wissen, um es überhaupt zu nutzen. ChatGPT packte dieselbe Technik in ein Chatfenster, das jeder bedienen konnte. Nutzer xg15 brachte auf den Punkt, warum sich das anders anfühlte als frühere Chatbots: "Understanding text in the depth that ChatGPT (and GPT-3) appear to understand the prompts is something entirely different." Frühere Systeme konnten flüssigen Text erzeugen. Dieses hier schien zu begreifen. ## Eine Maschine, die lernte, so zu wirken, als würde sie denken Die Frage, zu der ich immer wieder zurückkomme: Was bedeutet es, dass ein System ohne Verständnis, ohne Erfahrung, ohne Ziele jenseits der Token-Vorhersage Text produzieren kann, der so kohärent ist? Das Modell wurde trainiert, wahrscheinliche Wörter vorherzusagen. Durch dieses einfache Ziel – angewandt in enormem Maßstab – entwickelte es etwas, das bemerkenswert nach Verständnis aussieht. Es kann Konzepte erklären. Probleme lösen. In unterschiedlichen Stilen schreiben. Gespräche führen, die sich natürlich anfühlen. Aber da ist niemand zu Hause. Keine Erfahrung hinter den Antworten. Kein Verständnis in einem Sinn, den wir erkennen würden. Nur statistische Muster, gelernt aus Text, der von Milliarden Menschen geschrieben wurde, die sehr wohl verstehen, die erlebt haben, die wissen, wie Sonnenuntergänge wirklich aussehen. Entweder haben wir unterschätzt, was statistisches Lernen erreichen kann. Oder wir haben überschätzt, was es braucht, um kohärente Sprache zu erzeugen. Vielleicht ist die Antwort weder das eine noch das andere.