Dein Handy sagt Wörter voraus. Es lernt deine Gewohnheiten. Du tippst „bis morgen“ und es schlägt „früh“ vor, weil du diese Abfolge schon hundertmal geschrieben hast.
Stell dir jetzt vor, dieselbe Idee wird auf praktisch alles angewendet, was Menschen je geschrieben haben, auf alles, was im öffentlichen Internet verfügbar ist, trainiert auf Hardware, die Millionen kostet und Informationen auf eine Weise verarbeitet, die die Grenzen dessen strapaziert, was wir Computern zugetraut haben. Das ist ein LLM. Large Language Model. Eine Maschine, die darauf trainiert ist, vorherzusagen, was als Nächstes in einer Textfolge kommt, und die in einem Maßstab läuft, der aus einem einfachen Mechanismus etwas macht, das sich fast wie ein Gespräch anfühlt.
Der Name lässt sich sauber zerlegen. „Large“ bezieht sich auf die Größe, sowohl der Trainingsdaten (Billionen von Wörtern) als auch des Modells selbst (Milliarden bis Billionen anpassbarer Parameter). „Language Model“ beschreibt die Kernfunktion: Muster in menschlicher Sprache zu modellieren, um wahrscheinliche Fortsetzungen eines beliebigen Textes vorherzusagen.
Die überraschende Kraft, das nächste Wort zu raten
Hier wird es bei LLMs seltsam und faszinierend und gelegentlich beängstigend: Sie verstehen Sprache nicht so, wie du sie verstehst. Sie sagen Muster voraus.
Wenn du ein LLM bittest, „eine professionelle E-Mail zu schreiben, in der ein Meeting abgesagt wird“, denkt das Modell nicht über Meetings oder Professionalität oder deine Terminlage nach. Es berechnet Wahrscheinlichkeiten. Welches Token kommt bei diesen Eingabe-Token am wahrscheinlichsten als Nächstes? Und welches danach? Das Modell wiederholt diese Vorhersage tausende Male, bis es eine vollständige Antwort erzeugt hat, die erstaunlich oft genau so aussieht, wie ein Mensch sie schreiben würde.
Miguel Grinberg, ein Softwareentwickler, der ausführlich über LLMs geschrieben hat, bringt es in his technical explainer auf den Punkt: “All they can do is take some text you provide as input and guess what the next word (or more accurately, the next token) is going to be.”
Das ist alles. Vorhersage. Statistik. Mustererkennung in einem Maßstab, bei dem sich die Ergebnisse wie Magie anfühlen.
Aber warum erzeugt bloße Vorhersage zusammenhängende Absätze? Warum führt das Raten des nächsten Wortes zu etwas, das Fragen beantwortet, Code schreibt, Konzepte erklärt und dich gelegentlich zum Lachen bringt?
Die Antwort liegt darin, was gute Vorhersage verlangt. Um bei jedem denkbaren Satz korrekt zu raten, welches Wort als Nächstes kommt, musst du eine enorme Menge an Informationen aufgenommen haben: darüber, wie Sprache funktioniert, wie Ideen zusammenhängen, wie Menschen Argumente aufbauen, Geschichten erzählen und Gefühle ausdrücken. Die Verdichtung, die für präzise Vorhersagen nötig ist, zwingt das Modell dazu, innere Repräsentationen zu entwickeln, die etwas bilden, das Verständnis ähnelt, auch wenn der zugrunde liegende Mechanismus grundsätzlich anders ist als menschliche Kognition.
So funktioniert die Maschinerie
Du tippst eine Frage. Das Modell antwortet in Sekunden. Was passiert dazwischen?
Zuerst wird dein Text in Token umgewandelt. Ein Token ist ein Stück eines Wortes, im Durchschnitt etwa drei bis vier Zeichen. Das Wort „Verständnis“ könnte zu zwei oder drei Token werden. Leerzeichen und Satzzeichen werden zu Token. Alles wird in diese diskreten Einheiten zerlegt, weil neuronale Netze mit Zahlen arbeiten, nicht mit Buchstaben.
Diese Token werden in Vektoren umgewandelt, also in lange Zahlenlisten, die Bedeutung und Beziehungen codieren. Jedes Wort oder Wortfragment wird zu einem Punkt in einem mathematischen Raum, in dem ähnliche Konzepte nahe beieinander liegen. „King“ und „queen“ liegen in diesem Raum nah beieinander. Genauso „excellent“ und „outstanding“. Das Modell hat diese Positionen gelernt, indem es beobachtet hat, welche Wörter in seinen Trainingsdaten in ähnlichen Kontexten auftauchen.
Dann kommt der Aufmerksamkeitsmechanismus, der Durchbruch, der moderne LLMs möglich gemacht hat. Vor 2017 verarbeiteten Sprachmodelle Wörter nacheinander, eins nach dem anderen, weshalb es ihnen schwerfiel, weit auseinanderliegende Ideen in einem Satz zu verbinden. Die Transformer-Architektur, vorgestellt im Paper “Attention Is All You Need”, hat alles verändert. Jetzt kann das Modell alle Wörter gleichzeitig betrachten und bestimmen, welche mit welchen anderen zusammenhängen, unabhängig von der Distanz.
Wie eine Erklärung von Understanding AI es beschreibt, schauen Wörter „look around” nach anderen Wörtern mit relevantem Kontext und teilen Informationen miteinander.
Dieser Aufmerksamkeitsprozess wiederholt sich über viele Schichten. Jede Schicht verfeinert das Verständnis des Modells für die Beziehungen zwischen den Token. In der letzten Schicht hat das Modell eine reichhaltige Repräsentation der gesamten Eingabe aufgebaut und kann Wahrscheinlichkeitsverteilungen über alle möglichen nächsten Token berechnen.
Das Modell wählt ein Token. Fügt es der Folge hinzu. Lässt alles erneut durchlaufen, um das nächste Token zu wählen. Wiederholt das, bis die Antwort vollständig ist.
Darum können LLMs komplexe, verschachtelte Sätze verarbeiten, an denen ältere Systeme gescheitert wären. „The report that the analyst who was hired last month prepared for the executive team needs revision“ ist kein Problem. Das Modell verfolgt, dass sich „needs“ über all die dazwischenliegenden Wörter hinweg auf „report“ bezieht.
Token, Parameter, Kontextfenster
Drei Begriffe tauchen ständig auf. Das bedeuten sie.
Token sind die atomaren Einheiten, mit denen das Modell arbeitet. Nicht ganz Wörter. Nicht ganz Zeichen. Irgendetwas dazwischen. Ein Satz wie „Ich liebe Schokokekse“ kann zu fünf oder sechs Token werden. Eine Seite Text kann 300 Token haben. Das ist wichtig, weil Modelle pro Token abrechnen und weil es Grenzen dafür gibt, wie viele Token ein Modell gleichzeitig verarbeiten kann.
Parameter sind die anpassbaren Zahlen im Modell, die während des Trainings eingestellt werden. Stell sie dir als Regler und Schalter vor, die bestimmen, wie das Modell auf eine bestimmte Eingabe reagiert. GPT-4 hat Berichten zufolge etwa 1.8 trillion parameters. Mehr Parameter bedeuten im Allgemeinen mehr Fähigkeit, aber auch höhere Rechenkosten. Der Zusammenhang ist nicht linear, und Forschende finden immer wieder Wege, aus weniger Parametern mehr Leistung herauszuholen.
Kontextfenster beschreibt, wie viele Token das Modell auf einmal berücksichtigen kann, einschließlich deiner Eingabe und seiner Ausgabe. Ältere Modelle hatten kleine Fenster, vielleicht ein paar tausend Token. Moderne Modelle wie Llama 4 Scout unterstützen bis zu 10 Millionen Token, genug, um ganze Bücher oder Codebasen in einem einzigen Gespräch zu verarbeiten. Größere Kontextfenster bedeuten, dass das Modell über längere Unterhaltungen hinweg kohärent bleiben und größere Dokumente analysieren kann.
Training: Woher das Wissen kommt
LLMs lernen aus Text. Aus gewaltigen Mengen Text.
Der Trainingsprozess funktioniert so: Man zeigt dem Modell Milliarden von Beispielen und fordert es auf vorherzusagen, was als Nächstes kommt. Wenn es falsch vorhersagt, passt das Modell seine Parameter leicht an. Wiederholt man diesen Prozess über Billionen von Token Trainingsdaten hinweg und nutzt Rechencluster, deren Betrieb Dutzende Millionen Dollar kostet, entwickelt das Modell nach und nach die Fähigkeit, Fortsetzungen für praktisch jeden Text vorherzusagen, den du ihm gibst.
Die Trainingsdaten umfassen typischerweise Bücher, Websites, wissenschaftliche Arbeiten, Code-Repositorien, Foren und andere öffentlich verfügbare Texte. Die genaue Zusammensetzung zählt. Modelle, die auf mehr Code trainiert sind, schreiben besseren Code. Modelle, die auf aktuelleren Daten trainiert sind, haben aktuelleres Wissen. Modelle, die auf vielfältigeren Daten trainiert sind, können ein breiteres Spektrum an Anfragen bearbeiten.
Nach dieser ersten „Pre-Training“-Phase durchlaufen die meisten kommerziellen Modelle zusätzliche Trainingsphasen. Feinabstimmung auf kuratierten Beispielen bringt dem Modell bei, Anweisungen zu folgen und schädliche Ausgaben zu vermeiden. Verstärkendes Lernen aus menschlichem Feedback hilft dem Modell, Antworten zu liefern, die Menschen als hilfreich und angemessen bewerten. Diese zusätzlichen Schritte formen Persönlichkeit und Fähigkeiten des Modells über die reine Vorhersage hinaus.
Was uns die Grenzen verraten
Die Grenzen von LLMs zeigen, was sie tatsächlich sind.
Sie halluzinieren. Sie erzeugen falsche Informationen mit perfekter Sicherheit. Ein Anwalt reichte bekanntlich einen von ChatGPT geschriebenen Schriftsatz ein, der Gerichtsentscheidungen zitierte, die es nicht gab. Das Modell hatte plausible Fallnamen und Fundstellen vorhergesagt, weil solche Elemente in Schriftsätzen üblich sind, aber es hat Dinge erfunden.
Warum passiert das? Weil das Modell Muster vorhersagt und nicht auf eine Datenbank verifizierter Fakten zugreift. Wenn die Trainingsdaten Lücken enthalten oder der Prompt ungewöhnliche Bedingungen schafft, füllt das Modell Leerstellen mit dem, was statistisch wahrscheinlich wirkt. Es hat keinen Mechanismus, um zu wissen, ob seine Vorhersagen der Realität entsprechen.
Wie der Nutzer Leftium in einer Hacker News discussion zum Erklären von LLMs anmerkte: “Autocomplete seems to be the simplest way of explaining it is just fancy pattern recognition.”
Mustererkennung scheitert, wenn das Muster echtes Weltwissen erfordert statt Wissen darüber, wie Text aussieht.
Sie können nicht verifizieren. Ein LLM kann nicht prüfen, ob seine Aussagen stimmen, weil es keinen Zugang zur äußeren Realität hat, außer dem, was in den Trainingsdaten enthalten war. Es kann nichts nachschlagen. Es kann keine API aufrufen, um eine Tatsache zu bestätigen. Es kann nur vorhersagen, welche Wörter typischerweise auf andere Wörter folgen.
Sie sind inkonsistent. Stell dieselbe Frage zweimal, und du bekommst unterschiedliche Antworten. Das ist kein Fehler. Zufall wird absichtlich eingeführt, damit die Ausgaben nicht langweilig vorhersehbar sind. Aber es bedeutet, dass du dich nicht darauf verlassen kannst, von einem LLM zweimal dieselbe Antwort zu bekommen, was jeden Ablauf erschwert, bei dem Konsistenz wichtig ist.
Sie haben Wissensstichtage. Die meisten Modelle werden mit Daten bis zu einem bestimmten Datum trainiert. Alles danach ist unbekannt, außer du gibst es explizit vor oder das Modell hat Websuche-Fähigkeiten. GPT-5.2-Modelle haben einen Stichtag im August 2025, according to OpenAI. Ereignisse nach diesem Datum existieren für das Modell schlicht nicht.
Sie tun sich mit Mathematik und Logik schwer. Das wirkt möglicherweise kontraintuitiv, wenn man ihre Fähigkeiten anderswo sieht, aber es folgt direkt aus dem Vorhersagemechanismus. Mathematik erfordert präzise Berechnung, und LLMs sind auf plausible Fortsetzung statt auf genaue Rechnung optimiert. Sie können mathematische Herleitungen nachahmen, die sie in den Trainingsdaten gesehen haben, aber sie rechnen nicht wirklich.
Eine andere Art von Intelligenz
Andrej Karpathy, einer der Forschenden, die bei OpenAI und Tesla am Aufbau moderner LLMs beteiligt waren, gab eine klärende Perspektive, quoted on Simon Willison’s blog:
“It’s a bit sad and confusing that LLMs (‘Large Language Models’) have little to do with language; It’s just historical. They are highly general purpose technology for statistical modeling of token streams. A better name would be Autoregressive Transformers or something. They don’t care if the tokens happen to represent little text chunks. It could just as well be little image patches, audio chunks, action choices, molecules, or whatever.”
Die Schlussfolgerung ist tiefgreifend. LLMs sind keine Sprachmaschinen. Sie sind Mustermaschinen, die zufällig extrem gut mit Sprache funktionieren, weil Sprache eine reiche, lernbare statistische Struktur hat. Aber dieselbe Architektur kann beliebige sequenzielle Daten modellieren.
Das erklärt, warum LLMs inzwischen neben Text auch Bilder, Audio und Video verarbeiten können. Der zugrunde liegende Mechanismus ist abstrakt genug, um auf jeden Bereich angewendet zu werden, in dem Muster existieren und in dem die Vorhersage des Nächsten sinnvoll ist.
Warum das für dich wichtig ist
Wenn du in einem Feld arbeitest, das Schreiben, Analyse, Kommunikation oder Informationsverarbeitung umfasst, verändern LLMs bereits, was möglich ist.
Sie entwerfen Texte. Sie fassen zusammen. Sie liefern Ideen. Sie übersetzen. Sie erklären. Sie schreiben Code. Sie analysieren Dokumente. Sie tun das unvollkommen, mit Einschränkungen und unter Bedarf menschlicher Aufsicht. Aber sie tun es schnell, und diese Geschwindigkeit verändert Abläufe.
Ein erster Entwurf, der zwei Stunden brauchte, dauert jetzt zwei Minuten. Eine Dokumentzusammenfassung, für die man fünfzig Seiten lesen musste, erfordert jetzt das Lesen von zwei Absätzen. Ein Brainstorming, das zehn Ideen brachte, bringt jetzt hundert, und selbst wenn neunzig davon mittelmäßig sind, können unter den zusätzlichen zehn guten Ideen Dinge sein, auf die du allein nie gekommen wärst.
Der Haken ist, zu verstehen, womit du arbeitest. Ein LLM ist kein wissender Assistent, der zufällig rund um die Uhr verfügbar ist. Es ist eine Vorhersagemaschine, die plausiblen Text erzeugt. Manchmal ist genau dieser plausible Text das, was du brauchst. Manchmal ist er selbstsicher falsch. Den Unterschied zu erkennen setzt voraus, dass du den Mechanismus verstehst.
Die Technik bewegt sich weiter
Was im Januar 2026 stimmt, sieht im Dezember anders aus. Die Modelle werden schneller. Sie werden günstiger. Sie verarbeiten längere Eingaben. Sie halluzinieren weniger, auch wenn sie weiter halluzinieren. Sie entwickeln bessere Fähigkeiten zum Schlussfolgern, mit eigenen „Denk“-Modi, die Probleme Schritt für Schritt durcharbeiten, statt direkt zu Antworten zu springen.
Multimodale Fähigkeiten wachsen. Die neuesten Modelle von Google, OpenAI, Anthropic und Meta verarbeiten Bilder und Audio nativ. Modelle, die früher nur Text verarbeiten konnten, analysieren jetzt Screenshots, interpretieren Diagramme und reagieren auf Spracheingaben.
Die Grundlagen bleiben jedoch stabil. Vorhersage. Muster. Maßstab. Die Modelle verstehen nicht im menschlichen Sinn. Sie nähern Verständnis über Statistik an, angewendet in einem Maßstab, der in vielen praktischen Kontexten Ergebnisse liefert, die sich von echtem Verstehen nicht unterscheiden lassen.
Ob das „wirklich“ Intelligenz ist, ist eine philosophische Frage. Ob es nützlich ist, ist eine empirische. Für die meisten Aufgaben rund um Sprache und Text lautet die Antwort zunehmend: ja.
Die Frage ist nicht, ob du diese Werkzeuge einsetzen solltest. Sondern wie du sie wirksam einsetzt, indem du verstehst, was sie sind und was sie nicht sind, damit dir die beeindruckenden Teile helfen und die Grenzen dich nicht aus dem Tritt bringen.
Das ist jetzt die eigentliche Fähigkeit. Keine Prompt-Tricks oder Geheimtechniken. Sondern die Maschine gut genug zu verstehen, um zu wissen, wann du ihr vertrauen kannst und wann du nachprüfen musst.