Irgendwo um Nachricht fünfzehn herum erkennt der KI-Assistent dein Projekt nicht mehr. Du erinnerst ihn daran. Er entschuldigt sich. Zwei Nachrichten später hat er es wieder vergessen.
Das ist kein Fehler. Das ist Architektur.
Wörter sind nicht das, was KI liest
Schlag ein Buch auf. Du siehst Wörter. Ein KI-Modell sieht etwas anderes: Abschnitte, die Tokens heißen.
Ein Token kann ein ganzes Wort sein, oft ist es das aber nicht. Das Wort “hamburger” zerfällt in drei Teile. “Ham.” “Bur.” “Ger.” Jeder Teil ist ein eigenes Token, das das Modell unabhängig verarbeitet, obwohl dein Gehirn ein einziges Wort sieht.
Diese Zerlegung passiert durch einen Prozess namens Tokenisierung, und verschiedene Modelle nutzen verschiedene Ansätze. Der konkrete Algorithmus ist wichtiger, als den meisten klar ist. Wie Simon Willison in seiner Analyse von GPT-Tokenizern beobachtet hat: “Many of the quirks and limitations of LLMs can be traced back to details of the tokenizer used.”
Häufige Wörter bleiben intakt. Seltene Wörter werden zerschnitten. Fachbegriffe, Namen, nicht-englischer Text? Werden in Fragmente gehackt.
Hier wird es interessant. Das Wort “Tokenization” selbst zerfällt in zwei Tokens: Token 30,642 und Token 1,634. Die KI sieht es nicht als eine Einheit. Sie sieht zwei Teile, die im Training gelernt haben, zusammenzugehören, so wie du gelernt hast, dass “ham,” “bur,” und “ger” ein Sandwich ergeben.
Auch Sprachen spielen eine Rolle. Englisch lässt sich effizient tokenisieren, weil diese Systeme vor allem auf englischen Texten trainiert wurden. Spanisch, Chinesisch, Arabisch? Sie erzeugen alle mehr Tokens pro Wort. Die Wendung “Cómo estás” braucht 5 Tokens für nur 10 Zeichen, was bedeutet, dass nicht-englische Sprecher schneller an Grenzen stoßen, obwohl sie weniger sagen.
Das seltsame Gedächtnis des Tokenizers
Tokenizer behalten Dinge aus ihren Trainingsdaten auf seltsame Weise.
Willison hat eine interessante Verzerrung bemerkt: “The English bias is obvious here. ’ man’ gets a lower token ID of 582, because it’s an English word.” Niedrigere Token-IDs entsprechen in der Regel häufigeren Tokens. Das Modell hat im Grunde Favoriten.
Dann gibt es Glitch-Tokens. Beim Training des Tokenizers tauchten bestimmte Muster so oft auf, dass sie zu eigenen Tokens wurden, obwohl sie es nicht hätten werden sollen. Ein Beispiel ist ” davidjl” (mit führendem Leerzeichen), das zu einem eigenen Token wurde, weil dieser Benutzername in den GPT-2-Trainingsdaten hunderttausende Male vorkam. Der alte Tokenizer kodierte “SolidGoldMagikarp” als einzelnes Token, wegen ähnlicher statistischer Zufälle. Der neue Tokenizer zerlegt es in fünf: “Solid,” “Gold,” “Mag,” “ik,” “arp.”
Das sind nicht nur Kuriositäten. Sie zeigen, dass Tokenisierung keine neutrale Übersetzungsebene ist. Sie trägt die Verzerrungen und Zufälle ihrer Trainingsdaten in jedes Gespräch, das du mit einer KI führst.
Kontextfenster: die unsichtbaren Wände
Jedes KI-Modell hat ein Kontextfenster. Das ist die maximale Zahl an Tokens, die es auf einmal halten kann. Deine Nachrichten, die Antworten der KI, hochgeladene Dokumente, die Systemanweisung im Hintergrund: Alles muss in dieses Fenster passen.
Die Zahlen sind stark gewachsen. GPT-4 Turbo bietet 128,000 Tokens. Claude gibt dir 200,000 Tokens. Gemini 2.5 Pro geht auf 1 Million. Meta behauptet bei Llama 4 Scout 10 Millionen.
Eine Million Tokens klingt nach Unendlichkeit. Das sind grob 750,000 Wörter. Mehrere Romane. Eine komplette Codebasis.
Warum vergisst deine KI dann, was du ihr vor zwanzig Minuten gesagt hast?
Größere Fenster, gleiche Probleme
Auf Hacker News hat ein Nutzer namens jokethrowaway den Kern getroffen: “Context window size is not the limiting factor. How well will it be able to use that information is the problem.”
Platz zu haben ist nicht dasselbe wie Platz gut zu nutzen.
Forschung aus Stanford zeigte, was sie den “lost in the middle”-Effekt nannten. KI-Modelle zeigen eine U-förmige Aufmerksamkeitskurve. Auf Informationen am Anfang des Kontexts achten sie gut. Auf Informationen am Ende auch. Die Mitte? Verblasst.
In Experimenten fiel die Leistung von GPT-3.5-Turbo um mehr als 20%, wenn entscheidende Informationen in der Mitte der Eingabe standen statt am Anfang oder Ende. Manchmal war das Modell schlechter, als wenn es gar keinen Kontext gehabt hätte. Informationen zu haben und sie zu nutzen sind zwei verschiedene Dinge.
Das ist kein Softwarefehler, der nächsten Dienstag gepatcht wird. Es entsteht aus dem Aufmerksamkeitsmechanismus, der Transformer überhaupt erst funktionieren lässt, dem mathematischen Prozess, mit dem das Modell versteht, welche Teile der Eingabe mit welchen anderen Teilen zusammenhängen. Dieser Mechanismus bevorzugt von Natur aus bestimmte Positionen. Die Architektur hat eine Meinung darüber, was wichtig ist.
Die Lücke zwischen Versprechen und Realität
Forschung von Chroma untersuchte, was passiert, wenn Modelle an ihre beworbenen Grenzen kommen. Das Ergebnis: “most models break much earlier than advertised. A model claiming 200k tokens typically becomes unreliable around 130k, with sudden performance drops rather than gradual degradation.”
Modelle verblassen nicht sanft. Sie funktionieren, dann tun sie es nicht mehr. Die Klippe ist steil.
In den OpenAI-Entwicklerforen haben Nutzer diese Erfahrung immer wieder dokumentiert. Ein Nutzer namens rajeev.a.j.madari beschrieb den Frust: “ChatGPT struggles to remember the entirety of our chat. Most times, it appears as though the system only acknowledges my most recent input, causing confusion.”
Ein anderer Nutzer, Joel_Barger, nannte praktische Folgen: “In a coding situation context is important. It’ll lose or change the name of namespaces or class methods arbitrarily.”
Das sind keine Randfälle. Das ist die normale Erfahrung bei langen Gesprächen mit KI-Modellen.
Rechenaufwand skaliert, Geld verbrennt
Größere Kontextfenster zu bauen ist teuer. Ein Nutzer namens gdiamos erklärte die Ökonomie auf Hacker News: “the compute still scales at best linearly with the input size. So a context size of 100k requires 100x more compute than a prompt size of 1k.”
Tatsächlich ist es sogar schlimmer als linear. Der Aufmerksamkeitsmechanismus skaliert quadratisch mit der Sequenzlänge. Verdoppelst du den Kontext, vervierfacht sich der Rechenaufwand. Deshalb kosten längere Kontextfenster pro Token mehr. Deshalb haben Gratisstufen kürzere Grenzen. Deshalb kappt dich selbst dein Enterprise-Tarif irgendwann.
Verschiedene Verfahren dämpfen das ab. Sparse-Attention-Muster lassen Verbindungen zwischen weit entfernten Tokens aus. Sliding-Window-Ansätze verarbeiten Abschnitte getrennt. Architektonische Neuerungen komprimieren älteren Kontext in Zusammenfassungen. Aber jede Lösung tauscht etwas ein: Geschwindigkeit, Genauigkeit oder die Fähigkeit, Ideen über große Distanzen hinweg zu verknüpfen.
Warum “Gedächtnis”-Funktionen das nicht lösen
Moderne KI-Assistenten werben mit Gedächtnisfunktionen. ChatGPT merkt sich, dass du knappe Antworten bevorzugst. Claude kann Fakten über deine Projekte über Gespräche hinweg speichern.
Das ist nicht dasselbe wie Kontext.
Diese Gedächtnissysteme speichern konkrete Fakten in einer separaten Datenbank. Wenn du ein neues Gespräch beginnst, ruft die KI relevante Erinnerungen ab und fügt sie in das Kontextfenster ein. Das ist Abruf, kein echtes Erinnern. Der Unterschied ist wichtig, weil Abruf selektiv ist. Das System schätzt, welche gespeicherten Fakten in diesem Gespräch wichtig sind. Manchmal schätzt es falsch. Und selbst wenn es richtig schätzt, konkurrieren diese abgerufenen Erinnerungen immer noch um Platz im selben begrenzten Kontextfenster wie alles andere.
Wie segmondy auf Hacker News anmerkte: “infinite context window is not AGI enough, memory is not substitute for planning and reasoning.”
Fakten zu speichern ist nicht dasselbe wie sie zu verstehen. Sich zu merken, dass du letzten Dienstag eine Deadline erwähnt hast, ist nicht dasselbe wie nachzuhalten, wie diese Deadline mit den drei anderen Einschränkungen zusammenhängt, die du diesen Dienstag genannt hast.
Position ist Strategie
Wenn du verstehst, wie Kontextfenster funktionieren, kannst du mit ihnen arbeiten statt gegen sie.
Setz kritische Informationen an den Anfang. Auf den Anfang achtet das Modell. Starte nicht mit Vorgeschichte und hebe die wichtigen Einschränkungen für Absatz sechs auf. Führe mit dem, was zählt.
Wiederhole dich strategisch. Wenn etwas in Nachricht drei entscheidend war und du jetzt bei Nachricht dreißig bist, sag es noch mal. Das Modell wird nicht beleidigt sein. Es erinnert sich wahrscheinlich ohnehin nicht.
Halte Gespräche fokussiert. Ein Kontextfenster, das sich fünfzehn verschiedene Themen teilt, ist schlechter als drei getrennte Gespräche über je fünf Themen. Konkretheit schlägt Ausfransen.
Fasse regelmäßig zusammen. Wenn ein Gespräch lang wird, bitte die KI um eine Zusammenfassung der Kernpunkte und starte dann ein neues Gespräch mit dieser Zusammenfassung als erster Nachricht. Du verlierst Nuancen, gewinnst aber Klarheit.
Die seltsame Zukunft
Kontextfenster wachsen weiter. Die Forschungsgemeinschaft findet weiter Wege, die Grenzen zu verschieben. In ein paar Jahren sind wir von 4,000 Tokens auf 10 Millionen gegangen. Dieser Verlauf wird wahrscheinlich anhalten.
Aber größer ist nicht dasselbe wie besser, und die grundlegenden Herausforderungen bleiben architektonisch. fsndz beobachtete auf Hacker News: “Context windows are becoming larger and larger, and I anticipate more research focusing on this trend.” Die Forschung existiert, weil das Problem existiert.
Es hat fast etwas Poetisches, Systeme zu bauen, die vergessen. Menschliches Gedächtnis ist auch unvollkommen. Wir verlieren die Mitte von Vorträgen. Wir erinnern uns an Anfänge und Enden. Wir rekonstruieren statt abzurufen. Die KI imitiert menschliches Gedächtnis nicht absichtlich. Sie landet bei ähnlichen Grenzen über völlig andere Mechanismen. Andere Architektur, gleiches Ergebnis: Dinge gehen verloren.
Du erzählst der KI von deinem Projekt. Sie antwortet hilfreich. Du führst das Gespräch fort. Irgendwo um Nachricht fünfzehn merkst du, dass diese hilfreiche Antwort abgedriftet ist. Die KI antwortet noch. Sie ist immer noch selbstsicher. Sie hat einfach vergessen, worüber du eigentlich gesprochen hast.
Das ist keine Böswilligkeit. Das ist Mathematik.
Und bis sich die Mathematik ändert, trägt jedes Gespräch mit einer KI einen unsichtbaren Countdown in sich.