--- title: Der Transformer-Durchbruch von 2017: Wie acht Forschende KI neu verdrahteten description: Eine leicht verständliche Erklärung des Papers 'Attention Is All You Need', das die Architektur hinter GPT, Claude und jedem großen KI-Modell geschaffen hat, das du heute nutzt. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- Acht Forschende bei Google veröffentlichten im Juni 2017 ein Paper. Der Titel war spielerisch, eine Anspielung auf die Beatles: "Attention Is All You Need." Das Paper war 15 Seiten lang. Es beschrieb eine Architektur namens Transformer. Dieses Paper hat KI aufgebrochen. ## Die alte Welt: rekurrente neuronale Netze Vor den Transformern verarbeiteten Sprachmodelle Text nacheinander, was nur elegant ausdrückt, dass sie ein Wort nach dem anderen lesen, von links nach rechts, genau wie Menschen, wenn sie Kindern laut vorlesen. Diese Architektur hatte einen Namen: rekurrente neuronale Netze. RNNs. Das Problem am Lesen Wort für Wort ist, dass man vergisst, was davor kam, und die Architektur von RNNs verschärfte dieses Problem, weil sie Informationen über lange Folgen hinweg nur schwer stabil halten konnten. Beim fünfzigsten Wort war das dritte in der Arbeitsrepräsentation des Modells meist schon weg, verblasst zu numerischem Rauschen, das die nachfolgenden Berechnungen verfälschte. Eine Variante namens Long Short-Term Memory Networks, kurz LSTMs, verbesserte das 1997. Sie fügten Gates hinzu: Mechanismen, die entscheiden konnten, was behalten und was vergessen wird. LSTMs funktionierten besser. Sie wurden zum Standard. Aber LSTMs hatten ihr eigenes Problem: sequenzielle Verarbeitung. Um Wort zehn zu verarbeiten, brauchtest du die Ausgabe von Wort neun, dafür Wort acht, dafür Wort sieben. Keine Abkürzungen. Keine Parallelisierung. Das Training kroch voran, weil GPUs untätig warteten, bis frühere Berechnungen abgeschlossen waren, bevor die nächsten starten konnten. Wie ein Hacker-News-Kommentator 2020 in einer Diskussion über das Original-Paper schrieb: "It's clearly important but I found that paper hard to follow." Das Feld war bereit für etwas Einfacheres. Etwas Schnelleres. Etwas, das sich wirklich skalieren ließ. ## Der Schlüsselmoment: alles gleichzeitig betrachten Die Kerninnovation des Transformers war, sich komplett von der Sequenz zu lösen. Statt Wörter einzeln zu verarbeiten, betrachten Transformer alle Wörter gleichzeitig. Statt sich zu merken, was vorher kam, berechnen sie in Echtzeit Beziehungen zwischen jedem Wort und jedem anderen Wort. Jedes einzelne Mal. Das klingt rechnerisch teuer. Ist es auch. Aber es lässt sich perfekt parallelisieren. Jeder Wort-zu-Wort-Vergleich kann gleichzeitig auf unterschiedlichen GPU-Kernen laufen. Training, das bei RNNs Wochen dauerte, brauchte bei Transformern Tage. Der Mechanismus dahinter heißt Attention. Genauer: Self-Attention. ## Selbstaufmerksamkeit: der Kernmechanismus Hier ist ein Satz: "Der Hund überquerte die Straße nicht, weil er zu müde war." Worauf bezieht sich "er"? Auf den Hund. Offensichtlich. Menschen lösen das sofort auf. Wir denken darüber nicht bewusst nach. Wir wissen es einfach. Aber wie würde eine Maschine das herausfinden? Selbstaufmerksamkeit berechnet einen Wert zwischen jedem Wortpaar. Beim Verarbeiten von "er" berechnet das Modell, wie viel Aufmerksamkeit "er" jedem anderen Wort schenken sollte: "der", "Hund", "überquerte", "die", "Straße", "nicht", "weil", "zu", "müde", "war". Das Wort "Hund" bekommt einen hohen Aufmerksamkeitswert. Das Wort "Straße" einen niedrigen. Das passiert für jedes Wort gleichzeitig. Das Modell baut eine gewichtete Repräsentation auf, in der jedes Wort Informationen aus allen anderen Wörtern enthält, die für dieses Wort relevant sind. Entfernung spielt keine Rolle. "Hund" kann drei Wörter entfernt sein oder dreißig. Der Aufmerksamkeitsmechanismus findet es so oder so. Jay Alammar, dessen Illustrated Transformer zur Pflichtlektüre für alle wurde, die dieses Material lernen wollten, formulierte es so: "Self-attention is the method the Transformer uses to bake the 'understanding' of other relevant words into the one we're currently processing." ## Mehrere Perspektiven: Multi-Head-Attention Ein Aufmerksamkeitsmechanismus erfasst eine Art von Beziehung. Aber Sprache hat viele Beziehungstypen, die gleichzeitig wirken: grammatische Beziehungen, semantische Beziehungen, Referenzbeziehungen, zeitliche Beziehungen. Der Transformer nutzt mehrere Aufmerksamkeits-"Köpfe", die parallel laufen. Jeder Kopf lernt, sich auf andere Muster zu konzentrieren. Einer verfolgt vielleicht Subjekt-Verb-Übereinstimmung. Ein anderer Pronomenbezüge. Ein weiterer erfasst semantische Ähnlichkeit. Alammar erklärt den Vorteil: "It expands the model's ability to focus on different positions" und "It gives the attention layer multiple 'representation subspaces.'" Die Ergebnisse aller Köpfe werden zusammengeführt. Das Modell sieht den Satz gleichzeitig aus mehreren Blickwinkeln und integriert unterschiedliche Arten sprachlicher Information in eine einzige reichhaltige Repräsentation, die mehr erfasst, als ein einzelner Aufmerksamkeitsmechanismus allein könnte. ## Position ohne Sequenz Hier liegt ein feines Problem: Wenn du alle Wörter gleichzeitig verarbeitest, wie kennst du dann ihre Reihenfolge? "Hund beißt Mann" bedeutet etwas anderes als "Mann beißt Hund". Transformer lösen das mit Positionskodierungen. Vor der Verarbeitung bekommt jedes Wort Informationen über seine Position in seine Repräsentation eingespeist. Das Modell lernt, diese Positionsinformation zu nutzen. Die Wortreihenfolge bleibt erhalten, ohne sequenzielle Verarbeitung. Das war eine der klugen Ingenieursentscheidungen, die die gesamte Architektur funktionsfähig machten. ## Warum es tatsächlich funktionierte Die ursprünglichen Gutachter bei NeurIPS 2017 sahen etwas Besonderes. Ein Gutachter schrieb: "This work introduces a quite strikingly different approach to the problem of sequence-to-sequence modeling." Ein anderer erkannte an, dass "the combination of them and the details necessary for getting it to work as well as LSTMs is a major achievement." Die Ergebnisse waren eindeutig. Auf dem WMT-2014-Maßstab für Englisch-Deutsch-Übersetzung erreichte der Transformer 28.4 BLEU und übertraf den bisherigen Stand der Technik um mehr als 2 Punkte. Bei Englisch-Französisch lag er bei 41.8 BLEU. Stand der Technik. Wieder. Und er trainierte schneller. Deutlich schneller. Die Parallelisierbarkeit durch den Abschied von sequenzieller Verarbeitung bedeutete, dass man mehr Hardware auf das Problem werfen konnte und tatsächlich proportionale Geschwindigkeitsgewinne bekam. Aber der eigentliche Effekt waren nicht die Benchmarks. Sondern das, was danach passierte. ## Die unerwartete Allgemeingültigkeit Der Transformer war für Übersetzung gedacht. Sprache rein, Sprache raus. Niemand erwartete, dass er für alles andere funktioniert. Tat er. Bis 2020 passten Forschende Transformer auf Bilder an. Der Vision Transformer, kurz ViT, behandelt ein Bild als Folge von Bildausschnitten und verarbeitet sie mit Attention. Er erreichte oder übertraf konvolutionale neuronale Netze, die die Computer Vision fast ein Jahrzehnt dominiert hatten. Audio. Proteinfaltung. Robotik. Bestärkendes Lernen. Spielen. Code-Generierung. Eine Architektur tauchte überall wieder auf. Wie ein Hacker-News-Nutzer in einem Rückblick 2020 schrieb: "It's crazy to me to see what still feel like new developments (come on, it was just 2017!) making their way into mainstream." Ein anderer Nutzer traf den tieferen Punkt, der Transformer anders machte: "The successful removal of inductive bias is really what differentiates this from previous sequence-to-sequence neural networks." Diese Entfernung des Induktionsbias erwies sich als Geheimwaffe der Transformer. RNNs nahmen an, dass Sequenz auf eine bestimmte Weise wichtig ist. Konvolutionale Netze nahmen an, dass lokale Muster auf eine bestimmte Weise wichtig sind. Transformer nahmen fast nichts an. Sie lernten alles aus Daten. Das machte sie flexibel. Das machte sie skalierbar. ## Der Weg zu allem Das Transformer-Paper hat nicht ChatGPT geschaffen. Es hat das Fundament geschaffen. BERT kam 2018. Googles bidirektionaler Encoder nutzte Transformer, um Sprachkontext aus beiden Richtungen zu verstehen. Er dominierte Maßstäbe für natürliches Sprachverstehen. GPT kam 2018 von OpenAI. Generative Pre-trained Transformer. Der Name trug "Transformer" bereits im Akronym. GPT-2 folgte 2019. GPT-3 skalierte 2020 auf 175 Milliarden Parameter und zeigte Fähigkeiten, die niemand allein durch Skalierung erwartet hatte. Claude. Gemini. Llama. Jedes große Sprachmodell heute ist ein Transformer oder eine enge Ableitung. Die Architektur, die als Übersetzungsverbesserung begann, wurde zum Grundgerüst der Forschung an künstlicher allgemeiner Intelligenz. ## Kosten und Grenzen Transformer sind nicht kostenlos. Selbstaufmerksamkeit vergleicht jedes Wort mit jedem anderen Wort. Bei N Wörtern sind das N zum Quadrat Vergleiche. Verdoppelst du die Kontextlänge, vervierfachst du den Rechenaufwand. Das schafft harte Grenzen. Frühe Transformer kamen mit ein paar tausend Tokens aus. Moderne Modelle reichen in Hunderttausende, aber jede Erweiterung braucht Ingenieurtricks: sparse Attention, gleitende Fenster, Speichermechanismen. Die quadratischen Kosten verschwinden nie. Sie werden nur verwaltet. Ein Hacker-News-Kommentator formulierte es direkt: "The amount of computation for processing a sequence size N with a vanilla transformer is still N^2." Auch die Trainingskosten stiegen. GPT-4 kostete Berichten zufolge über 100 Millionen Dollar im Training. Nur eine Handvoll Organisationen kann sich die Entwicklung von Spitzenmodellen leisten. Die Architektur, die zunächst demokratisierend wirkte, schuf eine zentralisierende Industrie. ## Was danach kommt Bis 2025 suchten Forschende aktiv nach Alternativen. State-Space-Modelle wie Mamba versprachen lineare statt quadratischer Skalierung. Mixture-of-Experts-Architekturen, die Berichten zufolge in GPT-4 genutzt werden, aktivieren pro Eingabe nur Teile des Modells. Einer der ursprünglichen Autoren von "Attention Is All You Need", Llion Jones, sagte Anfang 2025 öffentlich: "I'm going to drastically reduce the amount of time that I spend on transformers...I'm explicitly now exploring and looking for the next big thing." Aber Transformer bleiben dominant. Jeder Ersatz muss ihre Fähigkeiten erreichen und zugleich ihre Grenzen lösen. Das hat bisher niemand geschafft. ## Das Paper im Rückblick Acht Autorinnen und Autoren schrieben "Attention Is All You Need." Sie arbeiteten bei Google Brain und Google Research. Der Titel war ein Beatles-Witz. Der Inhalt war ernst. Warum war dieses Paper so wichtig? Einfachheit. Der Verzicht auf Rekurrenz und Konvolution hinterließ eine sauberere Architektur. Einfachere Architekturen skalieren besser. Einfachere Architekturen lassen sich besser übertragen. Einfachere Architekturen halten länger. Parallelisierbarkeit. GPUs gab es. Große Datensätze gab es. Die Infrastruktur, um Transformer im großen Maßstab einzusetzen, entstand gerade in dem Moment, als die Architektur aufkam. Allgemeingültigkeit. Dieselbe Architektur funktionierte erst für Übersetzung, dann für Sprachmodellierung, dann für Bilder, dann für Audio, dann für Video, dann für Proteinfaltung. Eine Architektur, die alles beherrscht, war nicht der Plan. Es war das Ergebnis. Timing. 2017 war spät genug, dass Rechenleistung Transformer praktikabel machte, und früh genug, dass sich die volle Tragweite erst über Jahre zeigte. ## Warum es wichtig ist, das zu verstehen Du musst keine Aufmerksamkeitswerte verstehen, um Claude oder GPT zu nutzen. Aber die grundlegende Architektur zu verstehen hilft dir zu verstehen, warum sich diese Systeme so verhalten, wie sie es tun. Transformer sind Mustermaschinen. Sie sind hervorragend darin, Muster in Daten zu finden und zu erzeugen. Sie sind keine Denkmaschinen, auch wenn sie Denken durch hochentwickelte Musteranpassung simulieren. Kontext ist wichtig, weil Transformer den gesamten Kontext, den du bereitstellst, gleichzeitig sehen. Mehr Kontext bedeutet meist bessere Ausgaben. Widersprüchlicher Kontext verwirrt die Musteranpassung. Grenzen existieren, weil quadratische Skalierung unerbittlich ist. Lange Dokumente stoßen an Wände. Komplexe Gedankengänge brechen zusammen. Die Architektur hat reale Einschränkungen. Und jedes große Modell nutzt dasselbe Fundament. GPT, Claude und Gemini sehen von außen unterschiedlich aus. Innen sind sie alle Transformer. Wenn du eine Architektur verstehst, verstehst du sie alle besser. Die acht Forschenden, die 2017 "Attention Is All You Need" veröffentlichten, konnten nicht vorhersagen, wohin ihre Architektur gehen würde. Sprachmodelle, die sich unterhalten. Bildgeneratoren, die träumen. Code-Assistenten, die programmieren. Nichts davon stand im Original-Paper. Alles davon kam aus Transformern. Die folgenreichsten Paper der Informatik kündigen sich nicht als solche an. Sie beschreiben eine Technik. Sie berichten ein paar Ergebnisse. Sie werden veröffentlicht. Dann verändern sie alles.