--- title: Chain-of-Thought-Prompting: Gib der KI einen Schmierzettel description: Wenn Sie „Let's think step by step“ an Ihre Prompts anhängen, kann das Aufgaben mit logischem Denken drastisch verbessern. Was die Forschung zeigt, wann es funktioniert – und wann nicht. date: February 5, 2026 author: Robert Soares category: prompt-engineering --- Im Januar 2022 veröffentlichten Forschende bei Google eine Arbeit, die verändert hat, wie Menschen mit KI sprechen. Sie fanden heraus, dass eine einfache Formulierung, die man vor eine Frage setzt, die Trefferquote bei mathematischen Textaufgaben von 17,7 % auf 78,7 % steigern kann. Der Satz? "Let's think step by step." Das war keine Magie. Es war [Chain-of-Thought-Prompting](https://arxiv.org/abs/2201.11903), eine Technik, die der KI so etwas wie einen Schmierzettel gibt, um Probleme durchzuarbeiten. ## Die Forschung dahinter Jason Wei und Kolleg:innen bei Google Brain führten Experimente mit drei großen Sprachmodellen durch. Sie testeten arithmetisches Denken, Fragen zum Alltagswissen und symbolische Manipulation. Das Muster blieb über alle Kategorien hinweg gleich: Wenn Modelle ihren Lösungsweg zeigten, lagen sie häufiger richtig. Beim [GSM8K-Mathe-Benchmark](https://research.google/blog/language-models-perform-reasoning-via-chain-of-thought/) erreichte ihr 540-Milliarden-Parameter-Modell 58 % Genauigkeit mit Chain-of-Thought-Prompting. Standard-Prompting? Nicht annähernd. Eine Folgestudie mit Self-Consistency schob das auf 74 %. Das eindrucksvollste Ergebnis kam aus Sports Understanding. PaLM 540B erreichte 95 % Genauigkeit und schlug damit menschliche Expert:innen ohne Hilfsmittel, die bei 84 % lagen. Ein paar Monate später veröffentlichten [Forschende der Universität Tokio und Google](https://arxiv.org/abs/2205.11916) "Large Language Models are Zero-Shot Reasoners." Sie fanden: Man braucht nicht einmal Beispiele. Einfach "Let's think step by step" anhängen – und die Genauigkeit auf MultiArith sprang von 17,7 % auf 78,7 %. GSM8K ging von 10,4 % auf 40,7 %. Das sind 61 Prozentpunkte Verbesserung durch einen einzigen Satz. ## Warum funktioniert das? Ein Hacker-News-User namens leobg [erklärte die Mechanik gut](https://news.ycombinator.com/item?id=35503044): > "I think the idea is that the LLM cannot think internally. It's output _is_ its thinking process. Especially with an auto regressive architecture like GPT, where each output token becomes part of the input. I imagine it like handing the LLM a piece of scratch paper." Das trifft etwas Wichtiges. Sprachmodelle erzeugen ein Token nach dem anderen. Jedes Token wird Kontext für das nächste. Wenn Sie nach einer sofortigen Antwort fragen, muss das Modell das gesamte Denken in die Wahl des ersten Wortes quetschen. Wenn Sie aber nach Schritten fragen, wird jedes Zwischenfazit Teil des Inputs für das, was folgt. Nehmen Sie diese Textaufgabe: "Roger hat 5 Tennisbälle. Er kauft 2 weitere Dosen mit je 3. Wie viele Tennisbälle hat er jetzt?" Um sie zu lösen, müssen Sie den Text verstehen, die Rechenoperationen erkennen und korrekt rechnen. Wenn man direkt nach der Zahl fragt, muss das Modell all das in einem Sprung von Frage zu Ergebnis leisten. Wenn Sie nach Schritten fragen, kann es jeden Baustein setzen. Roger startet mit 5. Er kauft 2 Dosen. Jede Dose hat 3 Bälle. Also kauft er 6 Bälle. 5 plus 6 ist 11. Jeder Satz begrenzt, was als Nächstes kommen kann. Das Modell baut auf die Antwort hin, statt sie zu erraten. ## Der Haken, den kaum jemand zuerst erwähnt Hier ist das, was Hype-Artikel gern weglassen: Chain-of-Thought-Prompting funktioniert nur mit großen Modellen. Die ursprüngliche Forschung fand, dass das eine "emergent property of model scale" ist. Unter ungefähr 100 Milliarden Parametern verschlechterte die Aufforderung zu Schritt-für-Schritt-Denken die Leistung sogar. Kleinere Modelle produzierten das, was wie eine Begründungskette aussah, aber voller Logikfehler steckte. Die selbstbewusst klingenden Schritte führten öfter zu falschen Antworten, als wenn man einfach direkt fragte. Wenn Sie ein kleineres lokales Modell verwenden, kann diese Technik nach hinten losgehen. Testen Sie es. Vergleichen Sie Ergebnisse mit und ohne die Schritt-für-Schritt-Anweisung. Gehen Sie nicht automatisch davon aus, dass die Forschung auf Ihr Setup übertragbar ist. ## Zwei Wege, es umzusetzen **Zero-shot-Ansatz**: Hängen Sie einfach den Satz an. Keine Beispiele nötig. > "Ein Schläger und ein Ball kosten $1.10 insgesamt. Der Schläger kostet $1 mehr als der Ball. Wie viel kostet der Ball? Lass uns Schritt für Schritt denken." Das funktioniert überraschend gut. Es kostet Sie nichts extra an Prompt-Länge. **Few-shot-Ansatz**: Zeigen Sie dem Modell zuerst, wie gute Begründungen aussehen. > Hier ist eine Textaufgabe und wie man sie Schritt für Schritt löst: > > Frage: Im Hain stehen 15 Bäume. Heute werden weitere Bäume gepflanzt. Danach stehen dort 21 Bäume. Wie viele Bäume wurden heute gepflanzt? > > Begründung: Wir starten mit 15 Bäumen. Am Ende sind es 21 Bäume. Die Differenz ist das, was gepflanzt wurde. 21 minus 15 ergibt 6. > > Antwort: 6 > > Löse jetzt diese Aufgabe genauso: > [Ihre eigentliche Frage] Few-shot kostet mehr Token, liefert aber bei komplexen Aufgaben oft bessere Ergebnisse. Die Beispiele lehren Format und Tiefe – nicht nur die grobe Idee, den Lösungsweg zu zeigen. ## Aufgaben, die davon profitieren Chain-of-Thought-Prompting glänzt bei Problemen mit mehreren Schritten, bei denen sich Fehler aufschaukeln. Mathematische Textaufgaben. Logikrätsel. Mehrstufige Planung. Alles, wofür Sie selbst einen Schmierzettel benutzen würden. [IBMs Analyse](https://www.ibm.com/think/topics/chain-of-thoughts) nennt praktische Anwendungen: Kundendienst-Bots, die Probleme aufdröseln, Rechercheaufgaben, die Hypothesenbildung erfordern, und Erklärungen in Mathe und Naturwissenschaften. Am besten funktioniert die Technik, wenn die Aufgabe tatsächlich Zwischenschritte hat, die die endgültige Antwort tragen. Ein anderer Hacker-News-Kommentator, travisjungroth, [machte eine Beobachtung, die bei mir hängen blieb](https://news.ycombinator.com/item?id=35503044): > "Most writing about anything difficult is product, not process. Articles get drafts before being published. People think about answers before writing them down. How to Solve It does a great job explaining this about math problems. The steps to the proof are not the steps to creating the proof. So when you go to solve a problem by mimicking the solutions to problems, something is missing." Das ist wichtig. Die veröffentlichte Lösung einer Matheaufgabe sieht überhaupt nicht aus wie der eigentliche Prozess, sie herauszufinden. Sprachmodelle, die auf aufgeräumten Endantworten trainiert wurden, haben das chaotische Herumprobieren, das dorthin führt, nie gesehen. Mit der Aufforderung zu Schritten holen Sie etwas zurück, das im Training fehlte. ## Aufgaben, die nicht davon profitieren Einfache Nachschlagefragen gewinnen nichts. "Was ist die Hauptstadt von Frankreich?" mit Schritt-für-Schritt-Anweisung erzeugt nur längere Ausgaben ohne Genauigkeitsgewinn. Das Modell hat die Antwort ohnehin parat. Aufgaben, die Kreativität statt Denken erfordern, profitieren ebenfalls weniger. Gedichte schreiben, Werbetexte generieren, Namen brainstormen. Das sind keine Probleme mit klaren logischen Schritten. Sie in ein Begründungsgerüst zu zwingen, wirkt unnatürlich und kann die Ausgabe unnötig einschränken. [Neuere Forschung](https://bdtechtalks.com/2024/05/13/chain-of-thought-planning/) fand, dass die Vorteile nicht so breit verallgemeinerbar sind, wie der frühe Hype suggerierte. CoT-Prompts verbessern Modelle bei bestimmten Planungsaufgaben, übertragen sich aber schlecht auf andere Bereiche. Die Verbesserungen sind real – nur enger, als oft behauptet. Außerdem ist nicht garantiert, dass die Begründung treu ist. Das Modell kann plausibel klingende Schritte ausgeben, die gar nicht widerspiegeln, wie es zur Antwort gekommen ist. Das erzeugt das Risiko falscher Sicherheit: Sie sehen eine logische Kette und schließen auf Korrektheit – aber die Schritte können nachträgliche Rationalisierung statt echtes Denken sein. ## Rechenkosten zählen Mehr Token bedeuten mehr Zeit und mehr Geld. Wenn Sie eine API aufrufen, kosten Chain-of-Thought-Antworten mehr als direkte Antworten. Bei Anwendungen mit hohem Volumen summiert sich das schnell. Überlegen Sie, ob der Genauigkeitsgewinn die Kosten rechtfertigt. Ein Kundendienst-Bot, der simple FAQs beantwortet, braucht wahrscheinlich keine Begründungsketten. Ein System, das Finanzrechnungen durchführt, wahrscheinlich schon. ## So setzen Sie es praktisch ein Bei Mathe- und Logikproblemen starten Sie mit Zero-shot. Fügen Sie „Lass uns Schritt für Schritt denken“ oder „Arbeite das Schritt für Schritt durch“ zu Ihrem Prompt hinzu. Vergleichen Sie die Ergebnisse mit Ihrer Ausgangsbasis. Bei komplexen mehrstufigen Aufgaben können Few-shot-Beispiele helfen, die Begründungstiefe zu zeigen, die Sie wollen. Ein oder zwei gute Beispiele schlagen bei härteren Problemen oft reines Zero-shot. Für alles, was Planung beinhaltet, hilft es, die Aufgabe in klare Phasen zu zerlegen. Fragen Sie erst nach dem Plan, dann nach der Ausführung. Das ist Chain-of-Thought auf Aufgabenebene statt auf Satzebene. Wenn Genauigkeit wichtiger ist als Geschwindigkeit, bauen Sie eine Prüfstufe ein. Nachdem das Modell eine Antwort erreicht hat, lassen Sie es die Rechnung kontrollieren. Das fängt einige Fehler ab, die beim ersten Durchlauf durchrutschen. Hier ein Beispiel, das den Unterschied in der Praxis zeigt: **Ohne Chain-of-Thought:** > "Der Umsatz eines Unternehmens stieg in Q1 um 20% und fiel in Q2 um 15%. Wie groß ist die Nettowirkung?" > > Modell: "5 % Wachstum" Diese Antwort ist falsch. Das Modell hat multipliziert, statt mit zusammengesetzten Prozenten zu rechnen. **Mit Chain-of-Thought:** > "Der Umsatz eines Unternehmens stieg in Q1 um 20% und fiel in Q2 um 15%. Wie groß ist die Nettowirkung? Gehen wir das Schritt für Schritt durch." > > Modell: "Ausgehend von 100 als Ausgangswert. Nach 20 % Wachstum: 100 x 1.20 = 120. Nach 15 % Rückgang von diesem neuen Wert: 120 x 0.85 = 102. Nettowirkung: 102 - 100 = 2, also 2 % Wachstum." Das erzwungene Denken verhindert den Abkürzungsfehler. Das Modell kann nicht zu „20 minus 15“ springen, weil es die Rechnung tatsächlich durchgehen muss. ## Varianten, die Sie kennen sollten Die Grundtechnik hat mehrere Erweiterungen hervorgebracht. **Self-consistency** erzeugt mehrere Begründungswege und nimmt die Mehrheitsantwort. Wenn Sie das Modell ein Problem fünfmal mit Chain-of-Thought lösen lassen und viermal dieselbe Antwort bekommen, ist diese Antwort vermutlich richtig. Dieser Ansatz schob die GSM8K-Genauigkeit in Googles Folgestudie von 58 % auf 74 %. **Tree of Thoughts** erkundet mehrere Begründungszweige gleichzeitig, statt sich früh auf einen festzulegen. Nützlich, wenn es wirklich unterschiedliche Wege zum Ziel gibt und Sie mehrere Ansätze prüfen wollen, bevor Sie wählen. **Least-to-Most prompting** zerlegt komplexe Probleme in Teilprobleme, löst zuerst die einfacheren und nutzt diese Lösungen, um die schwierigeren Teile anzugehen. Gut für Aufgaben mit natürlichen Hierarchien oder Abhängigkeiten. Diese Varianten bringen mehr Komplexität. Beherrschen Sie zuerst die Basisversion. Die meisten Menschen ziehen schon großen Nutzen daraus, einfach „lass uns Schritt für Schritt denken“ hinzuzufügen und brauchen nie die aufwendigeren Ansätze. ## Das große Ganze Chain-of-Thought-Prompting funktioniert, weil es ausnutzt, wie diese Modelle tatsächlich arbeiten. Sie sind Next-Token-Predictors. Jedes Wort schränkt die Wahrscheinlichkeit dessen ein, was als Nächstes kommt. Wenn Sie nach Begründungen fragen, erzeugen Sie hilfreiche Einschränkungen, die sich Schritt für Schritt zu korrekten Antworten aufaddieren. Das könnte irgendwann obsolet werden. Modelle, die speziell fürs Denken trainiert wurden – etwa mit eingebauten „Thinking“-Modi – könnten diese Muster verinnerlichen. Der explizite Prompt wäre dann vielleicht überflüssig, weil das Verhalten in den Gewichten steckt. Aber im Moment, mit heutigen Modellen, bleibt die Technik wertvoll. Sie kostet einen Satz und kann bei den richtigen Aufgaben die Genauigkeit vervielfachen. Entscheidend ist, zu wissen, bei welchen Aufgaben das der Fall ist. Woran würden Sie erkennen, ob die Begründung, die ein Modell Ihnen zeigt, wirklich die Begründung ist, die es tatsächlich benutzt hat?