---
title: Wann solltest du der KI Beispiele geben? Zero-Shot vs. Few-Shot Prompting
description: Der praxisnahe Leitfaden, wann Beispiele deine KI-Prompts verbessern und wann sie nur Token verbrennen. Basierend auf echter Forschung und echten Nutzererfahrungen.
date: February 5, 2026
author: Robert Soares
category: prompt-engineering
---

Du hast eine Aufgabe für eine KI. Fragst du einfach direkt, oder zeigst du erst, was du willst?

Genau darum geht es bei Zero-Shot vs. Few-Shot. Zero-Shot heißt: direkt fragen, ohne Beispiele. Few-Shot heißt: erst ein oder mehrere Beispiele geben, dann die eigentliche Anfrage. Die Begriffe kommen aus der Forschung zu maschinellem Lernen, aber das Prinzip ist simpel: zeigen statt erklären.

Die meisten Leute nutzen entweder nie Beispiele oder für alles Beispiele. Beides ist falsch. Die richtige Antwort hängt davon ab, was du verlangst, welches Modell du nutzt und ob Format wichtiger ist als Inhalt.

## Erst Beispiele, dann Auftrag

Few-Shot-Prompting funktioniert über Musterabgleich. Du zeigst der KI, wie ein gutes Ergebnis aussieht, und sie spiegelt dieses Muster für neue Eingaben. Das ist besonders stark, wenn du ein bestimmtes Format, einen bestimmten Ton oder eine bestimmte Struktur brauchst, die sich schwer in Worten beschreiben lässt.

Angenommen, du brauchst Produktbeschreibungen für einen E-Commerce-Shop. Du könntest erklären, dass du kurze, knackige Beschreibungen mit den wichtigsten Merkmalen in einer festen Reihenfolge willst. Oder du zeigst einfach eine:

> **Keramik-Reisebecher**
> Hält Kaffee 4 Stunden heiß. Passt in Standard-Getränkehalter. Spülmaschinenfest. In 6 Farben erhältlich.

Dann bittest du um eine Beschreibung für eine Edelstahl-Trinkflasche. Die KI hat jetzt eine Vorlage. Sie trifft Länge, Satzbau und Detailtiefe. Kein Rätselraten, was du meinst.

Ein Kommentator auf [Hacker News](https://news.ycombinator.com/item?id=38244769) hat es knapp formuliert: "In general, showing an example of correct output (one shot prompting) can greatly improve output format consistency."

Das ist der Kernnutzen. Konsistenz. Wenn du mehrere Ausgaben im gleichen Format brauchst, schlagen Beispiele reine Anweisungen fast immer.

## Wenn Beispiele alles verändern

Die Zugewinne durch Few-Shot-Prompting können drastisch sein. In [einer Fallstudie zur medizinischen Kodierung](https://www.lennysnewsletter.com/p/ai-prompt-engineering-in-2025-sander-schulhoff) stieg die Genauigkeit von 0 % auf 90 %, nachdem Beispiel-Label-Paare in die Prompts aufgenommen wurden. Das ist kein Tippfehler. Dasselbe Modell ging von komplett falsch zu fast perfekt, nur weil es vorher ein paar Beispiele gesehen hat.

Das ist aber der Idealfall. Forschung, die von [PromptHub](https://www.prompthub.us/blog/the-few-shot-prompting-guide) zusammengetragen wurde, zeigt ab etwa zwei bis drei Beispielen deutlich sinkenden Grenznutzen. Nach den ersten Beispielen kommt der große Sprung, danach ein Plateau. Zehn statt drei Beispiele helfen selten und können sogar schaden, weil sie den Prompt überladen.

Eine Studie der University of London zur automatisierten Fehlerbehebung in Code fand etwas Gegenintuitives: Das MANIPLE-Framework erzielte 17 % mehr erfolgreiche Korrekturen, wenn es optimierte, welche Beispiele aufgenommen werden. Aber mehr Beispiele verschlechterten teils die Leistung. Der Prompt wurde lauter, nicht klüger.

## Der überraschende Fall gegen Beispiele

Hier wird es interessant. Mit neueren Reasoning-Modellen ändern sich die Regeln.

OpenAIs o1-Serie und ähnliche, auf Schlussfolgern ausgerichtete Modelle liefern in vielen Fällen mit Beispielen sogar schlechtere Ergebnisse. [Von PromptHub zitierte Forschung](https://www.prompthub.us/blog/the-few-shot-prompting-guide) zeigte, dass 5-Shot-Prompting die Leistung von o1-preview gegenüber einer minimalen Prompt-Basislinie reduzierte. In der Dokumentation von DeepSeek-R1 steht ausdrücklich, dass Few-Shot-Prompting "consistently degrades its performance."

Warum? Diese Modelle sind dafür gebaut, Probleme selbst durchzudenken. Beispiele können ihr Denken einengen oder sie auf den falschen Pfad bringen. Sie funktionieren oft besser, wenn du das Ziel beschreibst und den Weg dem Modell überlässt.

Das ist wichtig, weil sich das Feld in Richtung Reasoning-Modelle bewegt. Wenn du o1, o3-mini oder Ähnliches nutzt, probiere es zuerst ohne Beispiele. Füge sie nur hinzu, wenn das Ausgabeformat korrigiert werden muss.

## Das Problem von Modell zu Modell

Es gibt noch einen Haken. Die besten Beispiele für ein Modell sind nicht automatisch die besten für ein anderes.

[Aickin, Gründer von Libretto](https://news.ycombinator.com/item?id=40227928), hat getestet, ob die bestlaufenden Beispiele eines Modells auch in einem anderen Modell am besten funktionieren. Das Ergebnis war eindeutig: "Most of the time, the answer was no, even between different versions of the same model."

Die praktische Folge ist unangenehm. Wahrscheinlich musst du Beispiele modellweise optimieren und die Arbeit jedes Mal wiederholen, wenn eine neue Modellversion erscheint. Diese drei perfekten Beispiele für GPT-4 übertragen sich vielleicht nicht auf GPT-4o oder Claude 3.5.

Für die meisten heißt das: Beispiele einfach halten und nicht überoptimieren. Je spezifischer deine Beispiele sind, desto eher brechen sie, wenn du das Modell wechselst oder das Modell aktualisiert wird.

## Zeigen oder erklären: wann was funktioniert

Vergiss starre Regeln. Denk darüber nach, was du konkret erreichen willst.

**Beispiele funktionieren am besten, wenn:**

Das Format alles ist. Wenn du JSON, Markdown-Tabellen oder eine bestimmte Vorlage brauchst, schlägt ein Beispiel oft ganze Absätze voller Anweisungen. Die KI sieht die Struktur und reproduziert sie.

Stil schwer zu beschreiben ist. "Schreib in unserer Markenstimme" ist vage. Drei Sätze in deiner Markenstimme sind konkret. Das Muster lässt sich leichter treffen als die Beschreibung.

Du wiederkehrende Aufgaben hast. Du brauchst zwanzig Produktbeschreibungen? Gib zwei Beispiele und hol dir achtzehn weitere im selben Format. Die Konsistenz summiert sich.

Das Modell ein Standard-LLM wie GPT-4 oder Claude ist. Diese Modelle sind auf Mustern trainiert. Sie reagieren gut auf zeigen-statt-erklären.

**Lass Beispiele weg, wenn:**

Die Aufgabe Schlussfolgern erfordert. Matheaufgaben, Logikrätsel, Code-Debugging, strategische Analyse. Hier erklärst du das Ziel und lässt das Modell denken. Beispiele können den Ansatz einengen oder Fehler aus deiner konkreten Musterlösung einschleppen.

Du ein Reasoning-Modell nutzt. o1, o3-mini, DeepSeek-R1. Diese Modelle erzeugen intern ihre eigene Gedankenkette. Beispiele können diesen Prozess stören.

Die Aufgabe geradlinig ist. "Fasse diesen Artikel in drei Sätzen zusammen" braucht kein Beispiel. Die Anweisung ist klar genug. Zusätzliche Beispiele verbrennen nur Token, ohne das Ergebnis zu verbessern.

Du Kreativität statt Konsistenz brauchst. Wenn dich die KI überraschen soll, engen Beispiele den Raum möglicher Antworten ein. Du zeigst, was erlaubt ist, statt was möglich ist.

## Der Praxistest

Theorie ist nett. Praxis ist besser.

Mach ein einfaches Experiment, bevor du dich auf einen Ansatz festlegst. Nimm deine Aufgabe, führe sie dreimal als Zero-Shot aus und dreimal mit zwei Beispielen. Vergleiche die Ausgaben. Haben die Beispiele die Qualität verbessert? Haben sie die Konsistenz verbessert? Haben sie überhaupt etwas verändert?

Oft lautet die Antwort: "Die Beispiele haben beim Format geholfen, aber nicht bei der inhaltlichen Qualität." Das ist nützliche Information. Sie zeigt dir, wann sich Beispiele lohnen und wann bessere Anweisungen wichtiger sind.

Manche Praktiker sehen den Sweet Spot bei einem Beispiel fürs Format plus detaillierten Anweisungen für alles andere. Du bekommst die strukturelle Konsistenz aus dem Beispiel und lässt die inhaltliche Substanz über die Anweisungen steuern.

## Die Kostenrechnung

Beispiele sind nicht kostenlos. Jedes zusätzliche Beispiel kostet bei jedem API-Aufruf Token. Bei Claude Haiku oder GPT-4o-mini ist das fast vernachlässigbar. Bei GPT-4 oder Claude Opus summiert es sich.

Die Rechnung ändert sich mit dem Volumen. Wenn du einen Prompt einmal ausführst, pack so viele Beispiele rein, wie du willst. Wenn du ihn tausende Male pro Tag ausführst, zählt jedes Token.

[Minimaxir merkte auf Hacker News an](https://news.ycombinator.com/item?id=39809825), dass die Ökonomie Few-Shot-Prompting heute mehr denn je begünstigt: "You will often get better results with few-shot prompting (with good examples) on a modern LLM than with a finetuned LLM." Eingabe-Token sind billig geworden, besonders bei Modellen wie Claude Haiku. Die Kosten für zusätzliche Beispiele sind drastisch gefallen.

Der Vergleich dreht sich aber nicht nur um Tokenkosten. Fine-Tuning kostet laut OpenAI-Preisen 4- bis 6-mal mehr als normale API-Nutzung. Wenn du zwischen Fine-Tuning und vielen Beispielen wählst, gewinnen Beispiele beim Preis oft trotzdem, auch mit den zusätzlichen Token.

## Das gefährliche Mittelfeld

Der schlechteste Ansatz ist, Beispiele hinzuzufügen, ohne zu prüfen, ob sie überhaupt helfen.

Cargo-Cult-Prompting. Du hast irgendwo gelesen, man solle "immer Beispiele hinzufügen", und jetzt hat jeder Prompt drei Beispiele, egal ob sie passen oder nicht. Die KI verwechselt Anweisung und Kontext. Das Ergebnis wird schlechter, nicht besser.

Oder das Gegenteil: Du hast verinnerlicht, Prompts müssten "klar und direkt" sein, und zeigst deshalb nie Beispiele, selbst wenn das Format entscheidend ist. Dann schreibst du absatzlange Beschreibungen von Tabellenstrukturen, obwohl ein einziges Beispiel dieselbe Information in zwei Zeilen liefern würde.

Die eigentliche Fähigkeit ist nicht, Regeln auswendig zu lernen. Sie liegt darin zu erkennen, in welcher Situation du gerade bist.

## Ansätze kombinieren

Die Entscheidung Beispiele vs. Anweisungen ist nicht binär. Du kannst erklären, was du willst, und es dann zeigen.

Für die Dokumentenextraktion könntest du schreiben: "Zieh aus diesen Formularen Kundennamen, E-Mail, Bewertung und den wichtigsten Feedbackpunkt. Formatiere als JSON."

Dann ergänzt du ein Beispiel, das das Format zeigt. Die Anweisung erklärt die Aufgabe. Das Beispiel verankert die Ausgabestruktur. Du bekommst Klarheit und Konsistenz.

Dieser hybride Ansatz funktioniert besonders gut, wenn das Format spezifisch ist (nutze das Beispiel), aber die Begründung hinter Entscheidungen wichtig ist (nutze die Anweisung). Allein reicht keins von beidem. Zusammen decken sie unterschiedliche Teile dessen ab, was du brauchst.

## Was wirklich zählt

Nach all der Forschung und den Experimenten sind ein paar Dinge klar.

Beispiele helfen vor allem bei Format, Konsistenz und Stil. Wenn das deine Prioritäten sind, nutze sie. Wenn inhaltliche Qualität und Schlussfolgern deine Prioritäten sind, helfen Beispiele vielleicht nicht und können sogar schaden.

Zwei bis drei Beispiele reichen meistens. Mehr bringt selten zusätzlichen Wert und kann Rauschen hinzufügen. Die [PromptHub-Forschung](https://www.prompthub.us/blog/the-few-shot-prompting-guide) zeigt, dass der sinkende Grenznutzen schnell einsetzt.

Teste an deiner echten Aufgabe mit deinem echten Modell. Durchschnittswerte aus Studien verdecken große Unterschiede. Was bei medizinischer Kodierung funktioniert, muss bei Werbetext nicht funktionieren.

Und beobachte, was bei Modell-Updates passiert. Deine sorgfältig optimierten Beispiele brauchen vielleicht eine Neukalibrierung. Der beste Few-Shot-Prompt vom letzten Monat kann heute nur noch mittelmäßig sein.

Wenn du nur eins mitnimmst, dann das: Der Unterschied zwischen Zero-Shot und Few-Shot liegt nicht darin, welche Technik "besser" ist. Es geht darum, ob Musterabgleich oder Schlussfolgern deiner Aufgabe besser dient. Manchmal soll die KI eine Struktur kopieren. Manchmal soll sie denken. Zu wissen, wann was gilt, ist das ganze Spiel.