prompt-engineering
7 min read
View as Markdown

Role Prompting: Wann „Tu so, als wärst du ein Experte“ wirklich funktioniert (und wann nicht)

Die Forschung zu Role Prompting ist gemischt. Hier ist, was wir über Persona-Prompts wissen, wann sie helfen und warum neuere Modelle sie vielleicht gar nicht mehr brauchen.

Robert Soares

Sie haben diese Prompts überall gesehen. „Tu so, als wärst du ein Senior Software Engineer.“ „Du bist ein Marketing-Experte mit 20 Jahren Erfahrung.“ „Stell dir vor, du bist ein Harvard-Professor mit Schwerpunkt Wirtschaft.“

Die Idee ist simpel: Geben Sie der KI eine Rolle, dann sollte sie aus dieser Perspektive antworten. Wie Method Acting, nur für Sprachmodelle.

Millionen nutzen diese Technik. Sie wird in Prompt-Engineering-Kursen gelehrt. Sie steckt in unzähligen Templates und Custom GPTs. Aber hier ist die unangenehme Frage, die niemand gern ausspricht: Funktioniert das wirklich?

Die Forschung sagt… kommt drauf an.

Gemischte Evidenz

Ein Paper mit dem Titel “Better Zero-Shot Reasoning with Role-Play Prompting” zeigte Genauigkeitsgewinne von 53,5 % auf 63,8 % bei Mathe-Textaufgaben, wenn man rollenbasierte Prompts mit GPT-3.5 verwendet. Das ist ein spürbarer Sprung. Die Technik sah vielversprechend aus.

Dann haben Forscher genauer hingeschaut.

Eine Studie, die ursprünglich “When ‘A Helpful Assistant’ Is Not Really Helpful” hieß, behauptete zunächst, dass interpersonelle Rollen die Modellleistung konsistent verbessern. Aber im Oktober 2024 haben die Autoren ihre Ergebnisse aktualisiert. Nach Tests über 4 Modellfamilien und 2.410 faktische Fragen änderten sie ihre Schlussfolgerung: “personas in system prompts did not improve model performance across a range of questions compared to the control setting.”

Das ist eine komplette Kehrtwende.

Learn Prompting hat ein eigenes Experiment gemacht. Sie haben 12 verschiedene Personas auf 2.000 MMLU-Fragen mit GPT-4-turbo getestet. Die Ergebnisse waren über alle Personas hinweg erstaunlich ähnlich. Die Persona “idiot” schlug die Persona “genius”. Lesen Sie das nochmal.

Also… was passiert hier?

Das Vertrauensproblem

Auf Hacker News hat Nutzer GuB-42 einen Test gemacht, der ziemlich gut einfängt, was viele erleben:

“I did a short test prompting ChatGPT do be an ‘average developer, just smart enough not to get fired’, an ‘expert’ and no persona. I got 3 different answers but I couldn’t decide which one was the best.”

Die Ausgaben waren unterschiedlich. Der Ton änderte sich. Aber die echte Qualität? Schwer zu bewerten.

GuB-42 hat ein tieferes Problem angesprochen:

“I fear that but asking a LLM to be an expert, it will get the confidence of an expert rather than the skills of an experts, and a manipulative AI is something I’d rather not have.”

Das ist wichtig. Wenn Sie ein LLM bitten, „ein Experte“ zu sein, bekommt es nicht plötzlich mehr Expertise. Es justiert den Stil so, dass er zu dem passt, was in den Trainingsdaten nach Experten-Text aussieht. Mehr Selbstsicherheit. Weniger Absicherung. Aber das zugrunde liegende Wissen ist dasselbe.

Ein LLM, das als „Harvard-Professor“ gepromptet wird, weiß nicht mehr als eines, das als „neugieriger Anfänger“ gepromptet wird. Es klingt nur autoritativer.

Neuere Modelle haben das Spiel verändert

Hier wird es interessant. Als Antwort auf denselben HN-Thread hat Nutzer bfeynman das ziemlich trocken formuliert:

“This used to work but new thinking models made this unnecessary for the most part.”

Das deckt sich mit dem, was Praktiker beobachten. GPT-4o, Claude 3.5 Sonnet und neuere Reasoning-Modelle scheinen Role-Prompts weniger zu brauchen als ihre Vorgänger. Der Abstand zwischen „Experten-Persona“ und „keine Persona“ ist kleiner geworden.

Warum? Moderne Modelle können besser aus dem Kontext ableiten, was Sie brauchen. Sie verstehen die Art Ihrer Frage, ohne dass Sie ihnen explizit eine Rolle zuweisen. Stellen Sie eine technische Coding-Frage, und sie antworten technisch. Bitten Sie um kreatives Schreiben, und sie wechseln das Register automatisch.

Das „du bist ein Experte“-Präfix war vielleicht ein hilfreiches Gerüst für frühere, kleinere Modelle. Für Frontier-Modelle 2026 ist es oft unnötiger Overhead.

Wo Rollen noch helfen

Das heißt nicht, dass Sie Role-Prompts komplett streichen sollten. Sie funktionieren in bestimmten Situationen gut.

Kreative und offene Aufgaben. Wenn Sie einen bestimmten Stil oder eine bestimmte Stimme wollen, helfen Personas. „Schreib das wie einen Noir-Detektivroman“ liefert etwas anderes als eine generische Bitte. Das Modell hat stilistische Muster, aus denen es ziehen kann.

Ton und Register setzen. „Du bist ein geduldiger Kindergartenlehrer“ erzeugt andere Erklärungen als „du bist ein technischer Doku-Autor“. Nicht, weil einer mehr weiß, sondern weil er Informationen anders rahmt.

Scope begrenzen. Manchmal wollen Sie, dass das Modell in der Rolle bleibt und nicht abdriftet. Eine Kundendienst-Persona wehrt Off-Topic-Fragen oft natürlicher ab als explizite Instruktionen.

Roleplay und Simulation. Wenn Sie ein LLM für Dialogtraining, Interview-Vorbereitung oder interaktive Erzählungen nutzen, sind Personas essenziell. Das ist der ganze Punkt.

Was Rollen nicht zuverlässig tun: Das Modell schlauer machen, genauer, oder wissender über Fakten, auf die es ohnehin keinen Zugriff hatte.

Das Spezifitätsproblem

Forschung von ExpertPrompting hat etwas Unerwartetes gefunden. Beim Vergleich von „vanilla prompting“ vs. „vanilla prompting mit statischer Expertenbeschreibung“ waren die Ergebnisse fast identisch. Generische Rollen brachten so gut wie nichts.

Aber detaillierte, auf die konkrete Aufgabe zugeschnittene Expert-Prompts, die von einem anderen LLM generiert wurden, schnitten deutlich besser ab als beide.

Das Muster: Vage Rollen tun wenig. Detaillierte Rollen, zugeschnitten auf die Aufgabe, können helfen. LLM-generierte Personas lagen oft vor von Menschen geschriebenen.

Wenn Sie eine Rolle verwenden, dann konkret. „Du bist ein Python-Entwickler, der auf Datenpipelines spezialisiert ist und starke Meinungen zu Fehlerbehandlung hat“ schlägt „du bist ein Coding-Experte“. Das Modell braucht genug Details, um zu wissen, welche Muster es aktivieren soll.

Geschlecht und Repräsentation in Trainingsdaten

Es gibt noch einen Haken. Learn Prompting berichtet, dass Prompts mit männlichen Rollen in bestimmten Tasks oft besser abschneiden als Prompts mit weiblichen Rollen. Nicht-intime interpersonelle Rollen (Freund, Vorgesetzter) lieferten in manchen Kontexten bessere Ergebnisse als Berufsrollen.

Das ist kein „Meinungsproblem“ des Modells. Es spiegelt Ungleichgewichte in den Trainingsdaten. Wenn „senior engineer“ im Trainingskorpus zu bestimmten Demografien tendiert, trägt das Rollenbild des Modells diese Muster mit.

Gut zu wissen. Es ändert Ihre Prompt-Strategie nicht radikal, aber es erinnert daran, dass solche Techniken mit tieferen Fragen zusammenhängen, wie Modelle überhaupt lernen.

Ein anderes Framing: Welche Ausgabe wollen Sie eigentlich?

Role Prompting war schon immer ein Proxy für etwas anderes: dem Modell zu sagen, welche Art von Output Sie möchten.

„Tu so, als wärst du ein Experte“ heißt oft eigentlich „gib mir detaillierte, selbstsichere Antworten“. Das kann man direkt sagen. „Gib eine detaillierte technische Erklärung mit konkreten Beispielen“ funktioniert oft besser, als dieselbe Bitte in eine Persona zu verpacken.

„Du bist ein kreativer Autor“ heißt „priorisiere packende Prosa über trockene Genauigkeit“. Auch das kann man spezifizieren.

Die Persona ist eine Abkürzung. Manchmal hilfreich. Manchmal nicht. Das Modell hat keine Identität, die es annehmen müsste. Es hat Muster, die es matcht, und Wahrscheinlichkeiten, die es sampelt. Das zu verstehen verändert, wie man über Prompting nachdenkt.

Wenn Sie die Rollenspiel-Metapher weglassen, bleibt eine einfachere Frage: Welche Output-Eigenschaften wollen Sie? Fokussieren Sie darauf. Sagen Sie es direkt. Das Modell folgt.

Ein paar Dinge, die sich zu testen lohnen

Wenn Sie trotzdem mit Rollen experimentieren wollen, hier sind Ansätze, die vielversprechend sind:

Zweistufige Rollen-Immersion. Statt eines statischen „du bist X“ hatten manche Forscher Erfolg mit einer Warmup-Phase: Das Modell diskutiert zuerst, wie es wäre, dieser Experte zu sein, und bearbeitet erst dann die Aufgabe. Das Role-Play-Prompting-Paper nutzte das für den Sprung von 53,5 % auf 63,8 %. Mehr Aufwand, aber potenziell effektiver.

Lassen Sie das LLM die Persona erzeugen. ExpertPrompting zeigte, dass LLM-generierte Expertenbeschreibungen besser waren als von Menschen geschriebene. Wenn Sie eine Persona brauchen, lassen Sie das Modell zuerst das ideale Expertenprofil für Ihre konkrete Aufgabe generieren.

Zielgruppenansprache. Statt „du bist X”: „du erklärst das einem X”. Forschung legt nahe, dass Zielgruppenansprache manchmal besser funktioniert als Identitätszuweisung. „Erkläre maschinelles Lernen einem neugierigen 10-Jährigen“ vs. „du bist ein Lehrer. Erkläre maschinelles Lernen“.

Bei Faktenfragen weglassen. Die Evidenz ist ziemlich klar: Für faktische Fragen helfen Rollen nicht, und sie können schaden. Fragen Sie klar, mit gutem Kontext.

Was das für Ihren Workflow bedeutet

Das „act as“-Framing war nie Magie. Es war immer nur eine Art, Präferenzen zu kommunizieren. Jetzt, wo Modelle besser verstehen, wenn Präferenzen direkt formuliert sind, zählt dieses Framing weniger als früher.

Für die meisten praktischen Fälle sind Sie wahrscheinlich besser dran, wenn Sie:

  • konkret sagen, was Sie wollen
  • relevanten Kontext geben
  • Beispiele für guten Output zeigen
  • das gewünschte Format beschreiben

Das schlägt „du bist ein Experte“ fast immer.

Aber wenn Sie kreativ arbeiten, einen Chatbot mit Persönlichkeit bauen oder eine bestimmte Stimme brauchen, sind Rollen weiterhin sinnvoll. Sie sind nur nicht die Universaltechnik, als die sie oft dargestellt werden.

Am besten funktioniert es, wenn Sie klar wissen, warum Sie es einsetzen. Ton formen? Super. Faktische Genauigkeit? Suchen Sie woanders.

Welche Prompting-Technik hat bei Ihnen wirklich etwas verändert? Das wäre wahrscheinlich einen systematischeren Test wert als jede Rollen-Zuweisung.

Ready For DatBot?

Use Gemini 2.5 Pro, Llama 4, DeepSeek R1, Claude 4, O3 and more in one place, and save time with dynamic prompts and automated workflows.

Top Articles

Come on in, the water's warm

See how much time DatBot.AI can save you