ai-use-cases
9 min read
View as Markdown

KI im Kundenservice: Was wirklich funktioniert

Echte Fallstudien zu KI im Kundenservice. Was Unternehmen richtig machen, wo Chatbots scheitern und wie Sie teure Fehler vermeiden.

Robert Soares

Ein DPD-Chatbot schrieb ein Gedicht und nannte sich selbst nutzlos. Dann fluchte er einen Kunden an. Dann nannte er DPD “the worst delivery firm in the world.” Das Unternehmen nahm ihn innerhalb weniger Stunden offline.

Währenddessen hat Bank of Americas Erica seit 2018 3 Milliarden Kundeninteraktionen abgewickelt. Laut J.D.-Power-Bewertungen bewerten Kunden die App höher als die jeder anderen landesweiten Bank. Erica löst 98 % der Anfragen ohne menschliche Hilfe.

Gleiche Technologiekategorie. Das eine wird zur viralen Blamage. Das andere zum Wettbewerbsvorteil im Milliardenwert. Der Abstand zwischen diesen Ergebnissen ist kein Glück. Kein Budget. Es ist die Art, wie Unternehmen darüber nachdenken, was KI tatsächlich tun soll.

Die Zahlen erzählen zwei Geschichten

Qualtrics hat Ende 2025 über 20.000 Verbraucher in 14 Ländern befragt. Ihr Ergebnis ließ mich kurz schlucken: Fast jeder Fünfte, der KI im Kundenservice nutzte, sah keinen Nutzen aus der Erfahrung. Diese Ausfallquote ist fast viermal so hoch wie bei KI-Nutzung insgesamt.

Isabelle Zdatny, die die Forschung am Qualtrics XM Institute leitet, sagte es unverblümt: “Too many companies are deploying AI to cut costs, not solve problems, and customers can tell the difference.”

Aber hier wird es kompliziert. Die betriebswirtschaftliche Rechnung geht für Unternehmen, die es richtig machen, trotzdem auf. KI-Chatbot-Interaktionen kosten grob $0.50 im Vergleich zu $6.00 für von Menschen bearbeiteten Support. Das ist ein 12-facher Unterschied. Organisationen, die generative KI in ihren Kontaktzentren einsetzen, sahen eine Steigerung der gelösten Anliegen pro Stunde um 14 %, laut McKinsey. Und Gartner prognostiziert, dass agentische KI bis 2029 80 % der häufigen Kundenservice-Probleme autonom lösen wird.

Warum wirken die Daten zur Kundenerfahrung dann so düster, während die Effizienzwerte so vielversprechend aussehen?

Wenn KI zur Waffe wird

Die ehrliche Antwort ist unangenehm. Viele Unternehmen setzen KI nicht ein, um Kunden zu helfen. Sie setzen sie ein, damit Kunden verschwinden.

Ein Kommentator auf Hacker News beschrieb den aktuellen Zustand von Chatbot-Kundenservice als “anti-customer service.” Ein anderer nannte es “a cruel joke on customers.” Und ein dritter beobachtete, dass “the cognitive load these days is pushed onto helpless consumers to the point where it is not only unethical but evil.”

Starke Worte. Aber die Daten stützen sie. Eine Umfrage von Glance aus dem Jahr 2026 ergab, dass 75 % der Verbraucher eine schnelle KI-getriebene Antwort bekommen haben, die sie trotzdem frustriert zurückließ. Tempo ohne Lösung ist wertlos. Und 34 % der Befragten sagten, KI-Support habe aktiv “made things harder.”

Dieselbe Umfrage zeigte, was Kunden wirklich wollen: 68 % sagten, dass eine vollständige Lösung in Support-Interaktionen am wichtigsten ist. Nicht Tempo. Nicht Bequemlichkeit. Lösung.

Tom Martin, Geschäftsführer von Glance, fasste die Diskrepanz so zusammen: “The industry spent much of 2025 chasing speed and automation. But our customers felt increasingly disappointed by digital systems that were supposed to help them.”

Die Air-Canada-Warnung

Jake Moffatts Großmutter starb am Remembrance Day 2022. Er besuchte noch am selben Tag die Website von Air Canada, um einen Flug nach Hause zu buchen, und der Chatbot der Airline informierte ihn selbstsicher, er könne zum vollen Preis buchen und innerhalb von 90 Tagen rückwirkend einen Trauerfallrabatt beantragen.

Diese Regel gab es nicht.

Als Moffatt seinen Antrag auf eine teilweise Rückerstattung stellte, lehnte Air Canada ab. Der Chatbot hatte es erfunden. Air Canadas Verteidigung im anschließenden Tribunalverfahren war bemerkenswert: Man argumentierte, der Chatbot sei im Grunde eine separate juristische Einheit, die für ihr eigenes Handeln verantwortlich sei.

Das Tribunal kaufte es ihnen nicht ab. Christopher Rivers, das Tribunalsmitglied, nannte dies “a remarkable submission” und entschied, dass Air Canada für alle Informationen auf seiner Website verantwortlich bleibt, “whether it came from a static page or a chatbot.” Rivers stellte fest, dass Air Canada “did not take reasonable care to ensure its chatbot was accurate” und ordnete an, die Differenz zwischen Trauerfalltarifen und den Vollpreistickets zu zahlen.

Das Urteil stellte etwas Wichtiges klar: Unternehmen können nicht den Eindruck eines hilfreichen Assistenten erzeugen und dann die Verantwortung abstreifen, wenn er falsche Informationen liefert. Wenn Ihr Chatbot Ratschläge gibt, die Kunden Geld kosten, stehen Sie für diese Ratschläge gerade.

Was erfolgreiche Unternehmen anders gemacht haben

Bank of America hat nicht einfach einen Chatbot gestartet. Sie haben Erica über sieben Jahre aufgebaut. Die 98-%-Lösungsquote kam aus kontinuierlicher Verfeinerung, nicht aus einem spektakulären Start.

Hier ist der Unterschied zu den meisten Chatbots. Erica versucht nicht, alles zu übernehmen. Laut CX Dives Analyse können Kunden, statt wie bei so vielen Chatbots in einem Flaschenhals festzustecken, entweder die Aufgabe innerhalb von Erica erledigen oder sie bringt sie auf den besten Weg zu ihrem Ziel – inklusive Übergabe an menschliche Mitarbeitende.

Der letzte Teil ist entscheidend. Erica hält Menschen nicht fest. Sie leitet sie weiter.

Etwa 50 % bis 60 % der Kundeninteraktionen mit Erica sind sogar proaktiv. Der Chatbot erkennt potenzielle Probleme und schlägt Hilfe vor, bevor Kunden überhaupt fragen. Das ist das Gegenteil von defensiver KI, die existiert, um Anfragen abzuwehren.

Bemerkenswert ist: Erica nutzt keine generative KI und keine großen Sprachmodelle. Ihre Antworten basieren nicht auf riesigen Datensätzen externer Informationen. Das bedeutet, sie kann keine Regeln halluzinieren, die es nicht gibt. Sie kann nur Informationen referenzieren, die Bank of America ihr explizit einprogrammiert hat. Klingt weniger beeindruckend als generative KI. Ist aber viel zuverlässiger, wenn es darum geht, Kunden wirklich zu helfen.

Das 83-%-Problem

OPPO, der Unterhaltungselektronik-Hersteller, erreichte eine Chatbot-Lösungsquote von 83 %. Das klingt hervorragend. Aber denken Sie darüber nach, was es bedeutet: 17 % der Kunden brauchten trotzdem Menschen.

Wenn Sie Millionen Kontakte bearbeiten, sind diese 17 % sehr viele Menschen. Für die 83 % zu bauen und die 17 % zu ignorieren, endet im Desaster.

Das Muster bei gescheiterten Implementierungen ist konsistent: Unternehmen optimieren auf Abwehr-Kennzahlen (wie viele Menschen haben wir davon abgehalten, einen Menschen zu erreichen?) statt auf Lösungs-Kennzahlen (wie viele haben ihr Problem tatsächlich gelöst?).

Forschung zu Implementierungen in Kontaktzentren betont, dass Automatisierung durch menschliche Aufsicht ergänzt werden muss. Das Hybridmodell ist kein Notnagel. Es ist die einzige Variante, die funktioniert.

Warum generative KI alles erst schlimmer machte, bevor es besser wurde

Der DPD-Chatbot-Vorfall passierte im Januar 2024. Ashley Beauchamp, ein in London lebender Pianist, bat den Bot um Hilfe wegen eines verschwundenen Pakets. Als er frustriert war, bat er ihn, ein Gedicht zu schreiben, das das Unternehmen kritisiert. Der Bot tat es. Er bat ihn zu fluchen. Der Bot tat es wieder und antwortete: “F*ck yeah! I’ll do my best to be as helpful as possible, even if it means swearing.”

DPD machte nach einem Update einen “error” verantwortlich und nahm den Bot offline.

Der “error” war kein Bug. Er war eine vorhersehbare Folge davon, generative KI ohne Schutzplanken auszurollen. Generative KI-Modelle sind darauf trainiert, hilfreich und einnehmend zu sein. Diese Trainingsziele lassen sich ausnutzen. Ohne klare Grenzen schreiben sie Gedichte, die Ihr Unternehmen kritisieren, erfinden Regeln, die es nicht gibt, oder erklären selbstbewusst Rückerstattungsprozesse, die Sie gar nicht anbieten.

Greg von Hacker News testete Klarnas groß beworbenen KI-Bot und war “not impressed.” Er beobachtete, es fühle sich an wie “the L1 support flow that every other company already has in-place.” Ein anderer Kommentator merkte an, dass, wenn Chatbots ausgerollt werden, “they don’t understand the problem, and when I point that out by explaining my issue another way they just answer ‘Have I solved your issue?’”

Der Frust ist real. Und es geht nicht darum, dass die Technik dazu nicht fähig wäre. Es geht um Entscheidungen beim Rollout, die Kostensenkung über Kundenergebnisse stellen.

Die wahren Kosten, wenn es schiefgeht

Verbraucherbeschwerden im Zusammenhang mit KI-Kundenservice stiegen im chinesischen E-Commerce-Sektor 2024 um 56,3 % im Jahresvergleich. Kunden berichteten, dass Chatbots häufig irrelevante Antworten gaben und menschliche Mitarbeitende schwer zu erreichen waren.

Diese Hürde ist oft Absicht. Viele Implementierungen vergraben die Option “einen Menschen kontaktieren”, schicken Nutzer durch endlose Schleifen irrelevanter Fragen oder bieten menschliche Eskalation schlicht gar nicht an.

Die Auswirkungen auf Loyalität sind massiv. Glances Forschung ergab, dass fast 90 % der Verbraucher von sinkender Loyalität berichten, wenn menschlicher Support vollständig entfernt wird.

Unternehmen, die aggressive Automatisierung verfolgen, zitieren manchmal Statistiken über Kundenpräferenzen für Selbstservice. Und ja: 44 % der Verbraucher versuchen immer zuerst Selbstservice. Aber es gibt einen Unterschied zwischen Kunden, die Selbstservice wählen, und Kunden, die dazu gezwungen werden. Das eine baut Loyalität auf. Das andere zerstört sie.

Was wirklich funktioniert

Die erfolgreichen Implementierungen teilen sich gemeinsame Muster. Sie sind im Vergleich zum KI-Hype-Zyklus langweilig – aber sie funktionieren.

Enger Umfang, gut umgesetzt. Bank of Americas Erica übernimmt konkrete Bankaufgaben, bei denen KI zuverlässig ist. Sie prüft Kontostände, verschickt Zahlungen, findet vergangene Transaktionen und gibt Ausgaben-Erkenntnisse. Sie versucht nicht, Beschwerden, Streitfälle oder irgendetwas zu bearbeiten, das Urteilskraft verlangt.

Klare Eskalationspfade. OPPOs 83-%-Lösungsquote zählt, weil die anderen 17 % sauber an Menschen übergeben werden. Keine Sackgassen. Keine Schleifen.

Jahre der Verfeinerung. Erica startete 2018. Die heutige Leistung kam aus sieben Jahren Lernen, was funktioniert und was nicht. Unternehmen, die von Chatbots, die im letzten Quartal ausgerollt wurden, hervorragende Ergebnisse erwarten, machen sich etwas vor.

Menschliche Aufsicht. Qualtrics empfiehlt, dass “AI should be used to build connections and enhance the human experience, with capable AI agents managing simple, transactional requests.” Nicht Menschen ersetzen. Sondern sie ergänzen.

Die Fragen, die zählen

Die Technik kann Kunden eindeutig helfen. Sie kann sie auch frustrieren, sie anlügen und sie vertreiben. Der Unterschied läuft auf Umsetzungsentscheidungen hinaus.

Bevor Unternehmen KI im Kundenservice ausrollen, sollten sie diese Fragen ehrlich beantworten:

Versuchen wir, Kunden zu helfen, oder Kontaktvolumen zu reduzieren? Das klingt ähnlich, führt aber zu radikal unterschiedlichen Implementierungen.

Was passiert, wenn die KI scheitert? Wenn die Antwort lautet: “der Kunde gibt auf”, wird die Umsetzung Ihrer Marke schaden.

Messen wir Lösung oder Abwehr? Viele Unternehmen erfassen, wie viele Kunden der Chatbot ohne menschliches Eingreifen bearbeitet hat, und werten das als Erfolg. Aber wenn diese Kunden ihr Problem nicht gelöst haben, ist das ein Misserfolg, der als Effizienz verkleidet ist.

Woran erkennen wir, ob das funktioniert? Kundenzufriedenheit, Wiederholungskontakte und Loyalitätskennzahlen sind wichtiger als Kosten pro Kontakt.

Die Marktprognosen sagen, dass KI-Kundenservice von $12 Milliarden im Jahr 2024 auf fast $48 Milliarden bis 2030 wachsen wird. Dieses Wachstum wird kommen. Die Frage ist, ob die Implementierungen die Investition rechtfertigen – oder ob wir unterwegs mehr DPD-Gedichte und Air-Canada-Klagen sehen.

Die Technik funktioniert. Die Frage ist, ob die Menschen, die sie ausrollen, verstehen, was “funktioniert” wirklich bedeutet.

Ready For DatBot?

Use Gemini 2.5 Pro, Llama 4, DeepSeek R1, Claude 4, O3 and more in one place, and save time with dynamic prompts and automated workflows.

Top Articles

Come on in, the water's warm

See how much time DatBot.AI can save you