ai-strategy
8 min read
View as Markdown

Die unbequeme Wahrheit über die Bewertung von KI-Anbietern

Die meisten Bewertungen von KI-Anbietern verfehlen das Wesentliche. Was Praktiker tatsächlich darüber gelernt haben, wie man Werkzeuge auswählt, echte Tests fährt und die Fallen vermeidet, die Monate an Arbeit verbrennen.

Robert Soares

Funktionsvergleichstabellen lügen.

Jeder KI-Anbieter hat eine beeindruckende Funktionsliste. Jede Demo läuft fehlerfrei auf vorbereiteten Daten. Jede Verkaufspräsentation verspricht eine Transformation, die dann doch nie so ankommt, wie sie verkauft wurde – und Sie merken es erst, nachdem Sie einen Vertrag unterschrieben haben, der Sie für achtzehn Monate festnagelt.

Die Landschaft der KI-Anbieter bestraft klassische Bewertungsansätze, weil diese für Software gedacht waren, die jedes Mal gleich funktioniert, wenn man sie ausführt – genau das tun KI-Werkzeuge nicht. Ein Modell, das bei Ihrem Test-Prompt glänzt, kann bei echten Daten, die Sie ihm drei Wochen nach der Einführung geben, halluzinieren. Der Anbieter, der im Vertrieb reaktionsschnell wirkt, braucht nach Vertragsabschluss vielleicht Tage für eine Antwort.

Bei der Bewertung muss sich etwas ändern.

Was Funktionslisten wirklich verbergen

Anbieter konkurrieren über Funktionsanzahlen. Mehr Funktionen sollen mehr Wert bedeuten. Diese Logik zerfällt, sobald man sie auf KI anwendet.

Eine Funktion, die existiert, ist nicht automatisch eine Funktion, die für Ihren Anwendungsfall funktioniert. Die Lücke zwischen „unser Produkt kann X“ und „unser Produkt tut X zuverlässig für Kundinnen und Kunden wie Sie“ ist oft riesig – und Anbieter haben einen finanziellen Anreiz, diese Unterscheidung bei jeder Gelegenheit zu verwischen.

Nehmen Sie Modellfähigkeiten. Die meisten Anbieter bieten inzwischen Zugriff auf Spitzenmodelle von OpenAI, Anthropic und Google. Das Modell selbst wird zur Massenware. Entscheidend ist alles um dieses Modell herum: die Prompt-Infrastruktur, die Integrationsqualität, das Fehlermanagement, wenn etwas schiefgeht. Diese Umsetzungsdetails tauchen auf Funktionsvergleichsseiten selten auf.

simonw, der Schöpfer von Datasette und eine respektierte Stimme bei KI-Werkzeugen, brachte diese Realität in einer Hacker-News-Diskussion zur KI-Bewertung auf den Punkt:

“If you try to fix problems by switching from eg Gemini 2.5 Flash to OpenAI o3 but you don’t have any evals in place how will you tell if the model switch actually helped?”

Das Modell ist weniger wichtig als Ihre Fähigkeit zu messen, was irgendein Modell für Sie tatsächlich leistet. Anbieter, die Modellnamen zum Hauptargument machen, verstecken oft schwache Infrastruktur hinter geliehener Glaubwürdigkeit.

Warnsignale in Anbieterpräsentationen

Achten Sie darauf, wie Anbieter auf konkrete Fragen nach Grenzen reagieren – und Sie erfahren alles, was Sie über die Beziehung wissen müssen, die Sie eingehen würden.

Der Schwenk auf vorbereitete Demos. Sie beschreiben Ihren konkreten Anwendungsfall. Sie zeigen eine andere Demo. Das passiert ständig. Die vorbereitete Demo funktioniert, weil sie so gebaut wurde, dass sie funktioniert. Ihr Anwendungsfall wurde nicht „gebaut“. Dieser Schwenk sagt Ihnen: Entweder können sie Ihr Szenario nicht – oder sie wollen Ihnen nicht zeigen, wie ihr Werkzeug ins Straucheln gerät.

Ausweichende Antworten zu Trainingsdaten. Woher stammen die Daten, mit denen ihre eigenen Modelle trainiert wurden? Viele Anbieter können oder wollen darauf nicht antworten. Das ist wichtig – sowohl für die Qualität als auch für das rechtliche Risiko. Modelle, die auf gesammelten Daten unklarer Herkunft trainiert wurden, bringen ein Urheberrechtsrisiko mit, das später bei Ihnen landen kann.

Keine Geschichten über Fehlschläge. Jedes Werkzeug scheitert manchmal. Anbieter, die etwas anderes behaupten, lügen – oder wurden nicht im großen Maßstab getestet. Ehrliche Anbieter benennen, wo ihre Werkzeuge kämpfen. Sie kennen ihre Grenzen, weil sie gesehen haben, wie echte Kundinnen und Kunden an diese Grenzen stoßen. Diese Ehrlichkeit signalisiert Partnerschaft statt Verkäufermentalität.

Zukunftsfunktionen als heutiger Nutzen. „Das steht auf unserem Fahrplan“ heißt übersetzt: „Das haben wir nicht.“ Bewerten Sie, was existiert – nicht, was vielleicht einmal existiert. Fahrpläne ändern sich. Finanzierungen versiegen. Prioritäten verschieben sich. Funktionen, die für Q3 versprochen werden, kommen manchmal nie.

Bewertungen, die die Wahrheit ans Licht bringen

Demos zeigen Bestfälle. Echte Bewertung heißt: Tests bauen, an denen Ihr ausgewähltes Werkzeug scheitern könnte – und dann genau beobachten, wie es scheitert.

Starten Sie mit Randfällen aus Ihrer tatsächlichen Arbeit. Keine repräsentativen Stichproben. Randfälle. Die merkwürdigen Anfragen, die Ihr Team verwirren. Die chaotischen Datenformate, die Sie wirklich bekommen. Die ungewöhnlichen Fragen, die Kundinnen und Kunden manchmal stellen. KI-Werkzeuge, die typische Fälle gut abdecken, aber bei Randfällen zusammenbrechen, erzeugen nach dem Ausrollen Eskalationen und Frust.

Nathan Lambert, ein Forscher, der ausführlich über die Fähigkeiten von KI-Modellen schreibt, beschrieb seinen eigenen Wechsel:

“Claude 3.5 just does what I need a few percentage points more reliably than ChatGPT”

Ein paar Prozentpunkte. So zeigen sich echte Unterschiede. Nicht als dramatische Fähigkeitslücken, die man in einer Demo sofort sieht, sondern als kleine Zuverlässigkeitsunterschiede, die sich über Tausende Nutzungen zu großen Auswirkungen auf Ihren Ablauf aufschaukeln. Diese Unterschiede sehen Sie nur durch konsequentes Testen an Ihren tatsächlichen Aufgaben.

Strukturieren Sie Ihre Bewertung so, dass diese Unterschiede sichtbar werden:

Führen Sie identische Prompts bei allen Anbietern aus. Gleiche Eingabe, unterschiedliche Werkzeuge, Ausgaben messen. Machen Sie das im größeren Umfang. Nicht fünf Tests. Mindestens fünfzig. Hundert, wenn die Entscheidung wichtig genug ist.

Testen Sie über einen Zeitraum. Ein Werkzeug, das am Montag perfekt läuft, kann am Donnerstag kämpfen, wenn der Anbieter Kapazitätsprobleme hat oder Updates ausrollt. Eine eintägige Bewertung sagt Ihnen etwas über einen Tag. Eine zweiwöchige Bewertung beginnt, Muster zu zeigen.

Beziehen Sie die Menschen ein, die das Werkzeug wirklich nutzen. Technische Prüfer testen andere Dinge als tägliche Nutzerinnen und Nutzer. Beide Perspektiven zählen. Wer das Werkzeug acht Stunden am Tag nutzt, bemerkt Reibung, die jemand übersieht, der es nur einen Nachmittag lang ausprobiert.

Dokumentieren Sie Fehler präzise. Wenn etwas schiefgeht, halten Sie exakt fest, was schiefging. Die Qualität des Kundensupports zeigt sich daran, wie sie auf dokumentierte Fehler reagieren. Manche Anbieter gehen auf Fehlersuche. Manche weichen aus.

Die Anbieterbindung, die niemand früh genug anspricht

Wechselkosten in der KI steigen schneller an, als die meisten erwarten.

Sie bauen Prompts. Sie schulen Teams auf Oberflächen. Sie integrieren Werkzeuge in Abläufe. Sie erstellen interne Dokumentation. Sie entwickeln implizites Wissen darüber, was funktioniert – und was man besser lässt. All das wird zu versunkenen Kosten, die den Wechsel schmerzhaft machen, selbst wenn ein Wechsel klug wäre.

Eine Umfrage unter IT-Führungskräften aus dem Jahr 2025 fand, dass 45 % berichten, Anbieterbindung habe bereits ihre Fähigkeit behindert, bessere Werkzeuge zu übernehmen. Fast die Hälfte der Organisationen fühlt sich mit Anbietern gefangen, die sie gewählt haben, bevor sie die vollen Folgen dieser Wahl verstanden.

Denken Sie über Anbieterbindung bei der ersten Bewertung nach – nicht erst danach. Stellen Sie Anbietern unangenehme Fragen:

Können Sie alle Prompt-Vorlagen und Konfigurationen in einem portablen Format exportieren? Was passiert mit Ihren Daten, wenn Sie gehen? Gibt es Ausstiegsgebühren? Wie lange dauert die Datenlöschung? Nutzen sie Ihre Daten, um Modelle zu trainieren, von denen Wettbewerber profitieren könnten?

Anbieter, die diese Fragen klar und günstig für Sie beantworten, glauben, dass ihre Produktqualität – nicht Ihre Wechselkosten – Sie als Kundin oder Kunde hält. Dieses Vertrauen ist selbst ein Signal, das man notieren sollte.

Architekturentscheidungen während der Einführung beeinflussen die Anbieterbindung ebenfalls. Abstraktionsschichten zwischen Ihren Systemen und der API des Anbieters schaffen spätere Flexibilität. Anbieter-spezifische Logik überall im Code fest zu verdrahten schafft Abhängigkeit, die mit der Zeit immer schwerer zu lösen ist.

Ein gewisses Maß an Bindung ist akzeptabel. Tiefe Integration erreichen Sie nicht ohne eine gewisse Verpflichtung. Aber den Grad Ihrer Bindung zu kennen und bewusst zu wählen, ist etwas anderes, als ihn zufällig zu entdecken, wenn Sie gehen wollen.

Was Vorführungen Ihnen nicht zeigen können

Die Qualität des Kundensupports.

Im Vertrieb wird jede Frage schnell beantwortet. Nach Vertragsabschluss dehnen sich die Antwortzeiten manchmal dramatisch aus. Das Kundensupport-Team, das Sie verkauft, ist nicht das Kundensupport-Team, das Ihnen hilft – und die Anreize verschieben sich, sobald der Deal durch ist.

Bitten Sie gezielt um Referenzen zu Kundensupport-Erfahrungen. Nicht Referenzkunden, die erfolgreich eingeführt haben und nie Hilfe brauchten. Referenzen, die Probleme hatten. Wie wurden diese Probleme behandelt? Wie lange dauerte die Lösung? Fühlte es sich nach Partnerschaft an – oder nach Tickets in einer Warteschlange?

Auch die Veränderungsfähigkeit der Organisation zählt. Ein Werkzeug, das Ihr Team nicht nutzt, scheitert unabhängig von seinen Fähigkeiten. Zu verstehen, wie bereit Ihre Organisation für neue Technologie ist, welche Schulungen nötig sind und wie hoch die Veränderungstoleranz ist, sollte die Anbieterauswahl genauso beeinflussen wie ein Funktionsvergleich.

Und vielleicht am wichtigsten: Der Bewertungsprozess selbst zählt. Wie Anbieter sich während der Bewertung verhalten, sagt voraus, wie sie sich als Partner verhalten. Drucktaktiken im Vertrieb deuten auf Drucktaktiken bei Verlängerungen hin. Transparenz über Grenzen deutet auf Transparenz bei Problemen hin. Die Beziehung, die Sie in der Bewertung erleben, ist oft die beste Version der Beziehung, die Sie mit diesem Anbieter je haben werden.

Die Frage, die alle Checklisten ersetzt

Bewertungsrahmen geben Struktur. Struktur hilft. Aber jeder Rahmen läuft am Ende auf eine gewichtete Punktzahl hinaus, die die Ermessensentscheidung verschleiert, die kein Punktesystem für Sie treffen kann.

Wenn Praktiker ihre besten Entscheidungen für KI-Anbieter beschreiben, sprechen sie selten über Bewertungsrahmen. Sie sprechen über Passung. Das Werkzeug, das funktionierte, war das Werkzeug, das dazu passte, wie ihr Team tatsächlich arbeitet, das ihre konkreten Probleme adressierte, das sich im Alltag richtig anfühlte, nachdem der Glanz der Demo verflogen war.

Die entscheidende Frage: „Glauben wir – basierend auf allem, was wir in der Bewertung gelernt haben –, dass dieser Anbieter uns zum Erfolg verhilft, und vertrauen wir ihm genug, um eine Abhängigkeit von seiner Infrastruktur aufzubauen?“

Vertrauen lässt sich schwer in eine Tabelle pressen. Es entsteht, wenn man beobachtet, wie Menschen sich verhalten, wenn es schwierig wird. Die besten Bewertungen schaffen absichtlich kleine Schwierigkeiten – und schauen dann genau hin.

Manche Anbieter werden diesen Ansatz nicht mögen. Diese Anbieter sagen Ihnen damit etwas Wichtiges.

Ready For DatBot?

Use Gemini 2.5 Pro, Llama 4, DeepSeek R1, Claude 4, O3 and more in one place, and save time with dynamic prompts and automated workflows.

Top Articles

Come on in, the water's warm

See how much time DatBot.AI can save you