Es ist Zeit, etwas Spannendes zu enthüllen, das im Labor gekocht hat - DB-1, unser Framework zur Verbesserung der LLM-Reasoning-Fähigkeiten.
Wir wollten etwas Neues machen, nachdem wir vor einiger Zeit unser Enhanced Reasoning Feature entwickelt haben, und wir sind bisher ziemlich zufrieden, obwohl ich es definitiv als Beta-Produkt bezeichnen würde.
Hinweis: Obwohl dies in der Oberfläche als Modellauswahl angezeigt wird, ist es unter der Haube ein spezifisches Framework, das um andere Modelle gewickelt ist - ich mochte nicht behaupten, dass wir etwas tun, was wir nicht tun, besonders da das, was wir TUN, ziemlich einzigartig ist.
Sie haben vielleicht den Hype um Modelle wie o3 und Gemini 2.5 gesehen, oder, wenn Sie wirklich aufpassen, Sky-T1, die durch Skalierung von “Test-time Compute” - der Zeit, die benötigt wird, um Ihnen zu antworten, anstatt der Zeit, die benötigt wird, um das Modell ursprunglich zu trainieren - reasoning können. Nun, wir haben an unserem eigenen Ansatz gearbeitet, und er ist… anders. Auf eine gute Art!
Was Macht DB-1 Besonders?
Anstatt ein vollig neues Frontier-Level-KI-Modell zu trainieren (was, seien wir ehrlich, ein Vermogen kostet - abgesehen von Sky-T1s beeindrückendem $450 Fine-tune), haben wir ein Framework entwickelt, das sich wie ein gemütlicher Supergehirn-Pullover um existierende LLMs wickeln kann.
Wir haben spezifische architektonische Leitplanken und Reasoning-Prompts gebaut, die es (existierenden!) Modellen ermöglichen, Probleme flexibel anzugehen. Dieser Ansatz lässt LLMs frühere Annahmen neu bewerten und Reasoning-Prozesse auf eine etwas raffiniertere Weise hinterfragen als “lässt uns Schritt für Schritt denken” zu sagen (obwohl dieser Trick immer noch gut funktioniert! Er ist als Chain of Thought bekannt, falls Sie davon gehört haben - und wenn Sie nicht versucht haben, ihn in Ihren eigenen Prompts zu verwenden, probieren Sie es aus, Sie könnten überrascht sein, wie gut es funktioniert!).
DatBots Geheime Zutat (Nun, Ein Teil Davon)
Obwohl ich nicht genau erklären werde, wie DB-1 funktioniert, da es mein eigener persönlicher Ansatz ist (Sie können ein Gefühl dafür bekommen, indem Sie einfach die Ausgabe lesen - DatBot legt den gesamten Reasoning-Prozess offen), hier ist, was ich sagen kann:
- Es ist ein Framework, kein Modell - was bedeutet, dass ich es mit verschiedenen LLMs verwenden kann - ich habe es mit einigen getestet, und es funktioniert mit manchen besser als mit anderen.
- Verwendet fortgeschrittene Prompting-Techniken (die es Nicht-Reasoning-Modellen ermöglichen, wie o1 oder QwQ zu reasonen (worauf Sky-T1 modelliert ist - beachten Sie, dass wir sowohl QwQ als auch o1 in DatBot verfügbar haben, damit Sie sie ausprobieren können).
- Hat eingebaute architektonische Leitplanken, um das Reasoning auf Kurs zu halten.
- Ermöglicht viel langere selbstkonsistente Ausgaben als jedes andere Modell, einschließlich o1 und QwQ Antworten.
- Funktioniert gut für kreative Aufgaben, im Gegensatz zu traditionellen Reasoning-Modellen, aufgrund der Art, wie es den Reasoning-Prozess handhabt.
- Verliert sich gelegentlich noch… in Gedanken und gibt Fehler aus. Also behandeln Sie es ein bisschen wie einen Traumtanzer, und bitte seien Sie nicht verärgert, wenn es ab und zu einige Credits verbraucht - es ist nur in Gedanken verloren!
- Warnung - Wenn Sie Sherlock als Ton damit verwenden… bereiten Sie sich auf einige… sehr lange Ergebnisse vor. Ausgezeichnete Analyse, nur… lang. Sehr lang.
Die Wissenschaft Dahinter
Wir sind nur einer in einer langen Reihe von Forschern, die verschiedene Versionen der Skalierung von Test-time Compute ausprobieren. Forschung von DeepMind, hier als Beispiel veröffentlicht, “Scaling LLM Test-Time Compute Optimally”, zeigt, dass intelligente Nutzung von Test-time (also beim Antworten) Compute tatsächlich effizienter sein kann als ein größeres Modell zu trainieren. Tatsächlich fanden sie heraus, dass ein kleineres Modell, optimiert, die Leistung eines Modells mit 14-facher Große erreichen könnte!
Unser Framework nimmt diese Art von Einsicht und wendet sie auf praktische, (größtenteils) produktionsreife Weise an, die wir dann für Sie freigeben können.
Warum Das Wichtig Ist
Schauen Sie, massive Modelle zu trainieren ist großartig - wir waren ohne das nicht hier, aber nicht jeder hat Zugang zu zig Millionen Dollar Compute-Budget (traurigerweise nicht einmal wir). Wir wollten etwas schaffen, das fortgeschrittene Reasoning-Fähigkeiten demokratisieren könnte - etwas, das mit den Modellen funktionieren könnte, auf die Sie bereits Zugriff haben, und das wir parallel zu den Branchenriesen verbessern können, um ihre Arbeit für den Rest von uns noch weiter auszudehnen.
Was Kommt Als Nächstes?
Wir optimieren DB-1 noch, und wir würden gerne von Ihnen hören! Wie verwenden Sie es?
Welche Arten von Aufgaben haben Sie ihm zugeworfen? Haben sie funktioniert? Kläglich versagt? Schicken Sie Ihre Gedanken an [email protected] mit Erfahrungen oder Fragen.