CEO-Bench: Wo KI-Agenten scheitern und was Sie daraus lernen

Warum dieser Beitrag

Wenn aktuell jemand über autonome KI im Unternehmen spricht, klingt das meist nach einem Agenten, der eigenständig plant, entscheidet und handelt. Genau das hat ein neuer Test einmal sauber gemessen, und das Ergebnis lohnt sich anzusehen, bevor Sie viel Geld in eine autonome KI-Lösung stecken.

CEO-Bench ist ein im Juni 2026 veröffentlichter Benchmark, der KI-Agenten ein simuliertes Startup über 500 Tage führen lässt. Das Ergebnis ist ernüchternd und zugleich lehrreich: Fast alle großen Sprachmodelle scheitern, und eine simple, fest programmierte Regel-Heuristik schlägt jedes einzelne von ihnen um ein Vielfaches. In diesem Beitrag fasse ich die Studie zusammen, bewerte ihre Aussagekraft kritisch und ziehe die praktischen Lehren, die für jedes eigene KI-Projekt gelten.

Was CEO-Bench eigentlich misst

Hinter CEO-Bench stehen drei Forscher der Princeton University, Haozhe Chen, Karthik Narasimhan und Zhuang Liu. Das zugehörige Paper trägt den Titel „CEO-Bench: Can Agents Play the Long Game?” (arXiv 2606.18543, Juni 2026).

Der Test misst bewusst nicht die übliche Aufgaben-Intelligenz, also ob ein Modell eine einzelne Frage gut beantwortet. Stattdessen geht es um etwas, das die Autoren „Steering Intelligence” nennen, sinngemäß die Fähigkeit, eine Organisation über lange Zeit auf ein Ziel hin zu steuern. Dazu gehören laut den Autoren vier Kernfähigkeiten: mit Unsicherheit umgehen, in einer verrauschten Umgebung Informationen beschaffen, sich an Veränderungen anpassen und viele bewegliche Teile auf ein gemeinsames Ziel ausrichten.

Das ist genau die Art von Fähigkeit, die man einem KI-Agenten zuschreibt, wenn man ihn längere Zeit unbeaufsichtigt laufen lassen will. CEO-Bench prüft, ob heutige Modelle das überhaupt können.

Das Setup, das die Schwächen sichtbar macht

Der Agent startet mit 1 Million US-Dollar Kapital und führt das fiktive Unternehmen über 500 simulierte Tage. Erfolgsmetrik ist allein der Kassenstand am Ende. Jede Woche trifft der Agent Entscheidungen über 34 Werkzeuge, von Preisgestaltung über Marketing und Produktentwicklung bis zu Infrastruktur und Enterprise-Verhandlungen. Dazu hat er Zugriff auf eine Datenbank mit 19 Tabellen.

Die Welt ist absichtlich schwierig gebaut: 26 Kundengruppen mit verborgenen Preis- und Qualitätspräferenzen, nur teilweise Einblick in das Geschehen, verzögerte und miteinander gekoppelte Folgen von Entscheidungen, Konkurrenzdruck, Konjunkturzyklen und Zufallsrauschen.

Ein Detail ist methodisch besonders wichtig: Die Ergebnisse entstehen aus festen ökonomischen Regeln, nicht aus einem zweiten Sprachmodell, das als Schiedsrichter bewertet. Das ist eine bewusste Abgrenzung zu Benchmarks, bei denen ein LLM ein anderes beurteilt. Solche Aufbauten lassen sich austricksen, weil ein Agent sich durch überzeugendes Formulieren Vorteile erschwindeln kann, ohne real etwas zu leisten. Bei CEO-Bench zählt nur, was die Mechanik ausspuckt.

Das Ergebnis: Die meisten gehen pleite

Das zentrale Ergebnis ist deutlich. Die meisten Modelle scheitern, viele enden im Bankrott. Nur drei Modelle schließen ihren besten Lauf überhaupt über dem Startkapital ab. Die folgende Tabelle zeigt den besten Lauf je Modell laut Leaderboard (Stand Juni 2026):

Modell	Bester Lauf	Pleiten	Läufe
Claude Fable 5 (siehe Hinweis)	47,1 Mio. $	0 von 2	2
Claude Opus 4.8	27,8 Mio. $	0 von 3	3
GPT-5.5	21,3 Mio. $	2 von 3	3
Claude Opus 4.7	0,39 Mio. $	0 von 3	3
Claude Sonnet 4.6	0,07 Mio. $	2 von 3	3
GLM 5.1, Haiku 4.5, Gemini 3 Flash, Grok 4.20, DeepSeek V4 Pro	0 $	3 von 3	3

Der entscheidende Vergleichswert steht nicht in dieser Tabelle: Eine simple, fest programmierte Regel-Heuristik erreicht 15,76 Millionen US-Dollar und schlägt damit fast jedes Sprachmodell, ohne ein einziges Mal nachzudenken. Das geschätzte theoretische Optimum liegt bei rund 2,2 Milliarden US-Dollar. Selbst der beste KI-Lauf landet also bei etwa zwei Prozent dessen, was theoretisch möglich wäre.

Im Klartext: Die Modelle sind nicht etwa gut und der Mensch nur etwas besser. Eine triviale Heuristik schlägt die meisten Modelle um Größenordnungen.

Die Schwächen der Studie

So spannend der Befund ist, als Messinstrument hat CEO-Bench klare Schwächen. Ich nenne sie, weil sie für die richtige Einordnung wichtig sind.

1. Winzige Stichprobe. Pro Modell gibt es nur zwei bis drei Läufe. Bei einer stark vom Zufall geprägten Umgebung ist das kaum belastbar. Man sieht es direkt an den Zahlen: GPT-5.5 schwankt zwischen 21,3 Millionen Dollar im besten Lauf und Bankrott in zwei von drei Läufen. Aus so wenigen Durchläufen lässt sich kein verlässliches Können ableiten, das ist näher an Glücksspiel-Varianz als an einer Messung.

2. Der beste Lauf als Schlagzeile. Das Leaderboard zeigt jeweils den besten Lauf. Das begünstigt Rosinenpicken, weil ein einziger guter Durchlauf aus dreien die Platzierung bestimmt. Der Median oder der schlechteste Fall sähe deutlich nüchterner aus.

3. Fragliche Konstruktvalidität. Misst der Test wirklich strategische Brillanz? Dass eine simple Heuristik alle Modelle schlägt, legt eher nahe, dass hier diszipliniertes Buchhalten und sauberes Optimieren unter Nebenbedingungen belohnt wird, nicht der kreative Strategiesprung, den der Begriff „Steering Intelligence” suggeriert.

4. Nur eine Welt. Alle Schlüsse stammen aus einem einzigen Simulator mit fest gewählten Parametern. Wie stabil die Rangfolge bei anderen Einstellungen wäre, bleibt offen. Ein Modell könnte schlicht besser zu dieser einen Mechanik passen.

5. Verweigerungen verzerren die Spitze. Das führende Modell Claude Fable 5 hat in einem Lauf an Tag 385 die Arbeit verweigert, in den anderen Läufen fiel die Anfrage zeitweise auf Opus 4.8 zurück. Der Spitzenwert von 47,1 Millionen Dollar ist damit streng genommen ein Mischergebnis, kein sauberer Einzelmodell-Lauf.

6. Kosten und Rechenaufwand sind nicht festgelegt. Die Zahl der Züge pro Woche und die API-Kosten schwanken stark: GPT-5.5 mit 34,7 Zügen pro Woche und rund 200 Dollar, Opus 4.8 mit 10,9 Zügen und rund 213 Dollar, Haiku 4.5 mit 6,68 Dollar. Ohne festes Budget ist nicht sauber getrennt, ob ein Modell klüger steuert oder einfach mehr rechnen darf.

7. Fehlende unabhängige Replikation. Claude-Modelle dominieren das Leaderboard, und das ausgewertete Spitzenmodell ist ein noch unveröffentlichtes Modell. Das ist kein Beweis für eine Verzerrung, aber es fehlt eine unabhängige Wiederholung durch Dritte. Die Autoren selbst bezeichnen die Auswertung mehrfach als vorläufig.

Der robusteste Take-away ist deshalb nicht „Modell X steuert gut”, sondern: Selbst die besten heutigen Agenten unterliegen einer trivialen Heuristik um Größenordnungen.

Was Sie für Ihre eigene KI daraus lernen

Jetzt zum eigentlich Wertvollen. Gerade weil CEO-Bench zeigt, wo Agenten brechen, lässt sich daraus viel für eigene KI-Projekte ableiten. Diese Lehren gelten unabhängig davon, ob Sie eine Automatisierung in Ihrem Betrieb planen oder einen größeren Agenten bauen lassen.

Lassen Sie die KI Regeln und Code schreiben, nicht jede Entscheidung treffen. Der wichtigste Befund: Eine feste Regel-Heuristik schlägt alle Modelle. Für klar strukturierte, wiederkehrende Optimierungsprobleme ist ein frei entscheidendes Sprachmodell die schlechteste Wahl. Die besten Läufe machten genau das richtig, sie schrieben sich eigene kleine Programme, um Szenarien durchzurechnen, statt jeden Zug zu erfühlen. Übertragen heißt das: Setzen Sie das Modell an den unstrukturierten Rändern ein, also für Textverständnis, Klassifikation und Strategievorschläge, und lassen Sie den Kern als feste, überprüfbare Logik laufen.

Geben Sie dem Agenten eine Umgebung, keine reine Werkzeugliste. Die stärksten Agenten bauten sich auf der Programmierschnittstelle eigene Infrastruktur, etwa ein datengetriebenes System statt 26 einzelner Werkzeugaufrufe. Eine Code- und Terminalumgebung ist mächtiger als ein eng definiertes Werkzeug-Set, weil der Agent eigene Abstraktionen darüber legen und im Stapel arbeiten kann.

Das Gedächtnis ist der Engpass, nicht die Intelligenz. Die Modelle scheiterten nicht an einzelnen Aktionen, sondern daran, diese über lange Zeit unter verzögertem Feedback zusammenzuhalten. Die erfolgreichen Läufe schrieben Notizen mit klaren Wenn-dann-Regeln, auf die sie später zurückgriffen. Für langlaufende Systeme brauchen Sie ein strukturiertes externes Gedächtnis aus Notizen, Zustandsdateien und regelmäßiger Neubewertung. Genau dafür sind Ansätze wie Agentic Memory und RAG gedacht.

Agenten erstarren mit der Zeit. In den Läufen explorierten Modelle zunächst und verfielen dann in eine passive Halte-Strategie oder reines Geld-Sparen. Über lange Zeiträume neigen Agenten zu Untätigkeit und Risikoscheu. Wer etwas autonom laufen lässt, braucht feste Auslöser, die regelmäßig zu erneuter Prüfung und Anpassung zwingen.

Ein guter Demo-Lauf beweist nichts. GPT-5.5 schwankte zwischen 21 Millionen Dollar und Bankrott. Verlassen Sie sich bei agentischen Abläufen nie auf einen einzigen Durchlauf. Bauen Sie Wiederholungen, Plausibilitätsprüfungen und Schutzgeländer ein und bewerten Sie Erfolg über den Durchschnitt, nicht über den besten Fall. Was im Vorführmodus glänzt, kann im Alltag scheitern.

Mehr Aktionen sind nicht besser. GPT-5.5 brauchte 34,7 Züge pro Woche, Opus 4.8 nur 10,9, bei vergleichbarem Ergebnis. Rohe Aktivität ist kein Qualitätssignal und treibt nur die Kosten. Optimieren Sie auf Entscheidungsdichte pro Aktion, nicht auf Geschäftigkeit.

Messen Sie gegen harte Signale, nicht gegen ein Sprachmodell. Wenn Sie KI-Abläufe bewerten oder Rückkopplungen bauen, prüfen Sie das Ergebnis nach Möglichkeit gegen objektive, regelbasierte Werte. Ein Modell, das ein anderes beurteilt, lässt sich durch überzeugendes Reden täuschen. Im SEO-Kontext heißt das: echte Rankings, Klickrate und Conversions statt „klingt gut”.

Verweigerungen und Fehler killen unbeaufsichtigte Läufe. Ein einziger abgebrochener Lauf zeigt es: Bei langlaufenden, unbeaufsichtigten Agenten brauchen Sie eine Ausweichlogik aus einem zweiten Modell, einem erneuten Versuch oder einem menschlichen Eskalationspunkt. Sonst beendet ein einzelner Abbruch den ganzen Prozess.

Fazit

CEO-Bench ist konzeptionell wertvoll und ehrlich gerahmt, mit einem methodisch sauberen Kern und einer entlarvenden Baseline. Als Ranglisten-Werkzeug ist es durch die winzige Stichprobe, die Bestlauf-Darstellung und das Ein-Welt-Setup noch zu schwach für belastbare Modellvergleiche. Die belastbare Erkenntnis lautet nicht „dieses Modell steuert gut”, sondern dass selbst die besten heutigen Agenten einer simplen Heuristik klar unterliegen.

Für die Praxis ergibt sich ein roter Faden: Das Sprachmodell ist der schwächste Teil, wenn es alles allein entscheiden soll. Am stärksten ist es als Erzeuger von Code, Plänen und Abstraktionen, die danach fest und nachprüfbar laufen. Genau so baue ich KI-Lösungen auf, wenn ein Betrieb etwas zuverlässig automatisieren will, statt einem Modell blind die Kontrolle zu überlassen.

Wenn Sie überlegen, wo sich KI in Ihrem Unternehmen wirklich lohnt und wo eine schlichte Automatisierung die bessere Wahl ist, schaue ich mir das gern konkret an. Mehr dazu auf den Seiten KI-Beratung und KI-Lösungen. Wie sich KI auf die Sichtbarkeit auswirkt, habe ich außerdem im Beitrag Andrej Karpathys Idea File beleuchtet.

Quellen und weiterführende Links

CEO-Bench (offizielles Leaderboard und Methodik) (Juni 2026)
CEO-Bench: Can Agents Play the Long Game? (arXiv 2606.18543) (Princeton University, Juni 2026)