Die Entwicklung Künstlicher Intelligenz (KI) schreitet in großen Schritten voran. Dennoch stoßen selbst die fortschrittlichsten Large Language Models (LLMs) immer wieder an unerwartete Grenzen.
Ein prägnantes Beispiel hierfür ist der Strawberry-Test – eine scheinbar simple, aber aufschlussreiche Herausforderung, die die Schwächen aktueller KI-Systeme deutlich macht. Solche Tests sind nicht nur für Entwickler*innen relevant, sondern auch für alle, die auf KI-basierte Lösungen setzen und deren Zuverlässigkeit und Genauigkeit hinterfragen müssen.
Der Strawberry-Test konfrontiert LLMs mit einer einfachen Frage: „Wie viele Buchstaben ‚r‘ enthält das Wort ‚Strawberry‘?“ Für Menschen ist die Antwort klar: drei. Viele LLMs scheitern jedoch und antworten fälschlicherweise mit „zwei“. Dieses scheinbar triviale Problem offenbart eine grundlegende Schwäche: Während LLMs beeindruckende Texte generieren und komplexe Zusammenhänge erfassen können, versagen sie oft bei einfachen, präzisen Aufgaben. Der Strawberry-Test zeigt uns, dass diese Modelle noch erhebliche Verbesserungen benötigen, um ihre Fähigkeit zur Detailgenauigkeit und logischen Schlussfolgerung zu schärfen – eine essentielle Voraussetzung, um verlässliche Werkzeuge in verschiedensten Anwendungsbereichen zu werden.
Eigentlich sollten Zahlen und Zählen für KI ein Kinderspiel sein, doch was simpel klingt – die Anzahl der Buchstaben „r“ im Wort „Strawberry“ zu zählen – stellt für viele fortschrittliche Modelle eine echte Herausforderung dar.
OpenAI verfolgt eine langfristige Entwicklungsstrategie, die auf einer fünfstufigen KI-Skala basiert. Aktuell liegt der Fokus darauf, Stufe 2 zu erreichen – den „Reasoner“. Auf diesem Level sollen KI-Modelle nicht nur Texte verstehen, sondern auch Logik anwenden und Probleme auf menschenähnlichem Niveau lösen können. Die weite-ren Stufen reichen von Strategist (Stufe 3), wo die KI strategische Entscheidungen trifft, über Autonomous Agent (Stufe 4), der ohne menschliche Überwachung agiert, bis hin zur Superintelligence (Stufe 5), einer hypothetischen KI, die alle menschlichen kognitiven Fähigkeiten übertrifft.
Um das nächste Level in der KI-Entwicklung zu erreichen, hat OpenAI zwei bedeutende Projekte ins Leben gerufen: Project Strawberry und das Orion-Modell. Project Strawberry, das für Herbst 2024 angekündigt ist, konzentriert sich darauf, die Fähigkeiten von LLMs zu verbessern, insbesondere in Bezug auf präzises logisches Denken und exakte Aufgabenlösungen. Ziel ist es, KI-Systeme zu schaffen, die besser auf Herausforderungen wie den Strawberry-Test vorbereitet sind und ähnliche Aufgaben präzise bewältigen können. OpenAI hat dabei eine clevere Marketingstrategie gewählt, um das Interesse an diesen neuen Modellen zu wecken: In sozialen Medien tauchen vermehrt Bilder von Erdbeeren auf, die subtil auf das kommende Project Strawberry hinweisen. Dies hat in der Community für reichlich Gesprächsstoff gesorgt.
Doch das Marketing geht noch weiter. OpenAI repostete ein Bild des Sternenbilds Orion mit dem Text „Let’s conquer the cosmos“, was eindeutig auf das Orion-Modell abzielt. Das Orion-Modell soll kontextuelle und reasoning-basierte Fähigkeiten tiefgehender integrieren und damit eine neue Ära in der KI-Entwicklung einleiten. Während Project Strawberry kurzfristige Verbesserungen für bestehende Modelle bringen soll, könnte das Orion-Modell als langfristiger evolutionärer Schritt verstanden werden – mit dem Potenzial, unser Verständnis und die Anwendungsmöglichkeiten von KI grundlegend zu verändern.
Für uns als Foresight-Beratung und Plattformentwickler sind diese Fortschritte von besonderer Bedeutung. Die zunehmende Integration von KI-Modellen in digitale Platt-formen und Anwendungen erfordert verlässliche und präzise LLMs. Verbesserungen durch Project Strawberry und Orion könnten unsere Plattformen leistungsfähiger machen und spezifische Anwendungsfälle in der Zukunftsforschung, Marktanalyse oder im Kundenservice erheblich verbessern. Diese Entwicklungen bieten entschei-dende Möglichkeiten, um innovative, KI-gestützte Tools zu schaffen, die komplexe Herausforderungen effektiv meistern.