Warum Open-Source-KI die Geschäftsmodelle von Google und ChatGPT gefährdet

The Information22.5.2023

Mit der Häufung an Open-Source-Alternativen könnten Google und Microsoft unter Zugzwang geraten

Inhalt

Von den Entwicklungen überholt
Meta profitiert
Das Open-Source-Modell von OpenAI
Google hat trotzdem Vorteile
Wer hat Macht über die Daten?

Meta hat im vergangenen Februar eine AI-Explosion ausgelöst. Das Unternehmen gewährte Forschenden Zugang zu hochentwickelten Modellen für maschinelles Lernen. Es folgte eine Entwicklungswelle künstlicher Intelligenz. Wenige Wochen später wandelten Wissenschaftler*innen diese Modelle in Open-Source-Software um, die kostenfreie Alternativen zu ChatGPT und anderen KI-Anwendungen bieten. Das könnte weitreichende Folgen haben.

Die Leistungsfähigkeit solcher Open-Source-KI-Modelle sind den kostenpflichtigen Modellen von Google und dem ChatGPT-Erfinder OpenAI „ziemlich nahe“ und die meisten Softwareentwickler*innen dürften sich für die freien Modelle entscheiden – das sagt zumindest Ion Stoica, Professor of Computer Science Division an der University of California, Berkeley, der mit „Vicuna“ ein wichtiges Open-Source-KI-Modell mit der Meta-Technologie mitentwickelt hat. Wenn Stoica Recht haben sollte, könnte Open-Source-KI die Geschäftspläne von Google, OpenAI, Microsoft und anderen Unternehmen, die Zugang zu proprietären Modellen verkaufen, sprengen. Stattdessen könnten leistungsstarke KI-Tools für alle kontengünstig zugänglich sein – und auch Meta könnte davon profitieren.

Von den Entwicklungen überholt

Stoica war einer der Wissentschaftler*innen, die mit Metas KI-Modellen „Vicuna“ gebaut haben, ein im März 2023 veröffentlichtes Open-Source-Modell zum Sprachverständnis. Vicuna nutzt unter anderem auch Daten von ChatGPT und überzeugt offenbar so sehr, dass Luke Sernau, hochrangiger Google-Ingenieur, seine Kolleg*innen warnt. Google könne laut Sernau auf der Strecke bleiben, wenn es sich auf kommerzielle Software konzentriert, um zu OpenAI aufzuschließen.

„Wer würde für ein Google-Produkt mit Nutzungsbeschränkungen Geld ausgeben, wenn es eine kostenlose, qualitativ hochwertige Alternative ohne diese gibt?“, schreibt Sernau in einem internen Memo, das von The Information verifiziert und zuerst von SemiAnalysis veröffentlicht wurde. Google werde von der Open-Source-KI-Entwicklung überholt und müsse eine führende Rolle in der Open-Source-Gemeinschaft einnehmen. Zudem solle Google etwas Kontrolle über seine Modelle abgeben.

Meta profitiert

Das Memo sorgt für Aufsehen in der gesamten Branche – auch bei einigen Google-Mitarbeitenden, selbst wenn die Fähigkeiten der Open-Source-KI zum Teil überbewertet scheinen und ihre Kosten und andere Risiken noch ignoriert werden. Die meisten KI-Fachleute stimmen jedoch einer der Schlussfolgerungen des Memos zu – dass Meta von der Freigabe seiner Modelle profitiert. Der Facebook-Konzern verwendet intern KI-Modelle für Dinge wie Inhaltsempfehlungen und Anzeigenausspielung. Wenn Entwickler*innen die von Meta freigegebenen Modelle verbessern, kann das Unternehmen diese Verbesserungen in seine interne KI einfließen lassen.

„Es ist viel besser, wenn die Branche die grundlegenden Tools, die wir verwenden, standardisiert, so dass wir von den Verbesserungen, die andere vornehmen, profitieren können“, sagte Meta-CEO Mark Zuckerberg im April 2023 in einer Telefonkonferenz mit Branchenanalyst*innen. Die von Meta veröffentlichten Open-Source-Modelle, die unter dem Namen LLaMA zusammengefasst sind, dürfen laut Gesetz nicht für geschäftliche Zwecke verwendet werden. Allerdings stellte Meta den Forschenden ausreichend Informationen zur Verfügung, um das Modell für den kommerziellen Einsatz zu replizieren, sagt Lianmin Zheng, ein Doktorand in Berkeley, der Vicuna zusammen mit Ion Stoica entwickelt hat.

Dabei hat auch Google lange nicht nur auf proprietäre und kommerzielle KI-Software gesetzt. Im Jahr 2020, also drei Jahre bevor ChatGPT die Bühne betritt, veröffentlicht das Unternehmen sein Open-Source-Sprachmodell T5. Das ermöglicht es Entwickler*innen, Software für Übersetzungen oder automatische Zusammenfassungen zu bauen. Später veröffentlicht Google mit Flan-T5 eine fortgeschrittenere Version. Laut Stoica und anderen Fachleuten ermöglicht die von Meta veröffentlichte Software aber signifikante Verbesserungen gegenüber den Modellen von Google. Das führt dazu, dass Ingenieur*innen jetzt Modelle bevorzugen, die auf Metas Software basieren.

Das Open-Source-Modell von OpenAI

Der Druck auf Google, eine größere Rolle bei Open-Source-KI zu spielen, könnte jetzt auch aus einer anderen Ecke kommen. Einer internen Quelle zufolge bereite sich OpenAI, Hauptkonkurrent von Google im Bereich KI, darauf vor, ein neues Open-Source-Sprachmodell zu veröffentlichen. Es ist unklar, ob der ChatGPT-Macher damit Vicuna und anderen Tools, die mit Metas Modellen entwickelt wurden, das Momentum nehmen will. Es ist jedoch unwahrscheinlich, dass das Unternehmen ein Modell herausbringt, das wirklich mit seinem kommerziellen Modell ChatGPT konkurrieren kann. Die Bewertung des Unternehmens in Höhe von 27 Milliarden US-Dollar basiert auch auf einer Zukunft, in der KI für kommerzielle Zwecke eben nicht Open-Source ist. Obwohl die ersten beiden Versionen von ChatGPT genau das waren.

Open-Source-Modelle wie Vicuna können schon für ein paar hundert Dollar trainiert werden. Im Gegensatz dazu verkaufen Google, OpenAI und Microsoft Zugänge zu ihren Modellen. Diese nutzen Unternehmen schon jetzt für eine Reihe von Zwecken – darunter die Automatisierung des Kundendienstes, die Zusammenfassung medizinischer Forschungsergebnisse oder die Erstellung von Marketingtexten. Vor einem Jahr hatte erst Microsoft damit begonnen, Zugang zu den von OpenAI entwickelten Modellen zu verkaufen, in die das Unternehmen Milliarden investiert hat. Google und Amazon verkaufen ihre Modelle erst seit 2023 an externe Entwickler*innen.

Google hat trotzdem Vorteile

Doch in den letzten Wochen haben sich auch Open-Source-Alternativen stark verbreitet. Neben Vicuna können Entwickler*innen auch Modelle von LAION, einer deutschen gemeinnützigen KI-Organisation, sowie von Startups wie Databricks (auch hier Mitgründer: Ion Stoica) und Stability AI nutzen. Stoica hat eine Website eingerichtet, die die Qualität dieser Open-Source-Modelle im Vergleich zu proprietären Modellen wie GPT-4 von OpenAI messen soll.

Laut Stoica hat Google immer noch zwei Vorteile gegenüber Open-Source-Software. Zum einen könne deren Modell für einige spezielle Zwecke wie Inhaltsempfehlungen besser funktionieren, wenn Google seine Nutzerdaten einsetzen würde, auf die externe Akteure keinen Zugriff haben. (Laut Google sind deren „grundlegende“ KI-Modelle nicht auf vorhandenen Nutzerdaten trainiert). Zum anderen sei Google dank seiner Erfahrung bei der Verwaltung großer Computerinfrastrukturen in der Lage, KI-Softwaremodelle billiger zu betreiben, auch für seine Cloud-Kund*innen. Google kündigte letzte Woche eine Reihe von Verbesserungen des proprietären Modells hinter Bard, seiner Antwort auf ChatGPT, an.

OpenAI hat unterdessen einen Vorsprung beim Sammeln von Daten aus der Interaktion von Millionen von Menschen mit ChatGPT. Zweifelsohne sind diese Daten eine enorme Hilfe für das Startup, um seine KI-Software zu verbessern. Darüber hinaus hat das Unternehmen einen Vorzugsvertrag für die Nutzung der Computerinfrastruktur von Microsoft erhalten.

Wer hat Macht über die Daten?

Open-Source-KI-Software wird es Unternehmen jedoch ermöglichen, Probleme mit eigenen Daten selbst zu lösen. Zum Beispiel könnte eine Fluggesellschaft ihre Protokolle von Millionen von Kundendienstanrufen nutzen, um automatische Antworten zu erstellen, so Stoica. Im März schrieb Bloomberg, dass der Publisher seine Daten verwendet hat, um ein maschinelles Lernmodell zu trainieren, das Finanzinformationen besser verstehen kann. Laut Nachrichten auf einem Discord-Server, der von den Entwickler*innen betrieben wird, gibt es erste Experimente mit der Verwendung von Vicuna für kreatives Schreiben und Programmieren.

Um Vicuna noch leistungsstärker zu machen, arbeiten Stoica und seine Kolleg*innen daran, die Anzahl der Berechnungen in seinem Modell zu erhöhen. Das würde bei Aufgaben helfen, die logisches Denken erfordern, wie z. B. das Schreiben von Code, sagt Stoica. Kleine Ironie der Geschichte: Die Gruppe, die Vicuna entwickelt hat, ist ein Ableger des Sky Computing Lab in Berkeley. Die erhält mehrere Millionen US-Dollar pro Jahr von großen Unternehmen wie Microsoft, Google und Amazon; jeder davon zahlt 500.000 US-Dollar.

Open-Source-KI-Software hat die Pläne von OpenAI übrigens schon einmal zersprengt. Nachdem OpenAI mit der Veröffentlichung und dem Verkauf von Dall-E 2 für Furore im Netz gesorgt hatte, trat eine Open-Source-Alternative, Stable Diffusion, auf den Plan. Beide können Originalbilder erzeugen, wenn Nutzende eine einfache Textbeschreibung des erwünschten Bildes eingeben. Der plötzliche Aufstieg von Stable Diffusion überraschte einen Großteil der KI-Welt, einschließlich der Mitarbeitenden von OpenAI. Dall-E 2 wurde nicht zum erwarteten riesigen Player auf dem Gebiet. „Mir ist bisher nichts bekannt, weswegen das gleiche Muster nicht auch für Sprachmodelle gelten sollte“, sagt Ion Stoica.

Dieser Artikel stammt im Original von Jon Victor und erschien zuerst bei The Information. Er wurde von Scott Peterson im Rahmen einer Kooperation übersetzt.