Verflechtungen mit Google und OpenAI: Wie Reddit kurz vor dem Börsengang vom KI-Hype profitieren will
Reddit ist in den Google-Rankings aufgestiegen, nun gehen beide Seiten einen Daten-Deal ein
- Ein defizitärer Gigant
- Zahlt Google 60 Millionen US-Dollar jährlich an Reddit?
- OpenAI und Reddit stehen sich sehr nahe
- Google pusht Reddit in den Suchergebnissen
- "Reddit ist die bessere Suchmaschine"
- Auf Reddit grassiert stärker denn je der Spam
- "Noch nie so enthusiastisch wie heute"
Die Social Community Reddit ist eine der meistbesuchten Websites der Welt, aber schwer zu vermarkten und deswegen seit 20 Jahren nicht profitabel. Doch weil unter Tech-Konzernen wie Google und OpenAI ein Kampf um Daten zum Training von KI-Modellen entbrannt ist, tut sich nun auch für Reddit – passenderweise kurz vor dem Börsengang – ein mögliches neues Geschäftsfeld auf. OMR erklärt die Hintergründe und fasst die Perspektiven zusammen.
Bilder von Toastbrotscheiben, die an Bäume getackert wurden, Beiträge, die nur aus dem Buchstaben "G" bestehen dürfen, oder Landschaftsfotos, bei denen sich die Uploader darüber ärgern, dass auf ihnen Menschen zu sehen sind, die weit entfernt sind: In der Social Community Reddit tauschen sich Menschen zu den unterschiedlichsten Interessen aus. So kurios einige der "Subreddits" genannten Unterforen sein mögen, so beeindruckend sind die Zahlen, die Reddit mit diesen generiert: Mit 73 Millionen Besucher*innen pro Tag (!) und 16 Milliarden Beiträge und Kommentare in Summe (eigene Angaben) ist Reddit eine der nutzungsstärksten Websites im Internet.
Ein defizitärer Gigant
Die beliebtesten Subreddits sind jedoch größtenteils mehrheitsfähig; in ihnen posten teilweise Millionen von Menschen Witzchen und lustige Bilder oder tauschen sich über aktuelle Nachrichten, Wissenschaft, Finanzen, Fitness und Rezepte aus. Allerdings: Knapp ein Viertel der Subreddits über 100.000 Mitglieder soll Schätzungen zufolge pornographischer Natur sein.
(Quelle)
Gemessen an Nutzern und Engagement ist Reddit ein Gigant. Es gibt nur ein Problem: Reddit verdient kein Geld. Doch obwohl das Unternehmen chronisch Verluste macht, will es nun an die Börse. Dazu, dass dieser Schritt gelingt, soll nun ein Seitenwechsel beitragen, den Reddit ausgerechnet im Duell der großen Tech-Plattformen um die Vorherrschaft im Bereich KI vollzieht – denn das Unternehmen, das bislang eng mit OpenAI verbandelt war, hat nun eine Kooperation mit Google geschlossen.
Zahlt Google 60 Millionen US-Dollar jährlich an Reddit?
"Reddit spielt im offenen Internet eine einzigartige Rolle als große Plattform mit einer unglaublichen Bandbreite an authentischen, menschlichen Gesprächen und Erfahrungen", schreibt Google-Manager Rajan Patel vor wenigen Tagen in einem Beitrag im offiziellen Google-Blog anlässlich der neuen Partnerschaft. Die hat mehrere Komponenten: Zum einen soll Reddit künftig Googles "Vertex AI" nutzen, um die Suchfunktion zu verbessern und KI-Funktionen auf der eigenen Plattform zu implementieren. Zum anderen soll Google aber auch durch den Zugriff auf Reddits Datenschnittstelle Inhalte von Reddit künftig "auf neue Arten" in Google-Produkten ausspielen können sowie KI-Modelle auf Basis dieser Daten trainieren können, wie es bei Reddit heißt.
Der letzte Punkt ist möglicherweise der aus Reddit-Sicht lukrativste. Denn laut Reuters zahlt Google 60 Millionen US-Dollar im Jahr, um Reddits Daten fürs KI-Training nutzen zu können. Google hat im vergangenen Jahr mit KI-Chatbots wie Bard und zuletzt Gemini versucht, in der öffentlichen Wahrnehmung wieder zum KI-Innovationsführer OpenAI aufzuschließen. Vielleicht sind dem Konzern aus Mountain View auch deswegen Datensätze, die "authentische, menschliche Gespräche und Erfahrungen" enthalten, viel Geld wert.
OpenAI und Reddit stehen sich sehr nahe
OpenAI versucht unterdessen (ebenso wie die KI-Bilderstellungs-Software Midjourney) andere Quellen für "User Generated Content" anzuzapfen, mit denen das Unternehmen seine KI-Modelle trainieren könnte. Einem Bericht des US-Tech-Blogs 404 Media zufolge soll das Unternehmen mit Automattic, dem Unternehmen hinter der Blog-Software Wordpress, über einen Daten-Deal verhandeln. Der soll Inhalte, die auf Wordpress.com gehostet werden, ebenso umfassen wie Beiträge auf der Blogging-Plattform Tumblr, die 2019 von Automattic übernommen worden war.
OpenAI hatte das Sprachmodell GPT3 zuvor jedoch ebenfalls mit Hilfe von Reddit trainiert – wenn auch nicht direkt. Teil des GPT3-Trainingsdatensatzes war der Textkorpus "Web Text 2". Für den hatten zwei Forscher*innen der US-Uni Brown alle Links, die auf Reddit seit 2005 geteilt worden waren, ausgelesen, nach den bestbewerteten gefiltert und diese Websites dann "gescrapet". Web Text 2 habe zwar nur vier Prozent des gesamten GPT3-Trainingsdatensatzes ausgemacht, sei aber mit Blick auf die anderen Textkorpora in den Datensätzen übergewichtet worden, so Investor und Marketing-Experte Philipp Klöckner kürzlich gegenüber OMR: "Das ist wie eine Qualitätsprüfung: Da kommt nur rein, was die Reddit-Community gut fand. Deswegen wird dieser Teil von OpenAI fünffach verstärkt."
Die Quellen der Trainingsdaten von GPT3 im Überblick. Web Text 2 basiert auf URLs, die auf Reddit geteilt wurden (Quelle: Wikipedia)
Google pusht Reddit in den Suchergebnissen
Reddit und OpenAI sind auch historisch eng verbunden: Reddit-Mitgründer Steve Huffmann, der seit 2015 wieder Reddit-CEO ist, und seine beiden (mittlerweile ausgeschiedenen bzw. verstorbenen) Mitgründer Alexis Ohanian und Aaron Swartz waren im Jahr 2005 ebenso Teil der ersten Kohorte des mittlerweile sehr renommierten US-Startup-Inkubators Y Combinator wie der heutige OpenAI-CEO Sam Altman. Im Jahr 2006, nach einem – aus Sicht der Gründer – verfrühten Verkauf von Reddit an die US-Verlagsgruppe Condé Nast, war Altman darüber hinaus Teil eines ausgeklügelten Plans, mit dem die Reddit-Gründer die Kontrolle über das Unternehmen zurückerlangen wollten. Altman erhielt in diesem Zuge auch Reddit-Anteile. Wie dem jüngst veröffentlichten Börsenprospekt von Reddit zu entnehmen ist, hält er bis heute 8,7 Prozent der Anteile am Unternehmen.
Google will sich nun offenbar durch die bezahlte Partnerschaft mit Reddit einen direkten Zugriff auf den Datenfluß der Plattform sichern. Dieser Schritt ruft auch Kritik hervor. Einer der Gründe: Reddit taucht bei immer mehr Google-Suchanfragen ganz weit oben in den Ergebnissen auf. Laut dem Suchmaschinen-Analyse-Tool Sistrix verzeichnete Reddit in der US-Version von Google im Jahr 2023 einen massiven Sichtbarkeitsgewinn und lag damit sowohl in Sachen prozentuales als auch absolutes Wachstum auf Platz 2 – "vermutlich das größte organische Sichtbarkeitswachstum in der Geschichte von Google", glaubt SEO-Expertin Lily Ray.
Reddit hat in der US-Version von Google laut Sistrix im vergangenen Jahr 867 Prozent (bzw. 668 "Punkte") an Sichtbarkeit in Googles Suchergebnissen zugelegt und damit u.a. die New York Times überholt. Erst in den zurückliegenden Tagen hat Reddit erstmals seit langer Zeit geringfügig Sichtbarkeit eingebüßt. (Quelle des Screenshots: Sistrix)
"Reddit ist die bessere Suchmaschine"
Reddit ist nicht die einzige Website mit "User Generated Content", die in Googles Suchergebnissen weit nach vorne gerückt ist: Auch Wikipedia, das Frage-Antwort-Portal Quora und die Songtext-Diskussions-Seite Genius.com haben stark zugelegt. Dahinter steht offenbar der Versuch Googles, "echten" Beiträgen von Menschen und Konsument*innen wieder mehr Raum geben zu wollen. Im Jahr 2022 führte der Konzern eigens einen Bereich namens "Discussions and Forums" in den Suchergebnissen ein.
Zuvor war die Qualität von Googles Suchergebnissen in den USA und vor allem in der Tech-Szene immer wieder kritisiert worden. Vor zwei Jahren beispielsweise erregte der Text "Google Search is Dying" über "Hacker News", das Diskussionsforum von Y Combinator, enorme Aufmerksamkeit. Darin kritisierte Autor und Software-Entwickler Dmitri Brereton, dass die Suchergebnisse verstopft seien von Anzeigen und Websites, die rein von finanziellen Interessen getrieben seien. Brereton empfahl damals ausdrücklich Reddit als Alternative.
Auf Reddit grassiert stärker denn je der Spam
Ist die US-Tech-Welt nun, da Reddit in Googles Suchergebnissen immer prominenter auftaucht, zufrieden? Zumindest nicht gänzlich. SEO-Expertin Lily Ray stellte nach Verkündung der jüngsten Partnerschaft zwischen Reddit und Google implizit die Neutralität des Suchmaschinenkonzerns in Frage, in dem sie Google-Manager Rajan Patel öffentlich auf X fragte, ob die Partnerschaft die Erklärung für den Sichtbarkeitsgewinn Reddits sei. Patel antwortete nicht.
Andere kritisieren, dass es auch unter den Reddit-Inhalten, die bei Google ranken, viel Spam gebe. Reddit dominiere den "Discussions and Forums"-Bereich in Googles Suchergebnissen, so beispielsweise das Ergebnis einer Analyse von SEO-Experte Glen Allsopp. Bei mehr als der Hälfte der Reddit-Threads, die in Googles Suchergebnisen auftauchen würden, bestehe der Top-Kommentar dabei allerdings aus Spam. "Die aktuellen Suchergebnisse sind die schlechtesten, die ich je gesehen habe", schreibt Allsopp.
"Noch nie so enthusiastisch wie heute"
Reddit-CEO und -Mitgründer Steve Huffmann (Foto: Unternehmen)
Beim Versuch, Spam in den Griff zu bekommen, ist Reddit sehr abhängig von den auf freiwilliger Basis und kostenlos arbeitenden Moderator*innen der Subreddits. Zu denen pflegt das Betreiberunternehmen jedoch ein traditionell schwieriges Verhältnis. Erst im vergangenen Jahr sind mehr als 8.000 Subreddits von den jeweiligen Moderator*innen zwischenzeitlich geschlossen worden. Die Aktion war Teil eines Protests gegen Änderungen der Nutzungsbedingungen von Reddit, durch die Anbieter von Dritt-Apps keinen Zugriff mehr auf Reddits Schnittstelle erhielten und ihren Dienst einstellen mussten. Das kritische Verhältnis der Reddit-Nutzer*innen zu den Plattformbetreiber*innen dürfte mit einer der Gründe sein, warum Reddit so schwierig zu monetarisieren ist.
Laut dem Börsenprospekt sollen nun für einige der Moderator*innen und Nutzer*innen, die am meisten auf Reddit beitragen, exklusiv Reddit-Aktien reserviert werden; das Wall Street Journal berichtet von 75.000 dazu berechtigen Nutzer*innen. "Ich war noch nie so enthusiastisch über die Zukunft von Reddit wie jetzt gerade", schreibt CEO Steve Huffmann im Börsenprospekt. Viele Reddit-Nutzer*innen sind skeptischer und machen sich auf der Plattform über Reddit als potenzielle Anlageoption lustig. Ein Mitglied des Börsen-Subreddits WallStreetBets analysiert furztrocken: " $800M revenue and $85M cash flow loss lol. Short the shit out of it."