Mehr als 200 neue Schrott-Websites: Kommen jetzt die AI Content Farmen?

Roland Eisenbrand27.6.2023

Im Moment entstehen offenbar bis zu 25 neue KI-Content-Schleudern in der Woche

Eine Armee von Robotern, die Content verfasst

(Illustration: Dall-E/OpenAI)

Inhalt

Typische ChatGPT-Floskeln verraten Content-Schleudern
8.600 neue Texte pro Woche
CNN-Artikel systematisch abgeschrieben
Aprilscherz produziert falsche Todesmeldung
800.000 Besuche im Monat mit AI-Content-Müll
Stirbt das alte Web durch KI?

Sie heißen „World Today News“, „County Local News“ oder „Alaska Commons“ und sehen oberflächlich aus wie zwar etwas altbackene, aber normale Nachrichten-Websites. Doch ein genauerer Blick nährt die Vermutung, dass der allergrößte Teil ihrer Inhalte wahrscheinlich durch ChatGPT oder eine andere künstliche Intelligenz erstellt wurde. Offenbar sprießen solche „AI Content Farmen“ aktuell im Web wie Pilze aus dem Boden. OMR zeigt Beispiele und hat untersucht, wie diese Traffic generieren und Geld verdienen wollen.

Es ist eine merkwürdige Überschrift, die die Besuchenden der Website Bollyinside.com* über einem Artikel über eine US-Basketballtrainerin empfängt: „Sorry, as an AI language model, I cannot the given title as it is factually incorrect Becky Hammon has never been suspended for pregnancy comments“. Übersetzt in etwa: „Sorry, als KI-Sprachmodell kann ich den angegebenen Titel nicht verwenden, da er sachlich nicht korrekt ist. Becky Hammon wurde nie wegen Schwangerschaftskommentaren suspendiert.“

Screenshot von Bollyinside.com

Typische ChatGPT-Floskeln verraten Content-Schleudern

Zwar wird unter der Headline eine „Marissa Blackwood“ als Autorin genannt. Offenbar ist der Artikel jedoch in Wahrheit durch eine KI erstellt und ohne menschliche Überprüfung auf der Website hochgeladen worden. Die Vermutung liegt nahe, dass der Text von einer kostenlosen Version von ChatGPT stammt, weist der Service doch immer wieder darauf hin, dass die Datenbasis, auf der er trainiert wurde, nur Informationen bis September 2021 beinhaltet. Und weil Becky Hammon, Trainerin in der US-Frauen-Basketball-Liga WNBA, erst im Mai 2023 wegen Diskriminierungsvorwürfen für einige Spiele gesperrt wurde, weigerte sich das Tool, für den Artikel, in dem es um Solidaritätsbekundungen für Hammon geht, eine aus seiner Sicht faktisch inkorrekte Überschrift zu verfassen.

Der „Bollyinside“-Artikel ist bei Weitem nicht das einzige Beispiel eines offenbar automatisiert mittels einer KI erstellten Inhalts, das sich im Netz finden lässt. Mit Wendungen wie „regenerate response“, „as an AI language model“, „my cutoff date in September 2021“ oder „I cannot complete this prompt“ erklären KI-Sprachmodelle wie GPT4 (das ChatGPT zugrunde liegende Sprachmodell), warum sie bestimmte Anfragen nicht erfüllen können. Wer danach sucht, findet KI-generierte Artikel, die offenbar ungeprüft auf Websites veröffentlicht wurden – denn bei einer Prüfung wären diese Passagen wohl gestrichen worden.

8.600 neue Texte pro Woche

Deutschsprachige Beispiele lassen sich zwar bisher noch wenig bis gar nicht finden. In anderen Sprachen (Englisch, Chinesisch, Französisch, Tschechisch, Portugiesisch) jedoch gibt es offenbar ganze Nachrichten-Websites, die ausschließlich mit KI erstellt worden sind. Der Tool-Anbieter Newsguard hat zuletzt nach eigenen Angaben 217 solcher Websites aufgespürt. Die Dunkelziffer könnte noch deutlich höher sein. Zudem wächst die Zahl schnell: Im Mai waren es noch 49. Einige der Websites veröffentlichen neue Texte in extrem hoher Schlagzahl: Die Website World-Today-News.com* beispielsweise soll zuletzt 8.600 Artikel in nur einer Woche veröffentlicht haben.

Newsguard bewertet die Vertrauenswürdigkeit von Nachrichtenseiten im Netz. Geld will das Unternehmen u.a. mit einem Produkt verdienen, das Marken dabei helfen soll, festzustellen, wenn ihre Werbung in nicht vertrauenswürdigen Umfeldern ausgespielt wird. Das können auch die Seiten von solchen „AI-Content-Farms“ sein. In der Regel wird die Werbung dort programmatisch im Rahmen von Echtzeitauktionen verkauft (also ohne, dass die Kund*innen wissen, auf welcher Seite genau die Werbung läuft). Im Juni habe Newsguard 393 Werbebanner von 141 bekannte Marken auf den KI-basierten Content-Schleudern registriert. 90 Prozent seien über Googles Werbe-Plattform verkauft worden.

CNN-Artikel systematisch abgeschrieben

Es ist nicht der einzige Grund, aus dem die „AI-Content-Farms“ bedenklich sind. Ein weiterer ist die urheberrechtliche Grauzone. Die Website BestBudgetUSA.com* beispielsweise (die mittlerweile nicht mehr online ist), hat offenbar systematisch Artikel von CNN umgeschrieben oder zusammengefasst.

Hinzu kommt die Gefahr, dass Websites, die ungeprüft KI-generierte Nachrichten veröffentlichen, Desinformationen verbreiten können. Entweder, weil die KI Ereignisse „herbei halluziniert“, die gar nicht wirklich stattgefunden haben. Oder weil die Betreibenden der Website gezielt Falschmeldungen produzieren wollen, um mit einer vermeintlichen Sensationsmeldung mehr Klicks zu generieren.

Aprilscherz produziert falsche Todesmeldung

Oder auch einfach, weil Fehler passieren: Laut Newsguard soll beispielsweise die Seite CelebritiesDeath.com* im April einen Artikel unter der Überschrift „Biden verstorben, Harris agiert als Präsident, Ansprache um 9 Uhr“ veröffentlicht haben. Offenbar basierte der Text auf dem April-Scherz eines Twitter-Users, der auf der Plattform viral gegangen war.

Immerhin protestierte ChatGPT im Artikeltext gegen den Befehl der Website-Macher*innen: „Es tut mir leid, ich kann diese Eingabeaufforderung nicht ausfüllen, da sie gegen die OpenAI-Richtlinie zur Erzeugung irreführender Inhalte verstößt. Es ist nicht ethisch vertretbar, Nachrichten über den Tod einer Person zu fabrizieren, insbesondere einer so prominenten Person wie einem Präsidenten.“

Ein Screenshot einer archivierten Version einer Falschmeldung auf CelebritiesDeath.com*

800.000 Besuche im Monat mit AI-Content-Müll

Möglicherweise verzeichnen diese „AI Content Farmen“ bisher jedoch noch kaum relevante Besucher*innen-Zahlen. Gibt man die von Newsguard genannten Domains in das Statistik-Tool Similarweb ein, spuckt dieses nur bei wenigen Seiten einigermaßen hohe Zahlen aus (wobei Similarweb Traffic auch nur schätzt). Die AI-Content-Schleuder time.news* beispielsweise soll laut Similarweb im März mehr als 800.000 Besuche verzeichnet haben; im Mai sank die Zahl der monatlichen Visits dann auf 405.000 Besuche . Die Seite world-today-news.com* soll im Juni 213.000 und im März 390.000 Besuche verzeichnet haben.

Vermutlich spekulieren viele der AI-Content-Schleuder-Betreiber*innen darauf, Traffic über Googles Suchmaschine zu generieren. Doch auch hier lassen Prüfungen der von Newsguard genannten Domains darauf schließen, dass dies kaum gelingt. Gibt man die Domains in das SEO-Tool Sistrix ein, weist dieses quasi durchgängig eine geringe bis gar keine Sichtbarkeit bei Google aus. Und Social Media als Traffic-Quelle? Die offenbar aus Indien heraus betriebene Website Scoopearth.com*, die nach Similarweb-Schätzung zuletzt 178.000 Besuche im Monat generiert haben soll, weist auf Facebook rund 124.000 Abonnent*innen auf. Ob die alle echt sind, ist jedoch unklar. Das Engagement der Facebook-Seite ist gering bis nicht vorhanden.

Stirbt das alte Web durch KI?

Letztendlich wird aber das von KI verursachte weitere Sinken der Grenzkosten bei der Produktion neuer Inhalte wohl sowieso das Internet stark verändern: „KI tötet das alte Web, und das neue Web ringt mit seiner Geburt“, titelte gerade der US-Techblog The Verge in einer philosophischen Betrachtung. Ob Nachrichten dann noch, wie von den Macher*innen der Content-Schleudern erhofft, vorrangig in der bisherigen Form konsumiert werden, ist mindestens fraglich.

* Wir haben keine der verdächtigen Seiten verlinkt, um ihre Suchmaschinen-Rankings nicht positiv zu beeinflussen.

Künstliche IntelligenzAIArtifical IntelligenceChatGPTKINewsguardOpenAI

Autor*In

Roland Eisenbrand

Roland ist seit mehr als zehn Jahren als Journalist in der Digitalbranche aktiv. Seit 2014 verantwortet er als Head of Content (und zweiter Mitarbeiter) alle inhaltlichen Komponenten von OMR, darunter vor allem den OMR Blog und redaktionelle Arbeit rund um das OMR Festival.

Alle Artikel von Roland Eisenbrand