Bild, Spiegel, Amazon.de: Reichweitenstarke deutsche Websites sperren OpenAI’s GPT Bot aus

Medienhäuser und andere Firmen wollen ihre Inhalte schützen

bouncer_says_stop_550x287

Wie können Website-Betreiber*innen verhindern, dass ihre Inhalte von künstlichen Intelligenzen hinter Services wie ChatGPT „gelernt“ und damit mühsam aufgebaute Werte „abgesaugt“ werden – etwa, weil User nicht mehr die jeweilige Website besuchen, sondern stattdessen ChatGPT benutzen? Das ist derzeit wohl eine der zentralen Fragen, die sich Unternehmen durch den aktuellen KI-Boom stellen. Eine Recherche zeigt: Viele große deutschen Medienhäuser, aber auch Services und Marken haben in den zurückliegenden Tagen und Wochen damit begonnen, den „GPT Bot“, mit dem KI-Vorreiter OpenAI das Web „ausliest“, von ihrer Seite auszusperren.

Christoph Burseg

Christoph Burseg

Mehr als 600 Einträge umfasst eine Liste von reichweitenstarken Domains, die den GPT Bot aktuell aussperren. Darunter finden sich 118 .de-Domains – zum einen von großen Medienmarken wie Bild, Spiegel, Süddeutsche, Zeit, FAZ, Stern und Welt, zum anderen aber auch von Marken und Shops wie Amazon, Ikea und Hometogo. Suchmaschinen-Experte Christoph Burseg hat die Liste mit Hilfe eines selbst programmierten Tools erstellt, das jeden Tag 30.000 Domains checkt. Der 44-Jährige berät Firmen in Sachen digitalem Marketing, darunter auch mehrere Medienhäuser. „Durch das Überwachen der robots.txt-Einträge finde ich immer wieder spannende Lösungen, die ich meinen Verlagen erklären kann“, so der Experte.

Auch Airbnb und Stackoverflow sperren Open AI

Seit dem 8. August lässt OpenAI, das Unternehmen hinter dem Sprachmodell GPT sowie dem darauf basierenden Service ChatGPT, Website-Betreiber*innen die Wahl, ob diese den GPT Bot auf ihre Seite lassen wollen. „Webseiten, die mit dem GPT Bot-Benutzeragenten gecrawlt wurden, können möglicherweise zur Verbesserung künftiger Modelle verwendet werden“, heißt es auf der Open AI Website. Wer verhindern will, dass die eigenen Inhalte dazu beitragen, dass die Sprachmodelle von Open AI potenziell immer intelligenter werden, muss einfach in der Robots.txt-Datei auf der eigenen Seite einen entsprechenden Eintrag hinzufügen. Wie das geht, erklärt Open AI auf seiner Website.

Viele internationale Medienhäuser sind seitdem diesen Schritt gegangen: die New York Times, Reuters, CNN, die Washington Post, Bloomberg und die Australian Broadcast Group (ABC) beispielsweise. Christoph Bursegs Liste umfasst weitere Namen, auch von Plattformen wie Airbnb und Stackoverflow. Und eben auch deutsche Medien. „Der Schutz unserer Inhalte ist der Spiegel-Gruppe ein wichtiges Anliegen“, so ein Sprecher des Verlagshauses. „Deshalb haben wir bereits vor einiger Zeit die Nutzung unserer Inhalte für Text- und Data-Mining ohne entsprechende Lizenzierung über unser Impressum ausdrücklich untersagt. Ergänzend sperren wir gezielt Bots, so auch den Bot von OpenAI.“

Die deutsche Nachrichtenseite Tag24.de hat, wie Christoph Burseg entdeckt hat, eine differenzierte Variante gewählt: Alle Inhalte im Unterverzeichnis „Unternehmen“ dürfen vom Open-AI-Bot gecrawlt werden – der Rest nicht. „Die Idee dahinter scheint mir: OpenAI darf nicht die Inhalte von Tag24.de für das Training oder zum Beantworten von Fragen verwenden – soll aber verstehen wie das Unternehmen arbeitet, was der journalistische Anspruch ist, wo überall Redakteur*innen arbeiten“, so Burseg.

Folgen bald erste Klagen?

Einige Medien- und Digitalfirmen erwägen offenbar, noch einen Schritt weiter zu gehen als einfach nur den GPT Bot auszusperren. Weil die bisherigen Versionen von Open AI’s Sprachmodellen mutmaßlich schon auf Basis ihrer Inhalte trainiert worden sind, denkt die New York Times laut dem US-Radiosender „NPR“ darüber nach, das Unternehmen zu verklagen. Auch Barry Diller, Vorstandsvorsitzender u.a. von IAC und Expedia, hat bei einem öffentlichen Interview angedeutet, KI-Firmen möglicherweise verklagen zu wollen – und anderen Unternehmen empfohlen, es ihm gleich zu tun.

Wie hilfreich und attraktiv die Nutzung von Diensten wie ChatGPT für die Nutzer*innen sein kann, zeigt ausgerechnet das Beispiel von Christoph Burseg. Denn das Script für sein Tool zur automatisierten Überprüfung von 30.000 Domains hat er mit Hilfe des OpenAI Chatbots geschrieben.

AIArtificial IntelligenceBildChatGPTGPTBotKIKünstliche IntelligenzSpiegelOpenAI
Roland Eisenbrand
Autor*In
Roland Eisenbrand

Roland ist seit mehr als zehn Jahren als Journalist in der Digitalbranche aktiv. Seit 2014 verantwortet er als Head of Content (und zweiter Mitarbeiter) alle inhaltlichen Komponenten von OMR, darunter vor allem den OMR Blog und redaktionelle Arbeit rund um das OMR Festival.

Alle Artikel von Roland Eisenbrand

Ähnliche Artikel

Kostenlose Online-Seminare

Andreas Schmunk

Die 7 SEO Basics, die auch 2024 noch relevant sind

16.5.2024 11:00 - 12:00 Uhr
Sarah Böning

Bauchgefühl trifft Struktur: 5 Tipps für eine valide Personalauswahl

28.5.2024 10:00 - 11:00 Uhr
Aktuelle Stories und die wichtigsten News für Marketeers direkt in dein Postfach!
Zeig mir ein Beispiel