Bild, Spiegel, Amazon.de: Reichweitenstarke deutsche Websites sperren OpenAI’s GPT Bot aus
Medienhäuser und andere Firmen wollen ihre Inhalte schützen
Wie können Website-Betreiber*innen verhindern, dass ihre Inhalte von künstlichen Intelligenzen hinter Services wie ChatGPT „gelernt“ und damit mühsam aufgebaute Werte „abgesaugt“ werden – etwa, weil User nicht mehr die jeweilige Website besuchen, sondern stattdessen ChatGPT benutzen? Das ist derzeit wohl eine der zentralen Fragen, die sich Unternehmen durch den aktuellen KI-Boom stellen. Eine Recherche zeigt: Viele große deutschen Medienhäuser, aber auch Services und Marken haben in den zurückliegenden Tagen und Wochen damit begonnen, den „GPT Bot“, mit dem KI-Vorreiter OpenAI das Web „ausliest“, von ihrer Seite auszusperren.
Mehr als 600 Einträge umfasst eine Liste von reichweitenstarken Domains, die den GPT Bot aktuell aussperren. Darunter finden sich 118 .de-Domains – zum einen von großen Medienmarken wie Bild, Spiegel, Süddeutsche, Zeit, FAZ, Stern und Welt, zum anderen aber auch von Marken und Shops wie Amazon, Ikea und Hometogo. Suchmaschinen-Experte Christoph Burseg hat die Liste mit Hilfe eines selbst programmierten Tools erstellt, das jeden Tag 30.000 Domains checkt. Der 44-Jährige berät Firmen in Sachen digitalem Marketing, darunter auch mehrere Medienhäuser. „Durch das Überwachen der robots.txt-Einträge finde ich immer wieder spannende Lösungen, die ich meinen Verlagen erklären kann“, so der Experte.
Auch Airbnb und Stackoverflow sperren Open AI
Seit dem 8. August lässt OpenAI, das Unternehmen hinter dem Sprachmodell GPT sowie dem darauf basierenden Service ChatGPT, Website-Betreiber*innen die Wahl, ob diese den GPT Bot auf ihre Seite lassen wollen. „Webseiten, die mit dem GPT Bot-Benutzeragenten gecrawlt wurden, können möglicherweise zur Verbesserung künftiger Modelle verwendet werden“, heißt es auf der Open AI Website. Wer verhindern will, dass die eigenen Inhalte dazu beitragen, dass die Sprachmodelle von Open AI potenziell immer intelligenter werden, muss einfach in der Robots.txt-Datei auf der eigenen Seite einen entsprechenden Eintrag hinzufügen. Wie das geht, erklärt Open AI auf seiner Website.
Viele internationale Medienhäuser sind seitdem diesen Schritt gegangen: die New York Times, Reuters, CNN, die Washington Post, Bloomberg und die Australian Broadcast Group (ABC) beispielsweise. Christoph Bursegs Liste umfasst weitere Namen, auch von Plattformen wie Airbnb und Stackoverflow. Und eben auch deutsche Medien. „Der Schutz unserer Inhalte ist der Spiegel-Gruppe ein wichtiges Anliegen“, so ein Sprecher des Verlagshauses. „Deshalb haben wir bereits vor einiger Zeit die Nutzung unserer Inhalte für Text- und Data-Mining ohne entsprechende Lizenzierung über unser Impressum ausdrücklich untersagt. Ergänzend sperren wir gezielt Bots, so auch den Bot von OpenAI.“
Die deutsche Nachrichtenseite Tag24.de hat, wie Christoph Burseg entdeckt hat, eine differenzierte Variante gewählt: Alle Inhalte im Unterverzeichnis „Unternehmen“ dürfen vom Open-AI-Bot gecrawlt werden – der Rest nicht. „Die Idee dahinter scheint mir: OpenAI darf nicht die Inhalte von Tag24.de für das Training oder zum Beantworten von Fragen verwenden – soll aber verstehen wie das Unternehmen arbeitet, was der journalistische Anspruch ist, wo überall Redakteur*innen arbeiten“, so Burseg.
Folgen bald erste Klagen?
Einige Medien- und Digitalfirmen erwägen offenbar, noch einen Schritt weiter zu gehen als einfach nur den GPT Bot auszusperren. Weil die bisherigen Versionen von Open AI’s Sprachmodellen mutmaßlich schon auf Basis ihrer Inhalte trainiert worden sind, denkt die New York Times laut dem US-Radiosender „NPR“ darüber nach, das Unternehmen zu verklagen. Auch Barry Diller, Vorstandsvorsitzender u.a. von IAC und Expedia, hat bei einem öffentlichen Interview angedeutet, KI-Firmen möglicherweise verklagen zu wollen – und anderen Unternehmen empfohlen, es ihm gleich zu tun.
Wie hilfreich und attraktiv die Nutzung von Diensten wie ChatGPT für die Nutzer*innen sein kann, zeigt ausgerechnet das Beispiel von Christoph Burseg. Denn das Script für sein Tool zur automatisierten Überprüfung von 30.000 Domains hat er mit Hilfe des OpenAI Chatbots geschrieben.