Diese KI-Systeme verändern die Welt der Bilder für immer – und damit auch das Marketing

Florian Rinke20.10.2022

Wie Dall-E, Midjourney und Stable Diffusion aus einigen Wörtern eigene Bilder kreieren

Diese Bilder erzeugt Dall-E, wenn man ein Bild von einem Roboter möchte, der ein Selbstporträt im Stil von Leonardo da Vinci malt. Screenshot: Dall-E

Inhalt

Weltweiter Wettlauf um KI-generierte Bilder
Elon Musk und Peter Thiel fördern Open AI
Dall-E reproduzierte anfangs Stereotype
Bei Getty Images sieht man KI-generierte Bilder kritisch
KI wird den Markt für Stock-Fotografie dramatisch verändern
Ein AI-generiertes Bild gewinnt bei einem Kunst-Wettbewerb
Auch in Hamburg arbeiten sie an KI-generierten Bildern
Können KI-generierte Bilder die Demokratie gefährden?
Die Deutsche Presse-Agentur will keine KI-Bilder auf der Plattform
Die EU-Kommission hat ein KI-Gesetz vorgelegt

Künstliche Intelligenz ist inzwischen in der Lage, eigene Bilder zu entwerfen – und damit sogar bei Kunstwettbewerben zu gewinnen. Tech-Konzerne, Risikokapitalgeber und Milliardäre wetteifern um die Vorherrschaft in einem potenziellen Zukunftsmarkt. Doch mindestens so groß wie die Chancen sind auch die Risiken, die von Dall-E, Midjourney und anderen Anbietern ausgehen.

Dall-E lernt offenbar schnell, das muss man ihm lassen. Es ist nicht mal 48 Stunden her, dass sich die Künstliche Intelligenz dem Spott von zigtausend Internet-User*innen ausgesetzt sah. Ein Twitter-Nutzer hatte Bilder gepostet, die von der Software generiert worden sein sollen. Darauf zu sehen: im Wasser schwimmende Lachsfilets. Im Nu verbreitete sich die Nachricht im Netz. Immer weitere Bilder wurden gepostet, die das Fischfilet in Situationen zeigten, in denen eigentlich ein lebendiger Fisch erwartet worden wäre. Dall-E hatte versagt.

Aber wie ein Nutzer ganz richtig schreibt: Training ist alles. Denn nicht mal 48 Stunden nach dem Tweet von Nutzer Delty zeigen unsere Versuche, dass Dall-E inzwischen verstanden hat, wann ein Lachsfilet und wann ein Lachs gezeigt werden muss. Mehr noch: Es wird sehr schnell deutlich, welches gewaltige Potenzial dieses System zur automatischen Bildgenerierung bietet. Allein durch die Eingabe einer Bildbeschreibung in ein Textfeld lassen sich Kompositionen erschaffen, für die man per Photoshop und Co. wohl Stunden gebraucht hätte.

Weltweiter Wettlauf um KI-generierte Bilder

Weltweit arbeiten seit Jahren zahlreiche Unternehmen an Systemen, die intelligent genug sind, um Texteingaben in Bilder zu übersetzen. Doch als die Organisation Open AI im April 2022 die neuste Version ihres Projekts Dall-E vorstellt, nimmt das Thema urplötzlich an Fahrt auf. Im Juli gibt das US-Startup Midjourney bekannt, dass es seine Beta-Phase für Tester*innen öffnet. Im August startet Konkurrent Stability AI mit seinem Projekt Stable Diffusion die PR-Offensive, nachdem kurz zuvor im Juli auch Facebook-Mutterkonzern Meta sein AI-Projekt unter dem Namen „Make-a-scene“ vorgestellt hatte. Auch Google und Tiktok zogen nach. Tiktok hat beispielsweise kürzlich einen sehr rudimentären Text-zu-Bild-Generator als Feature in der App eingeführt, mit dem User*innen durch die Eingabe eines Begriffs wie „Steinwand“ ein Bild als Hintergrund für ihre Videos generieren können.

Wie heiß das Thema aktuell ist, zeigt die Finanzierungsrunde, die Stability AI vor wenigen Tagen bekannt gab: Während sich viele Startups angesichts der Zinswende gerade extrem schwer mit Finanzierungsrunden tun, sammelte das Londoner Startup 101 Millionen US-Dollar von Top-Risikokapitalgebern wie Coatue und Lightspeed ein – in der Seed-Runde. Damit hat Stability AI bereits zwei Jahre nach der Gründung 2020 durch CEO Emad Mostaque eine Bewertung von mehr als einer Milliarde US-Dollar – und damit den begehrten Unicorn-Status – erreicht.

Elon Musk und Peter Thiel fördern Open AI

Ein Geschäftsmodell hat Stability AI noch nicht, doch dass es einmal eins geben wird, scheint so gut wie sicher. Auch Konkurrenten haben, anfangs als gemeinnütziges Projekt gestartet, inzwischen eigene Tochterunternehmen gegründet, um mit den von ihnen entwickelten KI-Systemen Geld zu verdienen. So wie Open AI. Die US-Organisation wurde 2015 als gemeinnütziges Projekt gestartet. Seit 2019 hat sie aber auch eine Tochterfirma, die sich um die Kommerzialisierung der Technologie kümmert. Neben Dall-E (der Name ist dabei eine Wortkreuzung aus dem Namen des Künstlers Salvatore Dali sowie des Roboters aus dem Disney-Film Wall-E) arbeitet Open AI auch an anderen Einsatzmöglichkeiten von künstlicher Intelligenz.

Das Ziel von OpenAI ist es nach eigenen Angaben, dafür zu sorgen, dass künstliche Intelligenz der gesamten Menschheit zugute kommt. Zu den Investoren gehören unter anderem Tesla-Chef Elon Musk, Paypal-Gründer Peter Thiel und der Software-Konzern Microsoft. Angefangen hat die Arbeit dabei mit einem System, das man heute als GPT-3 kennt (und mit der wir uns bereits in zwei ausführlichen Artikeln auseinandergesetzt haben). Damit lassen sich mithilfe einiger Begriffe ganze Texte kreieren. Dies funktioniert, indem ein auf künstlicher Intelligenz basierendes Sprachprogramm auf der Grundlage von Wahrscheinlichkeiten berechnet, welches Wort auf ein anderes Folgen könnte. Nach und nach war es den Forscher*innen anschließend möglich, das System auf weitere Bereiche auszuweiten – etwa auf die Erstellung von Code oder eben die Generierung von Bildern.

Dall-E reproduzierte anfangs Stereotype

Wer bei Dall-E beispielsweise eingibt, dass er gerne ein Bild von einem Stuhl mit einer blauen Flasche und zwei Äpfeln in einem Fluss hätte, bekommt ein Bild von einem Stuhl mit einer blauen Flasche und zwei Äpfeln in einem Fluss. Versuche zeigen, dass das System nicht fehlerfrei funktioniert. Nicht immer sind beispielsweise zwei Äpfel auf dem Bild zu sehen. Oft sehen die Bilder nicht perfekt aus. Aber wie das Lachs-Beispiel gezeigt hat: Dall-E lernt schnell.

Das entsteht, wenn man Dall-E bittet, folgendes Motiv zu kreieren: „Eine blaue Flasche steht auf einem Stuhl, der in einem Fluss steht, mit zwei Äpfeln an der Seite.“ Foto: Dall-E

Dadurch konnten auch schon Fehler ausgeglichen werden, die anfangs passiert sind. Denn die KI-Systeme werden mit riesigen Datenmengen, sprich: Bildern aus dem Internet, gefüttert. Dadurch werden schnell Stereotype reproduziert und von der KI verinnerlicht. Gab man anfangs beispielsweise bei Dall-E an, dass man ein Bild von einem CEO oder Anwalt haben möchte, schlug das System laut einer Untersuchung automatisch weiße Männer vor – während Flugbegleiter auf Dall-E-Bildern immer asiatische Frauen waren. Bei unseren Versuchen tauchten diese Stereotype allerdings nicht mehr auf. Unsere Tests zeigten beispielsweise Männer und Frauen sowie Weiße und People of Color als Anwälte.

Bei Getty Images sieht man KI-generierte Bilder kritisch

Beim Wettlauf um automatisch generierte Bilder mischen alle mit: die großen Tech-Konzerne, Top-Risikokapitalgeber und auch viele einflussreiche Millionäre und Milliardäre. Die Chancen sind dabei genauso große wie die Risiken – denn welche Auswirkungen von KI-geschaffene Bilder einmal langfristig haben werden, ist noch nicht absehbar. In der „Washington Post“ warnt Wael Abd-Almageed, Professor an der School of Engineering der University of Southern California, bereits vor potenziellen Folgen. Historisch würden Menschen das glauben, was sie sehen, so der Professor: „Sobald die Grenze zwischen Wahrheit und Fälschung verwischt ist, wird alles zur Fälschung. Wir werden nicht mehr in der Lage sein, irgendetwas zu glauben.“

Auch bei professionellen Foto-Plattformen regt sich Widerstand, obwohl der Markt für Stock-Fotografie laut den Marktforschern von Arizton bis 2027 von 4,7 auf fast sieben Milliarden Dollar Umsatz wachsen könnte. Wer auf KI-Bilder setzt, könnte seinen Kund*innen deutlich günstigere und individuellere Bilder anbieten – und so auch seltene Motive liefern, die bislang erst aufwendig erstellt werden müssten. Dennoch hat die Foto-Agentur Getty Images zuletzt das Hochladen von Bildern untersagt, die mithilfe von AI-Programmen wie Dall-E und Co. erzeugt wurden. Als Grund führte CEO Craig Peters gegenüber dem US-Portal „The Verge“ rechtliche Bedenken an – etwa beim Urheberrecht. Weil sich Kund*innen von Getty Images damit durch den Kauf einem Risiko aussetzen würden, dass sie am Ende für Verstöße belangt werden, habe Getty proaktiv gehandelt, lautet die Argumentation des Unternehmens. Auch Konkurrent Shutterstock hat laut einem Bericht von „Vice“ zuletzt Maßnahmen gegen KI-generierte Bilder ergriffen.

KI wird den Markt für Stock-Fotografie dramatisch verändern

Das Problem ist: Forscher*innen trainieren die Algorithmen der KI-Unternehmen auch mit urheberrechtlich geschützten Bildern aus dem Internet – allein schon, um eine möglichst große Datenbasis zu haben. Andere Bilder, etwa pornografische, werden bewusst ausgeklammert. Dieses „Scraping“ ist in den USA zwar legal. Allerdings ist unklar, wie die rechtliche Lage aussieht, wenn die so generierten Bilder anschließend kommerziell genutzt werden. In Europa verbietet die Datenschutz-Grundverordnung beispielsweise die Verwendung von Bildmaterial ohne das Einverständnis der abgebildeten Personen.

Dennoch: Den Markt für Stock-Fotografie dürfte Künstliche Intelligenz mittelfristig dramatisch verändern. Technisch ist es heute schon möglich, täuschend echte menschliche Gesichter zu erzeugen. Das zeigt beispielsweise die Seite „This person does not exist“, die bei jedem Besuch ein neues, künstlich generiertes Porträt zeigt. Um solche sogenannten Deepfakes zu verhindern, verzerren viele Systeme daher bewusst menschliche Gesichter. Um rechtliche Probleme zu vermeiden und dennoch KI-generierte Stock-Fotos anbieten zu können, bauen erste kommerzielle Anbieter daher eigene Datenbanken mit Bilder auf. Zum Beispiel die Münchner Bildagentur Smarterpix , die mit solchen Fotos ihre Systeme trainiert. Sollte sich das Vorgehen bewähren, dürfte schon bald ein großer Teil der Stock-Fotos von KIs stammen.

Ein AI-generiertes Bild gewinnt bei einem Kunst-Wettbewerb

Klar, dass sich bei Betroffenen Widerstand regt. Das Wirtschaftsmagazin „Forbes“ verwies kürzlich auf die minutenlangen Abspänne von Filmen, in denen Menschen genannt werden, die etwa für Special Effects zuständig sind. Ihre Arbeit könnte künftig genauso von einer KI übernommen werden wie die von Stock-Fotografen. Denn längst experimentieren Meta und Google auch an Video-Generatoren, die aus Text-Befehlen Clips machen. Bedient werden könnten diese Systeme künftig von Menschen, die sich auf die Eingabe entsprechender Sprachbefehle verstehen – und selbst dafür gibt es schon erste Marktplätze, auf denen Anbieter vorgefertigte Formulierungen liefern.

Das auch dies eine Kunst ist, wurde kürzlich in Colorado deutlich. Im August gewann ein Bild den ersten Preis bei einer Kunstausstellung im US-Bundesstaat Colorado, das mithilfe der KI von Midjourney entstanden ist. Das Bild mit dem Titel „Théâtre D’opéra Spatial“ zeigt eine surrealistische Szenerie mit Frauen in wallenden Kleidern. Welche Begriffe der Künstler James Allen verwendet hat, um dieses Bild zu erzeugen, wollte er im Nachhinein nicht verraten. Als es Kritik an der Auszeichnung gab, beharrte er darauf, nichts falsch gemacht zu haben. Denn der Einsatz von Digital-Technologie war in der Kategorie, in der er sein Bild eingereicht hatte, erlaubt. Dennoch stellte sich für viele im Nachhinein die Frage, wo man da die Grenze zieht?

Auch in Hamburg arbeiten sie an KI-generierten Bildern

„Wir erleben durch die KI-Bildgenerierung eine Demokratisierung der Kunst“, sagt Jonathan Mall: „Die kreative Idee zählt jetzt mehr als das künstlerische Handwerk.“ Mall ist promovierter Neuropsychologe und CIO beim Hamburger Unternehmen Neuroflash. Das Startup wurde 2021 gegründet und hat sich anfangs auf maschinell erstellte Texte konzentriert (hier erklären wir, wie KI-Texte funktionieren und welche Anbieter auf dem Markt unterwegs sind). Inzwischen kann die Software von Neuroflash auch Bilder generieren – und versucht sich im Schatten von Riesen wie Dall-E und Midjourney zu etablieren.

Speziell im Marketing soll dies Unternehmen die Arbeit erleichtern. Denn in vielen Branchen tun sich Unternehmen schwer damit, für ihre eher abstrakten Produkte Bebilderungen zu finden. Die Suche nach passenden Stock-Fotos dauert oft lange und ist mühselig. Mit Neuroflash soll es eine Abkürzung geben. „Neuroflash ist wie ein E-Bike – wir unterstützen unsere Kunden bei ihrer Arbeit, aber wir ersetzen die Jobs nicht komplett“, sagt CEO Jens Windel: „Wenn ein Versicherer beispielsweise Sicherheit und Vertrauen ausdrücken möchte in seinen Werbebildern, dann können wir ihm dabei helfen, indem unser System assoziierte Begriffe findet wie Nest, Wärme oder Mutter und noch hunderte andere, an die vielleicht niemand von uns gedacht hat“. Zu den Kunden von Neuroflash zählen unter anderem der Hamburger Kaffeeröster Tchibo oder auch die Credit Suisse.

Können KI-generierte Bilder die Demokratie gefährden?

Gleichzeitig können KI-generierte Bilder natürlich auch eingesetzt werden, um Falschinformationen zu verbreiten. Zwar haben Plattformen wie Dall-E Regeln festgelegt, welche Kreationen erlaubt sind und welche nicht. Dall-E verbietet beispielsweise Bilder, die Gewalt zeigen oder den politischen Prozess beeinflussen könnten. Versucht man bei Dall-E beispielsweise, ein Bild zu generieren, bei dem ein Muslim eine Frau in Front des Brandenburger Tors attackiert, führt das System den Befehl nicht aus und verweist auf die eigenen Richtlinien. Ein Bild von Aufständischen vor dem deutschen Bundestag lässt sich allerdings sehr wohl generieren.

Dieses Bild entsteht, wenn man bei Dall-E „Riots in front of the German Bundestag“ eingibt. Foto: Dall-E

Möglichkeiten, mit Bildern oder auch Videos zu manipulieren, sind nicht neu. Auch früher schon haben Menschen Ufo-Sichtungen fingiert oder per Photoshop vermeintliche Nacktbilder von Prominenten gebastelt. Doch die technologischen Möglichkeiten bieten heute ganz neue Chancen, durch den Einsatz künstlicher Intelligenz unglaublich realistische Deepfakes zu kreieren. Das kann lustig sein, wenn etwa Jerry Seinfeld plötzlich im Kult-Film Pulp Fiction auftaucht, oder faszinierend, wenn etwa der bekannte Podcaster Joe Rogan den bereits verstorbenen Apple-Gründer Steve Jobs interviewt. Doch in beiden Fällen wurde transparent gemacht, dass es sich um Fiktion handelt.

Die Deutsche Presse-Agentur will keine KI-Bilder auf der Plattform

Entsprechend wachsam ist man auch bei Medienunternehmen wie der Deutschen Presse-Agentur (DPA). Die Agentur beliefert ihre Kunden, also zum Beispiel Tageszeitungen, mit Texten, aber eben auch mit Bildern, die diese wiederum für ihre Berichterstattung nutzen können. In diesem Bereich gelten die höchsten journalistischen Standards, betont ein Sprecher. Er sagt: „Fotomaterial, das mit Hilfe von KI erstellt wurde, hat hier selbstverständlich keinen Platz.“

Gleichzeitig betreibt die DPA-Gruppe, das Mutterunternehmen der Nachrichtenagentur, allerdings auch die Plattform Picture Alliance. Auf dieser werden Kund*innen DPA-Fotos, aber eben auch Fotos von Drittanbietern bereitgestellt. KI-generierte Bilder sollen hier jedoch ebenfalls keinen Platz haben. Der Sprecher betont: „In einem konkreten Fall haben wir kürzlich ein entsprechendes Foto eines Drittanbieters von der Plattform entfernt“. Derzeit arbeite man an verbindlichen Richtlinien für Drittanbieter, die über Picture Alliance Bilder anbieten wollen. „Diese sollen sicherstellen, dass KI-produziertes Material auf der Plattform nicht angeboten wird“, sagt der DPA-Sprecher.

Die EU-Kommission hat ein KI-Gesetz vorgelegt

Die Frage, wie man mit den Fähigkeiten künstlicher Intelligenz umgeht, ist nicht nur in der Wirtschaft und Gesellschaft Thema. Längst hat sich auch die Politik der Frage angenommen, was erlaubt sein sollte – und was nicht. Die EU-Kommission hat bereits im vergangenen Jahr einen Vorschlag für ein KI-Gesetzespaket vorgelegt, das aktuell von den jeweiligen Mitgliedsstaaten bewertet und diskutiert wird. Im deutschen Bundestag gab es dazu zuletzt unter anderem eine Expertenanhörung.

Das Ziel ist klar: Europa will einerseits klare Regeln, um seine Bürger*innen zu schützen. Gleichzeitig will die Politik auch dafür sorgen, dass Wirtschaft und Wissenschaft weltweit führend sind in diesem Bereich. Damit nicht am Ende bei europäischer Technologie das Lachsfilet im Fluss schwimmt, während es andernorts der Lachs ist.

Dall-EdpaElon MuskMetaPeter ThielStability AITikTokOpenAI

Autor*In

Florian Rinke

Florian Rinke ist Host des Podcast "OMR Rabbit Hole" und verantwortet in der OMR-Redaktion den "OMR Podcast". Vor seinem Wechsel Anfang 2022 zu OMR berichtete er mehr als sieben Jahre lang für die Rheinische Post über Start-ups und Digitalpolitik und baute die Rubrik „RP-Gründerzeit“ auf. 2020 erschien sein Buch „Silicon Rheinland".

Alle Artikel von Florian Rinke