So verändern synthetische Stimmen das Marketing- und Medien-Game

Florian Rinke15.2.2024

Durch Künstliche Intelligenz lassen sich Stimmen täuschend echt nachbilden. Das hat Vor- und Nachteile.

Inhalt

Sprachgrenzen werden jetzt überwunden
Eine KI spricht das Morning Briefing
Kriminelle nutzen KI-Stimmen für Straftaten
"Die Qualitätsführerschaft dauert im Schnitt nur neun Monate"
Das Volumen von Audio-Inhalten nimmt zu
Heise plant zwei Podcasts pro Tag
Was wird aus der Ikea-Stimme?
Werden Sprecher*innen arbeitslos?

Fake-Anrufe mit der Stimme von US-Präsident Joe Biden haben zuletzt weltweit für Schlagzeilen gesorgt. Die Synthetisierung von Stimmen war vor wenigen Jahren noch extrem aufwendig, inzwischen reichen ein paar Klicks. Speziell im Medien- und Marketingbereich gibt es erste Experimente, wie sich die Technologie sinnvoll einsetzen lässt. Doch die langfristigen Veränderungen dürften noch sehr viel gravierender sein.

Zwei Wochen hat Heiko Grauel im Tonstudio verbracht. Zwei Wochen, in denen er rund 14.000 Sätze eingesprochen hat. Immer im selben Sprachrhythmus. "Das kann schon monoton sein", sagt er rückblickend und lacht. Heiko Grauel ist die Stimme, die täglich von Millionen Menschen gehört wird, wenn sie am Bahnsteig stehen. Er ist die Stimme der Deutschen Bahn – obwohl er sowas wie "Der ICE 689 von Hamburg nach München fährt heute von Gleis 7" bis auf wenige Ausnahmen nie gesagt hat. "Ich habe Sätze gesagt wie ,Peter ging in den Wald und sammelte Pilze' und die wurden dann vom System zerhackt und werden jetzt je nach Bedarf neu zusammengesetzt", sagt Heiko Grauel.

14.000 Sätze, zwei Wochen Tonstudio – vier Jahre ist das erst her. Doch es klingt wie eine Geschichte aus einer anderen Welt. Mittlerweile reichen wenige Minuten gesprochener Text, egal ob aus einem Podcast, einem Youtube-Video oder sonstigen Quellen, um Stimmen täuschend echt zu klonen und praktisch jeden Satz sagen zu lassen, in mehreren Sprachen. Das Potenzial ist gewaltig. Welche Gefahr aber auch in der Technologie liegt, konnte man zuletzt in den USA erleben, wo mittels der gefälschten Stimme von US-Präsident Joe Biden potenzielle Wähler*innen aufgefordert wurden, nicht zu den Wahlen zu gehen.

Sprachgrenzen werden jetzt überwunden

"Text to Speech", das Verfahren, mit dem die Deutsche Bahn die Stimme von Heiko Grauel für die Software abrufbar gemacht hat, ist dabei nur eine der heute möglichen Varianten. Unternehmen wie der britische Shooting-Star ElevenLabs haben inzwischen auch "Speech to Speech"-Funktionen live gestellt, mit der sich die Stimme einer Person quasi in Echtzeit verwandeln können soll. Und dank "voice cloning" lassen sich dabei auch echte Stimmen täuschend echt nachbilden. Durch synthetische Stimmen werden Sprachgrenzen, die schon in der Bibel beim Turmbau zu Babel von Gott als Strafe für die Menschen gedacht waren, quasi überwunden. Die Frage ist nur: Was bedeutet das für Menschen wie Heiko Grauel?

Synthetische Stimmen sind grundsätzlich kein neues Phänomen. Menschen sprechen schon seit Jahren mit Siri oder Alexa, diktieren einem Sprachcomputer Zahlen und Bedürfnisse in der Hotline-Warteschleife, um zum richtigen Ansprechpartner bzw. der richtigen Ansprechpartnerin durchgestellt zu werden – oder lassen sich von einer künstlichen Stimme mit dem Auto durch die Straßen navigieren. Doch dank der rasanten Fortschritte im Bereich der Natural Language Generation werden Möglichkeiten schneller, günstiger und vor allem auch natürlicher. In Marketing und Medien dürften synthetische Stimmen damit mittel- bis langfristig eine immer größere Rolle spielen. Mit Lösungen wie Audiostack lassen sich schon jetzt in wenigen Sekunden aus Texten Audio-Werbespots erzeugen, gesprochen von einer synthetischen Stimme.

Eine KI spricht das Morning Briefing

Im nächsten Schritt dürfte es noch stärker um Personalisierung gehen. Viele Medien experimentieren heute bereits mit synthetischen Stimmen ihrer Autor*innen. Beim Düsseldorfer Handelsblatt wird der werktägliche Newsletter Morning Briefing von Autor Christian Rickens eigentlich von einem Profi-Sprecher als Podcast vertont. Im Sommer 2023 ließ man ihn in einem Experiment von Christian Rickens selbst einsprechen – bzw. von dessen geklonter Stimme vorlesen. Rickens hatte vorher genau wie bei der Deutschen Bahn Heiko Grauel etliche Sätze einsprechen müssen, damit die Software die Silben und Laute anschließend neu zusammensetzen konnte.

Auch auf der anderen Rheinseite hat man beim WDR in Köln, der größten Sendeanstalt der ARD, bereits die Stimme der beliebten Moderatorin Steffi Neu im Rahmen eines Experiments synthetisiert. Dennis Horn, Leiter der Audio-Unit beim WDR-Sender Einslive, sagte kürzlich bei einer Konferenz in Dortmund, man habe sich bewusst dagegen entschieden, die Stimmen von Nachrichtensprecher*innen zu klonen, um Missbrauch zu vermeiden. Selbst die KI-Stimme von Steffi Neu kommt bislang nicht zum Einsatz. Allerdings sagte ein WDR-Sprecher auf Anfrage: "Wir diskutieren einen Einsatz von synthetischen Stimmen im Bereich Wetter und Verkehr – allerdings nicht als menschliche Klon-Stimme, sondern als technische Stimme." Voraussetzung sei jedoch, dass die Inhalte von menschlichen Redakteur*innen verantwortet würden. Einen Zeitpunkt für die Umsetzung gebe es noch nicht.

Kriminelle nutzen KI-Stimmen für Straftaten

Was schnell deutlich wird: Die Entwicklungsgeschwindigkeit in der Medienbranche hält generell, aber speziell auch beim Thema Voice Cloning noch nicht mit den Fortschritten der KI-Unternehmen mit. "Am Anfang sind die Redaktionen super offen beim Thema Voice Cloning, aber beim zweiten Nachdenken merken sie, welche Fragen noch offen sind", sagt Pascal Hohmann vom Software-Anbieter Storyflash, der Redaktionen bei der Automatisierung der Podcast-Produktion hilft. Andere "Branchen" sind weniger scheu. Zuletzt berichtete der SWR, dass auch Kriminelle inzwischen geklonte Stimmen einsetzen, um damit Leute um viel Geld zu bringen. Enkeltrick reloaded.

Während Medienfirmen nach dem richtigen Vorgehen suchen, ist bei der Finanzierung bereits extrem viel Dynamik im Markt. Im Dezember sammelte das Startup AssemblyAI rund 50 Millionen US-Dollar ein. Bei ElevenLabs, das 2022 von Piotr Dąbkowski und Mateusz Staniszewski, zwei polnischstämmigen Ex-Entwicklern von Google bzw. Palantir, gegründet wurde, waren es sogar 80 Millionen US-Dollar. Obwohl noch keine zwei Jahre alt, wurde das Unternehmen dabei von den Investor*innen bereits mit mehr als einer Milliarde US-Dollar bewertet – und erreichte damit Unicorn-Status.

"Die Qualitätsführerschaft dauert im Schnitt nur neun Monate"

Eine dauerhafte Vorherrschaft bedeutet das aus Sicht von Timo Kunz, deutscher Gründer und CEO des britischen Technologie-Anbieters Audiostack (der kürzlich ebenfalls einen Millionen-Finanzierungsrunde abschließen konnte), allerdings nicht. "Die Qualitätsführerschaft der jeweiligen Unternehmen dauerte in den vergangenen fünf Jahren im Schnitt ungefähr neun Monate", sagt er. In der Vergangenheit hätten sowohl Google, Amazon oder Microsoft, aber auch öffentlich eher unbekanntere Anbieter wie WellSaid Labs oder Resemble zeitweise die führenden Sprachmodelle gehabt.

Auch ElevenLabs müsse sich vor der Konkurrenz in Acht nehmen, glaubt der Deutsche: "Die aktuellen Sprachmodelle von OpenAI oder PlayHT sind technisch etwa genauso gut, haben aber andere Stärken oder sind viel, viel günstiger". Audiostack, dessen Software es ermöglicht, professionelle Audiospots in wenigen Sekunden zu produzieren, arbeitet daher mit verschiedenen Anbietern zusammen, um sich nicht zu sehr von einer Lösung abhängig zu machen bzw. die qualitativ aktuell führende Lösung anbieten zu können.

Das Volumen von Audio-Inhalten nimmt zu

Ähnlich wie bei der Digitalfotografie die Flut der Bilder zugenommen hat, wird auch das Volumen der Audio-Inhalte zunehmen. Laut einer Studie von Research&Markets wurden 2021 weltweit rund 2,8 Milliarden US-Dollar mit Text-to-Speech-Lösungen umgesetzt. Bis 2031 sollen es 12,5 Milliarden US-Dollar sein. Timo Kunz glaubt, dass der Einsatz geklonter Stimmen dabei vorerst noch ein Nischenthema bleiben wird, allein schon wegen des zusätzlichen Aufwands. "Für 80 Prozent der Einsatzzwecke reichen Stimmen von der Stange", sagt er mit Blick auf Stimmmodelle, die von verschiedenen Anbietern häufig mit nur wenigen Einschränkungen zur freien Verfügbarkeit angeboten werden.

Dennoch: Erste Einsatzzwecke tun sich bereits auf. Das IT-Portal Heise wird in Kürze zweimal täglich in einem Nachrichten-Podcast über aktuelle Themen aus der Tech-Welt informieren. Zu hören sein wird die Stimme von Podcast-Redakteurin Isabel Grünewald. Erstellt wird der Podcast aber mit der Technologie von Storyflash. Mit der Software des Düsseldorfer Unternehmens können Redaktionen auf Basis von Texten automatisiert Podcasts erstellen – anfangs mit "Stimmen von der Stange", wie Timo Kunz sie nennen würde. Inzwischen können auch echte Stimmen synthetisiert und eingesetzt werden.

Heise plant zwei Podcasts pro Tag

Isabel Grünewald ist bei Heise für die Podcasts zuständig. Sie ist die Stimme, die die Hörer*innen kennen – aber natürlich hat auch ihr Tag nur 24 Stunden. "Unsere Idee ist aber, in Zukunft jeweils morgens und nachmittags einen Podcast zu veröffentlichen", sagt Hannah Monderkamp, Mitglied der Chefredaktion bei Heise: "Und natürlich wäre es auch super, wenn Isabel mehr Zeit hätte, sich um Formate wie unseren True-Crime-Podcast ,Bits & Böses' zu kümmern."

Bei Heise setzt man daher auf Automatisierung. Der tägliche News-Podcast wird weiterhin von Redakteur*innen betreut, in Zukunft aber von Isabel Grünewalds synthetisierter Stimme vertont. Mit der Journalistin wurde dabei vertraglich geregelt, dass ihre Stimme nur für redaktionelle Zwecke genutzt wird und sie auch juristisch unterstützt wird, sollten Dritte ihre Stimme missbrauchen. "Am Ende geht es viel um Vertrauen", sagt Hannah Monderkamp.

Was wird aus der Ikea-Stimme?

Auch Synchronsprecher Heiko Grauel hat mit der Bahn vereinbart, dass seine Stimme nur für Ansagen am Bahngleis verwendet wird. Die Ansagen in S-Bahnen beispielsweise klingen noch immer anders – und werden in der Regel auch von den zuständigen Verkehrsgesellschaften gemanagt. Dennoch: In den Gesprächen mit Expert*innen ist immer wieder zu hören, dass Stimmen langfristig auch noch stärker zu Marketingzwecken eingesetzt werden könnten, speziell dann, wenn sie schon jetzt ganz stark mit einer Marke assoziiert werden.

Zum Beispiel die Stimme von Jonas Bergström. Der Schwede spricht bereits seit 1999 die deutsche Ikea-Werbung. Die Stimme ist inzwischen in Deutschland, dem wichtigsten Ikea-Markt, vermutlich genauso ikonisch wie die gezeichneten Figuren in den Anleitungen. Doch Bergström ist bald 80 Jahre alt. Für das Unternehmen stellt sich also irgendwann die Frage, wie es weitergeht, wenn der Schwede fürs Einsprechen der Werbung irgendwann nicht mehr wie momentan zwei bis drei Mal monatlich ins Studio kommen kann oder möchte. Noch, heißt es auf Anfrage bei Ikea, gebe es keine Pläne für einen Ersatz, weil Jonas Bergström bislang kein Interesse daran habe, seinen Sprecherjob aufzugeben. Und bislang sei die Stimme auch nicht synthetisiert worden, um sie dauerhaft zu nutzen. "Uns ist auch nicht bekannt, dass das gemacht werden soll", heißt es.

Werden Sprecher*innen arbeitslos?

Deutsche-Bahn-Sprecher Heiko Grauel sagt, ihm und vielen Kolleginnen und Kollegen grause es angesichts solcher Diskussionen. "Letztlich würde das ja bedeuten, dass wir alle arbeitslos werden", sagt er. Kurzfristig macht er sich um seinen Job allerdings keine Sorge. Einerseits, sagt Heiko Grauel, habe er sich in der Branche durch seine Arbeit in mehr als 30 Jahren einen guten Ruf aufgebaut. Außerdem seien in den vergangenen Jahren auch viele neue Jobs dazu gekommen. "Inzwischen wird ja quasi aus jeder DIN-A4-Seite ein Hörbuch gemacht", sagt er. Mehr als 250 Hörbücher hat er inzwischen eingelesen, darunter auch etliche Bestseller.

Es gibt zwar erste Experimente im Hörbuch-Bereich – in den USA haben die Erb*innen des Schauspielers Edward Herrmann ("Gilmore Girls") etwa die Verwendung seiner Stimme für Hörbücher genehmigt –, der Großteil der aufwendigen Produktionen wird aber noch immer von echten Menschen gesprochen. Eine KI könne noch nicht so gut Emotionen abbilden, wie es ein professioneller Sprecher oder eine professionelle Sprecherin könne, sagt Heiko Grauel mit seinem tiefen Bass. "Aber ich weiß natürlich nicht, ob es in den nächsten drei bis fünf Jahren nicht ganz anders aussieht, so dass ich irgendwann denke: Oh, vielleicht solltest du doch nochmal einen Taxi-Schein machen."

Storyflash

Autor*In

Florian Rinke

Florian Rinke ist Host des Podcast "OMR Rabbit Hole" und verantwortet in der OMR-Redaktion den "OMR Podcast". Vor seinem Wechsel Anfang 2022 zu OMR berichtete er mehr als sieben Jahre lang für die Rheinische Post über Start-ups und Digitalpolitik und baute die Rubrik „RP-Gründerzeit“ auf. 2020 erschien sein Buch „Silicon Rheinland".

Alle Artikel von Florian Rinke