Samuel L. Jackson statt Alexa: Kann Stimmsynthese Voice zum viralen Moment verhelfen?

Roland Eisenbrand27.9.2019

Amazon setzt auf das künstliche Nachbilden echter Stimmen

Inhalt

Was ist die Killer-App?
Die Voice Packs gibt’s nicht kostenlos
Amazon hat einen eigenen „Text-to-Speech“-Service
Können Podcasts künftig synthetisiert werden?

„English, Motherfucker, do you speak it?“ – Dieses berühmte, nicht jugendfreie Zitat aus Pulp Fiction wird Amazons Alexa vermutlich auch nicht in Zukunft von sich geben, so amüsant die Vorstellung auch sein mag. Immerhin aber können englischsprachige Nutzer ihre Alexa-Geräte in der nahen Zukunft mit der Stimme von Pulp-Fiction-Schauspieler Samuel L. Jackson sprechen lassen. OMR erklärt, was dahintersteckt, und was das für stimmbasiertes Marketing und Publishing bedeuten könnte.

Wann kommt der Durchbruch von Voice? Zwar sind laut Amazon bis Anfang 2019 mehr als 100 Millionen Geräte, in die die Sprach-Software Alexa integriert ist, verkauft worden. Aber einen ähnlichen Durchbruch in der Breite wie es vor etwas mehr als zehn Jahren das Smartphone erlebt hat, sind sowohl Amazons als auch Googles Sprachassistenten bislang noch nicht gelungen.

Was ist die Killer-App?

Das mag auch an den bisherigen „Use Cases“ liegen. Seit vier Jahren gibt es Alexa; 80.000 Skills wurden entwickelt – aber eine „Killer App“ ist bislang nicht darunter, heißt es in einem lesenswerten Resümee über Alexa als Plattform, das das US-Wirtschaftsmedium Bloomberg im dem März dieses Jahres veröffentlichte.

Vor wenigen Tagen nun stellte Amazon beim „Amazon Devices Event“ eine Neuerung vor, die Alexa als Plattform möglicherweise zumindest virales Wachstum und virale Nutzung bescheren könnte: so genannte Voice Packs. Wer ein solches erwirbt, kann die Stimme seines Alexa-Gerätes umstellen von der „Standard-Alexa“ zu denen real existierender Personen, inbesondere Prominenten. Als erste „Celebrity Voice“ wird die von Samuel L. Jackson verfügbar sein.

Die Voice Packs gibt’s nicht kostenlos

Es ist zumindest vorstellbar, dass Promistimmen der Alexa-Plattformen einen viralen Moment bescheren könnten. Andere Plattformen haben in der Vergangenheit mit ähnlich spielerische Elementen immer wieder einmal einen „Das will ich auch ausprobieren!“-Effekt auslösen können, der ihnen zumindest kurzfristig einen enormen Nutzerzuwachs beschert hat – Snapchat mit bestimmten 3D-Filtern beispielsweise. Als Alexa-Nutzer Gäste zu Hause von den Stimmen von Prominenten oder von Synchronsprechern (wie beispielsweise Bruce-Willis-Sprecher Manfred Lehmann) begrüßen lassen zu können, dürfte zumindest einen gewissen Unterhaltungswert haben.

Erstaunlich ist in diesem Zusammenhang, dass Amazon die Voicepacks offensichtlich nicht kostenlos zur Verfügung stellen will. In Amazons US-„Skill Store“ ist die „Celebrity Voice“ von Jackson bereits eingestellt: Zum Start wird das Voice Pack einen knappen US-Dollar kosten, später soll der Preis auf knapp fünf US-Dollar steigen. Die Voicepacks kostenlos zur Verfügung zu stellen, würden das Viral-Potenzial der Promistimmen zumindest deutlich steigern.

Amazon hat einen eigenen „Text-to-Speech“-Service

Wie das US-Entertainmentbranchen-Medium Variety in einem Bericht schreibt, basieren Amazons Voicepacks nicht auf voraufgenommen Sprachschnipseln, sondern werden für diese Stimmen komplett synthetisiert. Die Vermutung liegt nahe, dass Amazon dafür den eigenen „Text-to-Speech“-Service Polly nutzt, den das Unternehmen 2016 vorgestellt hat. Seit 2018 können unabhängige Alexa-Entwickler auch Polly nutzen, um 27 verschiedene synthetisierte Stimmen innerhalb von Alexa Skills einzusetzen.

Die Sprachsynthese hat in den vergangenen zwölf bis 24 Monaten offenbar enorme Fortschritte gemacht. Das hat auch kritische Folgen, denn durch die Fortschritte droht auch der Missbrauch von so genannten „Audio Deep Fakes“. Die französische Versicherungsgruppe Euler Hermes berichtete beispielsweise kürzlich von einem Betrugsfall eines ihrer Klienten, bei dem Kriminelle bei einem Telefonat mit der synthetisierten Stimme des Geschäftsführers eines Unternehmens dem Geschäftsführer eines Tochterunternehmens dazu anwiesen, insgesamt 220.000 Euro auf ein Konto in Ungarn zu überweisen. Dieser kam der Aufforderung nach; das Geld war weg.

Können Podcasts künftig synthetisiert werden?

Die Stimmsynthese könnte möglicherweise aber auch die Produktion von Podcasts und von Podcast-Werbung verändern. Im Mai dieses Jahres stellte die kanadische AI-Firma Dessa ein selbstlernendes Sprachsynthese-Modell vor, mit dem es Entwicklern des Unternehmens gelungen ist, die Stimme des bekannten US-Podcasters Joe Rogan zu imitieren. In einer von Dessa im Netz hochgeladenen Audiodatei kündigte der falsche Rogan (der im vergangenen Jahre global eine größere Aufmerksamkeit erhalten hat, als Tesla-Chef Elon Musk mit Rogan während der Aufnahme eines Podcasts einen Joint geraucht hat) an, eine Hockeyteam aus Schimpansen zusammenstellen zu wollen.

Amazon Alexa

Autor*In

Roland Eisenbrand

Roland ist seit mehr als zehn Jahren als Journalist in der Digitalbranche aktiv. Seit 2014 verantwortet er als Head of Content (und zweiter Mitarbeiter) alle inhaltlichen Komponenten von OMR, darunter vor allem den OMR Blog und redaktionelle Arbeit rund um das OMR Festival.

Alle Artikel von Roland Eisenbrand