Podimos KI-Chef: "Algorithmische Empfehlungen konvertieren doppelt so gut"
Benjamin Biering ist Head of AI der dänischen Podcast-Plattform Podimo. OMR sprach mit ihm darüber, wie KI gerade die Karten im Podcast-Game neu mischt
- Wie Podimo Podcast-Empfehlungen personalisiert
- Was KI-Empfehlungen extrem passgenau macht
- Wie radikal gerenative KI die Content-Analyse verbessert
- Warum Podimo Nutzer*innen personalisierte Recommendations erklärt
- Weitere Features, bei denen generative KI genutzt wird
- Warum Podcast-Summaries mit dynamischen eine Herausforderung sind
Bei Podimo sind sie aktuell ziemlich bullish in Sachen KI. Die Algorithmen sorgen für bessere Empfehlungen, erstellen automatisiert Snippet Content, verschaffen Formaten durch KI-generierte Audio-Übersetzung eine internationale Audience und erstellen vielleicht schon bald Podcast-Versionen in beliebiger Länge. Im Gespräch mit OMR erläutert Podimos KI-Chef Benjamin Biering, welche der diversen Möglichkeiten der neuen Technologie die Dänen testen und wo er im Podcast-Sektor das Potenzial und (derzeitige) Grenzen für den Einsatz von KI sieht.
Im direkten Vergleich mit Spotify und Audible erscheint Podimo als Nischenplayer. Doch die 2019 in Kopenhagen gegründete Plattform für Podcasts und Audiobooks schlägt sich gut. Seit dem Start ist der Dienst kostenpflichtig und lockt mit exklusiven Formaten. Neben der gerade mit dem Deutschen Podcast Preis in der Kategorie "Beste Unterhaltung“ ausgezeichneten Show „Die Pochers“ haben vor allem die vielen exklusiven „True Crime“-Formate auf der Plattform eine große Fanbase.
Als eher kleinem Anbieter (der in seiner skandinavischen Heimat, den Niederlanden und spanischsprachigen Ländern allerdings relevanter ist als in Deutschland) fiel es Podimo zuletzt schwer, beim Wettbieten um Exklusivverträge mit Podcaster*innen mitzuhalten. Wohl auch darum investiert das Startup viel in Features innerhalb seiner App. Ziel ist es, Nutzenden das Auffinden von für sie relevanten Podcasts zu vereinfachen und Creatorn neue Möglichkeiten bieten, ihren Content zu distribuieren. Künstliche Intelligenz spielt dabei die zentrale Rolle.
Podimo nutzt KI-gestützte Analysen des Contents und seiner Nutzenden, um Podcast besser zu präsentieren und die Interessen und Hörsituationen seiner Abonnent*innen genauer zu erkennen. Außerdem experimentiert das dänische Startup mit generativer KI, um den exklusiven Content auf der Plattform vollautomatisiert in neuen Formen aufzubereiten, und als Tool, um Formate in der jeweiligen Landessprache international ausspielen zu können. In einer Art Werkstattbericht gibt Podimos Head of AI Benjamin Biering OMR exklusive Einblicke.
Wie Podimo Podcast-Empfehlungen personalisiert
OMR: Was ist der Ansatz von Podimo beim Thema Discovery?
Benjamin Biering: Wir wollen ein Audio-Begleiter sein. Das heißt, wann immer man etwas hören möchte oder Zugang zu Informationen sucht, bieten wir das passende Audioformat. Darum konzentrieren wir uns sehr auf Multimodel Discovery.
Was bedeutet das?
Das heißt, wir helfen den Nutzenden, Inhalte über verschiedene Kanäle zu entdecken. Das kann durch redaktionelle oder algorithmische Kuratierung geschehen, über User-Empfehlungen oder Empfehlungen von Künstler*innen und so weiter.
Wie schlagt ihr Hörer*innen neue Formate vor?
Am Anfang hatten wir Empfehlungen in einer Art Galerie, sehr klassisch. Wie man es auf Spotify, Netflix, Disney und so weiter findet. Das Problem daran: Diese Empfehlungen sind vielleicht relevant, aber die Nutzenden sind womöglich nicht in der Stimmung für diese spezielle Empfehlung. Und man bekommt keine guten Signale zurück, wenn man fünf Inhalte auf einmal anzeigt. Schauen die Nutzenden sie überhaupt an? Gefallen sie ihnen oder nicht? Sind es also gute Empfehlungen oder nicht? Damit hat jedes Empfehlungssystem auf jeder Website und in jeder App zu kämpfen.
Was habt ihr verändert?
Begonnen haben wir mit der Verpackung. Statt einer Galerie zeigen wir nur eine Inhaltskarte, auf der wir mehr Kontext geben können und sagen, wir empfehlen dir diesen Inhalt, weil andere Leute ihn mögen oder weil er mit dem Thema zusammenhängt, das du magst. Mit diesem Ansatz haben wir ein Design-Erlebnis, das an Tiktok erinnert. Die Leute sind es gewohnt, von Karte zu Karte zu scrollen.
War Tiktok hier ein konkretes Vorbild?
Nein. Ich habe Tiktok zwar nicht auf meinem Handy, weiß aber, dass man sich stundenlang ein kurzes Video nach dem anderen anschauen kann. Das ist für Podcasts nicht so verlockend, oder? Der Sinn ist eher, dem Inhalt mehr Raum zu geben, statt winzige Galerien mit vielen Artikeln zu haben. Es stimmt aber schon, dass es ein Design ist, an das zumindest die Gen Z gewöhnt ist.
Wie groß ist der Unterschied, an welcher Stelle ein Inhalt empfohlen wird?
Als wir noch die Galerien hatten, war es ziemlich drastisch. Nach fünf oder sechs Galerien war die Zahl der Impressionen auf zehn Prozent gefallen. Für Karten messen wir das nicht, weil wir die Anzahl der Karten, die wir zeigen, begrenzen. Du kannst also nicht ewig scrollen wie bei Tiktok, aber es ist anzunehmen, dass der Effekt bei diesem neuen Ansatz weniger ausgeprägt ist.
Was KI-Empfehlungen extrem passgenau macht
Lass uns über die Technologie sprechen, die hinter den Karten steckt. Was funktioniert besser: kuratierte Empfehlungen oder von Algorithmen erstellte?
Wir haben festgestellt, dass unsere algorithmischen Empfehlungen viel besser konvertieren als die redaktionellen. Fast 20 Prozent – während die redaktionellen Empfehlungen zu weniger als zehn Prozent konvertierten.
Warum habt ihr nicht direkt auf automatisierte Empfehlungen gesetzt?
Weil wir es erst im Nachhinein herausgefunden haben. Wir wussten nicht, ob es besser funktioniert oder nicht. Es gibt eine ganze Reihe von Machine-Learning-Modellen für Empfehlungen. Die Herausforderung besteht darin, die Nutzenden zu verstehen, um herauszufinden, welche Funktionen für sie interessant sind. Dann spielt man mit diesen Funktionen und nimmt ein Modell aus dem Regal, arbeitet am Produkt und schaut, was funktioniert und was nicht. Man muss sehr viel experimentieren.
Wie viele Modelle hat ihr bisher ausprobiert und wie unterscheiden sich diese Modelle?
Viele. Man fängt mit den ganz einfachen Modellen an wie kollaborativen Filtern. Wenn zwei Nutzer denselben Podcast hören, werden sie vom Algorithmus als ähnlich eingestuft und erhalten dann ähnliche Empfehlungen. Das basiert wirklich nur auf der Hörhistorie und ist unabhängig vom Inhalt. Es ist also sehr begrenzt, was diese Modelle können. Besser wird es, sobald man große Deep-Learning-Netzwerke nutzt, bei denen man viele Merkmale einfließen lassen kann.
Welche sind das?
Das können Merkmale sein wie Alter, demografische Daten, Geschmack und Vorlieben, die Hörgewohnheiten, ob sie viel oder wenig hören, all diese Dinge. Dasselbe gilt für den Inhalt. Man kann sagen: „Okay, das ist eine Art Podcast in der Kategorie ‚True Crime‘, aber vielleicht ist er sehr lokal. Dann kann man all diese Daten nehmen und sie in das Modell eingeben und versuchen vorherzusagen, was die Nutzer mögen würden.
Wie setzt ihr diese Daten dann konkret ein?
Seit wir gemerkt haben, dass diese Modelle ziemlich gut zu funktionieren scheinen, nutzen wir sie, um so viele Inhalte wie möglich in der App zu bewerten. Angenommen, das Content-Team erstellt eine Wiedergabeliste zu einem bestimmten Thema, dann würde theoretisch jeder einzelne Hörer in der Podcast-App genau die gleiche Ansicht erhalten. Aber wir haben gesagt, dass wir die Empfehlungsmaschine nutzen können, um für jede*n Nutzer*in und jeden Inhalt eine Punktzahl zu vergeben. Dann kann man diese Punktzahl nutzen, um die Inhalte in eine Art Rangfolge zu bringen. Inhalte mit der höchsten Punktzahl in Bezug auf die Relevanz für die Nutzenden werden diesen zuerst angezeigt. So erhält jede*r einen einzigartigen Blick auf die App und die Inhalte. Das hat die Konversionsrate deutlich erhöht.
Wie radikal gerenative KI die Content-Analyse verbessert
Wo stecken die größten Herausforderungen beim Einsatz von KI im Podcast-Bereich?
Die erste große Herausforderung war, dass es sehr wenig Daten über Podcasts gab. Selbst vom größten Format auf Podimo hatten wir die Beschreibungstexte und vielleicht ein paar Tags. Was die Hosts zu den vier oder fünf Themen in den mindestens eine Stunde langen Episoden sagen, darüber bekommt man keine Informationen in den Metadaten. Wir haben also einen großen Teil unserer Arbeit darauf verwendet, Daten aus unseren Inhalten zu extrahieren.
Früher stützen sich die eher groben Podcast-Empfehlungen bei Podimo auf die von den Content-Erstellenden gelieferten Episodenbeschreibungen und Tags sowie die Hörhistorie der Nutzer*innen. Inzwischen generieren KI-gestütze Analysen der Podcasts vielfältige Metadaten, die Basis für eine extrem genaue Aussteuerung nach den Interessen der Höhrer*innen ermöglichen. (Screenshot: Podimo)
Und dann kam Chat GPT…
Genau. Solche Tools markieren einen Wendepunkt. Jetzt können wir Transkripte verarbeiten und in einer halben Sekunde die Atmosphäre, die demografische Zielgruppe, die Gäste, die Namensdichte und alle besprochenen Themen ermitteln. Das Coole daran ist, wenn man diese Repräsentationen und die Hörhistorie der Nutzenden hat, kann man diese Repräsentationen auch für andere Nutzende berechnen und erkennen, wem man welche Podcasts empfehlen sollte. Und es unterstützt auch die Suche. Vorher konnte man nur nach Namen von Autor*innen oder Podcast-Titeln suchen. Jetzt kannst du sagen, ich will etwas über Investments hören und bekommst wirklich alle Podcasts, die mit Investment-Themen zu tun haben. Generative KI treibt wirklich alle personalisierten Funktionen und Empfehlungsfunktionen voran. Aber es reicht nicht, nur gute Empfehlungen zu haben.
Wie meinst du das?
Vielleicht ist eine Empfehlungen super gut, aber nicht unbedingt das, worauf ein*e Hörer*in gerade Lust hat. Darum investieren wir gerade viel Zeit und Energie, um herauszufinden, wie ein Discovery-Erlebnis aussehen sollte. Das ist etwas, was wir noch nicht wirklich geknackt haben.
Warum Podimo Nutzer*innen personalisierte Recommendations erklärt
Wie könnte das dann aussehen?
Wenn wir zum Beispiel wissen, dass Nachrichten hören zu deiner morgendlichen Routine gehört. Und außerdem wissen, dass du im Moment an einem Thema interessiert bist, weil du einen Podcast mit einem bestimmten Gast gehört hast, dann können wir sehr kontextbezogene und personalisierte Empfehlungen produzieren und auch erklären, warum wir dir das empfehlen. Das ist ein Weg, an dem wir arbeiten. Empfehlungen zu erklären ist im Moment ein großes Thema.
Vielleicht eine sehr deutsche Frage: Habt ihr keine Sorge, die Nutzer*innen könnten sich beobachtet fühlen?
Das kann ich noch nicht sagen. Wir entwickeln das ja gerade und es gibt noch keine Daten. Aber ich gebe dir Recht. Ich denke, dass es sich um einen kulturellen Aspekt handelt. Ich weiß, dass die Deutschen sehr viel Wert auf Privatsphäre und solche Dinge legen. Die Dänen haben eine Kultur des Vertrauens. Man vertraut standardmäßig, und man tut es nicht, wenn man einen Grund hat, nicht zu vertrauen. Eine Einführung solcher Erklärungen könnte in Deutschland tatsächlich schwieriger sein. Wir müssen vielleicht etwas lokalisieren. Generell gilt aber: Was immer wir tun, gilt für jeden Markt, auch wenn es um KI geht. Trotzdem kommt es vor, dass wir kulturelle Aspekte unterschätzen.
Zum Beispiel?
Wir haben mit Audio-Empfehlungen experimentiert. Wenn man bei einem Podcast auf "Play" klickt, hört man zunächst den Host: "Wenn du diesen Podcast magst, dann magst du vielleicht auch diesen anderen Podcast." Wir hatten das als ein weiteres Instrument für die Discovery gedacht. Aber es wurde von den Nutzenden als eine Art "Wir zahlen für diesen Dienst und müssen uns Werbung anhören?" empfunden. Die Absicht von unserer Seite wird also nicht immer so wahrgenommen, wie sie gemeint ist. Aber es stimmt: Wir müssen sehr vorsichtig sein.
Sind die Leute bereit, KI-Funktionen anzunehmen?
Es ist in gewissem Maße eine Frage von: Wie viel bequemer wird dein Leben dadurch? Gibt es weniger Reibungsverluste, kannst du mehr Dinge tun als vorher? Im Fall der Empfehlungen sehen wir, dass Leute es annehmen. Wo ich etwas skeptisch bin, ist die Sprachschnittstelle.
Worum geht es dabei?
Wie bereits erwähnt, wollen wir ein Audio-Begleiter sein. Das bedeutet, wir brauchen auch eine Stimme. Denn wenn man mit dem Fahrrad unterwegs ist, sollte man nicht auf dem Telefon tippen oder auf den Bildschirm schauen müssen, sondern in der Lage sein, mit dem Gerät zu sprechen, sich mit ihm zu unterhalten und es dazu zu bringen, etwas zu tun. Ich will nicht zu pessimistisch sein, aber wollen die Leute wirklich Anderen in der U-Bahn mitteilen, was sie tun? Wir wissen es noch nicht.
Weitere Features, bei denen generative KI genutzt wird
Für welche Features nutzt ihr KI außerhalb von Discovery?
Wir schauen uns im Moment automatisierte Text-Zusammenfassungen von Episoden an. Wir sind auch schon in der Lage, automatisch Highlight- Momente aus unseren Episoden zu extrahieren. Also Passagen, die lustig sind oder besonders tiefgründig sind. Diese Art von Funktionen wollen wir mit Hilfe von KI skalieren.
Was meinst du damit?
Es wäre doch interessant, wenn ein Assistent dir ein paar Empfehlungen gibt, sagen wir mal fünf Episoden zur Auswahl. Und du könntest dann die Zusammenfassung anhören, vielleicht 15 Sekunden. Oder du schaust dir ein paar Clips an und guckst, ob du der Podcast zu deiner Stimmung passt. Es geht um Möglichkeiten, die es den Nutzern erleichtern, einen Überblick über den Inhalt zu bekommen. Das ist die eigentliche Herausforderung bei Podcasts. Weil es ein so langes Format ist, kann man nicht einfach wie bei einem Song zehn Sekunden lang zuhören und dann sagen: Okay, das ist was für mich. Darum freuen wir uns auch auf ein bald kommendes Feature, das Inhalte automatisch in sinnvolle, kapitelähnliche Abschnitte aufteilt, so dass die Nutzer viel einfacher browsen können.
Woran arbeitet ihr noch?
Wie ich schon sagte, konzentrieren wir uns natürlich auf alles, was mit Sprache zu tun hat. Wir wollen unsere eigene Stimme haben, damit unsere Nutzenden einen Dialog mit der App führen können. Es gibt Unternehmen wie Eleven Labs, die machen das super gut. Sie können in jeder Sprache sprechen. Aber das ist eine Art nächster Schritt.
Wo du Text-to-Speech-Generatoren erwähnst. Steckt da nicht auch immenses Potenzial für das Thema Podcast. Audible testet in den USA ja gerade, dass Hörbuchsprecher*innen ihre Stimme klonen lassen und Autor*innen für die Vertonung ihrer Werke zur Verfügung stellen können.
Absolut. Wir haben sogar einen niederländischen Podcast – „Mondkapjesmiljonairs“. Der etwas sehr Cooles gemacht hat. Sie haben Journalisten in verschiedenen Ländern interviewt. Es ging um Betrügereien bei der Beschaffung von Masken während der Corona-Pandemie. Das war in vielen Ländern so. Deshalb Sind sie losgezogen und haben Journalist*innen, die sich mit den Masken-Deals befasst hatten, in ihrer eigenen Sprache interviewt. Dann haben sie diese Interviews genommen und ins Niederländische übersetzt. Anschließend haben sie Klonstimmen von den Journalist*innen erstellt und benutzt, um sie auf Niederländisch sprechen zu lassen, damit der ganze Podcast auf Niederländisch ist. Das war eine Menge Arbeit, aber das Endergebnis ist ziemlich beeindruckend. Also wir schauen uns diese Dinge definitiv an.
Warum Podcast-Summaries mit dynamischen eine Herausforderung sind
Vorhin hatten wir über Zusammenfassungen gesprochen. Könnte die KI nicht auch Versionen von Podcasts in unterschiedlicher Länge erstellen?
Ja, wir haben darüber diskutiert, die Länge zu reduzieren oder an die Zeit anzupassen, die ein*e Nutzer*in zur Verfügung hat. Es gibt mehrere Möglichkeiten, das zu tun. Man kann einfach die verschiedenen Momente oder die besten Kapitel des Podcasts extrahieren. Oder man extrahiert nur eine Minute pro Kapitel, die besonders interessant ist. Oder man erstellt selbst eine Zusammenfassung. Wenn es sich nur um einen Monolog handelt, bei dem jemand spricht, dann kann man leicht eine kürzere Version erstellen und sie dann in Audio umwandeln lassen. Aber wenn es sich um Menschen handelt, die sprechen, ist das viel schwieriger zu machen. Dann muss man bestimmte Momente extrahieren und sie dann zusammenfügen. Wir ziehen das auf jeden Fall in Betracht, aber es ist kein einfaches Problem.
Welches KI-Feature würdest du in Zukunft gerne bauen?
Statt einer Suchmaschine, wo man Wörter eintippen und Filter benutzen muss, hätte ich gerne einen Agenten. Also, wo man sagt: „Die Podcast-Episode, die ich letzte Woche gehört habe, was hat der Typ nochmal gesagt? Finde die Antwort!“ Man könnte diesem Agenten alle möglichen Fragen stellen und bekommt direkt eine Antwort. Das ist schon machbar mit der Technologie, die wir haben. Und es ist auch sehr einfach zu machen. Wir arbeiten daran.