Künstliche Intelligenz & Kreativität: Wie ich ein Kinderbuch mit KI Tools geschrieben habe

Dirk Emminger 23.3.2023

In diesem Beitrag erfährst du, wie KI kreativ für Texte und Bilder genutzt werden kann

Inhalt
  1. Wie ist die Idee zum Kinderbuch mit KI entstanden?
  2. Grenzen der Kreativität und Überraschungen – Was sind die Grenzen künstlicher Kreativität?
  3. Tools zur Erstellung des Kinderbuches
  4. Veröffentlichung auf Amazon KDP
  5. Fazit der Erfahrung

Kann künstliche Intelligenz kreativ sein? Kann sie beim kreativen Schreiben helfen? Warum hört sich ein Text an, als ob er in Hogwarts geschrieben wurde? Warum sehen KI-generierte Bilder immer anders aus? Fragen über Fragen und viel Trial-and-Error  – aber nach 3 Tagen gibt es tatsächlich ein neues 80-Seiten Kinderbuch in zwei Sprachen im Kindle Store. 

In diesem Beitrag erklärt dir der Autor Dirk Emminger seinen Weg vom kreativen Schreiben mit KI, von der Idee über die Erstellung bis zur Vermarktung seines Kinderbuches. Er zeigt die Grenzen, beschreibt aber auch die Überraschungen, die er mit künstlicher Intelligenz und unterschiedlichen Systemen erlebt hat. Wenn du auch kreativ mit künstlicher Intelligenz schreiben willst, nutze diesen Artikel als Inspiration und leg los!

01_TheAdventuresofWormValley.png

Quelle: Dirk Emminger

 

Wie ist die Idee zum Kinderbuch mit KI entstanden?

Im November 2022 veröffentlichte die Firma OpenAI den Chatbot OpenAI ChatGPT (Generative Pre-trained Transformer) und binnen von Tagen gab es kaum noch ein anderes Thema. „Artificial Intelligenz und Maschine Learning“ waren ja keine komplett neuen Themen, aber was OpenAI da für die breite Masse veröffentlicht hatte, war neu.

ChatGPT ist ein KI-Text-Generator, der auf der Technologie der Generative Pre-trained Transformer basiert. Es ist in der Lage, natürliche Sprache zu verstehen und zu generieren. Bedienen lässt er sich dabei so einfach wie ein Chatbot, und auch installieren oder parametrisieren muss man nichts mehr. Jeder konnte und kann noch heute auf ChatGPT kostenfrei zugreifen und das Modell nutzen. Schnell wurde klar, welches Potenzial ChatGPT im Content Creation Prozess hat und gerade die Creator Community überschlug sich mit Artikeln, Use Cases aber auch mit Sorge.

Inspiriert durch einen Artikel auf Medium kam ich auf die Idee mal zu probieren, welche Grenzen eine künstliche Intelligenz hat und machte einen Realitätscheck.

02_Cover_Episode_1_Englisch.jpg

Quelle: Dirk Emminger

Grenzen der Kreativität und Überraschungen – Was sind die Grenzen künstlicher Kreativität?

Es gibt zahlreiche auch kostenfreie KI-Text-Generatoren, wie etwa ChatGPT, neuroflash oder Jasper. Ich plante meine Geschichte und begann mit einem Prolog und einem Disclaimer, die den Anfang für mein künstliches Intelligenz-Buch bildeten.

03_ChatGPT.png

Quelle: Dirk Emminger

Wie man anhand der Screenshots und nach einem Vergleich mit dem endgültigen Buch feststellen kann, wurde der größte Teil des Textes ohne Korrekturen übernommen. Das gilt für die eher sachlichen Passagen, aber auch für die kreativen Abschnitte des Buches. Prompts (Eingabe-Aufforderung an die KI) sollten beim kreativen Schreiben sehr spezifisch sein.

Schreib mir ein Kinderbuch mit vier Figuren, die zusammen Abenteuer erleben und denk dir das erste Abenteuer aus“ funktioniert zwar, bringt aber kein gutes Ergebnis und keinen langen Test. Was hingegen sehr gut funktioniert, sind einzelne Passagen wie: „Schreibe einen Dialog, in dem ein Eichhörnchen einem Staubsaugerroboter beschreibt, wo er in der alten Eiche hängt.

Was ebenfalls gut funktioniert, ist die Tonalität von bekannten Autor*innen zu übernehmen. Beispiel: „Im Tonfall von J.K. Rowling“.

Kurz gesagt ist die Handlung des Buches folgende: Der junge Hund Luzi lebt in der Nähe eines Naturschutzgebietes (das Wurmtal). Da er der einzige fremde Hund in der Gegend ist, fällt es ihm schwer, Freund*innen und Gefährt*innen zu finden, um den Wald, den Fluss und die kleinen Berge in der Umgebung zu erkunden. Luzis Besitzerin Eva muss viel in ihrer eigenen Bäckerei arbeiten und kauft sich deshalb einen Staubsaugerroboter, um das große Haus zu reinigen. Morgens ist Eva in ihrer Bäckerei und bemerkt daher nicht, dass etwas Seltsames passiert. Dusty (der Staubsaugerroboter), der mehr als nur ein normaler Staubsaugerroboter ist, entdeckt Luzi und beschließt, sich ihm zu offenbaren, um gemeinsam Abenteuer zu erleben und die Welt außerhalb des Hauses zu entdecken. Auf ihren Streifzügen lernen sie das Huhn Mafalda kennen und sie bilden eine Bande. Sie lernen viel über die Umwelt, Pflanzen, andere Tiere und Geheimnisse im Wurmtal.

Durch das Kopieren der Absätze in Jasper profitierte ich von der einfachen Bedienung und dem Editor Modus. Durch diesen konnte der Text schnell bearbeitet und ausgewählt werden, welche Art von Stil, Ton und Schlüsselwörtern in das gesamte Dokument aufgenommen werden sollten. Die Einfachheit der UX erleichterte es, Änderungen ohne Probleme vorzunehmen. Je umfangreicher das Dokument ist, desto schneller wird Jasper eine eigene Art zu schreiben lernen und neue Sätze in einem ähnlichen Stil erstellen.

Bei der Arbeit an den Abenteuern im Wurmtal war es etwa wichtig, Dialoge in den Text einzubauen. Dies erfordert die Verwendung von Sätzen wie „erklärt Eva“ oder „fragte Mafalda“, um zu verstehen, wer gerade spricht. Nachdem sich das KI-Tool zeitweise an diese Struktur gewöhnt hatte, folgten alle neu erstellten Absätze automatisch ihrem Fluss, ohne dass etwas angepasst werden musste. Überraschenderweise gab es nur ein paar wenige, völlig missverständliche Texte.

Die Bedienung von Jasper ist sehr einfach. Im Freiform-Dokumentenmodus konnte ich mit dem „Composer“ eine Eingabe-Aufforderung in den Editor eingeben, die dann direkt durch Drücken von CMD/CTRL + Enter ausgeführt wird. Zum Beispiel: „Luzy und Dusty treffen Mafalda, das Huhn“. So konnte ich schnell kleine Abschnitte entsprechend meiner Storyline formulieren. 

Ohne ChatGPT und die Hilfe von Jasper hätte dieser Prozess mehrere Wochen gedauert. Tatsache ist, dass nach etwa 10 Stunden ein Dokument von etwa 10.000 Wörtern mit dem Tool erstellt war. 

04_Jasper.png

Quelle: Dirk Emminger

Gerade beim kreativen Schreiben müssen AI Systeme schon sehr stark mit einer Storyline „gefüttert“ werden, damit es in Summe eine halbwegs brauchbare Handlung ergibt. Für Business Texte gelten etwas andere Regeln – hochqualitativen Content kannst du aber auch einfach mit ein paar Tipps erstellen. Mehr zum KI-Texte schreiben liest du hier. Die größte kreative Überraschung gab es allerdings immer dann, wenn ich ChatGPT oder Jasper nach Lösungen fragte. Im konkreten Beispiel war noch unklar, wie Chip the Chipmunk von den Held*innen aus seinem Plastiknetz befreit werden sollte. Die Idee, dass Spechte ihn retten können, kam von ChatGPT. 

Anmeldung zum KI-Newsletter von OMR Reviews

Tools zur Erstellung des Kinderbuches

1. Generative AI mit ChatGPT & Jasper AI

Generative AI bzw. die Algorithmen dahinter, ist in der Lage, neue Daten zu generieren, die ähnlich zu denen sind, mit denen sie trainiert wurden. Um die Funktionsweise zu verstehen, ein Beispiel aus der generativen Bildgenerierung. Hier wird eine künstliche Intelligenz mit einer Vielzahl von vorhandenen Bildern trainiert, um daraus neue zu generieren, die auf den Mustern und Beziehungen in den Trainingsdaten basieren. Um Katzenbilder zu trainieren, brauchen wir also eine sehr große Menge an Katzen. Das Modell wird auf der Grundlage unserer Katzenbilder trainiert und versucht, neue Bilder zu generieren, die realistisch und ähnlich zu unseren Trainingsbildern sind. Trainieren wir die KI nur mit schwarzen Katzenbildern, wird diese vereinfacht gesagt nur in der Lage seine schwarzen Katzen zu malen. Wenn wir ihr nur eine bestimmte Rasse an Katzen geben, wird sie auch nur in der Lage sein diese Rasse zu zeichnen. 

Diese Technologie wird auch in der Sprachgenerierung eingesetzt. Hier wird ein generatives Modell auf der Grundlage von Texten trainiert, um neue Texte zu generieren, die der natürlichen Sprache ähneln. Das Sprachmodell ist dabei so leistungsstark, dass es menschenähnliche Text generieren und auch in gewissen Grenzen kontextbezogene Entscheidungen treffen kann. Da ChatGPT sehr breit auch mit klassischer Literatur trainiert wurde, spricht nichts gegen einen Einsatz für kreatives Schreiben. Da die Software aber ein reiner Chatroboter und keine spezielle Bücher-KI ist, ist das Schreiben von langen Texten nicht komfortabel. Für meine Zwecke brauchte ich eher einen Text-Editor mit AI Funktionalität. Gefunden habe ich eine AI Software mit dem Namen Jasper. 

Jasper ist eine Plattform, die sich auf die Contentgenerierung mit Conversational AI-Modellen schon früh spezialisiert hat. Mit Jasper können Social Media Posts, Blogposts, E-Mails und vieles mehr erzeugt werden. Das Besondere an Jasper ist dabei der enthaltene Editor- / Boss-Modus.  In diesem Modus kann man lange Texte gut und einfach schreiben, Tonalität hinzufügen und Grammarly als Rechtschreibung und Grammatik Tool ist ebenfalls eingebaut. Der Editor-Modus in Jasper war perfekt, um den von Chat GPC generierten Text neu zu arrangieren und zu verändern. Außerdem konnte Jasper einen Tonfall hinzufügen und bestimmte Passagen umschreiben. 

Leider merkt man schnell, dass Deutsch weder bei ChatGPT noch bei Jasper gut funktioniert. ChatGPT kann zwar in Deutsch kommunizieren, nach einigen Versuchen stellte sich aber heraus, dass das Schreiben in Englisch die bessere Wahl ist. 

Anzeige
Neuroflash Logo

Kombiniere deine Arbeit mit der Power von KI

Deine vielseitige KI Content Suite. Effizienz und Relevanz in deine Kommunikation zu bringen, war nie einfacher. Mit neuroflash’s KI erhältst du optimierte Inhalte, die deinem Stil entsprechen und deine Zielgruppe bewegen.

 

2. Grammarly und DeepL für Übersetzungen und Korrekturen

Rückblickend war die Phase der „Erstellung“ die angenehmste. Denn es folgte die erste englische Korrektur und die Übersetzung ins Deutsche. Für die englische Korrektur wurde Grammarly verwendet. Grammarly ist zwar schon in Jasper eingebaut, aber um ein schönes, ähnlich klingendes Dokument zu erhalten, wurde der gesamte Text noch einmal separat überprüft. Umformulierungen habe ich so weit wie möglich vermieden, weil es ja ein Experiment sein sollte, um zu sehen, wie gut die KI heute ist und wie schnell sie beim Schreiben eines ganzen Buches arbeitet.

Der nächste Schritt, die Übertragung des Textes ins Deutsche, war ein wahrer Albtraum. Die Korrekturen nahmen aufgrund der komplexen Grammatik viel Zeit in Anspruch. Übersetzt wurde das Buch mit DeepL. Die Übersetzung war lesbar, ausgezeichnet und schnell, aber die deutsche Zeichensetzung (in der ich zugegebenermaßen auch nicht gut bin) erforderte viel manuelles Eingreifen.

Ich musste meinen Telefonjoker, einen befreundeten Agenturinhaber und Profitexter mehrfach anrufen, um zu überlegen, warum das so ist. Die Erklärung, die uns am Ende am naheliegendsten erschien, war die Verwendung von „Schreibe im Tonfall von J. K. Rowling“. Dieser Stil führte oft zu sehr „schwülstigen“ Beschreibungen und langen verschachtelten Sätzen.

3. KI Artwork mit Midjourney und Herausforderungen

Bei der Auswahl eines KI-Werkzeugs zur Erstellung des Artworks für das Projekt habe ich mich letztlich für Midjourney entschieden. Einen Überblick über die verfügbaren KI-Bild-Generatoren gibt es hier.  

Midjourney ist ein KI-Tool, das speziell für die Erstellung und Bearbeitung von digitaler Kunst entwickelt wurde. Es nutzt fortschrittliche Algorithmen des maschinellen Lernens, um einzigartige Kunstwerke zu erzeugen. Es bietet eine breite Palette von Funktionen und Anpassungsmöglichkeiten, die es dem/der Benutzer*in erlauben, alles von abstrakten Grafiken bis zu realistischen Gemälden zu erstellen.

Der Hauptfaktor, der meine Entscheidung beeinflusste, waren die Kosten. Midjourney ist eines der erschwinglichsten Werkzeuge auf dem Markt und erlaubt es mir, qualitativ hochwertige Kunstwerke zu geringen Kosten zu erstellen. Die ersten +- 25 Stück (25 Minuten GPU-Zeit) sind kostenlos und die nächste verfügbare Option ist ein Basisabonnement für $10, das einen Wert von +- 200 Minuten pro Monat hat. Beachte bitte, dass die Basispläne öffentlich sind und jeder deine Prompts und Bilder sehen kann. Du kannst deine Abonnements, aber mit Optionen für mehr GPU-Zeit und Datenschutzfunktionen erweitern.

Die Bedienung erfolgt über die Nachrichtenleitung eines Discord-Servers. Ein großer Vorteil von Midjourney, abgesehen von den geringen Kosten, ist die große Anzahl von Anleitungen, Beispielen und Tools.

Bei der Erstellung von Bildern für das Buch verwendete ich eine Kombination von Schlüsselwörtern und Renderern, nämlich Octane Render und Futuristic, um Frontalaufnahmen mit 50-mm-Objektiven zu erstellen, die dann im 3D-Comic-Stil gerendert werden, um sehr starke Emotionen zu erzeugen.

05_Chipmunk.png

Quelle: Dirk Emminger

Diese starken Emotionen in Kombination mit dem sehr realistischen Rendering sehen großartig aus, haben mich aber fast in den völligen Wahnsinn getrieben und weitere drei Stunden Anleitungen verursacht.

Das Problem hier heißt „Konsistenz“. Damit ist die Fähigkeit des KI-Modells gemeint, Bilder zu erzeugen, die einheitlich sind und im Kontext der Aufgabe einen Sinn ergeben. Wenn die Aufgabe zum Beispiel darin besteht, Bilder von Hamstern zu erzeugen, sollte das Modell keine Bilder von Katzen oder Vögeln erzeugen. KI-Modelle können jedoch manchmal Bilder erzeugen, die nicht mit der Aufgabe übereinstimmen, was zu Bildern führt, die verwirrend sind oder keinen Sinn ergeben.

Ein weiteres Problem besteht darin, dass das Modell möglicherweise Bilder erzeugt, die einander zu ähnlich sind und keine Vielfalt bieten. Das kann ein Problem sein, denn es kann zu einem Mangel an Variation in den erzeugten Bildern führen, was langweilig oder uninteressant sein kann. Da ich die Persönlichkeiten meiner Charaktere mit dem Befehl „hyperrealistisch“ erstellt habe, führte dies dazu, dass Eva je nach ihrer Pose ganz anders aussah. Und auch die anderen Charaktere, Dusty, Luzi, Mafalda, konnten ohne Photoshop nicht zusammen erscheinen, z. B. auf dem Cover.

06_3Hamster.jpg

Quelle: Dirk Emminger

Technisch gesehen, gibt es einige Lösungen. Man kann zum Beispiel mit Referenzbildern und Seed-Befehlen arbeiten, aber in der Realität sind diese fotorealistischen Comic-Figuren für eine fortlaufende Bildergeschichte beim heutigen Stand der Technik ungeeignet. 

Veröffentlichung auf Amazon KDP

Für die Selbstveröffentlichung des Kinderbuches habe ich mich für Amazon Kindle entschieden. Das war für mich der einfachste und schnellste Weg, eine digitale Version der Geschichte zu erhalten. Der gesamte Prozess, von Anfang bis Ende, war überraschend einfach und geradlinig. Amazon Kindle Direct Publishing (KDP) ist eine Plattform, die es Autoren und Verleger*innen ermöglicht, ihre Bücher in digitalen und gedruckten Formaten auf dem Amazon-Marktplatz selbst zu veröffentlichen. Mit KDP kann jeder sein Buch als PDF- oder Word-Dokument hochladen, den Listenpreis festlegen und das fertige Buch in nur wenigen Schritten zum Verkauf anbieten. 

Ich war sehr überrascht, wie umfangreich die Self-Publishing-Community ist und dass es unzählige hochwertige Quellen zum Thema „Selbstveröffentlichung“ über Amazon gibt. Wenn du auch ein Buch im Selbstverlag veröffentlichen willst, empfehle ich, mit der Amazon KDP-Hilfeseite zu beginnen, auf der alle wichtigen Informationen zu finden sind. 

Eine der Entscheidungen, die getroffen werden muss, ist die, ob man an Amazons KDP Select teilnehmen möchte. KDP Select ist ein optionales Programm für Autor*innen und Verlage, die ihre Bücher auf Amazon verfügbar machen möchten. Wenn du dich für KDP Select entscheidest, wird das Buch auch in die Programme Kindle Unlimited (KU) und Kindle Owners’ Lending Library (KOLL) aufgenommen. Das ist die Bücherflatrate von Amazon. 

Vorteile von Self Publishing über Amazon

  • Erhöhte Sichtbarkeit durch eine erstklassige Positionierung im Kindle Store
  • Zugänglichkeit durch Prime oder Kindle Unlimited-Abonnements
  • Nutzung von Werbemitteln wie kostenlosen Buchpromotionen und Countdown-Angeboten
  • Du erhältst Tantiemen für jede gelesene Seite deines Buches

Nachteile von Self Publishing über Amazon

  • Beschränkung für 90 Tage auf Amazon Kindle 
  • Begrenzte Werbemöglichkeiten außerhalb von Amazon Kindle
  • Niedrige Tantiemen pro Verkauf im Vergleich zu anderen Vertriebskanälen

Da ich nicht damit rechne, mit meinem ersten Titel direkt bei einem Verlag gelistet zu werden, und die Anrufe von Agent*innen noch ausstehen, kann ich mit der Exklusivität der Vermarktung auf Amazon gut leben, zumindest in den ersten 90 Tagen.

Fazit der Erfahrung

Kreatives Schreiben funktionierte für mich sehr gut mit KI und den neuen generativen Algorithmen. Ich würde aber sogar noch weiter gehen und behaupten, dass eine künstliche Intelligenz als Helfer in allen kreativen Bereichen ein Türöffner sein kann. Ohne KI hätte es mich massiv mehr Zeit gekostet ein Buch zu schreiben und die Grafiken/Illustrationen hätte ich voraussichtlich nie hinbekommen.

Ich würde jetzt niemals behaupten, dass mein bzw. ein KI-Buch besonders gut oder besonders schlecht ist und die Welt auf mein Werk gewartet hat. Aber es hat mir wieder einmal gezeigt, dass KI und Technologie an sich ein Enabler ist. Die Entwicklung rund um KI und auch die Entwicklung von neuen kreativen Tools geht so schnell, dass das Schreiben eines Buches wahrscheinlich nur der Anfang ist. 

Die Veröffentlichung von ChatGPT und der erstaunliche Fortschritt von MidJourney v3 zu MidJourney v4 waren die Auslöser für dieses Experiment. Die Entwicklung geht so schnell und fast jeden Tag entdecke ich in meinem Nachrichten-Feed neue Tools. Das Feld der generativen KI-Tools ist derzeit sehr fragmentiert, aber es ist zu erwarten, dass in naher Zukunft eine Konsolidierung zu kompletten E2E-Softwarelösungen für verschiedene Workflows stattfinden wird. Ein Beispiel dafür ist die Integration von DALL-E 2 in die Webanwendung Microsoft Designer, ähnlich wie bei Canva Pro. Auch Notion bietet bereits zahlreiche genAI-Anwendungsfälle in verschiedenen Bereichen an.

Es gibt zwar noch unterschiedliche Spezialisierungen von genAI nach kreativen Anforderungen. Ich denke, die Zukunft wird uns komplett Lösungen bringen, die weniger Medienbrüche haben und an denen dann ganze Teams an E2E genAI-Anwendungen zusammenarbeiten. Die Chancen, dass Teil 2 der „Abenteuer des Wurmtals“ direkt auch als Hörbuch und Animationsfilm erscheinen, stehen also nicht schlecht. 

Empfehlenswerte KI-Text-Generatoren

Auf unserer Vergleichsplattform OMR Reviews findest du weitere empfehlenswerte KI-Text-Generatoren. Über 60 verschiedene Systeme, zugeschnitten auf die spezifischen Bedürfnisse von kleinen und mittleren Unternehmen, Start-ups und großen Konzernen, stehen zur Auswahl. Unsere Plattform bietet umfassende Unterstützung in allen Bereichen der Texterstellung und -optimierung. Nutze die Chance, verschiedene KI-Tools zu vergleichen, und ziehe echte Nutzerbewertungen heran, um das perfekte Werkzeug für deine spezifischen Anforderungen zu finden:

Dirk Emminger
Autor*In
Dirk Emminger

Dirk ist seit über 20 Jahren im Consulting und Business Development von Finanzdienstleistern tätig. Sein erster Job nach seiner Bankausbildung war in einer CRM-Unternehmensberatung - die dort gesammelten Erfahrungen begleiten ihn noch heute. Zusammen mit seiner Frau, die im E-Commerce ihre Wurzeln hat, beraten die beiden mit der fctb. Start-ups und halten Beteiligungen. Das letzte private Projekt war es, ein Kinderbuch mit der Hilfe von generativer AI zu schreiben, und seine 40 Jahre alte Vespa zu schweißen.

Alle Artikel von Dirk Emminger

Im Artikel erwähnte Softwares

Im Artikel erwähnte Software-Kategorien

Ähnliche Artikel

Komm in die OMR Reviews Community & verpasse keine Neuigkeiten & Aktionen rund um die Software-Landschaft mehr.