ai-for-marketing
10 min read
View as Markdown

KI-Podcast-Shownotes: schnell, umfassend, in Minuten

Wie du mit KI Podcast-Shownotes, Zeitstempel und Zusammenfassungen in Minuten statt Stunden erstellst. Praktische Abläufe für vielbeschäftigte Podcaster.

Robert Soares

Deine Podcast-Folge ist fertig. Sechzig Minuten Gespräch, geschnitten und poliert. Jetzt brauchst du Shownotes.

Hier laufen die meisten Podcaster gegen eine Wand. Du musst das Ganze noch einmal durchhören, Zeitstempel notieren und Zitate herausziehen, eine Zusammenfassung schreiben, die wirklich trifft, worüber ihr gesprochen habt. Für eine 45-Minuten-Folge fressen die Shownotes locker weitere 90 Minuten bis zwei Stunden konzentrierte Arbeit, die nichts mit dem Erstellen von Inhalten zu tun hat.

KI-Werkzeuge drehen die Rechnung um. Gib dein Audio an einen Transkriptionsdienst, gib das Transkript an ein Sprachmodell (LLM) weiter, und du bekommst Shownotes in Minuten. Der Haken: Auch wenige Minuten KI-Ausgabe brauchen deine Aufmerksamkeit, weil die Maschine nicht weiß, was in eurem Gespräch wirklich wichtig war.

Das unsichtbare Podcast-Problem

Google kann dein Audio nicht hören. Keine andere Suchmaschine kann das. Deine brillante Folge über Startup-Marketing oder Sauerteig-Techniken oder was auch immer du behandelst, existiert für Menschen, die nach diesen Themen suchen, praktisch nicht.

Shownotes lösen das. Sie verwandeln dein Audio in Text, den Suchmaschinen erfassen, indexieren und Menschen ausspielen können, die genau nach dem suchen, worüber du gesprochen hast.

Aber der Nutzen geht über SEO hinaus.

“Deaf and hard of hearing people want access to podcasts,” schreibt die Barrierefreiheits-Aktivistin Meryl Evans. “We want to be able to have the same opportunities as hearing people, to learn and grow, to be entertained, to be inspired.”

Als Evans Podcast-Hörer zu Barrieren bei der Barrierefreiheit befragte, sagten 74,5 %, sie hätten Shows aufgegeben, weil sie nicht an die Inhalte kamen. Transkripte und Shownotes sind kein nettes Extra. So erleben ganze Zielgruppen deine Arbeit.

Und dann ist da noch die praktische Seite. Wenn jemand diese eine Erkenntnis aus Minute 37 deiner Folge teilen will, helfen Zeitstempel und Zusammenfassungen dabei, sie zu finden. Ohne das ist der Moment praktisch weg. Niemand spult sich durch 45 Minuten Audio, um ihn zu suchen.

Was manuelle Shownotes wirklich erfordern

Der klassische Ablauf sieht ungefähr so aus: Du hörst die Folge durch, oft nebenbei, sodass du Teile verpasst, und machst Notizen zu Schlüsselmomenten. Du setzt Zeitstempel für Abschnitte, die du im Kopf als „gut“ abgespeichert hast. Du schreibst eine Zusammenfassung, die die Folge einfängt, ohne alles vorwegzunehmen. Du suchst zitierfähige Stellen heraus. Du schreibst eine SEO-Beschreibung. Vielleicht schreibst du Posts für Social Media, um die Folge zu bewerben.

Bei wöchentlichen Podcasts frisst dieser Ablauf jeden Monat 4–8 Stunden für administrative Aufgaben, die sich endlos anfühlen.

Solo-Podcaster Katie Harbath beschrieb die finanzielle Realität in einer aktuellen Ablauf-Analyse: “I used to spend $100 per episode on editing. That’s not nothing, especially when you’re funding your podcast out of pocket.”

Diese hundert Dollar pro Folge läppern sich schnell, wenn du wöchentlich veröffentlichst. Und der Schnitt ist nur ein Teil des Produktionspuzzles.

Wie KI die Rechnung verändert

Der neue Ablauf hat weniger Schritte und braucht nur einen Bruchteil der Zeit.

Erstens: Transkription. Du lädst deine Audiodatei in ein Werkzeug wie Descript, Otter oder einen der Dutzenden Whisper-basierten Dienste hoch. Eine 45-Minuten-Folge ist in 2–3 Minuten transkribiert. Die Kosten liegen bei Centbeträgen pro Minute, nicht bei Dollar. Die Genauigkeit liegt typischerweise bei 95–98 % – abhängig von Audioqualität, Hintergrundgeräuschen und davon, wie klar alle sprechen.

Jason Snell, der seit über einem Jahrzehnt Podcasts macht, hat Whisper gegen ältere Transkriptionsmethoden getestet und fand es “staggeringly better” als alles, was er vorher ausprobiert hatte. Bei Apple-Finanzanalysten-Calls, die voller Fachbegriffe sind, wurden “almost all of them were rendered correctly by Whisper.”

Zweitens: Erstellung. Du nimmst dieses Transkript und bittest eine KI, Shownotes zu erstellen. Der Prompt kann simpel sein: das hier zusammenfassen, Themenabschnitte mit Zeitstempeln markieren, zitierfähige Stellen herausziehen.

Drittens: Überprüfung. Du liest durch, was die KI produziert hat, und korrigierst die Stellen, die sie falsch verstanden hat. Diesen Schritt kannst du nicht überspringen.

Das 80-%-Problem

KI erledigt den Job nicht komplett. Sie bringt dich den größten Teil des Weges.

“It feels like the transcripts are 75 % of the way there, but still require a human to fix that last 25 %,” schrieb Justin Jackson, nachdem er mehrere KI-Podcast-Tools getestet hatte. “We’re not at the stage where we can have all of this on auto-pilot.”

Den Delimarsky, der für seinen Podcast eine eigene Transkriptions-Pipeline gebaut hat, sagte es noch direkter: “For now, it gets me 80 % of the way there, and I consider that to be a good start.”

Diese verbleibenden 20–25 % zählen mehr, als du denkst. Namen werden verhunzt. “Sean” wird zu “Shawn.” Firmennamen werden zu Unsinn. Fachbegriffe werden phonetisch zu Kauderwelsch. Dein Gast wird es nicht feiern, in deinen öffentlichen Shownotes falsch genannt zu werden.

KI verpasst auch Kontext. Wenn du auf etwas aus einer früheren Folge anspielst, erkennt die KI die Verbindung nicht. Wenn ein Moment wegen der Art, wie ihn jemand gesagt hat, witzig war, bleibt im Transkript nur flacher Text. Wenn du etwas sarkastisch gesagt hast, das sich ehrlich liest, können die Shownotes es als Schlüsselerkenntnis hervorheben, obwohl du es lieber verschwinden lassen würdest.

Die Zeitersparnis kommt daher, dass die KI die lästigen Teile übernimmt: durchhören, Zeitstempel notieren, Zusammenfassungen anwerfen. Die Qualität kommt daher, dass du die Teile übernimmst, für die man verstehen muss, was im Gespräch tatsächlich passiert ist.

Werkzeugoptionen

Mehrere Werkzeuge sind genau auf diesen Ablauf ausgerichtet.

Podsqueeze lieferte im direkten Vergleich die nützlichsten Ergebnisse, laut dem Transistor-Test. Zeitstempel, Titel, wichtige Zitate und Entwürfe für Blogposts. Die Oberfläche hält es angenehm einfach.

Castmagic hatte die genauesten Transkripte mit hervorragender Sprechererkennung. Die Nutzung fühlte sich ausgereift an. Aber die Transkripte ordneten manchmal größere Textblöcke dem falschen Sprecher zu – und das torpediert den Nutzen, wenn du es nicht bemerkst.

Descript war am schnellsten und lieferte ein ziemlich genaues Transkript. Wenn du deinen Podcast ohnehin in Descript schneidest, ist das Hinzufügen von Shownotes nahtlos, weil das Transkript bereits existiert. Das Werkzeug kann dein Transkript lesen und Shownotes erstellen, ohne dass du etwas Neues hochladen musst.

Du kannst auch allgemeine KI-Werkzeuge nutzen. Hol dir dein Transkript aus beliebiger Quelle, kopiere es in Claude oder ChatGPT, und lass dir Shownotes erstellen. Das konkrete Werkzeug ist weniger wichtig als ein Ablauf, den du wirklich durchziehst.

Prompts, die funktionieren

Für eine Zusammenfassung etwa: “Hier ist ein Podcast-Transkript. Schreibe eine 3-Absatz-Zusammenfassung, die das Hauptthema, die wichtigsten Erkenntnisse und wer vom Zuhören profitieren würde, abdeckt.”

Für Zeitstempel: “Erkenne Themenwechsel in diesem Transkript. Gib für jeden Abschnitt das Thema und den Zeitstempel im Format [MM:SS] an.”

Für Zitate: “Finde die 5 zitierfähigsten Stellen aus diesem Transkript. Suche nach Erkenntnissen, die für sich stehen und den Wert der Folge repräsentieren.”

Für SEO: “Schreibe eine Folgenbeschreibung mit unter 200 Wörtern. Nenne das Hauptthema, den Gastnamen und 2–3 Stichwörter, nach denen Menschen suchen könnten.”

Verity Sangan, die ChatGPT für Shownotes bei mehreren Podcasts nutzt, merkte an, dass Ergebnisse mit Übung besser werden: “I’ve used several times with gradually improving results.”

Die Verbesserung kommt daher, dass du deine Prompts anhand dessen nachschärfst, was die KI falsch macht. Wenn sie deine Intro-Sektion ständig verpasst, sag ihr, sie soll die ersten zwei Minuten überspringen. Wenn sie Nebenthemen überbetont, sag ihr, sie soll dem Hauptfaden folgen.

Was der Prüfschritt auffängt

KI macht Fehler, die Menschen sofort sehen.

Im Transkript steht vielleicht, dein Gast sei von “Acme Corporation”, obwohl er eigentlich “AXA Corporation” gesagt hat. Die KI markiert vielleicht einen Wegwerf-Witz als Schlüsselerkenntnis. Der Zeitstempel kann um 30 Sekunden danebenliegen, weil die Transkript-Markierungen nicht perfekt ausgerichtet waren.

“Always, always, always, double-check the end result,” rät der KI-Podcasting-Guide von Lower Street. “Proofread for fact-checking or even general typos. Make sure to have a human eye give it a review. They can often make mistakes.”

Der Prüfschritt fängt auch Ton-Fehlgriffe ab. KI schreibt in ihrer Stimme, nicht in deiner. Wenn dein Podcast locker und scherzhaft ist, liefert die KI wahrscheinlich etwas, das wie eine Unternehmenszusammenfassung klingt. Dann musst du deine Persönlichkeit reinbringen, deine typischen Formulierungen ergänzen und dafür sorgen, dass es sich wie eine Verlängerung deiner Show liest – nicht wie eine generische Beschreibung.

Deinen Detailgrad wählen

Verschiedene Podcasts brauchen verschiedene Shownotes-Stile.

Für manche Shows reicht minimal: Folgentitel, eine Absatz-Zusammenfassung, Gast-Bio, 3–5 Zeitstempel, erwähnte Links. Schnell produziert. Erledigt den Job.

Für Podcasts, die auf SEO aus sind, ergibt das Blog-Format Sinn. Ein vollständiger Artikel, der die Themen der Folge ausbaut, eingebetteter Player, komplettes Transkript, detaillierte Zeitstempel. Mehr Arbeit, aber Suchmaschinen haben mehr zum Indexieren.

Für Podcasts mit aktivem Marketing der umfassende Ansatz: Zusammenfassungen in mehreren Längen, Kapitel mit Zeitstempeln, zitierfähige Momente mit Grafiken, Posts für jede Plattform, E-Mail-Text. KI macht das machbar. Du erzeugst alles aus einem Transkript, statt jedes Stück von Grund auf neu zu bauen.

Der Zeitvergleich

Manueller Ansatz für eine 45-Minuten-Folge:

  • Durchhören: 45–60 Minuten
  • Notizen dabei: Parallelaufgabe
  • Zusammenfassung schreiben: 15–20 Minuten
  • Zeitstempel erstellen: 20–30 Minuten
  • Zitate herausziehen: 15 Minuten
  • Beschreibung schreiben: 10 Minuten
  • Gesamt: ungefähr 90–120 Minuten

KI-gestützter Ansatz:

  • Transkription: 2–3 Minuten (automatisiert)
  • Entwürfe erzeugen: 5 Minuten
  • Prüfen und bearbeiten: 10–15 Minuten
  • Gesamt: ungefähr 15–20 Minuten

Das spart pro Folge eine Stunde oder mehr. Wöchentliche Podcaster sparen allein bei den Shownotes 50+ Stunden pro Jahr.

“It’s nice, especially when you’re tired, to have a service that makes recommendations, which you can edit and tweak,” schrieb Jackson. “It does make the publishing process faster.”

Was schiefgeht

Veröffentlichen ohne Überprüfung ist der häufigste Fehler. KI macht Fehler. Zeitstempel driften. Namen stimmen nicht. Kernpunkte gehen verloren. Dein Gast ist ein “Professor für Volkswirtschaftslehre” und die KI nennt ihn einen “professionellen Ökonomen”. Kleinigkeiten, die so wirken lassen, als hättest du nicht aufgepasst.

An zweiter Stelle steht Überkonstruktion. Du brauchst nicht jedes erdenkliche Material für jede Folge. Starte mit dem, was du wirklich nutzt. Bau später aus, wenn dein Ablauf reift und du lernst, was Resonanz auslöst.

Ignorierte Audioqualität erzeugt Folgeschäden. Schrott rein, Schrott raus. Wenn deine Aufnahme Hintergrundgeräusche, Übersprechen oder genuschelte Sprache hat, sinkt die Transkriptionsgenauigkeit – und alles, was auf diesem Transkript aufbaut, erbt die Fehler.

Mehr als Shownotes

Sobald du ein gutes Transkript hast, wird anderer Inhalt unkompliziert.

Mach aus der Shownotes-Zusammenfassung einen vollständigen Blogpost, indem du jeden Abschnitt ausbaust. Zieh Erkenntnisse für deinen E-Mail-Newsletter. Erstelle eine Woche Social-Posts aus den besten Momenten einer Folge. Nutze Zeitstempel, um zu erkennen, welche Clips für Kurzvideo funktionieren.

Das Transkript ist das Rohmaterial. Shownotes sind ein Ergebnis. Dieselbe Quelle speist alles andere.

Der Teil, über den niemand redet

KI-Werkzeuge fürs Podcasting vermehren sich weiter. Monatlich starten neue Optionen. Die Funktionen verschwimmen: Transkription, Shownotes, Social-Clips, Blog-Entwürfe.

Was wirklich zählt, ist, ob du Folgen konsequent veröffentlichst – mit Shownotes dran. Das konkrete Werkzeug ist nicht so wichtig wie ein Ablauf, an dem du festhältst.

Die 80 %, die KI übernimmt, geben dir Luft für die 20 %, die nur du leisten kannst: zu wissen, was in eurem Gespräch wichtig war, was dein Publikum interessiert und was deine Show korrekt repräsentiert.

Das ist der Tausch. Die Fleißarbeit wird automatisiert. Dein Urteilsvermögen bleibt deins.

Ready For DatBot?

Use Gemini 2.5 Pro, Llama 4, DeepSeek R1, Claude 4, O3 and more in one place, and save time with dynamic prompts and automated workflows.

Top Articles

Come on in, the water's warm

See how much time DatBot.AI can save you