programmier.bar – der Podcast für App- und Webentwicklung

Deep Dive 191 – Text-to-Speech mit Thorsten Müller

Sep 16, 2025
Thorsten Müller, der kreative Kopf hinter Thorsten-Voice, einem Open-Source-Projekt für lokale Sprachsynthese, spricht über die faszinierende Welt der Text-to-Speech-Technologien. Er erklärt, wie Computer lernen zu sprechen und die Herausforderungen des Voice Clonings. Thorsten teilt Einblicke in die Entwicklung seiner eigenen Stimme und die Bedeutung von Wasserzeichen in Audioaufnahmen. Außerdem werden kreative Anwendungen der Sprachsynthese, besonders im Podcasting, sowie die Entwicklung von mehrsprachigen Modellen thematisiert.
Ask episode
AI Snips
Chapters
Transcript
Episode notes
INSIGHT

LLMs Verbessern Prosodie Durch Kontext

  • LLMs im Hintergrund verändern Prosodie, indem sie Kontext und Emotion in Betonung einfließen lassen.
  • Das macht moderne TTS deutlich natürlicher, weil Betonung bereits im Textkontext gesteuert wird.
INSIGHT

Feintuning Statt From-Scratch-Training

  • Moderne TTS-Workflows nutzen oft Feintuning statt Training from scratch.
  • Dadurch verringert sich der Bedarf an großen Aufnahmemengen für brauchbare Klone.
INSIGHT

Zero-Shot Marketing Überschätzt

  • Zero-/One-Shot-Ansätze klingen im Marketing einfacher als sie sind, besonders für Deutsch.
  • Für deutsche Stimmen liefern kurze Samples oft nur eine entfernte Ähnlichkeit.
Get the Snipd Podcast app to discover more snips from this episode
Get the app