
programmier.bar – der Podcast für App- und Webentwicklung Deep Dive 191 – Text-to-Speech mit Thorsten Müller
Sep 16, 2025
Thorsten Müller, der kreative Kopf hinter Thorsten-Voice, einem Open-Source-Projekt für lokale Sprachsynthese, spricht über die faszinierende Welt der Text-to-Speech-Technologien. Er erklärt, wie Computer lernen zu sprechen und die Herausforderungen des Voice Clonings. Thorsten teilt Einblicke in die Entwicklung seiner eigenen Stimme und die Bedeutung von Wasserzeichen in Audioaufnahmen. Außerdem werden kreative Anwendungen der Sprachsynthese, besonders im Podcasting, sowie die Entwicklung von mehrsprachigen Modellen thematisiert.
AI Snips
Chapters
Transcript
Episode notes
LLMs Verbessern Prosodie Durch Kontext
- LLMs im Hintergrund verändern Prosodie, indem sie Kontext und Emotion in Betonung einfließen lassen.
- Das macht moderne TTS deutlich natürlicher, weil Betonung bereits im Textkontext gesteuert wird.
Feintuning Statt From-Scratch-Training
- Moderne TTS-Workflows nutzen oft Feintuning statt Training from scratch.
- Dadurch verringert sich der Bedarf an großen Aufnahmemengen für brauchbare Klone.
Zero-Shot Marketing Überschätzt
- Zero-/One-Shot-Ansätze klingen im Marketing einfacher als sie sind, besonders für Deutsch.
- Für deutsche Stimmen liefern kurze Samples oft nur eine entfernte Ähnlichkeit.

