programmier.bar – der Podcast für App- und Webentwicklung

Deep Dive 191 – Text-to-Speech mit Thorsten Müller

Sep 16, 2025

Thorsten Müller, der kreative Kopf hinter Thorsten-Voice, einem Open-Source-Projekt für lokale Sprachsynthese, spricht über die faszinierende Welt der Text-to-Speech-Technologien. Er erklärt, wie Computer lernen zu sprechen und die Herausforderungen des Voice Clonings. Thorsten teilt Einblicke in die Entwicklung seiner eigenen Stimme und die Bedeutung von Wasserzeichen in Audioaufnahmen. Außerdem werden kreative Anwendungen der Sprachsynthese, besonders im Podcasting, sowie die Entwicklung von mehrsprachigen Modellen thematisiert.

Ask episode

AI Snips

Chapters

Transcript

Episode notes

INSIGHT

LLMs Verbessern Prosodie Durch Kontext

LLMs im Hintergrund verändern Prosodie, indem sie Kontext und Emotion in Betonung einfließen lassen.
Das macht moderne TTS deutlich natürlicher, weil Betonung bereits im Textkontext gesteuert wird.

INSIGHT

Feintuning Statt From-Scratch-Training

Moderne TTS-Workflows nutzen oft Feintuning statt Training from scratch.
Dadurch verringert sich der Bedarf an großen Aufnahmemengen für brauchbare Klone.

INSIGHT

Zero-Shot Marketing Überschätzt

Zero-/One-Shot-Ansätze klingen im Marketing einfacher als sie sind, besonders für Deutsch.
Für deutsche Stimmen liefern kurze Samples oft nur eine entfernte Ähnlichkeit.

Get the Snipd Podcast app to discover more snips from this episode

Get the app