Ein weiteres lokal laufendes Open-Source-Tool für Voice Cloning
Ein weiteres leistungsstarkes, lokal laufendes Tool zur Stimmklonung wurde als Open Source veröffentlicht. Der Erfolg von ElevenLabs im Jahr 2023 zeigte die große Nachfrage nach KI-Sprachsynthese. Viele wünschen sich, Voiceovers mit ihrer eigenen Stimme zu erstellen oder einen Lieblingsklon zu kopieren, und abonnieren dafür verschiedene Online-Dienste. Die Realität sieht jedoch oft so aus: Die meisten Online-Dienste verlangen das Hochladen Ihrer Daten in die Cloud und ein monatliches Abonnement von oft mehreren zehn Dollar. Ihre Stimmproben und trainierten Modelle sind auf den Servern anderer gespeichert. Wenn der Dienst die Preise erhöht oder schließt, verlieren Sie alles.

Einige haben mit Open-Source-Alternativen experimentiert, aber die meisten Tools sind oft nur Kommandozeilen-Programme, bei denen schon das Erzeugen eines Tons als Erfolg gilt. Mehrere Dialogstimmen erstellen? Reverb hinzufügen? Verschiedene Engines vergleichen? Dafür muss man meist selbst Hand anlegen.
Kürzlich wurde auf GitHub ein Projekt namens Voicebox als Open Source veröffentlicht. Seine lokale Stimmklon-Lösung ermöglicht es jedem, professionelle Voiceover-Produktionen auf dem eigenen Computer durchzuführen. Es hat bereits 21K Sterne auf GitHub gesammelt. Es ist eine vollständig lokal laufende Stimmklon-Arbeitsstation, die 7 TTS-Engines, einen Mehrspur-Editor und eine vollständige API integriert. Es kann im Grunde alles, was ElevenLabs kann, läuft aber komplett auf Ihrer eigenen Maschine – kostenlos.

Wichtigste Merkmale:
- Lokale Ausführung: Alle Inferenz-, Klon- und Generierungsprozesse laufen auf Ihrem Gerät. Nutzt MLX/Metal auf macOS (4-5x schneller auf Apple Silicon), CUDA unter Windows und unterstützt AMD/Intel Arc.
- Mehrspur-„Stories“-Editor: Ein Timeline-Editor zum Anordnen von Dialogen, Podcasts oder Hörbüchern mit verschiedenen Stimmen auf verschiedenen Spuren.
- 8 integrierte Audioeffekte: Tonhöhenverschiebung, Hall, Delay, Kompression usw., basierend auf Spotify’s pedalboard-Bibliothek, mit Echtzeit-Vorschau.
- REST-API: Vollständige API zur Integration in andere Projekte.

Wichtige TTS-Engines:
- Qwen3-TTS (von Alibaba): Haupt-Engine, 0.6B/1.7B Modelle, 10 Sprachen, hochwertiges Klonen, akzeptiert „Aufführungsanweisungen“.
- LuxTTS: Sehr schnell, läuft mit 1 GB VRAM, 150x Echtzeit auf CPU, 48 kHz Ausgabe. Ideal für schnelle Entwürfe.
- Chatterbox Multilingual: Unterstützt 23 Sprachen, darunter Arabisch, Finnisch, Swahili.
- Chatterbox Turbo: 350M Parameter, versteht parasprachliche Labels wie
[lachen],[seufzen]. - TADA: Langform-Modell, erzeugt kohärentes Audio über 700 Sekunden mit phonemgenauen Zeitstempeln.
- Kokoro: Das kleinste, 82M Parameter, 50 kuratierte Vorstimmen, geringste Hardwareanforderungen.
Die Installation ist einfach. Laden Sie das Installationsprogramm von voicebox.sh(macOS/Windows) herunter oder verwenden Sie Docker. Nach dem Start laden Sie Modelle wie Qwen3-TTS 1.7B herunter, erstellen ein Stimmprofil durch Aufnahme oder Audio-Upload und beginnen mit der Sprachgenerierung.

Einsatzgebiete sind mehrstimmige Hörbücher, Podcast-Dialoggenerierung und Videovertonung mit integrierter Nachbearbeitung.
Das Projekt, unter MIT-Lizenz veröffentlicht, macht professionelles Stimmcloning zugänglich und sicher, da es auf einem Standardcomputer ohne Cloud-Abhängigkeit läuft.
Projektadresse: https://github.com/jamiepine/voicebox