Otra herramienta de clonación de voz local de código abierto
Otra potente herramienta de clonación de voz que funciona localmente se ha publicado como código abierto. La popularidad de ElevenLabs en 2023 puso de manifiesto la gran demanda de síntesis de voz por IA. Todos desean crear voces en off con su propia voz o clonar un timbre favorito, lo que lleva a muchos a suscribirse a varios servicios en línea. Sin embargo, la realidad suele ser esta: la mayoría de los servicios en línea requieren subir tus datos a la nube y pagar una suscripción mensual, a menudo de varias decenas de dólares. Tus muestras de voz y modelos entrenados están bloqueados en el servidor de otro. Si el servicio sube los precios o cierra, lo pierdes todo.

Algunos han probado alternativas de código abierto, pero descubren que la mayoría de las herramientas se quedan en la etapa de «línea de comandos», donde conseguir que suene algo ya es un éxito. ¿Quieres crear un diálogo con múltiples personajes? ¿Añadir reverb a la voz generada? ¿Comparar motores? Lo siento, tienes que ensamblarlo tú mismo.
Recientemente, se publicó en GitHub un proyecto llamado Voicebox. Su solución de clonación de voz local permite a cualquiera realizar producciones de voz profesionales en su propio ordenador. Ya tiene 21K estrellas en GitHub. Es una estación de trabajo de clonación de voz completamente local que integra 7 motores TTS, un editor multipista y una API completa. Básicamente puede hacer todo lo que hace ElevenLabs, pero se ejecuta completamente en tu máquina, gratis.

Características clave:
- Ejecución local: Toda la inferencia, clonación y generación ocurre en tu dispositivo. Usa MLX/Metal en macOS (4-5x más rápido en Apple Silicon), CUDA en Windows, y soporta AMD/Intel Arc.
- Editor «Stories» multipista: Un editor de línea de tiempo para organizar diálogos, podcasts o audiolibros con diferentes voces en distintas pistas.
- 8 efectos de audio integrados: Cambio de tono, reverb, delay, compresión, etc., usando la biblioteca pedalboard de Spotify, con vista previa en tiempo real.
- API REST: API completa para integrar en otros proyectos.

Motores TTS principales:
- Qwen3-TTS (de Alibaba): Motor principal, modelos 0.6B/1.7B, 10 idiomas, clonación de alta calidad, acepta «instrucciones de interpretación».
- LuxTTS: Muy rápido, funciona con 1 GB de VRAM, 150x tiempo real en CPU, salida 48 kHz. Ideal para borradores rápidos.
- Chatterbox Multilingual: Soporta 23 idiomas, incluidos árabe, finés, suajili.
- Chatterbox Turbo: 350M parámetros, entiende etiquetas paralingüísticas como
[risa],[suspiro]. - TADA: Modelo de formato largo, genera audio coherente de más de 700 segundos con marcas de tiempo a nivel de fonema.
- Kokoro: El más pequeño, 82M parámetros, 50 voces predefinidas, requisitos de hardware mínimos.
La instalación es sencilla. Descarga el instalador desde voicebox.sh(macOS/Windows) o usa Docker. Tras iniciarlo, descarga modelos como Qwen3-TTS 1.7B, crea un perfil de voz grabando o subiendo audio, y comienza a generar voz.

Casos de uso incluyen audiolibros con múltiples personajes, generación de diálogos para podcasts y doblaje de vídeo con posprocesado integrado.
El proyecto, de código abierto bajo licencia MIT, hace que la clonación de voz profesional sea accesible y segura, ejecutándose en un ordenador estándar sin depender de la nube.
Dirección del proyecto: https://github.com/jamiepine/voicebox