Еще один локальный инструмент для клонирования голоса с открытым исходным кодом

От Jason

05/14/2026 3 Минут чтения

Комментарии отключены

Опубликован еще один мощный локальный инструмент для клонирования голоса с открытым исходным кодом. Успех ElevenLabs в 2023 году показал высокий спрос на ИИ-синтез речи. Многие хотят создавать голосовые дорожки со своим голосом или клонировать любимый тембр, что приводит к подпискам на различные онлайн-сервисы. Однако реальность такова: большинство онлайн-сервисов требуют загрузки ваших данных в облако и ежемесячной платной подписки, часто в десятки долларов. Ваши голосовые образцы и обученные модели заблокированы на чужих серверах. Если сервис поднимет цены или закроется, вы все потеряете.

Некоторые пробовали открытые альтернативы, но обнаруживают, что большинство инструментов остаются на стадии «командной строки», где получение любого звука уже считается успехом. Хотите создать диалог нескольких персонажей? Добавить реверберацию? Сравнить движки? Извините, вам придется все собирать самостоятельно.

Недавно на GitHub был опубликован проект Voicebox. Его локальное решение для клонирования голоса позволяет каждому выполнять профессиональное озвучивание на своем компьютере. Он уже набрал 21K звезд на GitHub. Это полностью локальная рабочая станция для клонирования голоса, включающая 7 движков TTS, многодорожечный редактор и полный API. Он может делать практически все, что и ElevenLabs, но работает полностью на вашем компьютере, бесплатно.

Ключевые особенности:

Локальное выполнение: Все процессы обработки, клонирования и генерации выполняются на вашем устройстве. Использует MLX/Metal на macOS (в 4-5 раз быстрее на Apple Silicon), CUDA в Windows, поддерживает AMD/Intel Arc.
Многодорожечный редактор «Stories»: Редактор временной шкалы для расстановки диалогов, подкастов или аудиокниг с разными голосами на разных дорожках.
8 встроенных аудиоэффектов: Сдвиг тона, реверберация, задержка, компрессия и др. с использованием библиотеки pedalboard от Spotify, с предпросмотром в реальном времени.
REST API: Полный API для интеграции в другие проекты.

Основные движки TTS:

Qwen3-TTS (от Alibaba): Основной движок, модели 0.6B/1.7B, 10 языков, высококачественное клонирование, принимает «инструкции по исполнению».
LuxTTS: Очень быстрый, работает с 1 ГБ VRAM, 150x реального времени на CPU, вывод 48 кГц. Идеален для быстрых черновиков.
Chatterbox Multilingual: Поддерживает 23 языка, включая арабский, финский, суахили.
Chatterbox Turbo: 350M параметров, понимает паралингвистические метки, такие как [смех], [вздох].
TADA: Модель для длинных аудио, генерирует связный звук более 700 секунд с точными до фонемы метками времени.
Kokoro: Самый маленький, 82M параметров, 50 отобранных предустановленных голосов, минимальные требования к железу.

Установка проста. Скачайте установщик с voicebox.sh(macOS/Windows) или используйте Docker. После запуска скачайте модели, например, Qwen3-TTS 1.7B, создайте голосовой профиль, записав или загрузив аудио, и начните генерацию речи.

Варианты использования включают озвучку аудиокниг с несколькими персонажами, генерацию диалогов для подкастов и озвучку видео со встроенной постобработкой.

Проект, опубликованный под лицензией MIT, делает профессиональное клонирование голоса доступным и безопасным, работая на стандартном компьютере без зависимости от облака.

Адрес проекта: https://github.com/jamiepine/voicebox

Еще один локальный инструмент для клонирования голоса с открытым исходным кодом

Jason

Другие статьи

10,000 звёзд за 10 дней: обратный инжиниринг Claude Mythos

3000 Звезд: Этот Claude Skill радикально сокращает время рисования архитектурных диаграмм