もう一つのローカル音声クローンOSSツールが公開

による Jason

05/14/2026 1分で読める

コメントを受け付けていません

強力なローカル音声クローン作成ツールがオープンソースで公開されました。2023年にElevenLabsが人気を博したのは、AI音声合成への需要の高さを示しています。誰もが自分の声でナレーションを作成したり、好みの声色をクローンしたりしたいと考え、多くの人が様々なオンラインサービスに加入しています。しかし、現実は次のようなものです。ほとんどのオンラインサービスは、データをクラウドにアップロードし、月額数十ドルの購読料を支払うというパターンです。あなたの音声サンプルや学習済みモデルは、他人のサーバーにロックされています。サービスが値上げしたり、突然終了したりしたら、何も残りません。

オープンソースの代替案に挑戦する人もいますが、多くのツールはコマンドライン操作で音が出れば成功という段階に留まっています。複数キャラクターの対話を作りたい？生成音声にリバーブを加えたい？異なるエンジンの効果を比較したい？すみません、自分で組み立てる必要があります。

最近、Voicebox というプロジェクトがGitHubでオープンソース化されました。そのローカル音声クローンソリューションにより、誰でも自分のコンピューターでプロ級のナレーション制作が可能になります。GitHubですでに21Kスターを獲得しています。7つのTTSエンジンを統合し、マルチトラックエディターと完全なAPIを備えた、完全にローカルで動作する音声クローンワークステーションです。ElevenLabsができることはほぼすべて可能ですが、完全に自分のマシン上で動作し、無料です。

主な特徴:

ローカル実行: すべての推論、クローン作成、生成がデバイス上で行われます。macOSではMLX/Metal（Apple Siliconで4〜5倍高速）、WindowsではCUDAを使用し、AMD/Intel Arcもサポート。
マルチトラック「Stories」エディター: 異なる声を異なるトラックに配置して、対話やポッドキャスト、オーディオブックをアレンジするタイムラインエディター。
8つの内蔵オーディオエフェクト: ピッチシフト、リバーブ、ディレイ、コンプレッションなど、Spotifyのpedalboardライブラリを使用し、リアルタイムプレビュー可能。
REST API: 他のプロジェクトへの統合用の完全なAPI。

主要TTSエンジン:

Qwen3-TTS (Alibaba製): メインエンジン、0.6B/1.7Bモデル、10言語対応、高品質クローン、「演技指示」を受け付け。
LuxTTS: 非常に高速、1GB VRAMで動作、CPUで150倍リアルタイム、48kHz出力。クイックドラフトに最適。
Chatterbox Multilingual: アラビア語、フィンランド語、スワヒリ語を含む23言語をサポート。
Chatterbox Turbo: 3.5億パラメータ、[笑い]、[ため息]などの副言語ラベルを理解。
TADA: 長尺モデル、700秒以上の一貫した音声を生成、音素レベルのタイムスタンプ。
Kokoro: 最小、8200万パラメータ、厳選された50のプリセット音声、最小限のハードウェア要件。

インストールは簡単です。 voicebox.shからインストーラーをダウンロード（macOS/Windows）するか、Dockerを使用します。起動後、Qwen3-TTS 1.7Bなどのモデルをダウンロードし、録音または音声アップロードで音声プロファイルを作成し、音声生成を開始します。

ユースケースには、複数キャラクターのオーディオブック制作、ポッドキャスト対話生成、統合ポストプロセスによる映像吹き替えなどがあります。

MITライセンスの下でオープンソース化されたこのプロジェクトは、プロフェッショナルな音声クローン作成をクラウド依存なしに標準的なコンピューターで実行可能にし、アクセス可能で安全なものにします。

プロジェクトアドレス: https://github.com/jamiepine/voicebox

もう一つのローカル音声クローンOSSツールが公開

Jason

関連記事

10日でスター1万超：Claude Mythosのリバースエンジニアリング

3000スター：この Claude スキルがアーキテクチャ図作成時間を大幅削減