ElevenLabsはもういらない?5つのAI音声エンジンを搭載した完全ローカル動作の声クローン工房 — voicebox

jamiepine/voiceboxTypeScript20.1k

Voiceboxは、自分のパソコン上で完全に動作するオープンソースの音声合成スタジオです。数秒の音声サンプルから声をクローン(複製)し、23言語で自然な音声を生成できます。有料サービスのElevenLabsに代わる無料の選択肢として、音声データを外部に送ることなくプライバシーを守りながら使えるのが大きな魅力です。ピッチ変更やリバーブなど8種類のエフェクト機能、複数の声を組み合わせるタイムラインエディタ、REST API(外部アプリと連携するための仕組み)も備えており、ポッドキャスト制作やゲームの台詞生成など幅広い用途に対応します。macOS・Windows・Linuxに対応し、Apple SiliconのMetal加速やNVIDIA CUDA、AMD ROCmなど多様なGPU環境で高速に動作します。

🔥 なぜ話題?

ElevenLabsなどの有料音声合成サービスの代替として、完全ローカルで動作しプライバシーを守れるオープンソースツールへの需要が急増しています。5つのTTSエンジンを切り替えて使える点や、Qwen3-TTSやChatterboxなど最新のオープンソース音声モデルをすぐに試せる統合環境としての利便性が、AI音声合成に関心を持つ開発者やクリエイターの間で大きな話題を呼んでいます。

💡 こう使える!

例えば、個人でポッドキャストを作っている人が、自分の声を数秒録音してVoiceboxに登録し、台本のテキストを入力するだけで自然な音声ナレーションを生成できます。さらにStories Editor機能を使えば、ゲストの声も別途クローンして対話形式の番組を1人で制作し、リバーブやコンプレッサーで仕上げまで完結できます。

ユースケース: 自分の声や好みの声をクローンして、ナレーション・ポッドキャスト・ゲーム台詞・アクセシビリティツールなどの音声コンテンツをローカル環境で作成する。

  • 5つのTTSエンジンを搭載し23言語に対応、用途に応じてエンジンを切り替え可能
  • 完全ローカル動作でクラウドに音声データを送らずプライバシーを確保
  • 笑い声やため息など感情表現タグ付きの音声生成やタイムラインエディタでの複数声編集が可能
GitHubで見る →

The open-source voice synthesis studio

技術情報

言語

TypeScript

ライセンス

MIT

最終更新

2026-04-18

スター数

20,128

フォーク数

2,305

Issue数

245

トピック

aicudamlxqwen3-ttsqwen3-tts-uivoice-aivoice-clonewhisper

技術詳細

アーキテクチャ

  • デスクトップアプリ: Tauri(Rust製)で構築。Electronと異なりネイティブWebViewを使用し軽量
  • フロントエンド: React + TypeScript + Tailwind CSS、状態管理にZustandとReact Query
  • バックエンド: Python FastAPIサーバー
  • データベース: SQLite
  • 音声処理: WaveSurfer.js、librosa

搭載TTSエンジン一覧

エンジンパラメータ数対応言語数特徴
Qwen3-TTS0.6B / 1.7B10高品質多言語クローニング、配信指示対応(「ゆっくり話して」など)
LuxTTS-英語のみ軽量(約1GB VRAM)、48kHz出力、CPU上で150倍リアルタイム
Chatterbox Multilingual-23最広言語カバレッジ(アラビア語、ヒンディー語、スワヒリ語等)
Chatterbox Turbo350M英語のみ高速、感情・効果音タグ対応
TADA (HumeAI)1B / 3B10700秒以上の一貫した音声生成、テキスト-音響デュアルアライメント

GPU対応状況

プラットフォームバックエンド備考
macOS (Apple Silicon)MLX (Metal)Neural Engineで4-5倍高速
Windows / Linux (NVIDIA)PyTorch (CUDA)アプリ内からCUDAバイナリを自動ダウンロード
Linux (AMD)PyTorch (ROCm)HSA_OVERRIDE_GFX_VERSIONを自動設定
Windows (全GPU)DirectMLユニバーサルWindows GPU対応
Intel ArcIPEX/XPUIntelディスクリートアクセラレーション
全環境CPU低速だが動作

ポストプロセッシングエフェクト

Spotifyのpedalboardライブラリを使用した8種類のエフェクト:

  • Pitch Shift(±12半音)、Reverb、Delay、Chorus/Flanger、Compressor、Gain(-40〜+40dB)、High-Pass/Low-Pass Filter
  • 4つのビルトインプリセット(Robotic, Radio, Echo Chamber, Deep Voice)+カスタムプリセット対応

主要機能

  • 無制限の生成長: 文境界での自動チャンキング(100〜5,000文字)、クロスフェード(0〜200ms)、最大50,000文字
  • 生成バージョン管理: オリジナル保持、エフェクトバージョン、テイク(シード変更)、ソーストラッキング、お気に入り
  • 非同期生成キュー: ノンブロッキング処理、SSEリアルタイムステータス、クラッシュ後の自動復旧
  • 録音&文字起こし: アプリ内録音、システムオーディオキャプチャ、Whisper / Whisper Turboによる自動文字起こし
  • REST API: http://localhost:17493 でプロファイル管理・音声生成を外部連携可能

ロードマップ

  • リアルタイムストリーミング(単語ごとの音声出力)
  • テキスト説明からの新しい声の設計(Voice Design)
  • XTTS、Barkなど追加モデル対応
  • プラグインアーキテクチャ
  • モバイルコンパニオンアプリ

ライセンス

MITライセンス(商用利用可能)

インストール・クイックスタート

ダウンロード(一般利用者向け)

プラットフォームリンク
macOS (Apple Silicon)DMGをダウンロード
macOS (Intel)DMGをダウンロード
WindowsMSIをダウンロード
Dockerdocker compose up

Linuxはビルドが必要です。詳細は voicebox.sh/linux-install を参照。

開発者向けクイックスタート

git clone https://github.com/jamiepine/voicebox.git
cd voicebox

just setup   # Python仮想環境を作成し、依存関係をすべてインストール
just dev     # バックエンドとデスクトップアプリを起動

前提条件: Bun、Rust、Python 3.11以上、Tauri Prerequisites、macOSではXcodeが必要。

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

WhatsApp・Telegram・Slack…22以上のチャットアプリを1つのAIアシスタントに統合! — openclaw

openclaw/openclawTypeScript301.9k

OpenClawは、自分のパソコンやサーバーで動かせる個人用AIアシスタントです。WhatsApp、Telegram、Slack、Discord、LINE、iMessageなど22以上のメッセージアプ

AIコーディング助手の「記憶喪失」を解決!セッションを超えて文脈を保存する永続メモリシステム — claude-mem

thedotmack/claude-memTypeScript60.8k

claude-memは、Claude Code(AIコーディング助手)が作業中に行ったことをすべて自動的に記録し、AIで圧縮して保存するプラグインです。次回のセッション開始時に、過去の作業内容から関連

「ログインボタンを押して」と言うだけでWebページを操作できるAIエージェント — page-agent

alibaba/page-agentTypeScript8.0k

Page Agentは、Webページの中に組み込むだけで、自然言語(日本語や英語などの普通の言葉)でWebサイトの操作を自動化できるJavaScriptツールです。ブラウザ拡張機能やPython、特別

daytonaio/daytona

daytonaio/daytonaTypeScript57.6k

DaytonaはAI生成コードを安全かつ柔軟に実行するためのインフラストラクチャプラットフォームです。AI開発者がコード生成後の実行環境を気にすることなく、セキュアな環境でコードをテストできます。クラ

プログラミング不要!ドラッグ&ドロップでAIエージェントを作れるビジュアルツール — Flowise

FlowiseAI/FlowiseTypeScript50.3k

Flowiseは、AIエージェント(自律的に判断して動くAIプログラム)をプログラミングなしで構築できるオープンソースのツールです。パズルのピースを組み合わせるように、画面上でブロックをドラッグ&ドロ