ElevenLabsはもういらない?5つのAI音声エンジンを搭載した完全ローカル動作の声クローン工房 — voicebox

jamiepine/voiceboxTypeScript17.8k

Voiceboxは、自分のパソコン上で動く無料・オープンソースの音声合成スタジオです。数秒の音声サンプルから声をクローン(複製)し、23言語でテキストから音声を生成できます。ElevenLabs(有名な有料音声合成サービス)の代替として、プライバシーを守りながら声の合成・加工・編集がすべてローカルで完結します。5つの音声合成エンジンを搭載し、笑い声やため息などの感情表現も挿入でき、ポッドキャストや会話形式の音声を作れるタイムラインエディタも備えています。クリエイター、ゲーム開発者、ポッドキャスト制作者など、音声コンテンツを作りたい幅広い人に向いています。

🔥 なぜ話題?

有料の音声合成サービスに匹敵する品質をローカル環境で無料実現できる点が、AIツールのローカル化・オープンソース化の潮流と合致し注目を集めています。特に5つのTTSエンジン対応、23言語サポート、感情タグなど機能の充実度がElevenLabsの代替として話題になっています。

💡 こう使える!

例えば、個人でポッドキャストを制作している人が、ゲストの声をクローンして対談形式の台本を用意し、Stories Editor(タイムライン編集機能)で複数の声を割り当てて自動的に会話音声を生成する、といった使い方ができます。リバーブやピッチシフトなどのエフェクトもその場でかけられるので、編集ソフト不要で完成品が作れます。

ユースケース: 自分の声や好きな声をクローンして、テキストから自然な音声を生成し、ポッドキャストやゲームの台詞、アクセシビリティツールなどに活用する。

  • 5つのTTSエンジンを搭載し23言語に対応、すべてローカルで動作しプライバシーを完全に保護
  • 笑い声やため息など感情表現タグを音声に自然に挿入でき、リアルな音声を生成
  • ピッチシフトやリバーブなど8種類の音声エフェクトとタイムラインエディタでプロ級の音声制作が可能
GitHubで見る →

The open-source voice synthesis studio

技術情報

言語

TypeScript

ライセンス

MIT

最終更新

2026-03-31

スター数

17,795

フォーク数

2,072

Issue数

221

トピック

aicudamlxqwen3-ttsqwen3-tts-uivoice-aivoice-clonewhisper

技術詳細

アーキテクチャ・技術スタック

  • デスクトップアプリ: Tauri(Rust製)で構築。Electronより軽量でネイティブ性能を実現
  • フロントエンド: React + TypeScript + Tailwind CSS、状態管理にZustand + React Query
  • バックエンド: Python FastAPIサーバー
  • データベース: SQLite
  • 音声波形表示: WaveSurfer.js、音声処理にlibrosa

搭載TTSエンジン(5種)

エンジン対応言語数特徴
Qwen3-TTS (0.6B/1.7B)10高品質多言語クローン、「ゆっくり話して」等の指示に対応
LuxTTS英語軽量(~1GB VRAM)、48kHz出力、CPUで150倍リアルタイム
Chatterbox Multilingual23アラビア語・日本語・ヒンディー語等、最広言語カバー
Chatterbox Turbo英語350Mパラメータの高速モデル、感情タグ対応
TADA (1B/3B)10HumeAI製、700秒超の一貫した音声生成が可能

音声エフェクト

Spotifyのpedalboardライブラリを使用した8種類のエフェクト:

  • ピッチシフト(±12半音)、リバーブ、ディレイ、コーラス/フランジャー、コンプレッサー、ゲイン(-40〜+40dB)、ハイパスフィルタ、ローパスフィルタ
  • 4つの内蔵プリセット(Robotic, Radio, Echo Chamber, Deep Voice)+カスタムプリセット対応

GPU対応

プラットフォームバックエンド備考
macOS (Apple Silicon)MLX (Metal)Neural Engineで4-5倍高速
Windows/Linux (NVIDIA)PyTorch (CUDA)アプリ内から自動DL
Linux (AMD)PyTorch (ROCm)HSA_OVERRIDE_GFX_VERSIONを自動設定
Windows (任意GPU)DirectML汎用Windows GPU対応
Intel ArcIPEX/XPUIntel dGPUアクセラレーション
すべてCPUどこでも動作(低速)

主要機能

  • 自動チャンキング: 100〜5,000文字で文境界分割、クロスフェード(0〜200ms)で接続。最大50,000文字
  • 生成バージョン管理: オリジナル・エフェクト版・テイク(シード変更再生成)の履歴追跡
  • 非同期生成キュー: GPU競合を防ぐシリアル実行、SSEによるリアルタイムステータス配信
  • 録音・文字起こし: アプリ内録音、システム音声キャプチャ、Whisper/Whisper Turboによる自動文字起こし
  • Stories Editor: 複数音声のタイムライン編集、ドラッグ&ドロップ、インライン音声トリミング
  • REST API: http://localhost:17493 で音声生成・プロファイル管理等が可能

ロードマップ

  • リアルタイムストリーミング(単語ごとの音声出力)
  • テキスト記述からの新しい声の生成(Voice Design)
  • XTTS、Bark等の追加モデルサポート
  • プラグインアーキテクチャ
  • モバイルコンパニオンアプリ

ライセンス

MITライセンス(商用利用可)

インストール・クイックスタート

デスクトップアプリのダウンロード

プラットフォームダウンロード
macOS (Apple Silicon)DMGをダウンロード
macOS (Intel)DMGをダウンロード
WindowsMSIをダウンロード
Dockerdocker compose up

※ Linuxはビルドが必要: voicebox.sh/linux-install

開発者向けクイックスタート

git clone https://github.com/jamiepine/voicebox.git
cd voicebox

just setup   # Python仮想環境の作成と依存関係のインストール
just dev     # バックエンド+デスクトップアプリの起動

前提: Bun, Rust, Python 3.11+, Tauri Prerequisites(macOSではXcodeも必要)

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

WhatsApp・Telegram・Slack…22以上のチャットアプリを1つのAIアシスタントに統合! — openclaw

openclaw/openclawTypeScript301.9k

OpenClawは、自分のパソコンやサーバーで動かせる個人用AIアシスタントです。WhatsApp、Telegram、Slack、Discord、LINE、iMessageなど22以上のメッセージアプ

AIコーディング助手の「記憶喪失」を解決!セッションをまたいで文脈を自動保存・復元 — claude-mem

thedotmack/claude-memTypeScript56.7k

claude-memは、AIコーディングツール「Claude Code」のプラグインで、コーディングセッション中にClaudeが行ったすべての操作を自動的に記録し、AIで圧縮・要約した上で、次回のセッ

メールや会議の記憶を「知識グラフ」に変換するAI同僚 — あなたの仕事をローカルで支える — rowboat

rowboatlabs/rowboatTypeScript11.9k

Rowboatは、メールや会議メモなどの仕事の情報を自動的に「知識グラフ(情報同士のつながりを地図のように整理したもの)」として蓄積し、その文脈を活かして仕事を手伝ってくれるAIアシスタントです。たと

「ログインボタンを押して」と言うだけでWebページを操作できるAIエージェント — page-agent

alibaba/page-agentTypeScript8.0k

Page Agentは、Webページの中に組み込むだけで、自然言語(日本語や英語などの普通の言葉)でWebサイトの操作を自動化できるJavaScriptツールです。ブラウザ拡張機能やPython、特別

AIコーディングエージェントにバックエンドを丸投げ!認証・DB・ストレージを一括管理 — InsForge

InsForge/InsForgeTypeScript4.7k

InsForgeは、AIコーディングエージェント(CursorなどのAI搭載コードエディタ)がバックエンド(サーバー側の仕組み)を自動で構築・操作できるようにするプラットフォームです。データベース、ユ