30言語対応・声も自由にデザインできるAI音声合成の最前線 — VoxCPM

OpenBMB/VoxCPMPython10.4k

VoxCPMは、テキストを入力するだけで人間そっくりの音声を生成できるAI音声合成システムです。最新版のVoxCPM2は20億パラメータのモデルで、日本語を含む30言語に対応し、48kHzのスタジオ品質の音声を出力できます。「若い女性の優しい声で」といった自然な言葉の指示だけで新しい声を作り出す『ボイスデザイン』機能や、短い音声サンプルから声をそっくりコピーする『ボイスクローン』機能を備えています。従来の音声合成のように音声をいったん記号(トークン)に変換する手順を省き、テキストから直接なめらかな音声を生成する独自技術により、非常に自然で表現力豊かな音声を実現しています。Apache-2.0ライセンスで完全オープンソース公開されており、商用利用も無料で可能です。

🔥 なぜ話題?

AI音声合成の分野で、30言語対応・ボイスデザイン・高品質クローンをすべてオープンソースかつ商用無料で提供するモデルは稀少であり、大きな注目を集めています。特に、MiniCPM-4をバックボーンとした2Bパラメータモデルでありながら約8GBのVRAMで動作する手軽さと、従来モデルを上回るベンチマーク性能が話題です。

💡 こう使える!

例えば、多言語対応のオーディオブックやポッドキャストを制作したい場合、ナレーターの短い音声サンプル(数秒〜数十秒)を用意するだけで、その声質を保ったまま「もう少し明るいトーンで、テンポ速めに」といった指示を加えて、30言語で自然な読み上げ音声を自動生成できます。

ユースケース: 多言語のナレーション音声、動画の吹き替え、チャットボットの音声応答など、自然な人間の声が必要なあらゆる場面で活用できるAI音声合成ツール。

  • 30言語対応で言語タグ不要 — テキストを入れるだけで自動判別して音声生成
  • 「優しい女性の声」など自然な言葉だけで新しい声を作れるボイスデザイン機能
  • 短い音声サンプルから声質を忠実にコピーし、感情やスピードも自由に調整可能
  • 48kHzスタジオ品質の音声出力で外部アップサンプラー不要
  • Apache-2.0ライセンスで商用利用も完全無料
GitHubで見る →

VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning

技術情報

言語

Python

ライセンス

Apache-2.0

最終更新

2026-04-11

スター数

10,418

フォーク数

1,227

Issue数

60

トピック

audiodeeplearningminicpmmultilingualpythonpytorchspeechspeech-synthesistext-to-speechttstts-modelvoice-cloningvoice-designvoxcpm

技術詳細

アーキテクチャ・仕組み

VoxCPM2は**トークナイザーフリー(tokenizer-free)のアプローチを採用しています。従来のTTSモデルが音声を離散的なトークンに変換してから処理するのに対し、VoxCPM2は拡散オートリグレッシブ(diffusion autoregressive)**パラダイムにより、AudioVAE V2の潜在空間上で直接連続的な音声表現を生成します。

4段階のパイプライン構成:

  • LocEncTSLMRALMLocDiT

バックボーンにはMiniCPM-4(言語モデル基盤)を採用しています。

モデルバージョン比較

項目VoxCPM2VoxCPM1.5VoxCPM-0.5B
パラメータ数2B0.6B0.5B
サンプリングレート48kHz44.1kHz16kHz
対応言語数3022
ボイスデザイン
制御可能クローン
VRAM使用量約8GB約6GB約5GB

パフォーマンス・ベンチマーク

  • RTF(リアルタイムファクター): NVIDIA RTX 4090で約0.30、Nano-vLLM加速時は約0.13
  • Seed-TTS-eval: 英語WER 1.84%、中国語CER 0.97%、SIM(話者類似度)75.3%〜79.5%でオープンソースモデルトップクラス
  • 30言語内部ベンチマーク: 平均エラー率1.68%(Gemini 3.1 Flash Lite APIによる評価)
  • ボイスデザイン評価(InstructTTSEval): 英語でAPS 84.2%、DSD 83.2%と最高水準

音声出力の特徴

  • AudioVAE V2の非対称エンコード/デコード設計により、16kHz参照音声入力から48kHz出力を直接生成
  • 内蔵超解像処理により外部アップサンプラー不要
  • LMトークンレートは6.25Hz

対応環境

  • Python: 3.10以上、3.13未満
  • PyTorch: 2.5.0以上
  • CUDA: 12.0以上
  • VRAM: 約8GB(VoxCPM2)

ファインチューニング

  • SFT(フル微調整)LoRA(軽量微調整) の両方をサポート
  • わずか5〜10分の音声データで特定の話者・言語・ドメインに適応可能
  • WebUIによるトレーニング&推論インターフェースも提供

本番デプロイメント

Nano-vLLM-VoxCPMによる高スループットサービングに対応:

  • バッチ並行リクエスト処理
  • FastAPI HTTPサーバー
  • RTF約0.13(RTX 4090)

エコシステム・連携

  • VoxCPM.cpp: GGML/GGUF形式でCPU・CUDA・Vulkan推論
  • VoxCPM-ONNX: ONNX形式でCPU推論
  • VoxCPMANE: Apple Neural Engineバックエンド
  • voxcpm_rs: Rustによる再実装
  • ComfyUI-VoxCPM: ComfyUIノードベースワークフロー統合

対応言語(30言語)

アラビア語、ビルマ語、中国語、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、インドネシア語、イタリア語、日本語、クメール語、韓国語、ラオス語、マレー語、ノルウェー語、ポーランド語、ポルトガル語、ロシア語、スペイン語、スワヒリ語、スウェーデン語、タガログ語、タイ語、トルコ語、ベトナム語

中国語方言: 四川語、広東語、呉語、東北語、河南語、陝西語、山東語、天津語、閩南語

ライセンス

Apache-2.0ライセンス — モデルの重みとコードの両方がオープンソースで、商用利用も無料で可能。

インストール・クイックスタート

インストール手順

pip install voxcpm

動作要件: Python 3.10以上(3.13未満)、PyTorch 2.5.0以上、CUDA 12.0以上

基本的な音声生成

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
  "openbmb/VoxCPM2",
  load_denoiser=False,
)

wav = model.generate(
    text="VoxCPM2で音声を生成しています。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)

CLIでの音声生成

# ボイスデザイン(参照音声不要)
voxcpm design --text "テキストを入力" --output out.wav

# ボイスクローン(参照音声あり)
voxcpm clone --text "テキスト" --reference-audio voice.wav --output out.wav

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

AIモデルの実行も学習もブラウザ画面ひとつで完結!最大2倍速・VRAM70%削減の万能ツール — unsloth

unslothai/unslothPython57.0k

Unslothは、Qwen、DeepSeek、Gemma、LlamaなどのオープンソースAIモデルを自分のパソコンで動かしたり、追加学習(ファインチューニング)したりできる統合ツールです。ブラウザから

コードを一行も書かずにAIエージェント軍団を指揮!何でも開発できるマルチエージェント基盤 — ChatDev

OpenBMB/ChatDevPython32.5k

ChatDevは、プログラミングの知識がなくても複数のAIエージェント(自律的に動くAIの担当者)を組み合わせて、データの可視化・3Dモデル生成・ゲーム開発・深い調査レポート作成など、さまざまなタスク

AIに「このサイトで○○して」と頼むだけ!ブラウザ操作を全自動化するエージェント — browser-use

browser-use/browser-usePython84.1k

browser-useは、AI(人工知能)にウェブブラウザを操作させて、オンラインの作業を自動化できるPython製のツールです。「この求人に応募して」「買い物リストの商品をカートに入れて」といった自

キーワードを入れるだけでAIが高画質ショート動画を自動生成! — MoneyPrinterTurbo

harry0703/MoneyPrinterTurboPython53.0k

MoneyPrinterTurboは、動画のテーマやキーワードを入力するだけで、AIが台本作成・映像素材の収集・字幕生成・BGM追加まですべて自動でこなし、高画質なショート動画を一発で作ってくれるツー

1000万時間の音声で鍛えた最強の音声合成AI — 50言語対応・感情表現も自在 — fish-speech

fishaudio/fish-speechPython27.4k

Fish Speechは、テキスト(文章)を人間そっくりの音声に変換するAI音声合成ツールです。約1000万時間もの音声データで学習した最新モデル「S2」を搭載しており、約50言語に対応し、オープンソ