60分の音声を一発で文字起こし&リアルタイム音声合成!Microsoftが放つオープンソース音声AI — VibeVoice

microsoft/VibeVoicePython34.9k

VibeVoiceはMicrosoftが開発したオープンソースの最先端音声AIモデル群です。VibeVoiceには大きく3つの機能があり、①最大60分の長時間音声を一度に文字起こしできる音声認識(ASR)、②最大90分・4人の話者による会話音声を生成できるテキスト読み上げ(TTS)、③約0.3秒の低遅延でリアルタイムに音声を生成するストリーミングTTSが含まれています。VibeVoiceの音声認識は「誰が・いつ・何を話したか」を構造的に出力でき、50以上の言語に対応しているため、議事録作成やポッドキャスト制作などに活用できます。研究・開発目的で公開されており、AI音声技術に興味がある開発者や研究者が主な対象です。

🔥 なぜ話題?

OpenAIやGoogleの音声AIに対抗するMicrosoft発のオープンソースモデルとして注目を集めています。特に60分の長時間音声を分割せず一括処理できる点や、話者識別・タイムスタンプを同時に出力できる統合的なアプローチが、既存の音声認識ツール(Whisperなど)にない強みとして開発者コミュニティで話題になっています。

💡 こう使える!

例えば、1時間の社内会議を録音しておき、VibeVoice-ASRに音声ファイルを渡すだけで、『田中さんが10:03に「来月の予算を見直しましょう」と発言した』のように、話者名・タイムスタンプ・発言内容が整理された議事録を自動生成できます。専門用語が多い会議でも、あらかじめキーワード(例:製品名や社内用語)を登録しておけば認識精度が向上します。

ユースケース: 会議やインタビューの長時間録音を、誰が何を言ったかまで含めて自動で文字起こしする用途や、テキストから自然な音声コンテンツ(ポッドキャストなど)を生成する用途に使えます。

  • 60分の音声を分割なしで一度に文字起こし、話者・タイムスタンプ・内容を構造化出力
  • 最大90分・4人の話者による自然な会話音声を生成できるTTSモデル
  • 0.3秒の低遅延でリアルタイム音声合成が可能な0.5Bパラメータの軽量モデル
  • 50以上の言語に対応し、カスタムキーワードで認識精度を向上可能
  • Hugging Face Transformersに正式統合済みで簡単に利用開始できる
GitHubで見る →

Open-Source Frontier Voice AI

技術情報

言語

Python

ライセンス

MIT

最終更新

2026-04-01

スター数

34,869

フォーク数

3,965

Issue数

148

技術詳細

アーキテクチャ・仕組み

VibeVoiceは連続音声トークナイザー(Acoustic / Semantic)を使用しており、7.5Hzという超低フレームレートで動作します。この低フレームレートにより、音声の忠実度を維持しつつ、長時間シーケンスの処理効率を大幅に向上させています。

音声生成にはnext-token diffusionフレームワークを採用し、LLM(大規模言語モデル)がテキストの文脈や対話の流れを理解し、Diffusionヘッドが高品質な音響ディテールを生成します。

モデル一覧

モデル名パラメータ数用途
VibeVoice-ASR-7B70億長時間音声認識
VibeVoice-TTS-1.5B15億長時間マルチスピーカーTTS
VibeVoice-Realtime-0.5B5億リアルタイムストリーミングTTS

ベースモデルとしてQwen2.5 1.5Bを使用しています。

主要機能

ASR(音声認識)

  • 最大60分の音声を64Kトークン長で一括処理
  • 話者識別(Diarization)・タイムスタンプ・内容を同時出力
  • カスタムホットワード(専門用語や人名)の登録による精度向上
  • 50以上の言語に対応
  • vLLMによる高速推論をサポート
  • ファインチューニング用コードも公開済み

TTS(テキスト読み上げ)

  • 最大90分の長時間音声を一度に生成
  • 最大4人の話者による自然な会話音声
  • 感情豊かで表現力のある音声生成
  • 英語・中国語ほか多言語対応、クロスリンガル生成も可能
  • 自発的な歌唱にも対応

Realtime TTS(リアルタイム音声合成)

  • 約300ミリ秒の初回音声遅延
  • ストリーミングテキスト入力に対応
  • 約10分の長時間音声生成が可能
  • 9言語(ドイツ語、フランス語、イタリア語、日本語、韓国語、オランダ語、ポーランド語、ポルトガル語、スペイン語)の実験的音声と11種の英語スタイル音声

対応環境・統合

  • Hugging Face Transformers v5.3.0に正式統合
  • vLLMによる高速推論に対応
  • Google Colabでの実行に対応
  • Gradioベースのオンラインプレイグラウンドあり
  • コミュニティでは音声入力メソッド「Vibing」(macOS/Windows対応)がVibeVoice-ASR上に構築されている

制約・注意点

  • 研究・開発目的専用であり、商用利用やプロダクション環境での使用は推奨されていない
  • ベースモデル(Qwen2.5 1.5B)のバイアスやエラーを引き継ぐ可能性がある
  • ディープフェイクや偽情報への悪用リスクがあるため、AI生成であることの開示が推奨される
  • TTS機能のコードは責任あるAI利用の観点から一部削除されている(2025年9月)

学術論文

  • TTS: ICLR 2026にてOral採択
  • ASR: テクニカルレポートがarXivで公開済み

ライセンス

Microsoftによるオープンソースプロジェクト。詳細なライセンス条件はリポジトリのCONTRIBUTING.mdおよびHugging Faceのモデルページを参照。

インストール・クイックスタート

VibeVoice-ASR(音声認識)のクイックスタート

Hugging Face Transformers経由で利用可能です(v5.3.0以降)。

pip install transformers

詳細な使い方は ASRドキュメント を参照してください。

VibeVoice-Realtime(リアルタイムTTS)のクイックスタート

Google Colabで手軽に試せます: Colabノートブック

モデルのダウンロード

各モデルはHugging Faceから取得できます:

  • ASR (7B): microsoft/VibeVoice-ASR
  • TTS (1.5B): microsoft/VibeVoice-1.5B
  • Realtime (0.5B): microsoft/VibeVoice-Realtime-0.5B

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

PDF・Word・Excel・画像…なんでもMarkdownに一発変換!AI時代の万能ファイル変換ツール — markitdown

microsoft/markitdownPython109.1k

MarkItDownは、PDF、Word、Excel、PowerPoint、画像、音声、HTMLなど、さまざまな形式のファイルをMarkdown(シンプルな書式付きテキスト)に変換するPython製の

1ビットAIをあなたのPCで動かす!GPUなしでも超高速・省エネな大規模言語モデル推論 — BitNet

microsoft/BitNetPython34.4k

BitNetは、Microsoft が開発した「1ビットLLM(大規模言語モデル)」を高速に動かすための専用フレームワークです。通常のAIモデルは16ビットや32ビットの数値で計算しますが、BitNe

コード変更ほぼゼロでAIエージェントを強化学習で鍛える!どのフレームワークでもOK — agent-lightning

microsoft/agent-lightningPython16.4k

Agent Lightningは、AIエージェント(自律的にタスクをこなすAIプログラム)を強化学習(試行錯誤から学ぶ手法)で訓練するためのMicrosoft製ツールです。最大の特徴は、既存のAIエー

AIエージェントの構築・連携・実行をまるごとカバー!Python&.NET対応のマルチエージェント基盤 — agent-framework

microsoft/agent-frameworkPython8.8k

Microsoft Agent Frameworkは、AIエージェント(自律的に考えて行動するAIプログラム)を作り、複数のエージェントを連携させて複雑な仕事をこなすワークフローを構築するためのフレー

LLMアプリのレシピ集!ChatGPTから音声エージェントまで実例満載 — awesome-llm-apps

Shubhamsaboo/awesome-llm-appsPython99.0k

awesome-llm-appsは、ChatGPTやGeminiなどの大規模言語モデル(AIの文章生成技術)を使った実用的なアプリケーションの作り方を集めたレシピ集です。AIエージェント(自動でタスク