60分の音声を一発で文字起こし&リアルタイム音声合成!Microsoftが放つオープンソース音声AI — VibeVoice
VibeVoiceはMicrosoftが開発したオープンソースの最先端音声AIモデル群です。VibeVoiceには大きく3つの機能があり、①最大60分の長時間音声を一度に文字起こしできる音声認識(ASR)、②最大90分・4人の話者による会話音声を生成できるテキスト読み上げ(TTS)、③約0.3秒の低遅延でリアルタイムに音声を生成するストリーミングTTSが含まれています。VibeVoiceの音声認識は「誰が・いつ・何を話したか」を構造的に出力でき、50以上の言語に対応しているため、議事録作成やポッドキャスト制作などに活用できます。研究・開発目的で公開されており、AI音声技術に興味がある開発者や研究者が主な対象です。
🔥 なぜ話題?
OpenAIやGoogleの音声AIに対抗するMicrosoft発のオープンソースモデルとして注目を集めています。特に60分の長時間音声を分割せず一括処理できる点や、話者識別・タイムスタンプを同時に出力できる統合的なアプローチが、既存の音声認識ツール(Whisperなど)にない強みとして開発者コミュニティで話題になっています。
💡 こう使える!
例えば、1時間の社内会議を録音しておき、VibeVoice-ASRに音声ファイルを渡すだけで、『田中さんが10:03に「来月の予算を見直しましょう」と発言した』のように、話者名・タイムスタンプ・発言内容が整理された議事録を自動生成できます。専門用語が多い会議でも、あらかじめキーワード(例:製品名や社内用語)を登録しておけば認識精度が向上します。
ユースケース: 会議やインタビューの長時間録音を、誰が何を言ったかまで含めて自動で文字起こしする用途や、テキストから自然な音声コンテンツ(ポッドキャストなど)を生成する用途に使えます。
- 60分の音声を分割なしで一度に文字起こし、話者・タイムスタンプ・内容を構造化出力
- 最大90分・4人の話者による自然な会話音声を生成できるTTSモデル
- 0.3秒の低遅延でリアルタイム音声合成が可能な0.5Bパラメータの軽量モデル
- 50以上の言語に対応し、カスタムキーワードで認識精度を向上可能
- Hugging Face Transformersに正式統合済みで簡単に利用開始できる
Open-Source Frontier Voice AI