1000万時間の音声で学習した最強のAI音声合成 — オープンソースで誰でも使える — fish-speech

fishaudio/fish-speechPython27.4k

Fish Speechは、テキスト(文章)を人間そっくりの音声に変換するAI音声合成ツールです。約1000万時間もの音声データで学習した最新モデル「S2」を搭載しており、約50言語に対応し、オープンソース・商用を含めたすべての音声合成システムの中でトップクラスの品質を誇ります。文中に「[笑い]」「[ささやき]」「[とても嬉しそうに]」といった自然言語の指示を埋め込むだけで、感情や話し方を細かくコントロールでき、10〜30秒の音声サンプルから声をクローン(複製)することも可能です。複数の話者が登場する会話や、前後の文脈を活かした自然な読み上げにも対応しており、動画制作、ナレーション、チャットボットの音声化など幅広い用途で活躍します。

🔥 なぜ話題?

商用の音声合成サービスをも上回るベンチマーク結果を叩き出したオープンソースモデルとして大きな注目を集めています。AI音声技術の急速な進化の中で、50言語対応・感情制御・声のクローンを無料で試せる点が、世界中の開発者やクリエイターの関心を引いています。

💡 こう使える!

例えば、日本語と英語が混在する製品紹介動画のナレーションを作りたいとき、自分の声を30秒だけ録音してFish Speechに渡すと、自分そっくりの声で原稿を自然に読み上げてくれます。さらに「[明るく元気に]」と指示を入れれば、その部分だけトーンを変えることもできます。

ユースケース: 動画ナレーション、ポッドキャスト、ゲームキャラクターの音声、多言語コンテンツの音声化など、自然で感情豊かな音声を手軽に生成したい場面で使えます。

  • オープンソース・商用含め最高水準のベンチマーク結果(中国語WER 0.54%、英語WER 0.99%)
  • 文中に自然言語で感情・話し方の指示を書くだけで音声表現を細かく制御できる
  • 10〜30秒の音声サンプルだけで追加学習なしに声をクローンできる
  • 約50言語に対応し、複数話者・複数ターンの会話も1回で生成可能
  • SGLangによる本番運用に耐える高速ストリーミング配信(初音声まで約100ms)
GitHubで見る →

SOTA Open Source TTS

技術情報

言語

Python

ライセンス

NOASSERTION

最終更新

2026-03-13

スター数

27,368

フォーク数

2,285

Issue数

33

トピック

llamatransformerttsvallevitsvqganvqvae

技術詳細

アーキテクチャ・仕組み

Dual-Autoregressive(二重自己回帰)アーキテクチャ

  • デコーダのみのTransformerとRVQベースの音声コーデック(10コードブック、約21Hzフレームレート)を組み合わせた構造
  • Slow AR: 時間軸に沿って主要な意味コードブックを予測(40億パラメータ)
  • Fast AR: 各タイムステップで残り9つの残差コードブックを生成し、音声の細部を再構成(4億パラメータ)
  • この非対称設計により、推論効率と音声品質を両立

強化学習アライメント

  • GRPO(Group Relative Policy Optimization) を使った事後学習
  • 学習データのフィルタリング・アノテーションに使ったモデルをそのまま報酬モデルとして再利用(分布のミスマッチを排除)
  • 報酬信号は意味的正確性、指示遵守、音響品質、音色類似度の組み合わせ

モデルバリアント

モデルパラメータ数説明
S2-Pro40億フル機能のフラッグシップモデル(最高品質・安定性)

HuggingFace で公開: https://huggingface.co/fishaudio/s2-pro

ベンチマーク結果

  • Seed-TTS Eval WER: 中国語 0.54%、英語 0.99%(全モデル中最良)
  • Audio Turing Test: 後方平均 0.515(Seed-TTS の 0.417 を24%上回る)
  • EmergentTTS-Eval 勝率: 81.88%(全体最高、特にパラ言語91.61%)
  • 多言語(MiniMax テストセット): 24言語中WER最良が11言語、SIM最良が17言語

比較対象: Qwen3-TTS、MiniMax Speech-02、Seed-TTS などの商用システムを上回る

主要な機能一覧

  • 自然言語による細粒度制御: [whisper], [laugh], [super happy] などの自由記述タグで感情・韻律を制御
  • 声のクローン: 10〜30秒の参照音声から追加学習なしで声を再現
  • マルチスピーカー生成: <|speaker:i|> トークンで複数話者を1回の生成で処理
  • マルチターン生成: 拡張コンテキストにより前の内容を活かした自然な連続音声
  • 約50言語対応: 音素変換や言語固有の前処理が不要

パフォーマンス(NVIDIA H200 GPU 1枚)

  • RTF(リアルタイムファクター): 0.195(実時間の約5倍速で生成)
  • 初音声までの遅延: 約100ms
  • スループット: 3,000+音響トークン/秒(RTF 0.5以下を維持)

本番運用サポート

  • SGLangを使ったストリーミング配信に対応
  • 連続バッチ処理、ページドKVキャッシュ、CUDAグラフリプレイ、RadixAttentionベースのプレフィックスキャッシュなどLLMネイティブの最適化をそのまま利用可能
  • Docker対応

対応環境

  • Docker、WebUI、コマンドライン、サーバーモードなど複数の利用形態
  • SGLangサーバーによる高性能推論

ライセンス

  • FISH AUDIO RESEARCH LICENSE のもとで公開
  • 商用利用についてはライセンス条項を確認する必要あり
  • 違法な利用に対する責任は利用者に帰属

技術レポート

インストール・クイックスタート

公式ドキュメントに従ってインストールできます。

基本インストール

公式サイトの手順を参照:

Dockerでのセットアップ

推論方法

SGLangサーバー

高速配信用のSGLangサーバーについては SGLang-Omni README を参照。

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

AIモデルの実行も学習もブラウザ画面ひとつで完結!最大2倍速・VRAM70%削減の万能ツール — unsloth

unslothai/unslothPython57.0k

Unslothは、Qwen、DeepSeek、Gemma、LlamaなどのオープンソースAIモデルを自分のパソコンで動かしたり、追加学習(ファインチューニング)したりできる統合ツールです。ブラウザから

LINEもQQもSlackも!あらゆるチャットアプリにAIボットを一発導入できる万能プラットフォーム — AstrBot

AstrBotDevs/AstrBotPython24.2k

AstrBotは、さまざまなチャットアプリ(メッセージングアプリ)にAIチャットボットを簡単に導入できるオープンソースのプラットフォームです。QQ、Telegram、Slack、Discord、LIN

AIの「回答拒否」をコマンド一発で解除!全自動で言語モデルの検閲を外すツール — heretic

p-e-w/hereticPython15.5k

Hereticは、ChatGPTのようなAI言語モデルに組み込まれた「安全のための回答制限(検閲)」を自動的に取り除くツールです。通常、AIモデルは危険と判断した質問には答えを拒否しますが、Heret

30言語対応・声のデザインも自由自在!スタジオ品質の音声を生成するオープンソースAI — VoxCPM

OpenBMB/VoxCPMPython10.4k

VoxCPMは、テキストを入力するだけで人間そっくりの音声を生成できるAI音声合成システムです。最新版のVoxCPM2は20億パラメータのモデルで、日本語を含む30言語に対応し、48kHzのスタジオ品

テキスト・画像・音声・動画をまるごと高速推論!万能AIモデルの配信基盤 — vllm-omni

vllm-project/vllm-omniPython3.6k

vLLM-Omniは、テキストだけでなく画像・動画・音声など複数の種類のデータを同時に扱えるAIモデルを、高速かつ低コストで動かすためのフレームワーク(ソフトウェアの骨組み)です。もともとテキスト専用