1000万時間の音声で学習した最強のAI音声合成 — オープンソースで誰でも使える — fish-speech

fishaudio/fish-speechPython27.4k

Fish Speechは、テキスト（文章）を人間そっくりの音声に変換するAI音声合成ツールです。約1000万時間もの音声データで学習した最新モデル「S2」を搭載しており、約50言語に対応し、オープンソース・商用を含めたすべての音声合成システムの中でトップクラスの品質を誇ります。文中に「[笑い]」「[ささやき]」「[とても嬉しそうに]」といった自然言語の指示を埋め込むだけで、感情や話し方を細かくコントロールでき、10〜30秒の音声サンプルから声をクローン（複製）することも可能です。複数の話者が登場する会話や、前後の文脈を活かした自然な読み上げにも対応しており、動画制作、ナレーション、チャットボットの音声化など幅広い用途で活躍します。

🔥 なぜ話題？

商用の音声合成サービスをも上回るベンチマーク結果を叩き出したオープンソースモデルとして大きな注目を集めています。AI音声技術の急速な進化の中で、50言語対応・感情制御・声のクローンを無料で試せる点が、世界中の開発者やクリエイターの関心を引いています。

💡 こう使える！

例えば、日本語と英語が混在する製品紹介動画のナレーションを作りたいとき、自分の声を30秒だけ録音してFish Speechに渡すと、自分そっくりの声で原稿を自然に読み上げてくれます。さらに「[明るく元気に]」と指示を入れれば、その部分だけトーンを変えることもできます。

ユースケース: 動画ナレーション、ポッドキャスト、ゲームキャラクターの音声、多言語コンテンツの音声化など、自然で感情豊かな音声を手軽に生成したい場面で使えます。

オープンソース・商用含め最高水準のベンチマーク結果（中国語WER 0.54%、英語WER 0.99%）
文中に自然言語で感情・話し方の指示を書くだけで音声表現を細かく制御できる
10〜30秒の音声サンプルだけで追加学習なしに声をクローンできる
約50言語に対応し、複数話者・複数ターンの会話も1回で生成可能
SGLangによる本番運用に耐える高速ストリーミング配信（初音声まで約100ms）

GitHubで見る →

SOTA Open Source TTS

技術情報

言語

Python

ライセンス

NOASSERTION

最終更新

2026-03-13

スター数

27,368

フォーク数

2,285

Issue数

トピック

llamatransformerttsvallevitsvqganvqvae

技術詳細

アーキテクチャ・仕組み

Dual-Autoregressive（二重自己回帰）アーキテクチャ

デコーダのみのTransformerとRVQベースの音声コーデック（10コードブック、約21Hzフレームレート）を組み合わせた構造
Slow AR: 時間軸に沿って主要な意味コードブックを予測（40億パラメータ）
Fast AR: 各タイムステップで残り9つの残差コードブックを生成し、音声の細部を再構成（4億パラメータ）
この非対称設計により、推論効率と音声品質を両立

強化学習アライメント

GRPO（Group Relative Policy Optimization） を使った事後学習
学習データのフィルタリング・アノテーションに使ったモデルをそのまま報酬モデルとして再利用（分布のミスマッチを排除）
報酬信号は意味的正確性、指示遵守、音響品質、音色類似度の組み合わせ

モデルバリアント

モデル	パラメータ数	説明
S2-Pro	40億	フル機能のフラッグシップモデル（最高品質・安定性）

HuggingFace で公開: https://huggingface.co/fishaudio/s2-pro

ベンチマーク結果

Seed-TTS Eval WER: 中国語 0.54%、英語 0.99%（全モデル中最良）
Audio Turing Test: 後方平均 0.515（Seed-TTS の 0.417 を24%上回る）
EmergentTTS-Eval 勝率: 81.88%（全体最高、特にパラ言語91.61%）
多言語（MiniMax テストセット）: 24言語中WER最良が11言語、SIM最良が17言語

比較対象: Qwen3-TTS、MiniMax Speech-02、Seed-TTS などの商用システムを上回る

主要な機能一覧

自然言語による細粒度制御: [whisper], [laugh], [super happy] などの自由記述タグで感情・韻律を制御
声のクローン: 10〜30秒の参照音声から追加学習なしで声を再現
マルチスピーカー生成: <|speaker:i|> トークンで複数話者を1回の生成で処理
マルチターン生成: 拡張コンテキストにより前の内容を活かした自然な連続音声
約50言語対応: 音素変換や言語固有の前処理が不要

パフォーマンス（NVIDIA H200 GPU 1枚）

RTF（リアルタイムファクター）: 0.195（実時間の約5倍速で生成）
初音声までの遅延: 約100ms
スループット: 3,000+音響トークン/秒（RTF 0.5以下を維持）

本番運用サポート

SGLangを使ったストリーミング配信に対応
連続バッチ処理、ページドKVキャッシュ、CUDAグラフリプレイ、RadixAttentionベースのプレフィックスキャッシュなどLLMネイティブの最適化をそのまま利用可能
Docker対応

対応環境

Docker、WebUI、コマンドライン、サーバーモードなど複数の利用形態
SGLangサーバーによる高性能推論

ライセンス

FISH AUDIO RESEARCH LICENSE のもとで公開
商用利用についてはライセンス条項を確認する必要あり
違法な利用に対する責任は利用者に帰属

技術レポート

arXiv: https://arxiv.org/abs/2411.01156
arXiv (S2): https://arxiv.org/abs/2603.08823

インストール・クイックスタート

公式ドキュメントに従ってインストールできます。

基本インストール

公式サイトの手順を参照:

インストールガイド

Dockerでのセットアップ

Docker Setup

推論方法

コマンドラインでの推論: CLI Inference
WebUI（ブラウザ画面）での推論: WebUI Inference
サーバーとしての運用: Server

SGLangサーバー

高速配信用のSGLangサーバーについては SGLang-Omni README を参照。

過去のトレンド履歴

1000万時間の音声で鍛えた最強の音声合成AI — 50言語対応・感情表現も自在 — fish-speech

2026-03-14

14+559

1000万時間の音声で学習！50言語対応の最高峰オープンソース音声合成AI — fish-speech

2026-03-13

7+637

1000万時間の音声で学習した最強のAI音声合成 — オープンソースで誰でも使える — fish-speech

2026-03-12

9+313

1000万時間の音声で学習した最強のAI音声合成 — オープンソースで誰でも使える — fish-speech

技術情報

技術詳細

アーキテクチャ・仕組み

Dual-Autoregressive（二重自己回帰）アーキテクチャ

強化学習アライメント

モデルバリアント

ベンチマーク結果

主要な機能一覧

パフォーマンス（NVIDIA H200 GPU 1枚）

本番運用サポート

対応環境

ライセンス

技術レポート

インストール・クイックスタート

基本インストール

Dockerでのセットアップ

推論方法

SGLangサーバー

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ