リアルタイム音声会話AI — 声も性格も自在に操る全二重通話モデル — personaplex

NVIDIA/personaplexPython8.6k

PersonaPlexは、NVIDIAが開発したリアルタイムの音声対話AIモデルです。人間同士の会話のように、相手が話している途中でも割り込んだり相づちを打ったりできる「全二重通信(電話のように双方向で同時に話せる仕組み)」に対応しています。テキストでキャラクター設定(例:『あなたはレストランの店員です』)を与えたり、声のサンプルで話し方を指定したりすることで、AIの人格や声色を自由にコントロールできます。カスタマーサービスの応対、カジュアルな雑談、QAアシスタントなど幅広い会話シナリオに対応しており、ブラウザ上のWebUIから直接リアルタイムで会話できます。

🔥 なぜ話題?

リアルタイム音声AIが急速に注目される中、NVIDIAが「声」と「キャラクター」の両方を制御できる全二重音声対話モデルをオープンに公開したことが大きな話題を呼んでいます。特に、従来の音声AIでは難しかった割り込みや相づちといった自然な会話のやりとりを実現している点が、開発者や研究者の関心を集めています。

💡 こう使える!

例えば、レストランの注文受付をシミュレーションしたいとき、『あなたはシャクシュカ専門店の店員オーウェンです。クラシック9.50ドル、スパイシー10.25ドル…』とプロンプトを設定すると、PersonaPlexがその店員になりきって音声でお客さん役のあなたと自然にやりとりしてくれます。途中で質問を割り込んでも、人間のように対応してくれます。

ユースケース: AIキャラクターとリアルタイムで音声会話したり、カスタマーサービスの応対シミュレーションを行いたい人向け。

  • 電話のように双方向で同時に話せる全二重リアルタイム音声対話に対応
  • テキストプロンプトで人格設定、音声サンプルで声質を自由にカスタマイズ可能
  • NVIDIAが開発し、モデル重みとコードの両方をオープンに公開
GitHubで見る →

PersonaPlex code.

技術情報

言語

Python

ライセンス

MIT

最終更新

2026-03-02

スター数

8,639

フォーク数

1,229

Issue数

59

技術詳細

アーキテクチャ・仕組み

  • PersonaPlexは Moshi アーキテクチャをベースにファインチューニングされたモデル
  • バックボーンのLLMとして Helium を使用しており、広範な学習コーパスにより訓練分布外のプロンプトにも対応可能
  • テキストベースの役割プロンプト(ペルソナ制御)と音声ベースの声質条件付け(ボイスプロンプト)の2つの制御軸を持つ
  • 合成会話データと実会話データ(Fisher English Corpus)の組み合わせで学習

モデル仕様

  • モデルサイズ: 7B(70億パラメータ)
  • 重みの公開先: Hugging Face (nvidia/personaplex-7b-v1)
  • 全二重(Full Duplex)対応: 割り込み、相づち、スムーズなターンテイキングが可能

音声(ボイス)オプション

プリパッケージされた音声エンベディングが用意されている:

カテゴリラベル
自然な女性声NATF0, NATF1, NATF2, NATF3
自然な男性声NATM0, NATM1, NATM2, NATM3
バリエーション女性声VARF0〜VARF4
バリエーション男性声VARM0〜VARM4
  • NAT系はより自然で会話的な声、VAR系はより多様な声質

対応シナリオ

  • QAアシスタント: 質問応答やアドバイス提供
  • カスタマーサービス: レストラン、ゴミ収集サービス、ドローンレンタルなど多様な業種に対応
  • カジュアル会話: 料理、キャリア、家族の話題など自由な雑談
  • クリエイティブシナリオ: 宇宙船の原子炉修理相談など分布外プロンプトへの対応も可能

実行モード

  • サーバーモード: WebUI経由でリアルタイム音声対話(SSL対応)
  • オフラインモード: WAVファイルを入力して音声応答WAVとテキストJSONを出力
  • CPUオフロード: GPUメモリが不足する場合、--cpu-offload フラグでモデルレイヤーをCPUに退避可能(accelerate パッケージが必要)
  • CPU専用PyTorchでのオフライン評価も可能

評価ベンチマーク

FullDuplexBench の以下の評価カテゴリに対応するプロンプトが用意されている:

  • User Interruption(ユーザーの割り込み)
  • Pause Handling(間の取り方)
  • Backchannel(相づち)
  • Smooth Turn Taking(スムーズな発話交代)

ライセンス

  • コード: MIT ライセンス
  • モデル重み: NVIDIA Open Model ライセンス
  • 商用利用についてはNVIDIA Open Modelライセンスの条項を確認が必要

インストール・クイックスタート

インストール手順

  1. Opusオーディオコーデックの開発ライブラリをインストール:
# Ubuntu/Debian
sudo apt install libopus-dev

# Fedora/RHEL
sudo dnf install opus-devel
  1. リポジトリをダウンロードしてインストール:
pip install moshi/.
  1. Blackwell GPU の場合は追加で:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130
  1. Hugging Faceでモデルライセンスを承認し、トークンを設定:
export HF_TOKEN=<YOUR_HUGGINGFACE_TOKEN>
  1. サーバーを起動してブラウザでアクセス:
SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR"

ブラウザで localhost:8998 にアクセスすると会話を開始できます。

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

大規模AIの学習を劇的に高速化!GPU最適化されたトランスフォーマー訓練ライブラリ — Megatron-LM

NVIDIA/Megatron-LMPython15.4k

Megatron-LMは、ChatGPTのような大規模なAIモデルを効率的に学習させるためのNVIDIA製ライブラリです。複数のGPUを使って巨大なAIモデルを分散して学習することで、従来よりも高速か

PDF・Word・Excel・画像…なんでもMarkdownに一発変換!AI時代の万能ファイル変換ツール — markitdown

microsoft/markitdownPython109.1k

MarkItDownは、PDF、Word、Excel、PowerPoint、画像、音声、HTMLなど、さまざまな形式のファイルをMarkdown(シンプルな書式付きテキスト)に変換するPython製の

LLMアプリのレシピ集!ChatGPTから音声エージェントまで実例満載 — awesome-llm-apps

Shubhamsaboo/awesome-llm-appsPython99.0k

awesome-llm-appsは、ChatGPTやGeminiなどの大規模言語モデル(AIの文章生成技術)を使った実用的なアプリケーションの作り方を集めたレシピ集です。AIエージェント(自動でタスク

写真1枚でリアルタイム顔入れ替え!ワンクリックでディープフェイク映像を生成 — Deep-Live-Cam

hacksider/Deep-Live-CamPython90.5k

Deep-Live-Camは、たった1枚の写真を用意するだけで、ウェブカメラの映像やビデオの中の顔をリアルタイムに別人の顔に入れ替えられるソフトウェアです。「顔を選ぶ→カメラを選ぶ→ライブボタンを押す

使うほど賢くなるAIエージェント — 学習・記憶・自動化を全部入りで月5ドルから運用 — hermes-agent

NousResearch/hermes-agentPython87.5k

Hermes Agentは、Nous Research社が開発した「自己改善するAIエージェント」です。会話するたびに経験からスキルを自動生成し、ユーザーの好みや過去のやり取りを記憶して、使えば使うほ