リアルタイム音声会話AI — 声も性格も自在に操る全二重通話モデル — personaplex

NVIDIA/personaplexPython8.6k

PersonaPlexは、NVIDIAが開発したリアルタイムの音声対話AIモデルです。人間同士の会話のように、相手が話している途中でも割り込んだり相づちを打ったりできる「全二重通信（電話のように双方向で同時に話せる仕組み）」に対応しています。テキストでキャラクター設定（例：『あなたはレストランの店員です』）を与えたり、声のサンプルで話し方を指定したりすることで、AIの人格や声色を自由にコントロールできます。カスタマーサービスの応対、カジュアルな雑談、QAアシスタントなど幅広い会話シナリオに対応しており、ブラウザ上のWebUIから直接リアルタイムで会話できます。

🔥 なぜ話題？

リアルタイム音声AIが急速に注目される中、NVIDIAが「声」と「キャラクター」の両方を制御できる全二重音声対話モデルをオープンに公開したことが大きな話題を呼んでいます。特に、従来の音声AIでは難しかった割り込みや相づちといった自然な会話のやりとりを実現している点が、開発者や研究者の関心を集めています。

💡 こう使える！

例えば、レストランの注文受付をシミュレーションしたいとき、『あなたはシャクシュカ専門店の店員オーウェンです。クラシック9.50ドル、スパイシー10.25ドル…』とプロンプトを設定すると、PersonaPlexがその店員になりきって音声でお客さん役のあなたと自然にやりとりしてくれます。途中で質問を割り込んでも、人間のように対応してくれます。

ユースケース: AIキャラクターとリアルタイムで音声会話したり、カスタマーサービスの応対シミュレーションを行いたい人向け。

電話のように双方向で同時に話せる全二重リアルタイム音声対話に対応
テキストプロンプトで人格設定、音声サンプルで声質を自由にカスタマイズ可能
NVIDIAが開発し、モデル重みとコードの両方をオープンに公開

GitHubで見る →

PersonaPlex code.

技術情報

言語

Python

ライセンス

MIT

最終更新

2026-03-02

スター数

8,639

フォーク数

1,229

Issue数

技術詳細

アーキテクチャ・仕組み

PersonaPlexは Moshi アーキテクチャをベースにファインチューニングされたモデル
バックボーンのLLMとして Helium を使用しており、広範な学習コーパスにより訓練分布外のプロンプトにも対応可能
テキストベースの役割プロンプト（ペルソナ制御）と音声ベースの声質条件付け（ボイスプロンプト）の2つの制御軸を持つ
合成会話データと実会話データ（Fisher English Corpus）の組み合わせで学習

モデル仕様

モデルサイズ: 7B（70億パラメータ）
重みの公開先: Hugging Face (nvidia/personaplex-7b-v1)
全二重（Full Duplex）対応: 割り込み、相づち、スムーズなターンテイキングが可能

音声（ボイス）オプション

プリパッケージされた音声エンベディングが用意されている:

カテゴリ	ラベル
自然な女性声	NATF0, NATF1, NATF2, NATF3
自然な男性声	NATM0, NATM1, NATM2, NATM3
バリエーション女性声	VARF0〜VARF4
バリエーション男性声	VARM0〜VARM4

NAT系はより自然で会話的な声、VAR系はより多様な声質

対応シナリオ

QAアシスタント: 質問応答やアドバイス提供
カスタマーサービス: レストラン、ゴミ収集サービス、ドローンレンタルなど多様な業種に対応
カジュアル会話: 料理、キャリア、家族の話題など自由な雑談
クリエイティブシナリオ: 宇宙船の原子炉修理相談など分布外プロンプトへの対応も可能

実行モード

サーバーモード: WebUI経由でリアルタイム音声対話（SSL対応）
オフラインモード: WAVファイルを入力して音声応答WAVとテキストJSONを出力
CPUオフロード: GPUメモリが不足する場合、--cpu-offload フラグでモデルレイヤーをCPUに退避可能（accelerate パッケージが必要）
CPU専用PyTorchでのオフライン評価も可能

評価ベンチマーク

FullDuplexBench の以下の評価カテゴリに対応するプロンプトが用意されている:

User Interruption（ユーザーの割り込み）
Pause Handling（間の取り方）
Backchannel（相づち）
Smooth Turn Taking（スムーズな発話交代）

ライセンス

コード: MIT ライセンス
モデル重み: NVIDIA Open Model ライセンス
商用利用についてはNVIDIA Open Modelライセンスの条項を確認が必要

インストール・クイックスタート

インストール手順

Opusオーディオコーデックの開発ライブラリをインストール:

# Ubuntu/Debian
sudo apt install libopus-dev

# Fedora/RHEL
sudo dnf install opus-devel

リポジトリをダウンロードしてインストール:

pip install moshi/.

Blackwell GPU の場合は追加で:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130

Hugging Faceでモデルライセンスを承認し、トークンを設定:

export HF_TOKEN=<YOUR_HUGGINGFACE_TOKEN>

サーバーを起動してブラウザでアクセス:

SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR"

ブラウザで localhost:8998 にアクセスすると会話を開始できます。

過去のトレンド履歴

AIと自然にリアルタイム音声会話！声もキャラも自由自在に操れる全二重対話モデル — personaplex

2026-04-08

4+662

リアルタイム音声会話AI — 声も性格も自在に操る全二重通話モデル — personaplex

2026-04-07

10+295

リアルタイム音声会話AI — 声も性格も自在に操る全二重通話モデル — personaplex

技術情報

技術詳細

アーキテクチャ・仕組み

モデル仕様

音声（ボイス）オプション

対応シナリオ

実行モード

評価ベンチマーク

ライセンス

インストール・クイックスタート

インストール手順

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ