スマホでも動く！プライベート音声認識AI — 26MBの軽量モデルでWhisperを上回る精度 — moonshine

moonshine-ai/moonshineC6.4k

Moonshine Voiceは、リアルタイムの音声認識（話した言葉を文字に変換する技術）をスマートフォンやRaspberry Piのような小型デバイスでも高速に動かせるオープンソースのAIツールキットです。すべての処理がデバイス上で完結するため、クラウドへの通信が不要で、プライバシーが守られ、APIキーやアカウント登録も必要ありません。OpenAIのWhisperと比べて、同等以上の精度を保ちながら最大数十倍高速に動作し、ユーザーが話している最中からリアルタイムに文字起こしを更新できます。英語・日本語・韓国語・スペイン語・中国語など複数言語に対応し、Python・iOS・Android・Windows・Linuxなど主要なプラットフォームで統一されたAPIから利用できます。音声コマンドの意図認識機能も内蔵されており、「電気をつけて」のような自然な言い回しのバリエーションも認識できます。

🔥 なぜ話題？

エッジAI（デバイス上で動くAI）への関心が高まる中、OpenAI Whisperの弱点であったリアルタイム応答の遅さと多言語精度の低さを克服したモデルとして注目されています。特に、Whisper Large V3を上回る精度をわずか6分の1のパラメータ数で実現した点と、iOS・Android・ラズパイまで統一APIで動く実用性の高さが開発者コミュニティで話題を呼んでいます。

💡 こう使える！

例えば、Raspberry Piに接続したUSBマイクで「部屋の電気をつけて」と話しかけると、Moonshine Voiceが200ミリ秒以内にその意図を認識し、スマートホームの照明を自動で制御するアプリを作ることができます。「ライトオン」「明るくして」など言い方を変えても、意味が近ければ同じコマンドとして反応してくれます。

ユースケース: スマートフォンやIoTデバイス上で、クラウドを使わずにリアルタイムの音声文字起こしや音声コマンド認識を行うアプリを開発したい場面で使えます。

Whisper Large V3よりも高精度（WER 6.65%）なのにパラメータ数は6分の1の2.45億
ストリーミング対応で話している最中からリアルタイムに文字起こしを更新、応答遅延はMacBookで107ms
Python・iOS・Android・Windows・Linux・Raspberry Piまで統一APIで動作し、全処理がデバイス上で完結
「電気をつけて」の言い換えも認識できる意図認識（インテントレコグニション）機能を内蔵
英語・日本語・韓国語・スペイン語・アラビア語など8言語以上に対応、言語特化モデルで高精度

GitHubで見る →

Fast and accurate automatic speech recognition (ASR) for edge devices

技術情報

言語

ライセンス

NOASSERTION

最終更新

2026-03-05

スター数

6,360

フォーク数

329

Issue数

技術詳細

アーキテクチャと仕組み

C++で書かれたコアエンジンにC言語インターフェースを持ち、Python・Swift・Java・C++から呼び出せる構造
推論には OnnxRuntime を使用し、クロスプラットフォームでのパフォーマンスを確保
モデル形式はOnnxをOnnxRuntime .ort フラットバッファ形式に変換したもの（メモリマップ可能）
マイク入力→音声区間検出（VAD）→音声認識→話者識別→意図認識の全パイプラインを1ライブラリに統合
イベント駆動型API: LineStarted → LineTextChanged → LineCompleted のイベントでアプリに通知

Whisperとの主な違い

項目	Moonshine	Whisper
入力窓	可変長（ゼロパディング不要）	固定30秒
ストリーミング	エンコーダ・デコーダのキャッシュで増分処理	毎回全計算やり直し
多言語	言語特化モデルで高精度	1モデルで82言語だが精度にばらつき
エッジ対応	統一API・統一ライブラリ	プラットフォーム毎に別フレームワーク

パフォーマンス・ベンチマーク

モデル	WER	パラメータ数	MacBook Pro遅延	Linux x86遅延	Raspberry Pi 5遅延
Medium Streaming	6.65%	2.45億	107ms	269ms	802ms
Whisper Large v3	7.44%	15億	11,286ms	16,919ms	N/A
Small Streaming	7.84%	1.23億	73ms	165ms	527ms
Tiny Streaming	12.00%	3,400万	34ms	69ms	237ms
Tiny（非ストリーミング）	12.66%	2,600万	-	-	-

対応言語と利用可能モデル

英語: Tiny（26M）、Tiny Streaming（34M）、Base（58M）、Small Streaming（123M）、Medium Streaming（245M）
日本語: Base（58M）、CER 13.62%
韓国語: Tiny（26M）、CER 6.46%
スペイン語: Base（58M）、WER 4.33%
アラビア語: Base（58M）、WER 5.63%
中国語（普通話）: Base（58M）、CER 25.76%
ウクライナ語・ベトナム語: Base（58M）

※非ラテン文字言語では max_tokens_per_second オプションを13.0に設定する必要あり

量子化

8ビット量子化（ポストトレーニング）をデフォルトで適用
OnnxRuntimeのツールとOnnx Shrink Rayユーティリティを併用

主要機能一覧

リアルタイム文字起こし: マイクやオーディオストリームからの逐次テキスト化
意図認識（IntentRecognizer）: 事前登録したコマンドフレーズとの意味的マッチング（Gemma300mベースの文埋め込みモデル使用）
話者識別（ダイアライゼーション）: 複数話者の区別
複数ストリーム対応: 1つのトランスクライバーで複数音声入力を同時処理
デバッグ支援: 入力音声のWAV保存、APIコールログ、コンソールログ

対応プラットフォーム

Python（PyPI）、iOS（Swift Package Manager）、Android（Maven）、MacOS（Xcode）、Windows（Visual Studio）、Linux（cmake）、Raspberry Pi

ライセンス・商用利用

オープンソースとして公開
ドメイン特化のカスタマイズ（再トレーニング）は商用サービスとして提供

今後のロードマップ

意図認識の「スロットフィリング」対応（例:「バナナ10本ください」から数量を抽出）
コミュニティによるファインチューニングプロジェクトも進行中（pierre-cheneau/finetune-moonshine-asr）

インストール・クイックスタート

Python（最も簡単な方法）

pip install moonshine-voice
python -m moonshine_voice.mic_transcriber --language en

マイクからの音声をリアルタイムに文字起こしします。

モデルのダウンロード

python -m moonshine_voice.download --language en

--language に ja（日本語）、ko（韓国語）なども指定可能です。

音声コマンド認識の試用

python -m moonshine_voice.intent_recognizer

iOS / MacOS

リリースページからサンプルをダウンロードし、Xcodeで開きます。Swift Package Managerで https://github.com/moonshine-ai/moonshine-swift/ を追加。

Android

リリースページからサンプルをダウンロードし、Android Studioで開きます。Mavenパッケージ ai.moonshine:moonshine-voice をGradleに追加。

Linux（C++ビルド）

cd core
mkdir build && cd build
cmake ..
cmake --build .

過去のトレンド履歴

スマホでもサクサク動く！プライベート音声認識AI — moonshine

2026-02-28

6+593

スマホでも動く！プライベート音声認識AI — 26MBの軽量モデルでWhisperを上回る精度 — moonshine

2026-02-27

9+245

スマホでも動く！プライベート音声認識AI — 26MBの軽量モデルでWhisperを上回る精度 — moonshine

技術情報

技術詳細

アーキテクチャと仕組み

Whisperとの主な違い

パフォーマンス・ベンチマーク

対応言語と利用可能モデル

量子化

主要機能一覧

対応プラットフォーム

ライセンス・商用利用

今後のロードマップ

関連論文

インストール・クイックスタート

Python（最も簡単な方法）

モデルのダウンロード

音声コマンド認識の試用

iOS / MacOS

Android

Linux（C++ビルド）

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ