スマホでも動く!プライベート音声認識AI — 26MBの軽量モデルでWhisperを上回る精度 — moonshine

moonshine-ai/moonshineC6.4k

Moonshine Voiceは、リアルタイムの音声認識(話した言葉を文字に変換する技術)をスマートフォンやRaspberry Piのような小型デバイスでも高速に動かせるオープンソースのAIツールキットです。すべての処理がデバイス上で完結するため、クラウドへの通信が不要で、プライバシーが守られ、APIキーやアカウント登録も必要ありません。OpenAIのWhisperと比べて、同等以上の精度を保ちながら最大数十倍高速に動作し、ユーザーが話している最中からリアルタイムに文字起こしを更新できます。英語・日本語・韓国語・スペイン語・中国語など複数言語に対応し、Python・iOS・Android・Windows・Linuxなど主要なプラットフォームで統一されたAPIから利用できます。音声コマンドの意図認識機能も内蔵されており、「電気をつけて」のような自然な言い回しのバリエーションも認識できます。

🔥 なぜ話題?

エッジAI(デバイス上で動くAI)への関心が高まる中、OpenAI Whisperの弱点であったリアルタイム応答の遅さと多言語精度の低さを克服したモデルとして注目されています。特に、Whisper Large V3を上回る精度をわずか6分の1のパラメータ数で実現した点と、iOS・Android・ラズパイまで統一APIで動く実用性の高さが開発者コミュニティで話題を呼んでいます。

💡 こう使える!

例えば、Raspberry Piに接続したUSBマイクで「部屋の電気をつけて」と話しかけると、Moonshine Voiceが200ミリ秒以内にその意図を認識し、スマートホームの照明を自動で制御するアプリを作ることができます。「ライトオン」「明るくして」など言い方を変えても、意味が近ければ同じコマンドとして反応してくれます。

ユースケース: スマートフォンやIoTデバイス上で、クラウドを使わずにリアルタイムの音声文字起こしや音声コマンド認識を行うアプリを開発したい場面で使えます。

  • Whisper Large V3よりも高精度(WER 6.65%)なのにパラメータ数は6分の1の2.45億
  • ストリーミング対応で話している最中からリアルタイムに文字起こしを更新、応答遅延はMacBookで107ms
  • Python・iOS・Android・Windows・Linux・Raspberry Piまで統一APIで動作し、全処理がデバイス上で完結
  • 「電気をつけて」の言い換えも認識できる意図認識(インテントレコグニション)機能を内蔵
  • 英語・日本語・韓国語・スペイン語・アラビア語など8言語以上に対応、言語特化モデルで高精度
GitHubで見る →

Fast and accurate automatic speech recognition (ASR) for edge devices

技術情報

言語

C

ライセンス

NOASSERTION

最終更新

2026-03-05

スター数

6,360

フォーク数

329

Issue数

43

技術詳細

アーキテクチャと仕組み

  • C++で書かれたコアエンジンにC言語インターフェースを持ち、Python・Swift・Java・C++から呼び出せる構造
  • 推論には OnnxRuntime を使用し、クロスプラットフォームでのパフォーマンスを確保
  • モデル形式はOnnxをOnnxRuntime .ort フラットバッファ形式に変換したもの(メモリマップ可能)
  • マイク入力→音声区間検出(VAD)→音声認識→話者識別→意図認識の全パイプラインを1ライブラリに統合
  • イベント駆動型API: LineStartedLineTextChangedLineCompleted のイベントでアプリに通知

Whisperとの主な違い

項目MoonshineWhisper
入力窓可変長(ゼロパディング不要)固定30秒
ストリーミングエンコーダ・デコーダのキャッシュで増分処理毎回全計算やり直し
多言語言語特化モデルで高精度1モデルで82言語だが精度にばらつき
エッジ対応統一API・統一ライブラリプラットフォーム毎に別フレームワーク

パフォーマンス・ベンチマーク

モデルWERパラメータ数MacBook Pro遅延Linux x86遅延Raspberry Pi 5遅延
Medium Streaming6.65%2.45億107ms269ms802ms
Whisper Large v37.44%15億11,286ms16,919msN/A
Small Streaming7.84%1.23億73ms165ms527ms
Tiny Streaming12.00%3,400万34ms69ms237ms
Tiny(非ストリーミング)12.66%2,600万---

対応言語と利用可能モデル

  • 英語: Tiny(26M)、Tiny Streaming(34M)、Base(58M)、Small Streaming(123M)、Medium Streaming(245M)
  • 日本語: Base(58M)、CER 13.62%
  • 韓国語: Tiny(26M)、CER 6.46%
  • スペイン語: Base(58M)、WER 4.33%
  • アラビア語: Base(58M)、WER 5.63%
  • 中国語(普通話): Base(58M)、CER 25.76%
  • ウクライナ語・ベトナム語: Base(58M)

※非ラテン文字言語では max_tokens_per_second オプションを13.0に設定する必要あり

量子化

  • 8ビット量子化(ポストトレーニング)をデフォルトで適用
  • OnnxRuntimeのツールとOnnx Shrink Rayユーティリティを併用

主要機能一覧

  • リアルタイム文字起こし: マイクやオーディオストリームからの逐次テキスト化
  • 意図認識(IntentRecognizer): 事前登録したコマンドフレーズとの意味的マッチング(Gemma300mベースの文埋め込みモデル使用)
  • 話者識別(ダイアライゼーション): 複数話者の区別
  • 複数ストリーム対応: 1つのトランスクライバーで複数音声入力を同時処理
  • デバッグ支援: 入力音声のWAV保存、APIコールログ、コンソールログ

対応プラットフォーム

Python(PyPI)、iOS(Swift Package Manager)、Android(Maven)、MacOS(Xcode)、Windows(Visual Studio)、Linux(cmake)、Raspberry Pi

ライセンス・商用利用

  • オープンソースとして公開
  • ドメイン特化のカスタマイズ(再トレーニング)は商用サービスとして提供

今後のロードマップ

  • 意図認識の「スロットフィリング」対応(例:「バナナ10本ください」から数量を抽出)
  • コミュニティによるファインチューニングプロジェクトも進行中(pierre-cheneau/finetune-moonshine-asr)

関連論文

インストール・クイックスタート

Python(最も簡単な方法)

pip install moonshine-voice
python -m moonshine_voice.mic_transcriber --language en

マイクからの音声をリアルタイムに文字起こしします。

モデルのダウンロード

python -m moonshine_voice.download --language en

--languageja(日本語)、ko(韓国語)なども指定可能です。

音声コマンド認識の試用

python -m moonshine_voice.intent_recognizer

iOS / MacOS

リリースページからサンプルをダウンロードし、Xcodeで開きます。Swift Package Managerで https://github.com/moonshine-ai/moonshine-swift/ を追加。

Android

リリースページからサンプルをダウンロードし、Android Studioで開きます。Mavenパッケージ ai.moonshine:moonshine-voice をGradleに追加。

Linux(C++ビルド)

cd core
mkdir build && cd build
cmake ..
cmake --build .

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

WhatsApp・Telegram・Slack…22以上のチャットアプリを1つのAIアシスタントに統合! — openclaw

openclaw/openclawTypeScript301.9k

OpenClawは、自分のパソコンやサーバーで動かせる個人用AIアシスタントです。WhatsApp、Telegram、Slack、Discord、LINE、iMessageなど22以上のメッセージアプ

自分のパソコンでAIを動かそう!最新の大規模言語モデルをワンコマンドで実行 — ollama

ollama/ollamaGo168.0k

Ollamaは、ChatGPTのようなAIモデルを自分のパソコン上で簡単に動かせるツールです。通常、AIモデルを使うにはクラウドサービスへの課金や複雑な環境構築が必要ですが、Ollamaを使えばたった

AIへの「話しかけ方」が14万人に支持された世界最大のプロンプト集 — prompts.chat

f/prompts.chatHTML157.4k

prompts.chatは、ChatGPTやClaude、Geminiなど様々なAIチャットツールで使える「お手本の質問文(プロンプト)」を集めた世界最大のオープンソースライブラリです。2022年12

AIコーディングエージェントに「正しい開発手順」を叩き込む!自律的なソフトウェア開発フレームワーク — superpowers

obra/superpowersShell153.3k

Superpowersは、AIコーディングエージェント(Claude Code、Cursor、Codexなど)に対して、プロのソフトウェア開発者が踏む正しい手順を自動的に守らせるためのフレームワークで

有名AIツールの「裏側の指示書」を大公開!開発者の秘密が丸見え — system-prompts-and-models-of-ai-tools

x1xhlol/system-prompts-and-models-of-ai-tools124.7k

Claude、Cursor、Devin AI、Perplexityなど、話題のAIツールが内部で使っている「システムプロンプト(AI への指示書)」や開発ツールを大量に集めたリポジトリです。AIがどの