スマホでもラズパイでもAIが動く!Googleの高速LLM推論エンジン — LiteRT-LM

google-ai-edge/LiteRT-LMC++3.1k

LiteRT-LMは、Googleが開発した大規模言語モデル(AIが文章を生成する仕組み)をスマートフォンやパソコン、IoT機器などの手元のデバイスで高速に動かすためのオープンソースフレームワークです。クラウド(インターネット上のサーバー)にデータを送らずに、端末上だけでAIチャットや画像認識、音声処理ができるため、プライバシーを守りつつ高速な応答が得られます。Android・iOS・Web・デスクトップ・Raspberry Piなど幅広いプラットフォームに対応し、GPU(画像処理チップ)やNPU(AI専用チップ)を活用して高いパフォーマンスを発揮します。ChromeブラウザやPixel Watchなど、Googleの製品でも実際に使われている本番品質のツールです。

🔥 なぜ話題?

Googleの最新モデルGemma 4のエッジデバイス対応が発表されたタイミングと重なり、クラウドに頼らずデバイス上でAIを動かす「エッジAI」への関心が急速に高まっていることが注目の背景です。ChromeやPixel Watchなど実際のGoogle製品に採用されている信頼性の高さも話題を後押ししています。

💡 こう使える!

例えば、Androidアプリ開発者が自分のアプリにオフラインで動くAIチャット機能を追加したいとき、LiteRT-LMを使えばGemmaなどのAIモデルをアプリに組み込み、インターネット接続なしでもユーザーの質問に即座に回答できるようになります。

ユースケース: スマートフォンやIoT機器などの端末上で、インターネットに接続せずにAIチャットや画像認識を実行したいとき。

  • Android・iOS・Web・デスクトップ・Raspberry Piなどクロスプラットフォーム対応
  • GPUやNPU(AI専用チップ)を活用した高速推論
  • Gemma 4・Llama・Phi-4・Qwenなど多数のAIモデルに対応
  • 画像・音声の入力やAIの関数呼び出し(ツール使用)にも対応
  • Chrome・Chromebook Plus・Pixel Watchなど実際のGoogle製品で採用済み

技術情報

言語

C++

ライセンス

Apache-2.0

最終更新

2026-04-09

スター数

3,132

フォーク数

289

Issue数

124

技術詳細

対応プラットフォーム

  • モバイル: Android、iOS(Swift対応は開発中)
  • デスクトップ: Linux、macOS、Windows(WSL経由)
  • Web: ブラウザ上での実行
  • IoT: Raspberry Pi など

サポートされているプログラミング言語API

言語状態用途
Kotlin✅ 安定版Androidアプリ・JVM
Python✅ 安定版プロトタイプ・スクリプト
C++✅ 安定版高性能ネイティブアプリ
Swift🚀 開発中iOS・macOSネイティブ

ハードウェアアクセラレーション

  • GPU: デスクトップおよびモバイルのGPUを活用した高速推論(v0.8.0でデスクトップGPU対応追加)
  • NPU: AI専用チップによるアクセラレーション(v0.7.0でGemmaモデル向けNPU対応追加)

対応モデル

  • Gemma(Google製、Gemma 4を含む最新モデルに対応)
  • Llama(Meta製)
  • Phi-4(Microsoft製)
  • Qwen(Alibaba製)
  • その他多数

主要機能

  • マルチモーダル対応: テキストだけでなく画像(ビジョン)や音声の入力をサポート
  • ツール使用(Function Calling): AIがアプリの機能を呼び出せる「エージェント的」ワークフローに対応。FunctionGemmaをファインチューニングして利用可能
  • CLIツール: ターミナルからコード不要でモデルを試せるコマンドラインインターフェース
  • HuggingFace連携: HuggingFaceリポジトリから直接モデルをダウンロードして実行可能

実績・採用事例

  • Chrome: ブラウザ内でのオンデバイスGenAI体験
  • Chromebook Plus: 端末上でのAI機能
  • Pixel Watch: ウェアラブルデバイスでのAI
  • Google AI Edge Gallery: Android/iOSアプリとして公開されており、Google PlayとApp Storeからインストール可能

リリース履歴

  • v0.10.1: Gemma 4対応、LiteRT-LM CLI導入
  • v0.9.0: 関数呼び出し機能の改善、アプリ安定性向上
  • v0.8.0: デスクトップGPUサポート、マルチモーダル対応
  • v0.7.0: GemmaモデルのNPUアクセラレーション

ビルド

ソースからのビルドも可能で、安定版のリリースタグをチェックアウトして使用することが推奨されている。

インストール・クイックスタート

CLIツール(コマンドラインツール)でのクイックスタート

uv(Pythonパッケージマネージャ)を使って、コードを書かずにすぐ試せます:

# LiteRT-LM CLIをインストール
uv tool install litert-lm

# Gemmaモデルを使ってAIに質問する
litert-lm run \
  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
  gemma-3n-E2B-it-int4 \
  --prompt="What is the capital of France?"

Gemma 4モデルを試す場合

litert-lm run \
   --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
   gemma-4-E2B-it.litertlm \
   --prompt="What is the capital of France?"

Linux、macOS、Windows(WSL)、Raspberry Piで動作します。

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

スマホやIoTでAIをサクサク動かす!TensorFlow Liteの正統後継フレームワーク — LiteRT

google-ai-edge/LiteRTC++1.9k

LiteRTは、Googleが開発した「デバイス上で直接AIを動かす」ためのフレームワークで、TensorFlow Liteの後継にあたります。スマートフォン、パソコン、IoT機器など幅広いデバイス上

自分のパソコンでChatGPTのようなAIを動かせる!100以上のモデル対応の超軽量エンジン — llama.cpp

ggml-org/llama.cppC++102.3k

llama.cppは、大規模言語モデル(ChatGPTのようなAI)を自分のパソコンやスマホ上で直接動かすためのソフトウェアです。C/C++というプログラミング言語で書かれており、外部サービスに頼らず

中国発の本格派AI開発プラットフォーム!2333万人の開発者が選んだ産業用深層学習フレームワーク — Paddle

PaddlePaddle/PaddleC++23.7k

Paddleは中国百度が開発した深層学習フレームワークで、AIモデルの作成から実用化まで一貫してサポートするプラットフォームです。製造業や農業など様々な分野で実際に使われており、世界で2333万人の開

スマホだけでGemma 4が動く!完全オフラインで最先端AIを体験できるアプリ — gallery

google-ai-edge/galleryKotlin19.8k

Google AI Edge Galleryは、スマートフォンの中だけで大規模言語モデル(人間のように文章を書けるAI)を動かせるアプリです。インターネット接続なしで、AIとのチャット・画像認識・音声

AIモデルを軽量化!CPUでも爆速で動く機械学習エンジン — ggml

ggml-org/ggmlC++14.1k

ggmlは、AIモデル(機械学習の仕組み)を普通のパソコンやスマホでも速く動かせるようにする技術ライブラリです。通常は高性能なGPU(グラフィック処理専用チップ)が必要なAI処理を、CPUだけでも軽快