Macで画像・音声・動画をAIに理解させよう！Apple Silicon専用マルチモーダルAI実行環境 — mlx-vlm

Blaizzy/mlx-vlmPython4.1k

mlx-vlmは、Mac上で画像・音声・動画を理解できるAI（Vision Language Model）を動かしたり、カスタマイズ（ファインチューニング）したりできるツールです。Apple独自のMLXフレームワーク（Apple Silicon向けの高速AI計算基盤）を使っているため、クラウドに接続せずMacだけで完結できます。写真の内容を説明させたり、複数の画像を比較させたり、音声ファイルの内容を聞き取らせたりと、さまざまなAI対話が可能です。コマンド1行で使えるほか、Pythonスクリプトや、ブラウザ上のチャット画面（Gradio）、OpenAI互換のAPIサーバーとしても利用でき、開発者から一般ユーザーまで幅広く使えます。

🔥 なぜ話題？

Apple Silicon搭載Macの普及とローカルAI実行への関心の高まりを背景に、クラウドに頼らずプライバシーを守りながら最新のマルチモーダルAI（画像+音声+動画を扱えるAI）をMacで直接動かせる点が注目されています。特に最近、音声・動画対応やKVキャッシュ圧縮など高度な機能が次々追加され、実用性が大きく向上したことがトレンド入りの要因と考えられます。

💡 こう使える！

例えば、旅行先で撮った2枚の風景写真をMacに取り込み、mlx-vlmに『この2枚の写真の違いを説明して』と頼むと、AIがクラウドにデータを送ることなくMac上だけで写真の内容を比較・分析して日本語で回答してくれます。会議の録音ファイルを渡して『何について話しているか要約して』と音声分析させることも可能です。

ユースケース: Macだけで画像や音声をAIに分析・説明させたい人が、クラウドサービスを使わずにローカル環境でマルチモーダルAIを活用する場面。

Mac上で画像・音声・動画を理解するAIをローカル実行でき、データをクラウドに送る必要がない
ビジョンキャッシュ機能で同じ画像への繰り返し質問が11倍以上高速化
TurboQuantによるKVキャッシュ圧縮で、メモリ使用量を最大76%削減しながら長文処理が可能
OpenAI互換APIサーバーとして起動でき、既存のOpenAI対応ツールとそのまま連携できる
LoRA/QLoRAによるファインチューニングでモデルを自分のデータに合わせてカスタマイズ可能

GitHubで見る →

MLX-VLM is a package for inference and fine-tuning of Vision Language Models (VLMs) on your Mac using MLX.

技術情報

言語

Python

ライセンス

MIT

最終更新

2026-04-06

スター数

4,062

フォーク数

430

Issue数

トピック

apple-siliconflorence2ideficsllavallmlocal-aimlxmolmopaligemmapixtralvision-frameworkvision-language-modelvision-transformer

技術詳細

アーキテクチャ・仕組み

Apple の MLX フレームワーク をバックエンドに使用し、Apple Silicon（M1/M2/M3/M4）のGPUを最大限活用
Vision Language Model（VLM）のビジョンエンコーダ＋言語モデルのパイプラインを一貫して処理
NVIDIA GPU（CUDA）環境にも対応し、mxfp8/nvfp4 の活性化量子化をサポート

対応モダリティ

画像: 単一画像・複数画像の同時分析
音声: WAV/MP3ファイルの入力に対応
動画: MP4等の動画キャプション・要約（FPS・解像度指定可能）
マルチモーダル: 画像＋音声の同時入力にも対応

対応モデル（一部）

Qwen2-VL / Qwen2.5-VL / Qwen3.5
Gemma 4 / gemma-3n
Phi-4 Multimodal / Phi-4 Reasoning Vision
DeepSeek-OCR / DeepSeek-OCR-2
MiniCPM-o / Moondream3 / Molmo
Falcon-OCR / DOTS-OCR / GLM-OCR
Granite Vision 3.2 / 4.0
Idefics3 / LLaVA　ほか

主要機能

CLI: mlx_vlm.generate コマンドでテキスト・画像・音声・動画の推論
Chat UI: Gradio ベースのブラウザチャットインターフェース
Python API: load() と generate() のシンプルなAPI
FastAPI サーバー: OpenAI互換の /v1/chat/completions、/responses エンドポイント、ストリーミング対応
Thinking Budget: 思考モデル（Qwen3.5等）の思考トークン数を制限可能
ファインチューニング: LoRA / QLoRA による効率的なモデル調整

Vision Feature Cache（ビジョン特徴量キャッシュ）

同じ画像に対する複数回の質問で、ビジョンエンコーダの再計算をスキップ
LRU方式で最大8エントリ（設定変更可）
gemma-4-26b-a4b-it での検証結果: プロンプト処理速度 48 TPS → 550〜825 TPS（11倍以上）
メモリ使用量への影響なし

TurboQuant KV Cache

Hadamard回転＋コードブック量子化によるKVキャッシュ圧縮（論文: arXiv:2504.19874）
対応ビット幅: 2bit / 3bit / 3.5bit（推奨）/ 4bit
Qwen3.5-4B-4bit @ 128kコンテキスト: KVメモリ 4.1 GB → 0.97 GB（76%削減）
gemma-4-31b-it @ 128kコンテキスト: KVメモリ 13.3 GB → 4.9 GB（63%削減）
512k+コンテキストでは FP16 SDPA より高速
カスタムMetalカーネルにより、量子化データ上で直接計算（フル展開不要）

サーバーエンドポイント

エンドポイント	用途
`/v1/chat/completions`	OpenAI互換チャット
`/v1/models`	利用可能モデル一覧
`/responses`	OpenAI Responses API互換
`/health`	ヘルスチェック
`/unload`	モデルアンロード

制約・注意点

CUDA環境で mxfp8/nvfp4 量子化モデルを使用する場合は --quantize-activations フラグが必須（Apple Siliconでは不要）
動画対応モデルは現時点で Qwen2-VL、Qwen2.5-VL、Idefics3、LLaVA に限定
サーバーは同時に1モデルのみロード（動的ロード/アンロード対応）

ライセンス

READMEにライセンスの明示的な記載なし（リポジトリのLICENSEファイルを参照）

インストール・クイックスタート

pip install -U mlx-vlm

インストール後、すぐにコマンドラインで使えます：

# 画像の内容を説明させる
mlx_vlm.generate --model mlx-community/Qwen2-VL-2B-Instruct-4bit --max-tokens 100 --image http://images.cocodataset.org/val2017/000000039769.jpg

# チャットUIを起動
mlx_vlm.chat_ui --model mlx-community/Qwen2-VL-2B-Instruct-4bit

# APIサーバーを起動
mlx_vlm.server --port 8080 --model mlx-community/Qwen2-VL-2B-Instruct-4bit

過去のトレンド履歴

Macで画像・音声・動画をAIに理解させよう！Apple Silicon専用マルチモーダルAI実行環境 — mlx-vlm

2026-04-05

6+343

Macで画像・音声・動画をAIに理解させよう！Apple Silicon専用マルチモーダルAI実行環境 — mlx-vlm

技術情報

技術詳細

アーキテクチャ・仕組み

対応モダリティ

対応モデル（一部）

主要機能

Vision Feature Cache（ビジョン特徴量キャッシュ）

TurboQuant KV Cache

サーバーエンドポイント

制約・注意点

ライセンス

インストール・クイックスタート

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ