Macで画像・音声・動画をAIに理解させよう!Apple Silicon専用マルチモーダルAI実行環境 — mlx-vlm

Blaizzy/mlx-vlmPython4.1k

mlx-vlmは、Mac上で画像・音声・動画を理解できるAI(Vision Language Model)を動かしたり、カスタマイズ(ファインチューニング)したりできるツールです。Apple独自のMLXフレームワーク(Apple Silicon向けの高速AI計算基盤)を使っているため、クラウドに接続せずMacだけで完結できます。写真の内容を説明させたり、複数の画像を比較させたり、音声ファイルの内容を聞き取らせたりと、さまざまなAI対話が可能です。コマンド1行で使えるほか、Pythonスクリプトや、ブラウザ上のチャット画面(Gradio)、OpenAI互換のAPIサーバーとしても利用でき、開発者から一般ユーザーまで幅広く使えます。

🔥 なぜ話題?

Apple Silicon搭載Macの普及とローカルAI実行への関心の高まりを背景に、クラウドに頼らずプライバシーを守りながら最新のマルチモーダルAI(画像+音声+動画を扱えるAI)をMacで直接動かせる点が注目されています。特に最近、音声・動画対応やKVキャッシュ圧縮など高度な機能が次々追加され、実用性が大きく向上したことがトレンド入りの要因と考えられます。

💡 こう使える!

例えば、旅行先で撮った2枚の風景写真をMacに取り込み、mlx-vlmに『この2枚の写真の違いを説明して』と頼むと、AIがクラウドにデータを送ることなくMac上だけで写真の内容を比較・分析して日本語で回答してくれます。会議の録音ファイルを渡して『何について話しているか要約して』と音声分析させることも可能です。

ユースケース: Macだけで画像や音声をAIに分析・説明させたい人が、クラウドサービスを使わずにローカル環境でマルチモーダルAIを活用する場面。

  • Mac上で画像・音声・動画を理解するAIをローカル実行でき、データをクラウドに送る必要がない
  • ビジョンキャッシュ機能で同じ画像への繰り返し質問が11倍以上高速化
  • TurboQuantによるKVキャッシュ圧縮で、メモリ使用量を最大76%削減しながら長文処理が可能
  • OpenAI互換APIサーバーとして起動でき、既存のOpenAI対応ツールとそのまま連携できる
  • LoRA/QLoRAによるファインチューニングでモデルを自分のデータに合わせてカスタマイズ可能
GitHubで見る →

MLX-VLM is a package for inference and fine-tuning of Vision Language Models (VLMs) on your Mac using MLX.

技術情報

言語

Python

ライセンス

MIT

最終更新

2026-04-06

スター数

4,062

フォーク数

430

Issue数

85

トピック

apple-siliconflorence2ideficsllavallmlocal-aimlxmolmopaligemmapixtralvision-frameworkvision-language-modelvision-transformer

技術詳細

アーキテクチャ・仕組み

  • Apple の MLX フレームワーク をバックエンドに使用し、Apple Silicon(M1/M2/M3/M4)のGPUを最大限活用
  • Vision Language Model(VLM)のビジョンエンコーダ+言語モデルのパイプラインを一貫して処理
  • NVIDIA GPU(CUDA)環境にも対応し、mxfp8/nvfp4 の活性化量子化をサポート

対応モダリティ

  • 画像: 単一画像・複数画像の同時分析
  • 音声: WAV/MP3ファイルの入力に対応
  • 動画: MP4等の動画キャプション・要約(FPS・解像度指定可能)
  • マルチモーダル: 画像+音声の同時入力にも対応

対応モデル(一部)

  • Qwen2-VL / Qwen2.5-VL / Qwen3.5
  • Gemma 4 / gemma-3n
  • Phi-4 Multimodal / Phi-4 Reasoning Vision
  • DeepSeek-OCR / DeepSeek-OCR-2
  • MiniCPM-o / Moondream3 / Molmo
  • Falcon-OCR / DOTS-OCR / GLM-OCR
  • Granite Vision 3.2 / 4.0
  • Idefics3 / LLaVA ほか

主要機能

  • CLI: mlx_vlm.generate コマンドでテキスト・画像・音声・動画の推論
  • Chat UI: Gradio ベースのブラウザチャットインターフェース
  • Python API: load()generate() のシンプルなAPI
  • FastAPI サーバー: OpenAI互換の /v1/chat/completions/responses エンドポイント、ストリーミング対応
  • Thinking Budget: 思考モデル(Qwen3.5等)の思考トークン数を制限可能
  • ファインチューニング: LoRA / QLoRA による効率的なモデル調整

Vision Feature Cache(ビジョン特徴量キャッシュ)

  • 同じ画像に対する複数回の質問で、ビジョンエンコーダの再計算をスキップ
  • LRU方式で最大8エントリ(設定変更可)
  • gemma-4-26b-a4b-it での検証結果: プロンプト処理速度 48 TPS → 550〜825 TPS(11倍以上)
  • メモリ使用量への影響なし

TurboQuant KV Cache

  • Hadamard回転+コードブック量子化によるKVキャッシュ圧縮(論文: arXiv:2504.19874
  • 対応ビット幅: 2bit / 3bit / 3.5bit(推奨)/ 4bit
  • Qwen3.5-4B-4bit @ 128kコンテキスト: KVメモリ 4.1 GB → 0.97 GB(76%削減)
  • gemma-4-31b-it @ 128kコンテキスト: KVメモリ 13.3 GB → 4.9 GB(63%削減)
  • 512k+コンテキストでは FP16 SDPA より高速
  • カスタムMetalカーネルにより、量子化データ上で直接計算(フル展開不要)

サーバーエンドポイント

エンドポイント用途
/v1/chat/completionsOpenAI互換チャット
/v1/models利用可能モデル一覧
/responsesOpenAI Responses API互換
/healthヘルスチェック
/unloadモデルアンロード

制約・注意点

  • CUDA環境で mxfp8/nvfp4 量子化モデルを使用する場合は --quantize-activations フラグが必須(Apple Siliconでは不要)
  • 動画対応モデルは現時点で Qwen2-VL、Qwen2.5-VL、Idefics3、LLaVA に限定
  • サーバーは同時に1モデルのみロード(動的ロード/アンロード対応)

ライセンス

READMEにライセンスの明示的な記載なし(リポジトリのLICENSEファイルを参照)

インストール・クイックスタート

pip install -U mlx-vlm

インストール後、すぐにコマンドラインで使えます:

# 画像の内容を説明させる
mlx_vlm.generate --model mlx-community/Qwen2-VL-2B-Instruct-4bit --max-tokens 100 --image http://images.cocodataset.org/val2017/000000039769.jpg

# チャットUIを起動
mlx_vlm.chat_ui --model mlx-community/Qwen2-VL-2B-Instruct-4bit

# APIサーバーを起動
mlx_vlm.server --port 8080 --model mlx-community/Qwen2-VL-2B-Instruct-4bit

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

使うほど賢くなるAIエージェント — 学習・記憶・自動化を全部入りで月5ドルから運用 — hermes-agent

NousResearch/hermes-agentPython87.5k

Hermes Agentは、Nous Research社が開発した「自己改善するAIエージェント」です。会話するたびに経験からスキルを自動生成し、ユーザーの好みや過去のやり取りを記憶して、使えば使うほ

AIに「このサイトで○○して」と頼むだけ!ブラウザ操作を全自動化するエージェント — browser-use

browser-use/browser-usePython84.1k

browser-useは、AI(人工知能)にウェブブラウザを操作させて、オンラインの作業を自動化できるPython製のツールです。「この求人に応募して」「買い物リストの商品をカートに入れて」といった自

AIモデルの実行も学習もブラウザ画面ひとつで完結!最大2倍速・VRAM70%削減の万能ツール — unsloth

unslothai/unslothPython57.0k

Unslothは、Qwen、DeepSeek、Gemma、LlamaなどのオープンソースAIモデルを自分のパソコンで動かしたり、追加学習(ファインチューニング)したりできる統合ツールです。ブラウザから

AIアナリストチームが株式投資を徹底議論!マルチエージェント金融トレーディングフレームワーク — TradingAgents

TauricResearch/TradingAgentsPython41.4k

TradingAgentsは、実際のトレーディング会社の組織構造を模倣した、複数のAIエージェント(自律的に動くAIプログラム)が協力して株式の売買判断を行うフレームワークです。ファンダメンタル分析担

100以上のAIモデルを1つの窓口で呼び出せる!LLM統合ゲートウェイ — litellm

BerriAI/litellmPython40.9k

LiteLLMは、OpenAI・Anthropic・Azure・Google Vertex AIなど100以上のAI言語モデル(LLM)を、たった1つの共通フォーマットで呼び出せるPython SDK