LLMの応答を3〜10倍高速化!KVキャッシュを賢く再利用する省エネエンジン — LMCache

LMCache/LMCachePython7.5k

LMCacheは、大規模言語モデル(AIチャットボットの頭脳にあたるもの)の応答速度を大幅に向上させるための拡張ツールです。AIが文章を生成する際に内部で作られる計算結果(KVキャッシュ)を、GPU・CPU・ディスク・クラウドストレージなどに保存しておき、同じような質問や文脈が来たときに計算をやり直さず再利用する仕組みです。LMCacheをvLLM(人気のあるAI推論エンジン)と組み合わせると、応答の待ち時間を3〜10倍短縮でき、GPUの負荷も大幅に減らせます。Google Cloud、CoreWeave、Redisなど大手クラウド・インフラ企業にも採用されており、エンタープライズ規模のAIサービスに対応できる信頼性を持っています。長い文章を扱うチャットボットやRAG(検索拡張生成)を運用している開発者やインフラエンジニアにとって特に有用なツールです。

🔥 なぜ話題?

長いコンテキストを扱うLLMアプリケーション(RAGやエージェント型AI)が急増する中、推論コストと応答遅延がボトルネックになっており、LMCacheはその課題を直接解決するツールとして注目されています。Google Cloud・CoreWeave・Redisなど主要インフラ企業との連携実績が続々と公表されていることも、信頼性の証として話題を加速させています。

💡 こう使える!

例えば、社内のAIチャットボットで社員が同じマニュアルや規約文書を引用しながら何度も質問するケースを想像してください。LMCacheを導入すると、最初の質問で計算されたマニュアル部分のキャッシュが保存され、2回目以降は同じ部分の計算をスキップできるため、ユーザーの待ち時間が数秒から1秒以下に短縮され、GPUサーバーのコストも節約できます。

ユースケース: 長文を扱うAIチャットボットやRAGシステムの応答速度を高速化し、GPUコストを削減したいときに使う

  • vLLMやSGLangと統合でき、応答待ち時間を3〜10倍短縮
  • GPU・CPU・ディスク・S3などデータセンター全体にKVキャッシュを分散保存
  • Google Cloud・CoreWeave・Redis・NVIDIAなど大手企業が採用・連携
GitHubで見る →

Supercharge Your LLM with the Fastest KV Cache Layer

技術情報

言語

Python

ライセンス

Apache-2.0

最終更新

2026-03-04

スター数

7,485

フォーク数

972

Issue数

254

トピック

amdcudafastinferencekv-cachellmpytorchrocmspeedvllm

技術詳細

アーキテクチャ・仕組み

LMCacheはLLM推論時に生成されるKVキャッシュ(Key-Valueキャッシュ:Transformerモデルが注意機構で使う中間計算結果)を保存・再利用する仕組みです。プレフィックス(先頭部分)に限らず、任意の再利用可能なテキスト部分のKVキャッシュを、異なる推論エンジンのインスタンス間で共有できる点が特徴です。

主な高速化技術

  • Zero CPU Copy: CPUを介さないデータ転送でオーバーヘッドを削減
  • NIXL: NVIDIA dynamo由来のP2P通信ライブラリとの連携
  • GDS (GPU Direct Storage): GPUからストレージへの直接アクセス

主要機能一覧

  • vLLM v1統合: 高性能CPU KVCacheオフローディング、分離プリフィル(disaggregated prefill)、P2P KVCache共有
  • SGLang統合: KVキャッシュオフローディング対応
  • ストレージバックエンド: CPU、ディスク、NIXL、S3など多層ストレージに対応
  • CacheBlend: RAGシナリオでキャッシュされた知識を融合する技術(学術論文発表済み)
  • CacheGen: KVキャッシュの圧縮・ストリーミング技術(ACM SIGCOMM 2024で発表)

パフォーマンス

  • vLLMと組み合わせた場合、TTFT(最初のトークンが出るまでの時間)を3〜10倍短縮
  • 長いコンテキスト(長文入力)のシナリオで特に効果が大きい
  • マルチラウンドQA(複数回のやり取り)やRAG(検索拡張生成)で顕著な改善

対応環境

  • OS: Linux
  • GPU: NVIDIA GPU
  • Python: PyPIで配布(pipでインストール可能)
  • 推論エンジン: vLLM(v1)、SGLang
  • vLLMの最新安定版との互換性を重視

エコシステム・連携

カテゴリ連携先
推論プロバイダーGMI Cloud, Google Cloud, CoreWeave
ストレージ/データRedis, Weka, PliOps
OSSプロジェクトvLLM, SGLang, vLLM Production Stack, llm-d, NVIDIA dynamo, KServe

コミュニティ

  • 隔週火曜9:00 AM(太平洋時間)にコミュニティミーティングをZoomで開催
  • Slackワークスペースで質問・議論が可能
  • YouTubeチャンネルでミーティングの録画を公開
  • 「Good first issues」でコントリビューター向けの入門課題を提供

ライセンス

  • Apache License 2.0 — 商用利用可能なオープンソースライセンス

ロードマップ

学術的背景

  • CacheGen(SIGCOMM 2024)、CacheBlend(EuroSys 2025)など複数の査読付き論文に基づく技術
  • シカゴ大学を中心とした研究チームが開発を主導
  • Tensormeshが公式サポート企業として運営

インストール・クイックスタート

pip install lmcache
  • Linux上のNVIDIA GPU環境で動作します
  • vLLMの最新安定版との組み合わせに対応
  • 詳細なインストール手順やバージョン不整合の解決方法は公式ドキュメントを参照してください
  • クイックスタートの例はこちらにあります

関連リポジトリ

テキスト・画像・音声・動画をまるごと高速推論!万能AIモデルの配信基盤 — vllm-omni

vllm-project/vllm-omniPython3.6k

vLLM-Omniは、テキストだけでなく画像・動画・音声など複数の種類のデータを同時に扱えるAIモデルを、高速かつ低コストで動かすためのフレームワーク(ソフトウェアの骨組み)です。もともとテキスト専用

AIに「このサイトで○○して」と頼むだけ!ブラウザ操作を全自動化するエージェント — browser-use

browser-use/browser-usePython84.1k

browser-useは、AI(人工知能)にウェブブラウザを操作させて、オンラインの作業を自動化できるPython製のツールです。「この求人に応募して」「買い物リストの商品をカートに入れて」といった自

AIモデルの実行も学習もブラウザ画面ひとつで完結!最大2倍速・VRAM70%削減の万能ツール — unsloth

unslothai/unslothPython57.0k

Unslothは、Qwen、DeepSeek、Gemma、LlamaなどのオープンソースAIモデルを自分のパソコンで動かしたり、追加学習(ファインチューニング)したりできる統合ツールです。ブラウザから

使うほど賢くなるAIエージェント — 学習ループ内蔵でどこからでも話しかけられる — hermes-agent

NousResearch/hermes-agentPython48.5k

Hermes Agentは、Nous Research社が開発した「自分で成長するAIエージェント」です。普通のAIチャットと違い、過去の会話を記憶し、複雑なタスクをこなした後に自動で「スキル」を作成

AIアナリストチームが株式投資を徹底議論!マルチエージェント金融トレーディングフレームワーク — TradingAgents

TauricResearch/TradingAgentsPython41.4k

TradingAgentsは、実際のトレーディング会社の組織構造を模倣した、複数のAIエージェント(自律的に動くAIプログラム)が協力して株式の売買判断を行うフレームワークです。ファンダメンタル分析担