LLMの応答を3〜10倍高速化!KVキャッシュを賢く再利用する省エネエンジン — LMCache
LMCache/LMCacheAIPython
7.5k
LMCacheは、大規模言語モデル(AIチャットボットの頭脳にあたるもの)の応答速度を大幅に向上させるための拡張ツールです。AIが文章を生成する際に内部で作られる計算結果(KVキャッシュ)を、GPU・CPU・ディスク・クラウドストレージなど
amdcudafastinferencekv-cachellmpytorchrocmspeedvllm