# inference

このトピックのトレンドリポジトリ（2件）

LMCacheは、大規模言語モデル（AIチャットボットの頭脳にあたるもの）の応答速度を大幅に向上させるための拡張ツールです。AIが文章を生成する際に内部で作られる計算結果（KVキャッシュ）を、GPU・CPU・ディスク・クラウドストレージなど

vLLM-Omniは、テキストだけでなく画像・動画・音声など複数の種類のデータを同時に扱えるAIモデルを、高速かつ低コストで動かすためのフレームワーク（ソフトウェアの骨組み）です。もともとテキスト専用だったvLLMという人気の高速推論エンジ