知識グラフ×ベクトル検索で「質問に的確に答えるAI」を爆速構築！ — LightRAG

HKUDS/LightRAGPython30.2k

LightRAGは、大量の文書をAIに読み込ませて「賢く質問に答えられる仕組み」を簡単に作れるツールです。従来のRAG（検索拡張生成：AIが質問に答える前に関連情報を検索して参照する技術）に加え、文書中の人物・組織・場所などの関係性を「知識グラフ」（情報同士のつながりを地図のように整理したもの）として自動構築し、より正確で文脈を踏まえた回答を実現します。OpenAI、Ollama、Geminiなど多数のAIモデルに対応し、Web UIやREST APIも標準搭載されているため、プログラマーから研究者まで幅広い層が活用できます。香港大学のチームが開発し、EMNLP2025（自然言語処理の国際学会）に採択された研究成果がベースになっています。

🔥 なぜ話題？

AIチャットボットの回答精度を高めるRAG技術が注目される中、LightRAGは知識グラフを自動構築することで従来のベクトル検索だけでは捉えきれない情報の関係性を活用できる点が評価されています。オープンソースLLM対応やReranker機能の追加、Docker一発デプロイなど実用性が急速に向上しており、研究と実務の両面で採用が広がっています。

💡 こう使える！

たとえば、社内に蓄積された数百件の議事録や報告書をLightRAGに読み込ませると、『昨年度のプロジェクトAに関わった部署と、その部署が今年度取り組んでいるテーマは何か？』といった、複数の文書をまたいだ複雑な質問にも、人物・組織・プロジェクト間の関係性を自動的に辿って的確に回答してくれます。

ユースケース: 大量の文書から関係性を自動的に整理し、複雑な質問にも正確に答えるAI検索システムを構築したいとき。

文書から人物・組織・イベントなどの関係性を自動抽出し知識グラフを構築
ローカル検索・グローバル検索・ハイブリッド検索など6種類のクエリモードを搭載
PostgreSQL・Neo4J・MongoDB・Milvusなど多彩なストレージバックエンドに対応
Web UI・REST API・Ollama互換インターフェースを標準搭載
Reranker対応やマルチモーダル文書処理（RAG-Anything連携）にも対応

GitHubで見る →

[EMNLP2025] "LightRAG: Simple and Fast Retrieval-Augmented Generation"

技術情報

言語

Python

ライセンス

MIT

最終更新

2026-03-22

スター数

30,233

フォーク数

4,330

Issue数

190

トピック

genaigptgpt-4graphragknowledge-graphlarge-language-modelsllmragretrieval-augmented-generation

技術詳細

アーキテクチャ・仕組み

LightRAGは文書のインデキシング時にLLM（大規模言語モデル）を使ってエンティティ（人物・組織・場所など）とリレーション（関係性）を自動抽出し、知識グラフを構築します。クエリ時には、ベクトル検索と知識グラフの両方を活用して関連情報を取得し、LLMが最終回答を生成します。

4種類のストレージ

LightRAGは以下の4種類のストレージを使い分けます：

KV_STORAGE: LLM応答キャッシュ、テキストチャンク、文書情報（JSON / PostgreSQL / Redis / MongoDB / OpenSearch）
VECTOR_STORAGE: エンティティ・リレーション・チャンクのベクトル（NanoVectorDB / PostgreSQL / Milvus / Faiss / Qdrant / MongoDB / OpenSearch / Chroma）
GRAPH_STORAGE: エンティティ関係グラフ（NetworkX / Neo4J / PostgreSQL+AGE / Memgraph / OpenSearch）
DOC_STATUS_STORAGE: 文書処理ステータス（JSON / PostgreSQL / MongoDB / OpenSearch）

対応LLM・Embeddingモデル

LLM: OpenAI（GPT-4o等）、Azure OpenAI、Google Gemini、Ollama（ローカルモデル）、Hugging Face、LlamaIndex経由の各種プロバイダー
Embedding: BAAI/bge-m3、text-embedding-3-large、nomic-embed-text、Sentence Transformers等
Reranker: Cohere、Jina AI、Aliyun、vLLM対応
LLMは32B以上のパラメータ数、コンテキスト長32KB以上（64KB推奨）が推奨

クエリモード

モード	説明
`local`	文脈依存の局所的な情報に焦点
`global`	グローバルな知識を活用
`hybrid`	ローカルとグローバルの組み合わせ
`naive`	基本的なベクトル検索のみ
`mix`	知識グラフとベクトル検索の統合（Reranker有効時の推奨モード）
`bypass`	検索をスキップ

主要機能一覧

ドキュメントの挿入（単体・バッチ・パイプライン・カスタムID付き）
ドキュメント削除と知識グラフの自動再生成
引用元（Citation）機能によるソース追跡
マルチモーダル文書処理（RAG-Anything連携でPDF・画像・表・数式対応）
ストリーミングレスポンス対応
LLM応答キャッシュ（質問の類似度ベースの再利用も可能）
RAGAS評価・Langfuseトレーシング統合
対話型セットアップウィザード（make env-base等）
オフラインデプロイメント対応

パフォーマンス・スケーラビリティ

大規模データセット向けの処理ボトルネック解消済み
max_parallel_insertで並列インデキシング数を制御（デフォルト2、10以下推奨）
トークン制御システム（エンティティ最大6000トークン、リレーション最大8000トークン、合計最大30000トークン）
低RAM GPU（6GB）でもコンテキストサイズ調整で動作可能

制約・注意点

Embeddingモデルはインデキシング後の変更不可（変更時はベクトルテーブルの再作成が必要）
PostgreSQL使用時はバージョン16.6以上を推奨
Redis使用時は永続化ルールの設定が必要
データベースインスタンスの作成はユーザー側で行う必要あり（テーブル作成のみLightRAGが担当）

ライセンス

MITライセンス（商用利用可能）

インストール・クイックスタート

PyPIからサーバーをインストール（推奨）

# uvを使ったインストール（推奨）
uv tool install "lightrag-hku[api]"

# またはpipを使う場合
# pip install "lightrag-hku[api]"

コアライブラリのみインストール

uv pip install lightrag-hku
# または: pip install lightrag-hku

Docker Composeで起動

git clone https://github.com/HKUDS/LightRAG.git
cd LightRAG
cp env.example .env  # .envファイルにLLMとEmbeddingの設定を記入
docker compose up

クイックスタート（デモ実行）

cd LightRAG
export OPENAI_API_KEY="sk-...your_key..."
curl https://raw.githubusercontent.com/gusye1234/nano-graphrag/main/tests/mock_data.txt > ./book.txt
python examples/lightrag_openai_demo.py

知識グラフ×ベクトル検索で「質問に的確に答えるAI」を爆速構築！ — LightRAG

技術情報

技術詳細

アーキテクチャ・仕組み

4種類のストレージ

対応LLM・Embeddingモデル

クエリモード

主要機能一覧

パフォーマンス・スケーラビリティ

制約・注意点

ライセンス

関連プロジェクト

インストール・クイックスタート

PyPIからサーバーをインストール（推奨）

コアライブラリのみインストール

Docker Composeで起動

クイックスタート（デモ実行）

参考になる外部の関連記事

関連リポジトリ