コード変更ほぼゼロでAIエージェントを強化学習で鍛える！どのフレームワークでもOK — agent-lightning

microsoft/agent-lightningPython16.4k

Agent Lightningは、AIエージェント（自律的にタスクをこなすAIプログラム）を強化学習（試行錯誤から学ぶ手法）で訓練するためのMicrosoft製ツールです。最大の特徴は、既存のAIエージェントのコードをほぼ変更せずに最適化できる点で、LangChainやOpenAI Agent SDKなどどのフレームワークで作ったエージェントにも対応します。まるでスポーツ選手に専属トレーナーをつけるように、AIエージェントの性能を継続的に改善できます。強化学習だけでなく、プロンプト（AIへの指示文）の自動最適化やファインチューニング（追加学習）など複数のアルゴリズムに対応しており、研究者からエンジニアまで幅広く活用できます。

🔥 なぜ話題？

AIエージェントの開発競争が激化する中、エージェントの性能を「作った後にさらに鍛える」ための実用的な訓練基盤として注目されています。特に、フレームワークを問わずコード変更ほぼゼロで適用でき、128GPU規模のスケーラビリティも実証されている点が、企業や研究者の間で話題を呼んでいます。

💡 こう使える！

例えば、社内のデータベースに対してSQLクエリを自動生成するAIエージェントを作ったものの、複雑な質問への回答精度がいまいちだったとします。Agent Lightningを使えば、正解・不正解のフィードバックをもとに強化学習でエージェントを訓練し、SQLの生成精度を大幅に向上させることができます。既存のエージェントコードにほんの数行追加するだけで始められます。

ユースケース: 自分が作ったAIエージェントの回答品質やタスク遂行能力を、強化学習を使って継続的に改善したいときに使うツール。

既存のAIエージェントにほぼコード変更なしで強化学習を適用可能
LangChain・OpenAI SDK・AutoGen・CrewAIなどあらゆるフレームワークに対応
強化学習・プロンプト自動最適化・ファインチューニングなど複数アルゴリズムを搭載
マルチエージェントシステムの中から特定のエージェントだけを選んで最適化できる
Microsoft製でMITライセンス、128GPU規模の大規模訓練も実証済み

GitHubで見る →

The absolute trainer to light up AI agents.

技術情報

言語

Python

ライセンス

MIT

最終更新

2026-02-28

スター数

16,367

フォーク数

1,412

Issue数

146

トピック

agentagentic-aillmmlopsreinforcement-learning

技術詳細

アーキテクチャ・仕組み

Agent Lightningは以下の主要コンポーネントで構成されています：

エージェント側: 既存のエージェントコードに agl.emit_xxx() ヘルパーを追加するか、自動トレーサーがプロンプト・ツール呼び出し・報酬を収集
LightningStore: タスク・リソース・トレース情報を一元管理する中央ハブ。収集されたイベントは構造化された「スパン」として保存される
アルゴリズムエンジン: LightningStoreからスパンを読み取り、学習して改善されたリソース（プロンプトテンプレートやポリシーの重みなど）を生成
Trainer: データセットをランナーにストリーミングし、ストアとアルゴリズム間でリソースをやり取りし、改善が得られたら推論エンジンを更新

この設計により、エージェント側のフレームワークに依存せず、ロールアウト（試行）から継続的改善までのループを実現しています。

対応フレームワーク

LangChain
OpenAI Agent SDK
AutoGen
CrewAI
Microsoft Agent Framework
Python OpenAI（フレームワークなし）
その他任意のフレームワーク

対応アルゴリズム

強化学習（RL）: エージェントの行動を報酬ベースで最適化
自動プロンプト最適化（APO）: AIへの指示文を自動改善
教師ありファインチューニング（SFT）: 正解データをもとにモデルを追加学習
その他のアルゴリズムも拡張可能

主要機能

マルチエージェントシステム内の特定エージェントのみを選択的に最適化
Trajectory Level Aggregation（軌跡レベル集約）による高速訓練
vLLMとの連携による「再トークン化ドリフト」問題の解決（OpenAI互換APIでトークンIDを返す仕組み）
128GPU規模での安定した大規模RL訓練が実証済み（Youtu-Agentプロジェクト）

コミュニティプロジェクト実績

DeepWerewolf: 人狼ゲームのAIエージェントをRLで訓練
AgentFlow: プランナー・実行者・検証者・生成者エージェントを組み合わせたマルチエージェントフレームワーク（Stanford）
Youtu-Agent（Tencent）: 数学・コード・検索タスクで128GPUの大規模RLを実現

技術的な注目ポイント

vLLMブログでも取り上げられた「再トークン化ドリフト」問題への対応。エージェントRLにおいてOpenAI互換APIでトークンIDを直接返すことで、訓練時の品質劣化を防止
arXiv論文（2508.03680）として学術的にも発表済み

ライセンス・商用利用

MITライセンス: 商用利用を含め自由に利用可能
Microsoft Responsible AI Standardに準拠
コントリビューションにはMicrosoftのCLA（Contributor License Agreement）への同意が必要

CI/テスト体制

CPU Tests / Full Tests / UI Tests / Examples Integration / 最新依存関係互換性テスト / レガシー互換性テストの6種類のCIパイプラインを運用

インストール・クイックスタート

# 安定版のインストール
pip install agentlightning

# 最新の開発版（ナイトリービルド）をインストールしたい場合
pip install --upgrade --index-url https://test.pypi.org/simple/ --extra-index-url https://pypi.org/simple/ --pre agentlightning

インストール後は公式ドキュメントとexamplesディレクトリを参照してください。