コード変更ほぼゼロでAIエージェントを強化学習で鍛える!どのフレームワークでもOK — agent-lightning

microsoft/agent-lightningPython16.4k

Agent Lightningは、AIエージェント(自律的にタスクをこなすAIプログラム)を強化学習(試行錯誤から学ぶ手法)で訓練するためのMicrosoft製ツールです。最大の特徴は、既存のAIエージェントのコードをほぼ変更せずに最適化できる点で、LangChainやOpenAI Agent SDKなどどのフレームワークで作ったエージェントにも対応します。まるでスポーツ選手に専属トレーナーをつけるように、AIエージェントの性能を継続的に改善できます。強化学習だけでなく、プロンプト(AIへの指示文)の自動最適化やファインチューニング(追加学習)など複数のアルゴリズムに対応しており、研究者からエンジニアまで幅広く活用できます。

🔥 なぜ話題?

AIエージェントの開発競争が激化する中、エージェントの性能を「作った後にさらに鍛える」ための実用的な訓練基盤として注目されています。特に、フレームワークを問わずコード変更ほぼゼロで適用でき、128GPU規模のスケーラビリティも実証されている点が、企業や研究者の間で話題を呼んでいます。

💡 こう使える!

例えば、社内のデータベースに対してSQLクエリを自動生成するAIエージェントを作ったものの、複雑な質問への回答精度がいまいちだったとします。Agent Lightningを使えば、正解・不正解のフィードバックをもとに強化学習でエージェントを訓練し、SQLの生成精度を大幅に向上させることができます。既存のエージェントコードにほんの数行追加するだけで始められます。

ユースケース: 自分が作ったAIエージェントの回答品質やタスク遂行能力を、強化学習を使って継続的に改善したいときに使うツール。

  • 既存のAIエージェントにほぼコード変更なしで強化学習を適用可能
  • LangChain・OpenAI SDK・AutoGen・CrewAIなどあらゆるフレームワークに対応
  • 強化学習・プロンプト自動最適化・ファインチューニングなど複数アルゴリズムを搭載
  • マルチエージェントシステムの中から特定のエージェントだけを選んで最適化できる
  • Microsoft製でMITライセンス、128GPU規模の大規模訓練も実証済み
GitHubで見る →

The absolute trainer to light up AI agents.

技術情報

言語

Python

ライセンス

MIT

最終更新

2026-02-28

スター数

16,367

フォーク数

1,412

Issue数

146

トピック

agentagentic-aillmmlopsreinforcement-learning

技術詳細

アーキテクチャ・仕組み

Agent Lightningは以下の主要コンポーネントで構成されています:

  • エージェント側: 既存のエージェントコードに agl.emit_xxx() ヘルパーを追加するか、自動トレーサーがプロンプト・ツール呼び出し・報酬を収集
  • LightningStore: タスク・リソース・トレース情報を一元管理する中央ハブ。収集されたイベントは構造化された「スパン」として保存される
  • アルゴリズムエンジン: LightningStoreからスパンを読み取り、学習して改善されたリソース(プロンプトテンプレートやポリシーの重みなど)を生成
  • Trainer: データセットをランナーにストリーミングし、ストアとアルゴリズム間でリソースをやり取りし、改善が得られたら推論エンジンを更新

この設計により、エージェント側のフレームワークに依存せず、ロールアウト(試行)から継続的改善までのループを実現しています。

対応フレームワーク

  • LangChain
  • OpenAI Agent SDK
  • AutoGen
  • CrewAI
  • Microsoft Agent Framework
  • Python OpenAI(フレームワークなし)
  • その他任意のフレームワーク

対応アルゴリズム

  • 強化学習(RL): エージェントの行動を報酬ベースで最適化
  • 自動プロンプト最適化(APO): AIへの指示文を自動改善
  • 教師ありファインチューニング(SFT): 正解データをもとにモデルを追加学習
  • その他のアルゴリズムも拡張可能

主要機能

  • マルチエージェントシステム内の特定エージェントのみを選択的に最適化
  • Trajectory Level Aggregation(軌跡レベル集約)による高速訓練
  • vLLMとの連携による「再トークン化ドリフト」問題の解決(OpenAI互換APIでトークンIDを返す仕組み)
  • 128GPU規模での安定した大規模RL訓練が実証済み(Youtu-Agentプロジェクト)

コミュニティプロジェクト実績

  • DeepWerewolf: 人狼ゲームのAIエージェントをRLで訓練
  • AgentFlow: プランナー・実行者・検証者・生成者エージェントを組み合わせたマルチエージェントフレームワーク(Stanford)
  • Youtu-Agent(Tencent): 数学・コード・検索タスクで128GPUの大規模RLを実現

技術的な注目ポイント

  • vLLMブログでも取り上げられた「再トークン化ドリフト」問題への対応。エージェントRLにおいてOpenAI互換APIでトークンIDを直接返すことで、訓練時の品質劣化を防止
  • arXiv論文(2508.03680)として学術的にも発表済み

ライセンス・商用利用

  • MITライセンス: 商用利用を含め自由に利用可能
  • Microsoft Responsible AI Standardに準拠
  • コントリビューションにはMicrosoftのCLA(Contributor License Agreement)への同意が必要

CI/テスト体制

  • CPU Tests / Full Tests / UI Tests / Examples Integration / 最新依存関係互換性テスト / レガシー互換性テストの6種類のCIパイプラインを運用

インストール・クイックスタート

# 安定版のインストール
pip install agentlightning
# 最新の開発版(ナイトリービルド)をインストールしたい場合
pip install --upgrade --index-url https://test.pypi.org/simple/ --extra-index-url https://pypi.org/simple/ --pre agentlightning

インストール後は公式ドキュメントexamplesディレクトリを参照してください。

参考になる外部の関連記事

関連リポジトリ

AIモデルの実行も学習もブラウザ画面ひとつで完結!最大2倍速・VRAM70%削減の万能ツール — unsloth

unslothai/unslothPython57.0k

Unslothは、Qwen、DeepSeek、Gemma、LlamaなどのオープンソースAIモデルを自分のパソコンで動かしたり、追加学習(ファインチューニング)したりできる統合ツールです。ブラウザから

AIエージェントの構築・連携・実行をまるごとカバー!Python&.NET対応のマルチエージェント基盤 — agent-framework

microsoft/agent-frameworkPython8.8k

Microsoft Agent Frameworkは、AIエージェント(自律的に考えて行動するAIプログラム)を作り、複数のエージェントを連携させて複雑な仕事をこなすワークフローを構築するためのフレー

AIの「考える力」を鍛える超高速トレーニングシステム — 非同期強化学習で推論モデルを進化させる — AReaL

inclusionAI/AReaLPython4.5k

AReaLは、AIモデルの「考える力(推論能力)」を強化学習(AIが試行錯誤しながら賢くなる手法)で鍛えるためのオープンソースのトレーニングシステムです。清華大学とアントグループが共同開発しており、完

PDF・Word・Excel・画像…なんでもMarkdownに一発変換!AI時代の万能ファイル変換ツール — markitdown

microsoft/markitdownPython109.1k

MarkItDownは、PDF、Word、Excel、PowerPoint、画像、音声、HTMLなど、さまざまな形式のファイルをMarkdown(シンプルな書式付きテキスト)に変換するPython製の

AIアナリストチームが株式投資を徹底議論!マルチエージェント金融トレーディングフレームワーク — TradingAgents

TauricResearch/TradingAgentsPython41.4k

TradingAgentsは、実際のトレーディング会社の組織構造を模倣した、複数のAIエージェント(自律的に動くAIプログラム)が協力して株式の売買判断を行うフレームワークです。ファンダメンタル分析担