AIの「考える力」を爆速で鍛える!完全非同期の強化学習システム — AReaL

inclusionAI/AReaLPython4.5k

AReaLは、AIモデルの「考える力(推論能力)」を強化学習(AIが試行錯誤しながら賢くなる手法)で鍛えるためのオープンソースのトレーニングシステムです。清華大学とアントグループが共同開発しており、完全非同期(複数の処理を待たずに同時並行で進める方式)で動くため、従来の同期型システムに比べて約2.77倍の高速化を実現しています。数学の問題解決、プログラミング、Web検索、カスタマーサービスなど多様なAIエージェント(自律的に判断して行動するAI)のトレーニングに対応しており、既存のエージェント開発フレームワークとも簡単に連携できます。軽量版の「AReaL-lite」も用意されており、研究者が少ないコード量で素早く実験を始められる設計になっています。

🔥 なぜ話題?

AIの推論能力(深く考えて正しい答えを導く力)を強化学習で鍛える手法が急速に注目を集めており、AReaLはGPT-5を超える性能のモデルを訓練した実績と、非同期処理による圧倒的な高速化を武器にオープンソースで公開されたことで、研究者や開発者から大きな関心を集めています。特にAIエージェント開発が2025〜2026年の主要トレンドとなる中、柔軟なエージェント対応が評価されています。

💡 こう使える!

例えば、自社のカスタマーサポート用AIチャットボットを作りたいとき、AReaLを使って「お客様の質問に的確に答える」「必要に応じてデータベースを検索する」といった行動を強化学習で繰り返し訓練させることで、実際の問い合わせ対応で高い精度を発揮するAIエージェントを構築できます。

ユースケース: 大規模なAIモデルに「推論力」や「自律的な行動力」を学習させて、数学・コーディング・検索・顧客対応などの高度なタスクをこなせるAIエージェントを構築するために使います。

  • 完全非同期の強化学習で従来比2.77倍の高速トレーニングを実現
  • base_urlを変えるだけで任意のAIエージェントフレームワークと連携可能
  • 235BパラメータのMoEモデルでGPT-5を超える性能を達成した実績あり
GitHubで見る →

Lightning-Fast RL for LLM Reasoning and Agents. Made Simple & Flexible.

技術情報

言語

Python

ライセンス

Apache-2.0

最終更新

2026-03-07

スター数

4,473

フォーク数

371

Issue数

30

トピック

agentllmllm-agentllm-reasoningmachine-learning-systemsmlsysreinforcement-learningrl

技術詳細

アーキテクチャ・仕組み

AReaLは完全非同期の強化学習トレーニングシステムで、オープンソースプロジェクトReaLHFをベースに構築されています。同期型と比較して2.77倍のスピードアップを達成しつつ、同等以上のトレーニング性能を維持します。非同期モードはmax_head_offpolicyness=0を設定することで同期モードに切り替え可能です。

対応アルゴリズム

  • GRPO, GSPO, PPO, DAPO, LitePPO, Dr.GRPO, REINFORCE++, RLOO, SAPO, M2PO
  • RLHF報酬モデリング(Bradley-Terryモデル)
  • SFT(教師あり微調整), 蒸留(Distillation)
  • すべてのRLアルゴリズムは非同期・同期両方に対応

対応モデル

モデルファミリーMegatronPyTorch FSDPPyTorch Archon
Qwen2/3
Qwen3-MoE
Qwen2.5-VL / Qwen3-VL
Gemma 3
その他HuggingFace LLM

トレーニングバックエンド

  • Megatron: ZeRO-1、テンソル並列、シーケンス並列、コンテキスト並列、パイプライン並列、エキスパート並列、シーケンスパッキング対応
  • PyTorch FSDP: FSDP2、テンソル並列、LoRA対応
  • PyTorch Archon: FSDP2ベースでパイプライン並列・エキスパート並列も対応

推論バックエンド

  • vLLM: テンソル並列、パイプライン並列対応
  • SGLang: テンソル並列、Data Parallel Attention、エキスパート並列対応

主要な機能・ユースケース

  • 数学推論: GSM8Kなどのベンチマークで複数のRLアルゴリズムによるトレーニング
  • マルチターン数学エージェント: ターン間の報酬割引に対応
  • LoRA対応: パラメータ効率の良い軽量トレーニング
  • エージェントRL: base_urlを差し替えるだけで任意のエージェントフレームワークと連携
  • 検索エージェント(ASearcher): エンドツーエンドの非同期RL訓練による検索AI
  • カスタマーサービスエージェント(AReaL-SEA): 235B MoEモデルでGPT-5超え、Gemini 3.0 Pro同等の性能
  • VLM(視覚言語モデル): 幾何学問題やCLEVRカウントなどの視覚推論
  • Ascend NPU対応: Huawei NPUデバイスでの安定トレーニング

軽量版 AReaL-lite

コード量を80%削減しつつ、AReaLの90%のパフォーマンスと機能を維持する軽量版。アルゴリズム開発と素早いプロトタイピングに特化した設計。

クラウドデプロイ

  • SkyPilotを使用したGCP、AWS、Kubernetesへのデプロイに対応

制約・注意点

  • VLM(視覚言語モデル)はMegatronバックエンドに非対応
  • LoRAはPyTorch FSDPバックエンドのみ対応
  • SGLangはパイプライン並列・コンテキスト並列に非対応

ライセンス・開発体制

  • 清華大学IIISとアントグループが共同開発
  • 毎週マイナーリリース、毎月メジャーリリースの活発な開発サイクル
  • HuggingFaceでモデルとデータを公開中
  • 研究論文も公開済み(arXiv: 2505.24298)

インストール・クイックスタート

# リポジトリをクローン(ダウンロード)する
git clone https://github.com/inclusionAI/AReaL
cd AReaL

# パッケージマネージャuvをインストールし、依存関係を同期
pip install uv
uv sync --extra cuda

データセット(openai/gsm8k)とモデル(Qwen/Qwen2-1.5B-Instruct)は自動ダウンロードされます。

# 単一ノード(1台のマシン)で実行
python3 examples/math/gsm8k_rl.py --config examples/math/gsm8k_grpo.yaml scheduler.type=local

# Rayクラスタ(2ノード、各8GPU)で実行
python3 examples/math/gsm8k_rl.py --config examples/math/gsm8k_grpo.yaml \
  cluster.n_nodes=2 cluster.n_gpus_per_node=8 \
  scheduler.type=ray

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

AIモデルの実行も学習もブラウザ画面ひとつで完結!最大2倍速・VRAM70%削減の万能ツール — unsloth

unslothai/unslothPython57.0k

Unslothは、Qwen、DeepSeek、Gemma、LlamaなどのオープンソースAIモデルを自分のパソコンで動かしたり、追加学習(ファインチューニング)したりできる統合ツールです。ブラウザから

AIエージェントを5分で構築!見える・わかる・信頼できるマルチエージェント開発基盤 — agentscope

agentscope-ai/agentscopePython21.8k

AgentScopeは、AIエージェント(人間の代わりに自律的にタスクをこなすAIプログラム)を簡単に作って動かせるPython製のフレームワークです。ReActエージェント、音声対話、ツール連携、記

コード変更ほぼゼロでAIエージェントを強化学習で鍛える!どのフレームワークでもOK — agent-lightning

microsoft/agent-lightningPython16.4k

Agent Lightningは、AIエージェント(自律的にタスクをこなすAIプログラム)を強化学習(試行錯誤から学ぶ手法)で訓練するためのMicrosoft製ツールです。最大の特徴は、既存のAIエー

AIアナリストチームが株式投資を徹底議論!マルチエージェント金融トレーディングフレームワーク — TradingAgents

TauricResearch/TradingAgentsPython41.4k

TradingAgentsは、実際のトレーディング会社の組織構造を模倣した、複数のAIエージェント(自律的に動くAIプログラム)が協力して株式の売買判断を行うフレームワークです。ファンダメンタル分析担

LINEもQQもSlackも!あらゆるチャットアプリにAIボットを一発導入できる万能プラットフォーム — AstrBot

AstrBotDevs/AstrBotPython24.2k

AstrBotは、さまざまなチャットアプリ(メッセージングアプリ)にAIチャットボットを簡単に導入できるオープンソースのプラットフォームです。QQ、Telegram、Slack、Discord、LIN