AIの「考える力」を爆速で鍛える！完全非同期の強化学習システム — AReaL

inclusionAI/AReaLPython4.5k

AReaLは、AIモデルの「考える力（推論能力）」を強化学習（AIが試行錯誤しながら賢くなる手法）で鍛えるためのオープンソースのトレーニングシステムです。清華大学とアントグループが共同開発しており、完全非同期（複数の処理を待たずに同時並行で進める方式）で動くため、従来の同期型システムに比べて約2.77倍の高速化を実現しています。数学の問題解決、プログラミング、Web検索、カスタマーサービスなど多様なAIエージェント（自律的に判断して行動するAI）のトレーニングに対応しており、既存のエージェント開発フレームワークとも簡単に連携できます。軽量版の「AReaL-lite」も用意されており、研究者が少ないコード量で素早く実験を始められる設計になっています。

🔥 なぜ話題？

AIの推論能力（深く考えて正しい答えを導く力）を強化学習で鍛える手法が急速に注目を集めており、AReaLはGPT-5を超える性能のモデルを訓練した実績と、非同期処理による圧倒的な高速化を武器にオープンソースで公開されたことで、研究者や開発者から大きな関心を集めています。特にAIエージェント開発が2025〜2026年の主要トレンドとなる中、柔軟なエージェント対応が評価されています。

💡 こう使える！

例えば、自社のカスタマーサポート用AIチャットボットを作りたいとき、AReaLを使って「お客様の質問に的確に答える」「必要に応じてデータベースを検索する」といった行動を強化学習で繰り返し訓練させることで、実際の問い合わせ対応で高い精度を発揮するAIエージェントを構築できます。

ユースケース: 大規模なAIモデルに「推論力」や「自律的な行動力」を学習させて、数学・コーディング・検索・顧客対応などの高度なタスクをこなせるAIエージェントを構築するために使います。

完全非同期の強化学習で従来比2.77倍の高速トレーニングを実現
base_urlを変えるだけで任意のAIエージェントフレームワークと連携可能
235BパラメータのMoEモデルでGPT-5を超える性能を達成した実績あり

GitHubで見る →

Lightning-Fast RL for LLM Reasoning and Agents. Made Simple & Flexible.

技術情報

言語

Python

ライセンス

Apache-2.0

最終更新

2026-03-07

スター数

4,473

フォーク数

371

Issue数

トピック

agentllmllm-agentllm-reasoningmachine-learning-systemsmlsysreinforcement-learningrl

技術詳細

アーキテクチャ・仕組み

AReaLは完全非同期の強化学習トレーニングシステムで、オープンソースプロジェクトReaLHFをベースに構築されています。同期型と比較して2.77倍のスピードアップを達成しつつ、同等以上のトレーニング性能を維持します。非同期モードはmax_head_offpolicyness=0を設定することで同期モードに切り替え可能です。

対応アルゴリズム

GRPO, GSPO, PPO, DAPO, LitePPO, Dr.GRPO, REINFORCE++, RLOO, SAPO, M2PO
RLHF報酬モデリング（Bradley-Terryモデル）
SFT（教師あり微調整）, 蒸留（Distillation）
すべてのRLアルゴリズムは非同期・同期両方に対応

対応モデル

モデルファミリー	Megatron	PyTorch FSDP	PyTorch Archon
Qwen2/3	✅	✅	✅
Qwen3-MoE	✅	✅	✅
Qwen2.5-VL / Qwen3-VL	❌	✅	❌
Gemma 3	❌	✅	❌
その他HuggingFace LLM	❌	✅	❌

トレーニングバックエンド

Megatron: ZeRO-1、テンソル並列、シーケンス並列、コンテキスト並列、パイプライン並列、エキスパート並列、シーケンスパッキング対応
PyTorch FSDP: FSDP2、テンソル並列、LoRA対応
PyTorch Archon: FSDP2ベースでパイプライン並列・エキスパート並列も対応

推論バックエンド

vLLM: テンソル並列、パイプライン並列対応
SGLang: テンソル並列、Data Parallel Attention、エキスパート並列対応

主要な機能・ユースケース

数学推論: GSM8Kなどのベンチマークで複数のRLアルゴリズムによるトレーニング
マルチターン数学エージェント: ターン間の報酬割引に対応
LoRA対応: パラメータ効率の良い軽量トレーニング
エージェントRL: base_urlを差し替えるだけで任意のエージェントフレームワークと連携
検索エージェント（ASearcher）: エンドツーエンドの非同期RL訓練による検索AI
カスタマーサービスエージェント（AReaL-SEA）: 235B MoEモデルでGPT-5超え、Gemini 3.0 Pro同等の性能
VLM（視覚言語モデル）: 幾何学問題やCLEVRカウントなどの視覚推論
Ascend NPU対応: Huawei NPUデバイスでの安定トレーニング

軽量版 AReaL-lite

コード量を80%削減しつつ、AReaLの90%のパフォーマンスと機能を維持する軽量版。アルゴリズム開発と素早いプロトタイピングに特化した設計。

クラウドデプロイ

SkyPilotを使用したGCP、AWS、Kubernetesへのデプロイに対応

制約・注意点

VLM（視覚言語モデル）はMegatronバックエンドに非対応
LoRAはPyTorch FSDPバックエンドのみ対応
SGLangはパイプライン並列・コンテキスト並列に非対応

ライセンス・開発体制

清華大学IIISとアントグループが共同開発
毎週マイナーリリース、毎月メジャーリリースの活発な開発サイクル
HuggingFaceでモデルとデータを公開中
研究論文も公開済み（arXiv: 2505.24298）

インストール・クイックスタート

# リポジトリをクローン（ダウンロード）する
git clone https://github.com/inclusionAI/AReaL
cd AReaL

# パッケージマネージャuvをインストールし、依存関係を同期
pip install uv
uv sync --extra cuda

データセット（openai/gsm8k）とモデル（Qwen/Qwen2-1.5B-Instruct）は自動ダウンロードされます。

# 単一ノード（1台のマシン）で実行
python3 examples/math/gsm8k_rl.py --config examples/math/gsm8k_grpo.yaml scheduler.type=local

# Rayクラスタ（2ノード、各8GPU）で実行
python3 examples/math/gsm8k_rl.py --config examples/math/gsm8k_grpo.yaml \
  cluster.n_nodes=2 cluster.n_gpus_per_node=8 \
  scheduler.type=ray

過去のトレンド履歴

AIの「考える力」を爆速で鍛える！完全非同期の強化学習システム — AReaL

2026-03-06

8+173

AIの「考える力」を爆速で鍛える！完全非同期の強化学習システム — AReaL

技術情報

技術詳細

アーキテクチャ・仕組み

対応アルゴリズム

対応モデル

トレーニングバックエンド

推論バックエンド

主要な機能・ユースケース

軽量版 AReaL-lite

クラウドデプロイ

制約・注意点

ライセンス・開発体制

インストール・クイックスタート

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ