# reinforcement-learning

このトピックのトレンドリポジトリ(3件)

AIモデルの実行も学習もブラウザ画面ひとつで完結!最大2倍速・VRAM70%削減の万能ツール — unsloth

unslothai/unslothAIPython
57.0k2回登場

Unslothは、Qwen、DeepSeek、Gemma、LlamaなどのオープンソースAIモデルを自分のパソコンで動かしたり、追加学習(ファインチューニング)したりできる統合ツールです。ブラウザから操作できるWeb画面(Unsloth S

agentdeepseekdeepseek-r1fine-tuninggemmagemma3gpt-ossllamallama3llmllmsmistralopenaiqwenqwen3reinforcement-learningtext-to-speechttsunslothvoice-cloning

コード変更ほぼゼロでAIエージェントを強化学習で鍛える!どのフレームワークでもOK — agent-lightning

microsoft/agent-lightningAIPython
16.4k

Agent Lightningは、AIエージェント(自律的にタスクをこなすAIプログラム)を強化学習(試行錯誤から学ぶ手法)で訓練するためのMicrosoft製ツールです。最大の特徴は、既存のAIエージェントのコードをほぼ変更せずに最適化で

agentagentic-aillmmlopsreinforcement-learning

AIの「考える力」を鍛える超高速トレーニングシステム — 非同期強化学習で推論モデルを進化させる — AReaL

inclusionAI/AReaLAIPython
4.5k2回登場

AReaLは、AIモデルの「考える力(推論能力)」を強化学習(AIが試行錯誤しながら賢くなる手法)で鍛えるためのオープンソースのトレーニングシステムです。清華大学とアントグループが共同開発しており、完全非同期(複数の処理を待たずに同時並行で

agentllmllm-agentllm-reasoningmachine-learning-systemsmlsysreinforcement-learningrl