たった3000行のコードから「自分だけのAI秘書」が育つ!使うほど賢くなる自己進化エージェント — GenericAgent

lsdefine/GenericAgentPython4.0k

GenericAgentは、約3000行のコードだけでパソコンを丸ごと操作できるAIエージェント(自動作業ロボット)です。ブラウザ操作、ファイル管理、ターミナル(コマンド入力画面)操作、スマホ制御まで、たった9つの基本ツールで実現します。最大の特徴は「自己進化」機能で、新しい作業を一度こなすと、その手順を自動的に記憶して次回からはワンステップで再実行できるようになります。まるで新入社員が仕事を覚えて熟練社員になっていくように、使えば使うほど自分だけの「スキルツリー(技能の木)」が育っていきます。Claude、Gemini、Kimiなど主要なAIモデルに対応しており、他の同種ツールと比べてトークン(AIへの通信量)消費が約6分の1と非常に経済的です。

🔥 なぜ話題?

AIエージェントへの関心が世界的に高まる中、53万行超の大規模フレームワークとは対照的に「たった3000行で自己進化する」というミニマルなアプローチが開発者の心を掴んでいます。特に、トークン消費量が他のエージェントの6分の1という圧倒的なコスト効率と、使うほど賢くなる独自の自己進化メカニズムが話題を呼んでいます。

💡 こう使える!

例えば「Gmailでこのファイルを送って」と頼むと、GenericAgentは初回にOAuth認証の設定、送信スクリプトの作成、テストまでを自動で行い、その手順をスキルとして保存します。2回目以降は同じ指示をするだけで、一瞬でメール送信が完了します。外卖の注文や株のスクリーニング、WeChatの一括メッセージ送信なども同様に自動化できます。

ユースケース: 日常のパソコン作業やスマホ操作(メール送信、ウェブ検索、ファイル管理、アプリ操作など)をAIに任せて自動化したい人向けのツール。

  • 使うほど賢くなる「自己進化」機能 — 一度解いたタスクを自動でスキル化し、次回からワンステップで再利用
  • コア部分わずか約3000行の超軽量設計で、トークン消費は他のAIエージェントの約6分の1
  • ブラウザ・ターミナル・ファイル・キーボード/マウス・画面認識・スマホ(ADB)まで9つの原子ツールでシステム全体を制御
  • WeChat・Telegram・QQ・飞书・钉钉など多数のチャットプラットフォームをBot前端として利用可能
  • Claude・Gemini・Kimi・MiniMaxなど主要LLMに対応し、クロスプラットフォームで動作
GitHubで見る →

Self-evolving agent: grows skill tree from 3.3K-line seed, achieving full system control with 6x less token consumption

技術情報

言語

Python

ライセンス

MIT

最終更新

2026-04-18

スター数

3,982

フォーク数

422

Issue数

42

トピック

ai-agentautomationautonomous-agentbrowser-automationclaudecomputer-controldesktop-automationgeminilightweightllm-agentmemory-systempythonself-evolvingskill-treetask-automation

技術詳細

アーキテクチャ・仕組み

GenericAgentは分層記憶 × 最小ツールセット × 自律実行ループの3軸で構成されています。

分層記憶システム(5層構造)

名称役割
L0Meta Rulesエージェントの基本行動規則とシステム制約
L1Insight Index高速ルーティング・想起のための最小索引
L2Global Facts長期運用で蓄積される安定した知識
L3Task Skills / SOPs特定タスクの再利用可能なワークフロー
L4Session Archive完了タスクから蒸留されたアーカイブ記録

9つの原子ツール

  • code_run — 任意コード実行
  • file_read / file_write / file_patch — ファイル読み書き・パッチ
  • web_scan — Webページ内容の知覚
  • web_execute_js — ブラウザ操作(JavaScriptインジェクション)
  • ask_user — ユーザーへの確認(Human-in-the-loop)
  • update_working_checkpoint / start_long_term_update — 記憶管理(セッション間での経験蓄積)

自律実行ループ

agent_loop.py が約100行で実装。環境状態の知覚 → タスク推論 → ツール実行 → 経験の記憶書き込み → ループ の繰り返し。

能力拡張メカニズム

code_run を通じて実行時にPythonパッケージのインストール、新スクリプト作成、外部API呼び出し、ハードウェア制御が可能。一時的な能力を永続ツールとして固定化できる。

対応環境・プラットフォーム

  • 対応LLM: Claude / Gemini / Kimi / MiniMax 等の主要モデル
  • ブラウザ制御: 実ブラウザにインジェクション(ログインセッション維持)
  • モバイル: ADB(Android Debug Bridge)経由でスマホアプリ操作
  • フロントエンド: Streamlit Web UI(デフォルト)、Qt デスクトップアプリ、代替Streamlit UI
  • Bot連携: Telegram / WeChat(個人微信)/ QQ / 飞书(Lark)/ 企業微信(WeCom)/ 钉钉(DingTalk)

パフォーマンス

  • コンテキストウィンドウ: 30K未満(他のエージェントの200K〜1Mと比較して約6分の1)
  • コードベース: コア約3000行(比較: OpenClaw 約53万行)
  • 依存関係: pip install streamlit pywebview のみで最小起動可能

競合との比較

項目GenericAgentOpenClawClaude Code
コード量~3K行~530,000行大規模(開源済)
デプロイpip + API KeyマルチサービスCLI + サブスクリプション
ブラウザ実ブラウザ(セッション維持)サンドボックスMCPプラグイン経由
自己進化スキル自動成長プラグインエコシステムセッション間で状態なし

ライセンス

MIT License — 商用利用を含め自由に利用可能。

注目の更新履歴

  • 2026-04-11: L4セッションアーカイブ記憶とスケジューラーcron連携
  • 2026-03-23: 個人WeChatをBot前端として対応
  • 2026-03-10: 百万スケールのSkillライブラリ公開
  • 2026-01-16: V1.0 パブリックリリース

インストール・クイックスタート

# 1. リポジトリをクローン(ダウンロード)
git clone https://github.com/lsdefine/GenericAgent.git
cd GenericAgent

# 2. 最小限の依存パッケージをインストール
pip install streamlit pywebview

# 3. APIキーを設定
cp mykey_template.py mykey.py
# mykey.py を編集して、使用するLLMのAPIキーを記入

# 4. 起動
python launch.pyw

オプションでTelegram Botとして使う場合:

# mykey.py に追記
tg_bot_token = 'YOUR_BOT_TOKEN'
tg_allowed_users = [YOUR_USER_ID]
python frontends/tgapp.py

詳細は GETTING_STARTED.md を参照。

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

使うほど賢くなるAIエージェント — 学習・記憶・自動化を全部入りで月5ドルから運用 — hermes-agent

NousResearch/hermes-agentPython87.5k

Hermes Agentは、Nous Research社が開発した「自己改善するAIエージェント」です。会話するたびに経験からスキルを自動生成し、ユーザーの好みや過去のやり取りを記憶して、使えば使うほ

AIに「このサイトで○○して」と頼むだけ!ブラウザ操作を全自動化するエージェント — browser-use

browser-use/browser-usePython84.1k

browser-useは、AI(人工知能)にウェブブラウザを操作させて、オンラインの作業を自動化できるPython製のツールです。「この求人に応募して」「買い物リストの商品をカートに入れて」といった自

キーワードを入れるだけでAIが高画質ショート動画を自動生成! — MoneyPrinterTurbo

harry0703/MoneyPrinterTurboPython53.0k

MoneyPrinterTurboは、動画のテーマやキーワードを入力するだけで、AIが台本作成・映像素材の収集・字幕生成・BGM追加まですべて自動でこなし、高画質なショート動画を一発で作ってくれるツー

SNS投稿からYouTubeショート動画まで、ネット副業をAIで全自動化! — MoneyPrinterV2

FujiwaraChoki/MoneyPrinterV2Python25.9k

MoneyPrinterV2は、インターネットでの収益化に関わる作業を自動化するアプリケーションです。具体的には、Twitter(X)への自動投稿、YouTubeショート動画の自動作成・投稿、Amaz

LINEもQQもSlackも!あらゆるチャットアプリにAIボットを一発導入できる万能プラットフォーム — AstrBot

AstrBotDevs/AstrBotPython24.2k

AstrBotは、さまざまなチャットアプリ(メッセージングアプリ)にAIチャットボットを簡単に導入できるオープンソースのプラットフォームです。QQ、Telegram、Slack、Discord、LIN