たった3000行のコードから「自分だけのAI秘書」が育つ!使うほど賢くなる自己進化エージェント — GenericAgent

lsdefine/GenericAgentPython2.3k

GenericAgentは、AI(人工知能)に「パソコンを丸ごと操作する力」を与える超軽量フレームワークです。わずか約3000行のプログラムコードと9つの基本ツールだけで、ブラウザ操作・ファイル管理・ターミナル操作・スマホ制御まで自動でこなせます。GenericAgentの最大の特徴は「自己進化」で、新しい作業を一度こなすと、その手順を自動的にスキル(技能)として記憶し、次回からは一言で同じ作業を再実行できます。使えば使うほどスキルが蓄積され、自分だけの「技能ツリー」が育っていく仕組みです。プログラミングに詳しくなくても、APIキーを設定するだけですぐに使い始められる手軽さも魅力です。

🔥 なぜ話題?

AIエージェント(自律的にタスクを実行するAI)が2025〜2026年の最大のトレンドとなる中、GenericAgentは他のエージェントが数十万行のコードや大量のトークン消費を必要とするのに対し、わずか3000行・3万トークン以下という圧倒的な軽量さと「使うほど賢くなる自己進化」という独自コンセプトで注目を集めています。百万級のスキルライブラリ公開や機器之心(中国の大手AIメディア)での紹介も話題を加速させています。

💡 こう使える!

例えば「Gmailでこのファイルを送って」と一度お願いすると、GenericAgentが自動でメール送信の認証設定やスクリプト作成を行い、その手順をスキルとして保存します。次回からは同じ一言を言うだけで、即座にファイル付きメールが送れるようになります。

ユースケース: 日常のパソコン作業やスマホ操作(メール送信、ウェブ検索、ファイル整理、株のスクリーニング、出前注文など)をAIに任せて自動化したい人向けのツールです。

  • 約3000行の極小コードから自分だけの「技能ツリー」が育つ自己進化型AIエージェント
  • コンテキストウィンドウ3万トークン以下で、他のエージェントの6分の1のコスト・トークン消費
  • ブラウザ・ターミナル・ファイル・キーボード/マウス・スマホ(ADB)まで9つの原子ツールでシステム丸ごと制御
  • WeChat・QQ・飞书・钉钉・Telegramなど多数のBot前端に対応
  • Claude・Gemini・Kimi・MiniMaxなど主要LLMモデルをサポートしクロスプラットフォーム動作
GitHubで見る →

Self-evolving agent: grows skill tree from 3.3K-line seed, achieving full system control with 6x less token consumption

技術情報

言語

Python

ライセンス

MIT

最終更新

2026-04-16

スター数

2,349

フォーク数

281

Issue数

37

トピック

ai-agentautomationautonomous-agentbrowser-automationclaudecomputer-controldesktop-automationgeminilightweightllm-agentmemory-systempythonself-evolvingskill-treetask-automation

技術詳細

アーキテクチャ・仕組み

GenericAgentは「分層記憶(Layered Memory)× 最小ツールセット × 自律実行ループ」の3本柱で動作します。

分層記憶システム(5層構造)

レイヤー名称役割
L0メタルールエージェントの基本行動規則とシステム制約
L1インサイトインデックス最小限の記憶索引で高速ルーティング・想起
L2グローバルファクト長期運用で蓄積される安定した知識
L3タスクスキル/SOP特定タスク用の再利用可能なワークフロー
L4セッションアーカイブ完了タスクから蒸留された記録(長期想起用)

9つの原子ツール

  • code_run — 任意コード実行
  • file_read / file_write / file_patch — ファイル操作
  • web_scan — Webページ内容の知覚
  • web_execute_js — ブラウザ操作(JavaScript実行)
  • ask_user — ユーザーへの確認(人間介在)
  • update_working_checkpoint / start_long_term_update — 記憶管理ツール(セッション間の経験蓄積)

自律実行ループ

agent_loop.py の約100行で実装。「環境知覚 → タスク推論 → ツール実行 → 経験記憶 → ループ」のサイクルを回します。

対応環境・プラットフォーム

  • 対応LLM: Claude、Gemini、Kimi、MiniMaxなど主要モデル
  • クロスプラットフォーム: 複数OS対応
  • モバイル: ADB(Android Debug Bridge)経由でスマートフォン制御
  • ブラウザ: 実際のブラウザに注入(ログインセッション維持)

パフォーマンス

  • コンテキストウィンドウ: 30K トークン以下(他のエージェントは200K〜1Mトークン消費)
  • トークン消費量は競合の約6分の1
  • 分層記憶により、必要な情報だけを常にスコープ内に保持し、ノイズとハルシネーション(幻覚)を削減

競合との比較

GenericAgentOpenClawClaude Code
コード量~3K行~530,000行大規模
デプロイpip install + APIキーマルチサービス編成CLI + サブスク
ブラウザ制御実ブラウザ(セッション維持)サンドボックス/ヘッドレスMCPプラグイン経由
自己進化スキル自動成長プラグインエコシステムセッション間は無状態

Bot フロントエンド対応

  • Telegram: トークン設定のみ
  • WeChat(個人): QRコードスキャンで即接続
  • QQ: qq-botpy WebSocket接続(公網webhook不要)
  • 飞书(Lark): テキスト/リッチテキスト/画像/ファイル/音声/カード入出力対応、ストリーミング進捗カード、Vision API対応
  • 企业微信(WeCom): SDK経由
  • 钉钉(DingTalk): Stream接続
  • Qt デスクトップアプリ / Streamlit Web UI: 複数UIスタイル選択可能

能力拡張メカニズム

code_runを通じてランタイムにPythonパッケージのインストール、新規スクリプト作成、外部API呼び出し、ハードウェア制御が可能。一時的な能力を永続ツールに固定化できます。

ライセンス

MIT License(商用利用可能)

最新の更新情報

  • 2026-04-11: L4セッションアーカイブ記憶 + schedulerクロン統合
  • 2026-03-23: 個人WeChat Bot対応
  • 2026-03-10: 百万級スキルライブラリ公開
  • 2026-01-16: V1.0 公開リリース

インストール・クイックスタート

# 1. リポジトリをクローン(ダウンロード)
git clone https://github.com/lsdefine/GenericAgent.git
cd GenericAgent

# 2. 最小限の依存パッケージをインストール
pip install streamlit pywebview

# 3. APIキーを設定
cp mykey_template.py mykey.py
# mykey.py を編集して、使用するLLMのAPIキーを記入

# 4. 起動
python launch.pyw

オプションでTelegram Botとして使う場合:

# mykey.py に追記
tg_bot_token = 'YOUR_BOT_TOKEN'
tg_allowed_users = [YOUR_USER_ID]
python frontends/tgapp.py

WeChat Botとして使う場合:

pip install pycryptodome qrcode requests
python frontends/wechatapp.py

参考になる外部の関連記事

関連リポジトリ

使うほど賢くなるAIエージェント — 学習・記憶・自動化を全部入りで月5ドルから運用 — hermes-agent

NousResearch/hermes-agentPython87.5k

Hermes Agentは、Nous Research社が開発した「自己改善するAIエージェント」です。会話するたびに経験からスキルを自動生成し、ユーザーの好みや過去のやり取りを記憶して、使えば使うほ

AIに「このサイトで○○して」と頼むだけ!ブラウザ操作を全自動化するエージェント — browser-use

browser-use/browser-usePython84.1k

browser-useは、AI(人工知能)にウェブブラウザを操作させて、オンラインの作業を自動化できるPython製のツールです。「この求人に応募して」「買い物リストの商品をカートに入れて」といった自

キーワードを入れるだけでAIが高画質ショート動画を自動生成! — MoneyPrinterTurbo

harry0703/MoneyPrinterTurboPython53.0k

MoneyPrinterTurboは、動画のテーマやキーワードを入力するだけで、AIが台本作成・映像素材の収集・字幕生成・BGM追加まですべて自動でこなし、高画質なショート動画を一発で作ってくれるツー

SNS投稿からYouTubeショート動画まで、ネット副業をAIで全自動化! — MoneyPrinterV2

FujiwaraChoki/MoneyPrinterV2Python25.9k

MoneyPrinterV2は、インターネットでの収益化に関わる作業を自動化するアプリケーションです。具体的には、Twitter(X)への自動投稿、YouTubeショート動画の自動作成・投稿、Amaz

LINEもQQもSlackも!あらゆるチャットアプリにAIボットを一発導入できる万能プラットフォーム — AstrBot

AstrBotDevs/AstrBotPython24.2k

AstrBotは、さまざまなチャットアプリ(メッセージングアプリ)にAIチャットボットを簡単に導入できるオープンソースのプラットフォームです。QQ、Telegram、Slack、Discord、LIN