AIにブラウザ操作を丸投げ!買い物も求人応募も自動化する万能エージェント — browser-use

browser-use/browser-usePython84.1k

browser-useは、AI(人工知能)にウェブブラウザを操作させて、オンラインの作業を自動化できるPython製のツールです。「この求人に応募して」「買い物リストの商品をカートに入れて」といった自然な言葉で指示するだけで、AIが実際にブラウザを開き、クリックや入力を代行してくれます。OpenAIやGoogleなど複数のAIモデルに対応しており、独自のChatBrowserUseモデルも用意されています。オープンソースで無料利用できるほか、大規模運用向けのクラウドサービスも提供されており、プログラマーから非技術者まで幅広い人が日常のウェブ作業を効率化できます。

🔥 なぜ話題?

AIエージェント(自律的に作業を遂行するAI)が2024〜2025年の最大トレンドとなる中、browser-useはウェブブラウザという最も身近なインターフェースをAIで自動操作できる点が注目されています。特に、自然言語で指示するだけでフォーム入力や買い物といった実用的なタスクをこなせる手軽さと、オープンソースで無料から始められる敷居の低さが急速な人気の理由です。

💡 こう使える!

例えば、転職活動中に複数の求人サイトへ応募したいとき、自分の履歴書データを渡して「このサイトの応募フォームを埋めて送信して」と指示するだけで、browser-useのAIエージェントがフォームの各項目を自動入力し、応募を完了してくれます。

ユースケース: 求人応募、ネット買い物、情報収集など、ブラウザで行う繰り返し作業をAIに任せて自動化したいとき。

  • 自然な言葉で指示するだけでAIがブラウザを操作してくれる
  • 求人応募・買い物・PC部品探しなど実用的なタスクに対応
  • オープンソース無料版とクラウド版の両方が使える
  • カスタムツールの追加やCLIでの操作もサポート
  • 100の実タスクによるベンチマークで精度を検証済み
GitHubで見る →

🌐 Make websites accessible for AI agents. Automate tasks online with ease.

技術情報

言語

Python

ライセンス

MIT

最終更新

2026-03-24

スター数

84,073

フォーク数

9,757

Issue数

220

トピック

ai-agentsai-toolsbrowser-automationbrowser-usellmplaywrightpython

技術詳細

アーキテクチャ・仕組み

  • browser-useはPythonベースのライブラリで、LLM(大規模言語モデル)がブラウザを直接操作できる仕組みを提供する
  • AIエージェントがウェブページの要素(ボタン、入力欄など)を認識し、クリック・入力・スクリーンショット取得などのアクションを実行する
  • 非同期処理(asyncio)を活用した設計

対応LLMモデル

  • ChatBrowserUse: browser-use専用に最適化されたモデル。他モデルの3〜5倍の速度で動作し、最高精度を実現
    • 料金: 入力$0.20/100万トークン、キャッシュ入力$0.02/100万トークン、出力$2.00/100万トークン
  • bu-30b-a3b-preview: オープンソースプレビューモデル
  • Google Gemini (例: gemini-3-flash-preview)
  • Anthropic Claude (例: claude-sonnet-4-6)
  • Ollama経由のローカルモデルにも対応

ベンチマーク

  • 100の実世界ブラウザタスクで精度を測定(ベンチマークもオープンソース: browser-use/benchmark
  • モデルごとの成功率比較が公開されている

主要機能一覧

  • 自然言語タスク指示: テキストでタスクを記述するだけでエージェントが実行
  • カスタムツール: @tools.actionデコレータで独自ツールを追加可能
  • CLIインターフェース: browser-use open, browser-use click, browser-use typeなどのコマンドで対話的にブラウザを操作
  • テンプレート生成: default, advanced, toolsの3種類のテンプレートで素早くプロジェクト開始
  • 認証対応: 既存のChromeプロファイル(保存済みログイン)の再利用が可能
  • Claude Code連携: スキルファイルをインストールしてAI支援ブラウザ自動化が可能

オープンソース版 vs クラウド版

項目オープンソースクラウド
カスタムツール-
セルフホスト-
複雑タスクの精度標準高い
ステルス・プロキシ-
CAPTCHA解決-
1000+連携(Gmail, Slack, Notion等)-
永続ファイルシステム・メモリ-
両方の組み合わせ利用

対応環境

  • Python: 3.11以上
  • ブラウザ: Chromiumベース
  • パッケージ管理: uv推奨

制約・注意点

  • Chromeは大量のメモリを消費するため、並列実行時は注意が必要
  • CAPTCHA対策には別途クラウド版の利用が推奨される
  • 本番環境での大規模運用にはクラウドAPIの利用が推奨される

ライセンス

  • MITライセンス(オープンソース部分)
  • クラウドサービスには別途利用規約・プライバシーポリシーあり

インストール・クイックスタート

インストール手順(Python 3.11以上が必要)

1. uv(Pythonパッケージ管理ツール)で環境を作成しインストール:

uv init && uv add browser-use && uv sync
# Chromiumが未インストールの場合は以下も実行
uvx browser-use install

2. [任意] APIキーを設定(.envファイルに記載):

BROWSER_USE_API_KEY=your-key
# GOOGLE_API_KEY=your-key
# ANTHROPIC_API_KEY=your-key

3. 最初のエージェントを実行:

from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    browser = Browser()
    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=ChatBrowserUse(),
        browser=browser,
    )
    await agent.run()

if __name__ == "__main__":
    asyncio.run(main())

テンプレートから素早く始める場合:

uvx browser-use init --template default

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

使うほど賢くなるAIエージェント — 学習・記憶・自動化をまるごと搭載 — hermes-agent

NousResearch/hermes-agentPython73.5k

hermes-agentは、Nous Research が開発した「自分で学習し成長するAIエージェント」です。会話の中で新しいスキルを自動的に作り、使うたびにスキルを改善し、あなたの好みや情報を記憶

あらゆるAIモデルを束ねて社内チャット・検索・研究を全自動化するオープンソース基盤 — onyx

onyx-dot-app/onyxPython25.3k

Onyxは、ChatGPTのようなAIチャット機能を自分のサーバーに設置できるオープンソースのAIプラットフォームです。50種類以上の外部サービス(Google Drive、Slackなど)と接続し、

LINEもQQもSlackも!あらゆるチャットアプリにAIボットを一発導入できる万能プラットフォーム — AstrBot

AstrBotDevs/AstrBotPython24.2k

AstrBotは、さまざまなチャットアプリ(メッセージングアプリ)にAIチャットボットを簡単に導入できるオープンソースのプラットフォームです。QQ、Telegram、Slack、Discord、LIN

AIエージェントの「脳」を丸ごと管理!ファイルシステム発想のコンテキストDB — OpenViking

volcengine/OpenVikingPython14.7k

OpenVikingは、AIエージェント(自律的にタスクをこなすAIプログラム)が必要とする「記憶」「資料」「スキル」をまとめて管理できるオープンソースのコンテキストデータベースです。パソコンのフォル

AIモデルの実行も学習もブラウザ画面ひとつで完結!最大2倍速・VRAM70%削減の万能ツール — unsloth

unslothai/unslothPython57.0k

Unslothは、Qwen、DeepSeek、Gemma、LlamaなどのオープンソースAIモデルを自分のパソコンで動かしたり、追加学習(ファインチューニング)したりできる統合ツールです。ブラウザから