自然言語でWebページを操作!ブラウザ内で動くAIアシスタント — page-agent
Page Agentは、Webページの中に組み込むだけで、自然言語(日本語や英語などの普通の言葉)でWebサイトの操作を自動化できるJavaScriptツールです。ブラウザ拡張機能やPython、特別なサーバーの準備は不要で、たった1行のコードをWebページに追加するだけで動き始めます。スクリーンショットを撮る方式ではなく、ページの構造(テキスト情報)を読み取って操作するため、画像認識AIのような高価なモデルも不要です。好きなAIモデル(LLM)を接続して使えるので、自社のAIサービスと組み合わせることもできます。SaaS製品にAIアシスタントを手軽に搭載したい開発者や、複雑なフォーム入力を簡単にしたい業務システム担当者に特におすすめです。
🔥 なぜ話題?
ブラウザ操作を自動化するAIエージェント(browser-useなど)が大きな注目を集める中、Page Agentはサーバーサイドではなくクライアントサイド(Webページ内)で動作するという独自のアプローチで差別化しています。Alibaba発のOSSであり、1行のコードで試せる手軽さとHacker Newsでの話題性が急速なスター獲得につながっています。
💡 こう使える!
例えば、社内の経費精算システムで20個以上の入力欄がある複雑なフォームに対して、『出張日は6月10日、交通費は新幹線で15,000円、宿泊費は東京のホテルで12,000円で申請して』と一言入力するだけで、Page Agentが各フィールドに自動で値を入力してくれます。
ユースケース: 自社のWebサービスやSaaSに「自然言語で操作できるAIアシスタント」を手軽に組み込むために使う
- ブラウザ拡張もPythonも不要、JavaScript1行でWebページにAI操作エージェントを追加
- スクリーンショット不要のテキストベースDOM解析で軽量・高速に動作
- 好きなLLM(AIモデル)を自由に接続して利用可能
JavaScript in-page GUI agent. Control web interfaces with natural language.