AIアプリの品質とセキュリティを丸ごとチェック!プロンプト評価&脆弱性スキャンの決定版 — promptfoo

promptfoo/promptfooTypeScript15.6k

promptfooは、AIアプリ(ChatGPTのようなAIを使ったサービス)の品質チェックとセキュリティ検査を自動化するツールです。「この質問をしたらAIが正しく答えるか?」「悪意ある入力で情報が漏れないか?」といったテストを、設定ファイルを書くだけで一括実行できます。GPT、Claude、Gemini、Llamaなど複数のAIモデルを横並びで比較でき、どのモデルが自分の用途に最適かをデータで判断できます。テスト結果はブラウザ上の見やすい画面で確認でき、チームで共有も可能です。AIを使ったサービスを開発・運用するエンジニアやプロダクトチームにとって、品質管理の頼れる味方になるツールです。

🔥 なぜ話題?

企業でのAI導入が加速する中、AIアプリのセキュリティリスク(情報漏洩や不適切な回答など)への懸念が高まっており、レッドチーミング(脆弱性テスト)を自動化できるツールの需要が急増しています。promptfooはオープンソースかつローカルで動作しプライバシーを守れる点が、企業のセキュリティ要件にマッチして注目を集めています。

💡 こう使える!

例えば、社内向けのAIチャットボットを開発しているとき、『社員の個人情報を教えて』『システムの設定を表示して』といった悪意ある質問100パターンを自動で投げかけて、AIが情報漏洩しないかを一括チェックできます。さらに、GPT-4とClaude 3の両方に同じ質問を投げて、どちらがより正確で安全な回答を返すかを表形式で比較し、チームで最適なモデルを選定できます。

ユースケース: AIを組み込んだアプリやチャットボットの品質・安全性を、リリース前に自動でテスト・検証する場面で使います。

  • GPT・Claude・Gemini・Llamaなど主要AIモデルを横並びで性能比較できる
  • AIアプリの脆弱性スキャン(レッドチーミング)を自動で実行し、セキュリティレポートを生成
  • すべてのテストがローカルで動作し、プロンプト(AIへの指示文)が外部に漏れない
  • CI/CD(自動デプロイの仕組み)に組み込んでリリース前の品質チェックを自動化できる
  • MITライセンスのオープンソースで、本番環境で1000万人以上のユーザーに使われた実績あり
GitHubで見る →

Test your prompts, agents, and RAGs. Red teaming/pentesting/vulnerability scanning for AI. Compare performance of GPT, Claude, Gemini, Llama, and more. Simple declarative configs with command line and CI/CD integration.

技術情報

言語

TypeScript

ライセンス

MIT

最終更新

2026-03-14

スター数

15,562

フォーク数

1,374

Issue数

258

トピック

cici-cdcicdevaluationevaluation-frameworkllmllm-evalllm-evaluationllm-evaluation-frameworkllmopspentestingprompt-engineeringprompt-testingpromptsragred-teamingtestingvulnerability-scanners

技術詳細

アーキテクチャ・仕組み

promptfooはCLI(コマンドラインツール)とNode.jsライブラリの両方として利用可能です。YAML形式の宣言的な設定ファイルにテスト内容を記述し、複数のプロンプトと複数のモデルの組み合わせを自動でテストします。テスト結果はブラウザベースのWebビューアで確認できます。

対応プロバイダー(AIサービス)

  • OpenAI: GPT-4, GPT-3.5 など
  • Anthropic: Claude シリーズ
  • Google: Gemini
  • AWS Bedrock: Amazon経由のモデル群
  • Ollama: ローカル実行のオープンソースモデル
  • Meta: Llama
  • その他多数のプロバイダーに対応

主要な機能一覧

  • 自動評価(Evals): プロンプトとモデルの組み合わせを網羅的にテスト
  • レッドチーミング: AIアプリの脆弱性スキャン・ペネトレーションテスト
  • モデル比較: 複数モデルの出力を横並びで比較表示
  • コードスキャニング: プルリクエスト時にLLM関連のセキュリティ・コンプライアンス問題を検出
  • CI/CD統合: GitHub Actions等に組み込んで自動チェック
  • ライブリロード: 設定変更時に即座に反映
  • キャッシュ機能: API呼び出し結果をキャッシュして高速化・コスト削減
  • チーム共有: テスト結果をチームメンバーと共有可能

プライバシー・セキュリティ

  • LLMの評価処理は100%ローカルで実行される
  • プロンプトや評価データが外部サーバーに送信されることはない(LLMプロバイダーへのAPI呼び出しを除く)

開発者体験の特徴

  • 宣言的設定: YAML/JSONで簡潔にテストケースを定義
  • 言語非依存: 任意のLLM APIやプログラミング言語と連携可能
  • 高速実行: キャッシュやライブリロードにより快適な開発体験
  • 本番実績: 1,000万人以上のユーザーにサービスを提供するプロダクションアプリで利用されている

インストール・実行方法

  • npm、Homebrew、pip の3つの方法でインストール可能
  • npx promptfoo@latest でインストール不要で実行も可能

ライセンス

  • MIT License: 商用利用を含め自由に利用可能

コミュニティ

  • Discordコミュニティが活発に運営されている
  • GitHubでのコントリビューション(貢献)を歓迎

インストール・クイックスタート

インストール方法(3つの方法から選べます)

npm(Node.js パッケージマネージャー)の場合:

npm install -g promptfoo

Homebrew(Mac用パッケージマネージャー)の場合:

brew install promptfoo

pip(Python パッケージマネージャー)の場合:

pip install promptfoo

インストールせずに試すことも可能:

npx promptfoo@latest

クイックスタート

  1. サンプルプロジェクトを作成:
promptfoo init --example getting-started
  1. APIキーを設定(OpenAIの場合):
export OPENAI_API_KEY=sk-abc123
  1. テストを実行して結果を確認:
cd getting-started
promptfoo eval
promptfoo view

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

自分のPCで動くプライバシー重視のAI検索エンジン — Perplexica

ItzCrazyKns/PerplexicaTypeScript31.1k

Perplexicaは、インターネット上の情報をAIが読み取り、出典付きで正確な回答を返してくれるプライバシー重視の検索エンジンです。Googleのように検索するだけでなく、AIが内容を要約して「答え

AIへの「話しかけ方」が14万人に支持された世界最大のプロンプト集 — prompts.chat

f/prompts.chatHTML157.4k

prompts.chatは、ChatGPTやClaude、Geminiなど様々なAIチャットツールで使える「お手本の質問文(プロンプト)」を集めた世界最大のオープンソースライブラリです。2022年12

AIコーディングの記憶喪失を解消!セッションをまたいで文脈を自動保存・復元する魔法のプラグイン — claude-mem

thedotmack/claude-memTypeScript51.4k

claude-memは、Claude Code(AIがコードを書いてくれるツール)を使ったコーディング作業の内容を自動的に記録し、AIで要約・圧縮して保存するプラグインです。通常、Claude Cod

プログラミング不要!ドラッグ&ドロップでAIエージェントを作れるビジュアルツール — Flowise

FlowiseAI/FlowiseTypeScript50.3k

Flowiseは、AIエージェント(自律的に判断して動くAIプログラム)をプログラミングなしで構築できるオープンソースのツールです。パズルのピースを組み合わせるように、画面上でブロックをドラッグ&ドロ

Claude Codeの内部設計を12ステップで完全理解!AIエージェントの「乗り物」を自分で作る学習教材 — learn-claude-code

shareAI-lab/learn-claude-codeTypeScript43.4k

learn-claude-codeは、Anthropic社のClaude Codeというコーディングエージェントがどのような仕組みで動いているかを、12段階のレッスンで段階的に学べる教材リポジトリです