AIの規制を自動で解除!言語モデルの制限を完全自動で取り払うツール — heretic

p-e-w/hereticPython15.5k

Hereticは、ChatGPTのようなAI言語モデルに組み込まれた「安全のための回答制限(検閲)」を自動的に取り除くツールです。通常、AIモデルは危険と判断した質問には答えを拒否しますが、Hereticを使うとその制限を外すことができます。従来この作業には専門知識が必要でしたが、Hereticはパラメータの最適化を全自動で行うため、コマンドを1行実行するだけで完了します。しかもAIモデルの元々の賢さ(知識や推論能力)をできるだけ損なわないよう設計されており、専門家が手動で調整した結果に匹敵する品質を実現しています。ローカル環境でAIモデルを自由に使いたい研究者やホビイストに向けたツールです。

🔥 なぜ話題?

ローカルで動かすオープンソースAIモデルの普及が加速する中、モデルの過剰な検閲を簡単に解除できるツールへの需要が高まっています。特に「コマンド一行で全自動」という手軽さと、元のモデルの性能をほぼ維持できる品質の高さが、Reddit等のコミュニティで大きな話題になりHugging Faceで1,000以上の派生モデルが作られるほどの盛り上がりを見せています。

💡 こう使える!

例えば、自分のパソコンでQwen3やGemmaなどのオープンソースAIモデルを動かしているとき、特定の話題について「お答えできません」と拒否されてしまう場合に、`heretic Qwen/Qwen3-4B-Instruct-2507` とコマンドを打つだけで約45分後には制限が外れたモデルが出来上がり、自由に質問できるようになります。

ユースケース: ローカルで動かしているAI言語モデルの回答制限を、専門知識なしにコマンド一つで自動解除したい場面で使えるツール。

  • コマンド1行で全自動 — パラメータの調整も最適化もHereticが自動で行う
  • 元のAIモデルの賢さをほぼ維持したまま検閲だけを除去(KLダイバージェンスが競合の1/3〜1/6)
  • 研究者向けに残差ベクトルの可視化・幾何学的分析機能も搭載
  • 4bit量子化対応でGPUメモリが少ない環境でも動作可能
  • コミュニティで1,000以上のHereticモデルが公開済みの実績
GitHubで見る →

Fully automatic censorship removal for language models

技術情報

言語

Python

ライセンス

AGPL-3.0

最終更新

2026-03-15

スター数

15,496

フォーク数

1,566

Issue数

76

トピック

abliterationllmtransformer

技術詳細

アーキテクチャ・仕組み

Hereticは「方向性アブレーション(directional ablation)」と呼ばれる手法の高度な実装です。Transformerモデルの各層にあるアテンションの出力射影行列とMLPの下方射影行列を特定し、「拒否方向(refusal direction)」に対して直交化することで、その方向の発現を抑制します。

主要な技術的革新点

  • 柔軟なアブレーション重みカーネル: 層ごとに異なる重みを適用でき、max_weightmax_weight_positionmin_weightmin_weight_distance の4パラメータで形状を制御
  • 浮動小数点の拒否方向インデックス: 整数ではなく小数値を使い、隣接する2つの拒否方向ベクトルを線形補間することで、より広い探索空間から最適な方向を発見
  • コンポーネント別パラメータ: アテンションとMLPで別々のアブレーションパラメータを使用(MLPへの介入はモデルへのダメージが大きい傾向があるため)

自動最適化

Optunaを使ったTPE(Tree-structured Parzen Estimator)ベースのパラメータ最適化により、以下の2つの目標を同時に最小化します:

  1. 「有害な」プロンプトに対する拒否回数
  2. 元のモデルとのKLダイバージェンス(「無害な」プロンプトに対する出力の変化度合い)

対応環境

  • Python: 3.10以上
  • PyTorch: 2.2以上
  • 対応モデル: ほとんどの密なTransformerモデル(多くのマルチモーダルモデルを含む)、複数のMoEアーキテクチャ
  • 非対応: SSM/ハイブリッドモデル、不均一な層を持つモデル、一部の新しいアテンション機構
  • 量子化: bitsandbytesによる4bit量子化に対応(VRAM削減用)

パフォーマンス・ベンチマーク

モデル拒否回数(/100)KLダイバージェンス
gemma-3-12b-it(オリジナル)97/1000
mlabonne版 abliterated-v23/1001.04
huihui-ai版 abliterated3/1000.45
Heretic版3/1000.16

※RTX 5090 + PyTorch 2.8での計測結果。RTX 3090でLlama-3.1-8B-Instructの検閲除去に約45分。

研究向け機能

  • --plot-residuals: 残差ベクトルのPaCMAP次元削減による2D可視化(PNG + アニメーションGIF)
  • --print-residual-geometry: 各層の残差ベクトルのコサイン類似度、L2ノルム、シルエット係数などの定量分析テーブル出力
  • --evaluate-model: 既存モデルの拒否率とKLダイバージェンスを評価

設定オプション

  • コマンドライン引数(heretic --helpで確認)
  • 設定ファイル(config.default.toml
  • 起動時にハードウェアに最適なバッチサイズを自動ベンチマーク

出力オプション

処理完了後、以下のアクションを選択可能:

  • モデルをローカルに保存
  • Hugging Faceにアップロード
  • チャットで動作テスト

ライセンス

GNU Affero General Public License v3(AGPL-3.0) — オープンソースだが、ネットワーク経由でサービス提供する場合もソースコード公開が必要。商用利用時は注意が必要。

類似ツールとの違い

AutoAbliteration、abliterator.py、ErisForgeなどの既存ツールと異なり、Hereticはゼロからスクラッチで書かれており、全自動のパラメータ最適化を備えている点が最大の差別化要因です。

インストール・クイックスタート

インストール手順

Python 3.10以上と、お使いのGPUに合ったPyTorch 2.2以上が必要です。

pip install -U heretic-llm

基本的な使い方(モデルの検閲解除)

heretic Qwen/Qwen3-4B-Instruct-2507

モデル名を変えるだけで、さまざまなモデルに対応できます。

研究機能を使う場合

pip install -U heretic-llm[research]
heretic Qwen/Qwen3-4B-Instruct-2507 --plot-residuals

GPUメモリが足りない場合(4bit量子化)

quantization オプションを bnb_4bit に設定すると、必要なVRAMを大幅に削減できます。

オプション一覧の確認

heretic --help

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

使うほど賢くなるAIエージェント — 学習・記憶・自動化を全部入りで月5ドルから運用 — hermes-agent

NousResearch/hermes-agentPython87.5k

Hermes Agentは、Nous Research社が開発した「自己改善するAIエージェント」です。会話するたびに経験からスキルを自動生成し、ユーザーの好みや過去のやり取りを記憶して、使えば使うほ

AIに「このサイトで○○して」と頼むだけ!ブラウザ操作を全自動化するエージェント — browser-use

browser-use/browser-usePython84.1k

browser-useは、AI(人工知能)にウェブブラウザを操作させて、オンラインの作業を自動化できるPython製のツールです。「この求人に応募して」「買い物リストの商品をカートに入れて」といった自

AIモデルの実行も学習もブラウザ画面ひとつで完結!最大2倍速・VRAM70%削減の万能ツール — unsloth

unslothai/unslothPython57.0k

Unslothは、Qwen、DeepSeek、Gemma、LlamaなどのオープンソースAIモデルを自分のパソコンで動かしたり、追加学習(ファインチューニング)したりできる統合ツールです。ブラウザから

AIアナリストチームが株式投資を徹底議論!マルチエージェント金融トレーディングフレームワーク — TradingAgents

TauricResearch/TradingAgentsPython41.4k

TradingAgentsは、実際のトレーディング会社の組織構造を模倣した、複数のAIエージェント(自律的に動くAIプログラム)が協力して株式の売買判断を行うフレームワークです。ファンダメンタル分析担

100以上のAIモデルを1つの窓口で呼び出せる!LLM統合ゲートウェイ — litellm

BerriAI/litellmPython40.9k

LiteLLMは、OpenAI・Anthropic・Azure・Google Vertex AIなど100以上のAI言語モデル(LLM)を、たった1つの共通フォーマットで呼び出せるPython SDK