複雑な表・手書き・数式もまるごとデジタル化!90言語対応の最先端OCRモデル — chandra

datalab-to/chandraPython7.8k

Chandra OCR 2は、画像やPDFに含まれる文字を読み取り、表や数式、手書き文字などのレイアウト情報を保ったままMarkdown・HTML・JSON形式に変換できるAI OCR(光学文字認識)モデルです。90以上の言語に対応しており、日本語・中国語・アラビア語などの多言語文書もそのまま処理できます。チェックボックス付きのフォームや複雑なレイアウトの再現、画像やグラフの抽出とキャプション付与まで行えるのが特長です。広く使われているベンチマーク(性能比較テスト)でトップクラスのスコアを記録しており、GPT-4oやGeminiなどの大手AIモデルを上回る精度を実現しています。プログラマーだけでなく、書類のデジタル化を効率化したいすべての人に役立つツールです。

🔥 なぜ話題?

企業のペーパーレス化やRAG(検索拡張生成)パイプラインの普及に伴い、高精度なOCRへの需要が急増しています。Chandra OCR 2は、既存の大手AIモデル(GPT-4o、Gemini等)を上回るベンチマークスコアと90言語対応という強みで、多言語文書処理の決定版として注目を集めています。

💡 こう使える!

例えば、海外の取引先から届いた手書きの契約書や複雑な表が含まれたPDF請求書をChandraに読み込ませると、表の構造やチェックボックスの状態を正確に再現したMarkdownファイルが自動生成され、そのままドキュメント管理システムに取り込んだり検索可能な形で保存したりできます。

ユースケース: 紙の書類やPDFに含まれる表・手書き・数式などを、レイアウトを保ったまま編集可能なデジタルデータに自動変換したいときに使います。

  • 90以上の言語に対応し、多言語ベンチマークで平均77.8%(Gemini 2.5 Flashの67.6%を大幅に上回る)を達成
  • 手書き文字・数式・複雑な表・チェックボックス付きフォームなどの難しい文書も正確に構造化
  • コマンド1つでPDFからMarkdown/HTML/JSONに変換でき、vLLMサーバーによる大量バッチ処理にも対応
GitHubで見る →

OCR model that handles complex tables, forms, handwriting with full layout.

技術情報

言語

Python

ライセンス

Apache-2.0

最終更新

2026-03-18

スター数

7,768

フォーク数

771

Issue数

33

トピック

aiocr

技術詳細

アーキテクチャ・推論方式

  • モデル名: datalab-to/chandra-ocr-2(HuggingFace上で公開)
  • 2つの推論バックエンドを提供:
    • HuggingFace(ローカル): transformers + PyTorchを利用。flash attentionの導入を推奨
    • vLLM(サーバー): Dockerコンテナで最適化された推論サーバーを起動し、APIベースで処理。本番環境・バッチ処理向け
  • ベースモデルとしてQwen 3.5系を活用(Creditsセクションより)

出力形式

  • Markdown.md)、HTML.html)、JSON_metadata.json)を同時生成
  • 抽出した画像は出力ディレクトリに保存
  • ページ範囲指定、ヘッダー/フッターの除外、画像抽出の有無などをオプションで制御可能

主要機能一覧

  • 複雑な表(金融表、統計表など)の正確な構造化
  • 手書き文字・筆記体の認識
  • 数式(LaTeX的な数学表記)の変換
  • チェックボックスを含むフォームの再現
  • 図表・グラフの抽出とキャプション・構造データの付与
  • マルチカラム(複数段組み)レイアウトの対応
  • 古いスキャン文書の処理

対応言語・多言語性能

  • 90以上の言語に対応
  • 43言語ベンチマーク平均: Chandra 2 = 77.8%、Gemini 2.5 Flash = 67.6%、GPT-5 Mini = 60.5%
  • 90言語ベンチマーク平均: Chandra 2 = 72.7% vs Gemini 2.5 Flash = 60.8%
  • 日本語: 86.9%、中国語: 88.7%、ドイツ語: 94.8%、フランス語: 93.7%など高水準

ベンチマーク(olmOCRベンチマーク)

モデル総合スコア
Datalab API86.7%
Chandra 285.9%
dots.ocr 1.583.9%
olmOCR 282.4%
Deepseek OCR75.4%
GPT-4o69.9%
Gemini Flash 263.8%

スループット(処理速度)

  • NVIDIA H100 80GB GPU 1台、vLLM利用時:
    • 1.44ページ/秒(96並列シーケンス)
    • 平均遅延: 60秒、P95遅延: 156秒、失敗率: 0%
  • 実運用では約2ページ/秒と推定

CLIオプション

  • --method [hf|vllm]: 推論方式の選択(デフォルト: vllm)
  • --page-range: ページ範囲指定(例: "1-5,7,9-12")
  • --max-output-tokens: 1ページあたりの最大トークン数(デフォルト: 12384)
  • --max-workers: vLLM並列ワーカー数
  • --include-images/--no-images: 画像抽出の有無
  • --include-headers-footers/--no-headers-footers: ヘッダー/フッターの有無
  • --batch-size: バッチサイズ(vllm: 28、hf: 1)

環境変数による設定

local.envファイルまたは環境変数で設定可能:

  • MODEL_CHECKPOINT: 使用モデル
  • MAX_OUTPUT_TOKENS: 最大出力トークン数
  • VLLM_API_BASE, VLLM_MODEL_NAME, VLLM_GPUS: vLLMサーバー設定

ライセンス・商用利用

  • コード: Apache 2.0ライセンス(自由に利用可能)
  • モデル重み: 修正OpenRAIL-Mライセンス
    • 研究・個人利用・スタートアップ(資金調達/売上200万ドル未満)は無料
    • Datalab APIと競合する用途での使用は禁止
    • より広い商用利用にはライセンス購入が必要

ホストAPI・プレイグラウンド

インストール・クイックスタート

# 基本インストール(vLLMバックエンド用)
pip install chandra-ocr

# vLLMサーバーを起動(推奨・軽量)
chandra_vllm

# PDFを変換(vLLM経由)
chandra input.pdf ./output

# HuggingFaceバックエンドを使う場合(PyTorchが必要)
pip install chandra-ocr[hf]
chandra input.pdf ./output --method hf

# Webアプリ(対話型UI)を起動する場合
pip install chandra-ocr[app]
chandra_app

ソースからビルドする場合:

git clone https://github.com/datalab-to/chandra.git
cd chandra
uv sync
source .venv/bin/activate

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ

写真1枚でリアルタイム顔入れ替え!ワンクリックでディープフェイク映像を生成 — Deep-Live-Cam

hacksider/Deep-Live-CamPython90.5k

Deep-Live-Camは、たった1枚の写真を用意するだけで、ウェブカメラの映像やビデオの中の顔をリアルタイムに別人の顔に入れ替えられるソフトウェアです。「顔を選ぶ→カメラを選ぶ→ライブボタンを押す

使うほど賢くなるAIエージェント — 学習・記憶・自動化を全部入りで月5ドルから運用 — hermes-agent

NousResearch/hermes-agentPython87.5k

Hermes Agentは、Nous Research社が開発した「自己改善するAIエージェント」です。会話するたびに経験からスキルを自動生成し、ユーザーの好みや過去のやり取りを記憶して、使えば使うほ

PDFや画像を一瞬で構造化データに変換!100言語以上対応のAI文字認識エンジン — PaddleOCR

PaddlePaddle/PaddleOCRPython74.5k

PaddleOCRは、PDFや画像の中にある文字・表・数式・グラフなどを読み取り、MarkdownやJSON(コンピュータが扱いやすいデータ形式)に自動変換するツールです。100以上の言語に対応してお

キーワードを入れるだけでAIが高画質ショート動画を自動生成! — MoneyPrinterTurbo

harry0703/MoneyPrinterTurboPython53.0k

MoneyPrinterTurboは、動画のテーマやキーワードを入力するだけで、AIが台本作成・映像素材の収集・字幕生成・BGM追加まですべて自動でこなし、高画質なショート動画を一発で作ってくれるツー

あらゆるAIモデルを束ねて社内チャット・検索・研究を全自動化するオープンソース基盤 — onyx

onyx-dot-app/onyxPython25.3k

Onyxは、ChatGPTのようなAIチャット機能を自分のサーバーに設置できるオープンソースのAIプラットフォームです。50種類以上の外部サービス(Google Drive、Slackなど)と接続し、