複雑な表・手書き・数式もまるごとデジタル化！90言語対応の最先端OCRモデル — chandra

datalab-to/chandraPython7.8k

Chandra OCR 2は、画像やPDFに含まれる文字を読み取り、表や数式、手書き文字などのレイアウト情報を保ったままMarkdown・HTML・JSON形式に変換できるAI OCR（光学文字認識）モデルです。90以上の言語に対応しており、日本語・中国語・アラビア語などの多言語文書もそのまま処理できます。チェックボックス付きのフォームや複雑なレイアウトの再現、画像やグラフの抽出とキャプション付与まで行えるのが特長です。広く使われているベンチマーク（性能比較テスト）でトップクラスのスコアを記録しており、GPT-4oやGeminiなどの大手AIモデルを上回る精度を実現しています。プログラマーだけでなく、書類のデジタル化を効率化したいすべての人に役立つツールです。

🔥 なぜ話題？

企業のペーパーレス化やRAG（検索拡張生成）パイプラインの普及に伴い、高精度なOCRへの需要が急増しています。Chandra OCR 2は、既存の大手AIモデル（GPT-4o、Gemini等）を上回るベンチマークスコアと90言語対応という強みで、多言語文書処理の決定版として注目を集めています。

💡 こう使える！

例えば、海外の取引先から届いた手書きの契約書や複雑な表が含まれたPDF請求書をChandraに読み込ませると、表の構造やチェックボックスの状態を正確に再現したMarkdownファイルが自動生成され、そのままドキュメント管理システムに取り込んだり検索可能な形で保存したりできます。

ユースケース: 紙の書類やPDFに含まれる表・手書き・数式などを、レイアウトを保ったまま編集可能なデジタルデータに自動変換したいときに使います。

90以上の言語に対応し、多言語ベンチマークで平均77.8%（Gemini 2.5 Flashの67.6%を大幅に上回る）を達成
手書き文字・数式・複雑な表・チェックボックス付きフォームなどの難しい文書も正確に構造化
コマンド1つでPDFからMarkdown/HTML/JSONに変換でき、vLLMサーバーによる大量バッチ処理にも対応

GitHubで見る →

OCR model that handles complex tables, forms, handwriting with full layout.

技術情報

言語

Python

ライセンス

Apache-2.0

最終更新

2026-03-18

スター数

7,768

フォーク数

771

Issue数

トピック

aiocr

技術詳細

アーキテクチャ・推論方式

モデル名: datalab-to/chandra-ocr-2（HuggingFace上で公開）
2つの推論バックエンドを提供:
- HuggingFace（ローカル）: transformers + PyTorchを利用。flash attentionの導入を推奨
- vLLM（サーバー）: Dockerコンテナで最適化された推論サーバーを起動し、APIベースで処理。本番環境・バッチ処理向け
ベースモデルとしてQwen 3.5系を活用（Creditsセクションより）

出力形式

Markdown（.md）、HTML（.html）、JSON（_metadata.json）を同時生成
抽出した画像は出力ディレクトリに保存
ページ範囲指定、ヘッダー/フッターの除外、画像抽出の有無などをオプションで制御可能

主要機能一覧

複雑な表（金融表、統計表など）の正確な構造化
手書き文字・筆記体の認識
数式（LaTeX的な数学表記）の変換
チェックボックスを含むフォームの再現
図表・グラフの抽出とキャプション・構造データの付与
マルチカラム（複数段組み）レイアウトの対応
古いスキャン文書の処理

対応言語・多言語性能

90以上の言語に対応
43言語ベンチマーク平均: Chandra 2 = 77.8%、Gemini 2.5 Flash = 67.6%、GPT-5 Mini = 60.5%
90言語ベンチマーク平均: Chandra 2 = 72.7% vs Gemini 2.5 Flash = 60.8%
日本語: 86.9%、中国語: 88.7%、ドイツ語: 94.8%、フランス語: 93.7%など高水準

ベンチマーク（olmOCRベンチマーク）

モデル	総合スコア
Datalab API	86.7%
Chandra 2	85.9%
dots.ocr 1.5	83.9%
olmOCR 2	82.4%
Deepseek OCR	75.4%
GPT-4o	69.9%
Gemini Flash 2	63.8%

スループット（処理速度）

NVIDIA H100 80GB GPU 1台、vLLM利用時:
- 1.44ページ/秒（96並列シーケンス）
- 平均遅延: 60秒、P95遅延: 156秒、失敗率: 0%
実運用では約2ページ/秒と推定

CLIオプション

--method [hf|vllm]: 推論方式の選択（デフォルト: vllm）
--page-range: ページ範囲指定（例: "1-5,7,9-12"）
--max-output-tokens: 1ページあたりの最大トークン数（デフォルト: 12384）
--max-workers: vLLM並列ワーカー数
--include-images/--no-images: 画像抽出の有無
--include-headers-footers/--no-headers-footers: ヘッダー/フッターの有無
--batch-size: バッチサイズ（vllm: 28、hf: 1）

環境変数による設定

local.envファイルまたは環境変数で設定可能:

MODEL_CHECKPOINT: 使用モデル
MAX_OUTPUT_TOKENS: 最大出力トークン数
VLLM_API_BASE, VLLM_MODEL_NAME, VLLM_GPUS: vLLMサーバー設定

ライセンス・商用利用

コード: Apache 2.0ライセンス（自由に利用可能）
モデル重み: 修正OpenRAIL-Mライセンス
- 研究・個人利用・スタートアップ（資金調達/売上200万ドル未満）は無料
- Datalab APIと競合する用途での使用は禁止
- より広い商用利用にはライセンス購入が必要

ホストAPI・プレイグラウンド

datalab.toでホストAPIを提供（より高精度・高速）
インストール不要の無料プレイグラウンドあり

インストール・クイックスタート

# 基本インストール（vLLMバックエンド用）
pip install chandra-ocr

# vLLMサーバーを起動（推奨・軽量）
chandra_vllm

# PDFを変換（vLLM経由）
chandra input.pdf ./output

# HuggingFaceバックエンドを使う場合（PyTorchが必要）
pip install chandra-ocr[hf]
chandra input.pdf ./output --method hf

# Webアプリ（対話型UI）を起動する場合
pip install chandra-ocr[app]
chandra_app

ソースからビルドする場合:

git clone https://github.com/datalab-to/chandra.git
cd chandra
uv sync
source .venv/bin/activate

過去のトレンド履歴

複雑な表・手書き・数式もまるごとデジタル化！90言語対応の最先端OCRモデル — chandra

2026-03-28

6+912

2026-03-27

6+557

複雑な表・手書き・数式もまるごとデジタル化！90言語対応の最先端OCRモデル — chandra

技術情報

技術詳細

アーキテクチャ・推論方式

出力形式

主要機能一覧

対応言語・多言語性能

ベンチマーク（olmOCRベンチマーク）

スループット（処理速度）

CLIオプション

環境変数による設定

ライセンス・商用利用

ホストAPI・プレイグラウンド

インストール・クイックスタート

参考になる外部の関連記事

過去のトレンド履歴

関連リポジトリ