PDFや画像を一瞬で構造化データに変換!100言語以上対応のAI文字認識エンジン — PaddleOCR

PaddlePaddle/PaddleOCRPython74.5k

PaddleOCRは、PDFや画像の中にある文字・表・数式・グラフなどを読み取り、MarkdownやJSON(コンピュータが扱いやすいデータ形式)に自動変換するツールです。100以上の言語に対応しており、日本語・英語・中国語が混在した文書でもまとめて読み取れます。PaddleOCRはDifyやRAGFlowなどの有名なAIプロジェクトにも組み込まれており、AI(人工知能)にデータを渡すための「下準備ツール」として世界中で活用されています。写真が斜めだったり、照明が暗かったり、スキャンで歪んだ書類でも正確に読み取れる点が大きな特長です。プログラマーだけでなく、大量の紙資料をデジタル化したい企業の担当者にも役立ちます。

🔥 なぜ話題?

ChatGPTなどの大規模言語モデル(LLM)を業務で使う際に、紙やPDFの情報をAIが理解できる形に変換する「前処理」が重要になっており、PaddleOCRはまさにその役割を担うツールとして注目が高まっています。特に最新バージョンで搭載された軽量なビジョン言語モデル(VLM)が、歪みや照明ムラのある実世界の書類でも高精度に処理できる点が話題です。

💡 こう使える!

例えば、海外の取引先から届いた英語と日本語が混在した請求書PDFが100枚あるとき、PaddleOCRに渡すだけで表の中身や金額を自動で読み取り、Excelに貼り付けられるような構造化データとして出力してくれます。手入力の手間が一気になくなります。

ユースケース: 紙の書類やPDFに書かれた文字・表・数式を自動で読み取り、AIやデータベースにそのまま渡せる形に変換したいとき

  • 100以上の言語に対応し、多言語が混在した文書でも1つのモデルで処理可能
  • 歪み・傾き・照明不良など実世界の劣悪な条件でも高精度に読み取るVLMモデル搭載
  • Dify・RAGFlow・Cherry Studioなど6,000以上のプロジェクトに採用されている実績
  • MarkdownやJSON形式で出力できるため、AIチャットボットやRAGシステムとの連携が容易
  • CPU・GPU・XPU・NPUなど多様なハードウェアで動作し、クラウドでもエッジでもデプロイ可能
GitHubで見る →

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

技術情報

言語

Python

ライセンス

Apache-2.0

最終更新

2026-04-01

スター数

74,536

フォーク数

10,141

Issue数

262

トピック

ai4sciencechineseocrdocument-parsingdocument-translationkieocrpaddleocr-vlpdf-extractor-ragpdf-parserpdf2markdownpp-ocrpp-structurerag

技術詳細

アーキテクチャ・主要コンポーネント

PaddleOCRは大きく3つの柱で構成されています:

1. PP-OCRv5(シーンテキスト認識)

  • 100以上の言語をサポートする汎用OCRエンジン
  • 単一モデルで多言語混在文書(中国語・英語・日本語・ピンインなど)を処理
  • 前世代比で精度13%向上
  • 認識モデルのパラメータ数はわずか約2Mと超軽量
  • 単一文字座標の返却にも対応

2. PaddleOCR-VL-1.5(ビジョン言語モデル)

  • 0.9Bパラメータの超小型VLM(Vision-Language Model)
  • NaViTスタイルの動的解像度ビジュアルエンコーダ + ERNIE-4.5-0.3B言語モデルを統合
  • OmniDocBenchで94.5%の精度を達成し、大型汎用モデルや専用パーサーを上回る
  • 5つの難条件に対応:歪み・スキャン・画面撮影・照明不良・傾き
  • 印鑑認識、テキストスポッティング、111言語(チベット語・ベンガル語含む)に対応
  • 長文書のクロスページ表結合・階層的見出し識別をサポート
  • HuggingFaceで公開済み

3. PP-StructureV3(文書構造化変換)

  • 複雑なPDFや画像をMarkdown / JSONに変換
  • テーブルセル座標・テキスト座標など細粒度の座標情報を提供
  • チャートからテーブルへの変換(PP-Chart2Table)にも対応

対応環境・プラットフォーム

  • OS: Linux、Windows、macOS
  • Python: 3.8〜3.12
  • ハードウェア: CPU、NVIDIA GPU(CUDA 12対応・RTX 50シリーズ対応)、Intel XPU、Kunlunxin XPU、NPU
  • PaddlePaddle: バージョン3.1.0 / 3.1.1対応
  • 推論バックエンド: Paddle Inference、ONNX Runtime、OpenVINO、TensorRT
  • デプロイ形態: ローカル(Python / C++)、サービスデプロイ(Docker / HTTP API)、マルチGPU・マルチプロセス並列推論

連携・エコシステム

  • 主要連携先: Dify、RAGFlow、Pathway、Cherry Studio、Haystack、OmniParser(Microsoft)など6,000以上のリポジトリで利用
  • モデル形式変換: ONNX形式へのエクスポートをサポート
  • 多言語SDK: C++、C#、Javaなどからの呼び出しに対応(サービスデプロイ経由)
  • ベンチマーク機能: エンドツーエンドの推論時間やレイヤーごとのレイテンシを細粒度で計測可能

依存関係の管理

  • コア依存(基本的なテキスト認識用)とオプション依存(文書解析・情報抽出用)が分離されており、必要な機能に応じてインストール可能

ライセンス

  • Apache 2.0ライセンス(商用利用可能)

学術論文

  • PaddleOCR 3.0 Technical Report(arXiv: 2507.05595)
  • PaddleOCR-VL(arXiv: 2510.14528)
  • PaddleOCR-VL-1.5(arXiv: 2601.21957)

インストール・クイックスタート

オンラインで試す

インストール不要で公式サイトから体験できます: 👉 https://www.paddleocr.com

ローカルにインストール

pip install paddleocr

用途に応じて以下のドキュメントを参照してください:

参考になる外部の関連記事

関連リポジトリ

PDFの中身をAIが読める形に変換!精度No.1のオープンソースPDFパーサー — opendataloader-pdf

opendataloader-project/opendataloader-pdfJava15.8k

opendataloader-pdfは、PDFファイルの中身(文章・表・画像・数式など)を、AIが理解しやすい形式(Markdown・JSON・HTML)に変換するオープンソースツールです。200件の

知識グラフ×ベクトル検索で「質問に的確に答えるAI」を爆速構築! — LightRAG

HKUDS/LightRAGPython30.2k

LightRAGは、大量の文書をAIに読み込ませて「賢く質問に答えられる仕組み」を簡単に作れるツールです。従来のRAG(検索拡張生成:AIが質問に答える前に関連情報を検索して参照する技術)に加え、文書

あらゆるAIモデルを束ねて社内チャット・検索・研究を全自動化するオープンソース基盤 — onyx

onyx-dot-app/onyxPython25.3k

Onyxは、ChatGPTのようなAIチャット機能を自分のサーバーに設置できるオープンソースのAIプラットフォームです。50種類以上の外部サービス(Google Drive、Slackなど)と接続し、

AIが「あなた専用の家庭教師」になる!PDF教材を読み込んで個別指導してくれる学習アシスタント — DeepTutor

HKUDS/DeepTutorPython17.0k

DeepTutorは、PDFやテキストなどの学習資料をアップロードすると、その内容を理解したAIが個別指導してくれるパーソナル学習アシスタントです。単なるチャットボットではなく、質問への回答、問題の深

AIエージェントの「脳」を丸ごと管理!ファイルシステム発想のコンテキストDB — OpenViking

volcengine/OpenVikingPython14.7k

OpenVikingは、AIエージェント(自律的にタスクをこなすAIプログラム)が必要とする「記憶」「資料」「スキル」をまとめて管理できるオープンソースのコンテキストデータベースです。パソコンのフォル