# ocr

このトピックのトレンドリポジトリ(3件)

PDFや画像を一瞬で構造化データに変換!100言語以上対応のAI文字認識エンジン — PaddleOCR

PaddlePaddle/PaddleOCRAIPython
74.5k

PaddleOCRは、PDFや画像の中にある文字・表・数式・グラフなどを読み取り、MarkdownやJSON(コンピュータが扱いやすいデータ形式)に自動変換するツールです。100以上の言語に対応しており、日本語・英語・中国語が混在した文書で

ai4sciencechineseocrdocument-parsingdocument-translationkieocrpaddleocr-vlpdf-extractor-ragpdf-parserpdf2markdownpp-ocrpp-structurerag

PDFの中身をAIが読める形に変換!精度No.1のオープンソースPDFパーサー — opendataloader-pdf

opendataloader-project/opendataloader-pdfAIJava
15.8k6回登場

opendataloader-pdfは、PDFファイルの中身(文章・表・画像・数式など)を、AIが理解しやすい形式(Markdown・JSON・HTML)に変換するオープンソースツールです。200件の実際のPDFを使ったベンチマークで総合精

a11yaccessibilityaibounding-boxdocument-parsingeaahtmljsonmarkdownocrocr-recognitionpdfpdf-accessibilitypdf-converterpdf-extractionpdf-parserpdf-uaragtablestagged-pdf

複雑な表・手書き・数式もまるごとデジタル化!90言語対応の最先端OCRモデル — chandra

datalab-to/chandraAIPython
7.8k3回登場

Chandra OCR 2は、画像やPDFに含まれる文字を読み取り、表や数式、手書き文字などのレイアウト情報を保ったままMarkdown・HTML・JSON形式に変換できるAI OCR(光学文字認識)モデルです。90以上の言語に対応しており

aiocr