OCR PDF – スキャンしたPDFを検索可能に
無料OCR(光学文字認識)はテキスト画像をPDF内の実際の検索可能なテキストに変換します。
OCRの仕組み
1) 画像解析。 スキャナがページを読み取りピクセルデータに変換します。明るい部分は背景、暗い部分はテキストや図形を示します。
2) 前処理。 画像を整えます:エッジを滑らかにし、ノイズを除去し、スキャンをまっすぐにし、線を整え、文字種を判別します。
3) 文字認識。 特徴抽出とパターンマッチングで文字や単語を識別します。
4) 後処理。 認識したテキストを不可視レイヤーとして追加するか、プレーンテキストとして出力します。
共有:
よくある質問
OCRとは何ですか?
OCR(光学文字認識)は、テキスト画像をPDF内の検索可能で機械判読可能なテキストに変換します。
PDFの見た目は同じですか?
はい。元のページ内容を保持し、不可視のテキストレイヤーを重ねるため、見た目は変わらずテキストは選択・検索できます。
モバイルでも動作しますか?
はい。インターフェイスはタッチ操作に対応しており、最新のモバイルブラウザで動作します。
ファイルは非公開ですか?
認識処理はブラウザ内で行われ、ファイルがサーバーに保存されることはありません。
大きなPDFのOCRにはどれくらい時間がかかりますか?
OCRの速度はページ数と言語によります。100ページのスキャンでも最新のノートPCなら通常1分以内で完了します。