検索

OCR PDF – スキャンしたPDFを検索可能に

OCR(光学文字認識)はテキスト画像をPDF内の実際の検索可能なテキストに変換します。

OCRの仕組み

1) 画像解析。 スキャナがページを読み取りピクセルデータに変換します。明るい部分は背景、暗い部分はテキストや図形を示します。

2) 前処理。 画像を整えます:エッジを滑らかにし、ノイズを除去し、スキャンをまっすぐにし、線を整え、文字種を判別します。

3) 文字認識。 特徴抽出とパターンマッチングで文字や単語を識別します。

4) 後処理。 認識したテキストを不可視レイヤーとして追加するか、プレーンテキストとして出力します。

共有:

よくある質問

OCRとは何ですか?

OCR(光学文字認識)は、テキスト画像をPDF内の検索可能で機械判読可能なテキストに変換します。

PDFの見た目は同じですか?

はい。元のページ内容を保持し、不可視のテキストレイヤーを重ねるため、見た目は変わらずテキストは選択・検索できます。

モバイルでも動作しますか?

はい。インターフェイスはタッチ操作に対応しており、最新のモバイルブラウザで動作します。

ファイルは非公開ですか?

認識処理はブラウザ内で行われ、ファイルがサーバーに保存されることはありません。

大きなPDFのOCRにはどれくらい時間がかかりますか?

OCRの速度はページ数と言語によります。100ページのスキャンでも最新のノートPCなら通常1分以内で完了します。