OCR PDF – スキャンしたPDFを検索可能に
無料OCR(光学文字認識)はテキスト画像をPDF内の実際の検索可能なテキストに変換します。
主なOCR機能
ワークフローに合わせた出力オプション
引用やキャプション、翻訳下書きのためにプレーンテキストを即座にエクスポートできます。 元のレイアウトを保ったまま、見えないテキストレイヤー付きの検索可能なPDFを生成します。 墨消しやPDF/A 変換用に書き起こしが必要な場合は、オリジナルの体裁と併せて両方の出力を保存します。
適切なページと言語を自動検出
デフォルトでスキャンページを自動検出するため、必要な箇所だけでOCRが動作します。 資料を分割したり長いPDFを整理する前に、全ページに切り替えるか任意の範囲を入力できます。 言語自動検出が最適なTesseractモデルを選択し、軽量なダウンロードにしたい場合は英語・スペイン語・ドイツ語に固定できます。
専門家向けの高度なチューニング
アーカイブ用途のスキャンに合わせてDPIを微調整し、カラムやフォーム、手書き文向けにページ分割モードを調整します。最小信頼度を設定し、分割されたトークンを結合し、よりクリーンな出力のために使用文字のホワイトリスト/ブラックリストを制御できます。
PDFJuggler が OCR で勝てる理由
プライバシー、価格設定、セットアップ、言語処理、コントロールを 1 つのビューで比較します。
プライバシー
- PDFジャグラー
 - ブラウザベースの処理により PDF がデバイス上に保持されるため、機密データがデスクから離れることはありません。
 - その他のOCRサービス
 - ほとんどのクラウド OCR ツールは、処理前にファイルをリモート サーバーにアップロードします。
 
価格
- PDFジャグラー
 - サブスクリプション、トライアル、ウォーターマークのサプライズのない無料の OCR。
 - その他のOCRサービス
 - 多くのサービスはページを計測したり、有料レベルの背後でエクスポートをロックしたりしています。
 
インストール
- PDFジャグラー
 - ブラウザで即座に実行されます。デスクトップへのダウンロード、プラグイン、管理者の承認は必要ありません。
 - その他のOCRサービス
 - ネイティブ アプリやクラウド ポータルでは、多くの場合、インストーラー、サインアップ、または IT チケットが必要です。
 
言語の取り扱い
- PDFジャグラー
 - 言語を自動検出し、一貫した結果を得るために固定できる調整されたオフライン パックを出荷します。
 - その他のOCRサービス
 - 限定された言語パックや手動切り替えにより、複数の市場にまたがるチームの作業が遅くなります。
 
高度なコントロール
- PDFジャグラー
 - DPI、セグメンテーションを調整し、検索可能な PDF とプレーン テキストの両方を 1 回の実行でエクスポートします。
 - その他のOCRサービス
 - 電源機能とデュアル出力ワークフローは通常、追加料金がかかるか、まったく備わっていません。
 
これらの Playbook に従って、ブラウザーを離れることなくスキャンを準備し、言語を処理し、検索可能なパケットを配信します。
検索可能なアーカイブとクリーンなハンドオフのための OCR PDF ワークフロー
スキャンした PDF をアーカイブする前に検索可能にする
バイリンガル チームまたはグローバル チームの言語を固定する
編集および翻訳用に OCR テキストを準備する
コンプライアンス対応の OCR ハンドオフを自動化する
PDF を検索可能にする方法
スキャンした PDF をアップロードします。スキャンした文書をドラッグ アンド ドロップするか、デバイスから選択します。
ドキュメントの言語を選択します。認識が文字と正確に一致するように言語を選択します。
どのページを処理するかを決定します。すべてのページ、スキャンとして検出されたページのみ、またはカスタム ページ範囲で OCR を実行します。
結果を変換してダウンロードします。検索可能な PDF を作成するか、処理が完了したらプレーン テキストをエクスポートします。
OCR ワークフロー: 関連ツールとガイド
PDFを修復する
OCR ですべてのページを読み取れるように破損した PDF を修正します。
PDFの分割
認識前にセクションを分割するか、空白のスキャンを削除してください。
PDFを整理する
ページの順序を変更したり回転したりして、テキスト行が直立した状態になるようにします。
PDFを圧縮する
OCR 後の共有を高速化するために、検索可能な PDF サイズを縮小します。
ガイド: オンラインで OCR スキャンされた PDF
スキャンを検索可能なテキストに変換するための段階的なワークフロー。
ガイド: 高度なPDFツールを使いこなす
ブラウザだけで高度なPDFツールを理解し、定義・フレームワーク・手法・ツール・FAQ・ダウンロード資料までを網羅的に整理するガイドです。
よくある質問
OCRとは何ですか?
OCR(光学文字認識)は、テキスト画像をPDF内の検索可能で機械判読可能なテキストに変換します。
PDFの見た目は同じですか?
はい。元のページ内容を保持し、不可視のテキストレイヤーを重ねるため、見た目は変わらずテキストは選択・検索できます。
モバイルでも動作しますか?
はい。インターフェイスはタッチ操作に対応しており、最新のモバイルブラウザで動作します。
ファイルは非公開ですか?
認識処理はブラウザ内で行われ、ファイルがサーバーに保存されることはありません。
大きなPDFのOCRにはどれくらい時間がかかりますか?
OCRの速度はページ数と言語によります。100ページのスキャンでも最新のノートPCなら通常1分以内で完了します。
どの言語がサポートされていますか?
PDF Juggler には、英語、スペイン語、ドイツ語、フランス語、イタリア語のオフライン Tesseract モデルがバンドルされています。これらのパックは、POS レシート、国境を越えた契約書、学術 PDF などの一般的な文書タイプに合わせて調整されているため、合計、条項、引用が正確に保たれます。
言語が混在した PDF を OCR できますか?
はい。検出を自動にしておくと、各ページが分析され、適切な言語パックがダウンロードされ、認識前に辞書のバランスがとれます。二か国語の領収書の場合は英語とスペイン語を切り替え、二段組みの契約書や研究用 PDF では表示される言語をロックして、テキストをエクスポートするときに段落の位置が揃うようにします。