Support PDF Juggler?

Allow privacy-focused ads to help keep our tools fast, reliable, and free.

検索

OCR PDF – スキャンしたPDFを検索可能に

OCR(光学文字認識)はテキスト画像をPDF内の実際の検索可能なテキストに変換します。

主なOCR機能

ワークフローに合わせた出力オプション

引用やキャプション、翻訳下書きのためにプレーンテキストを即座にエクスポートできます。 元のレイアウトを保ったまま、見えないテキストレイヤー付きの検索可能なPDFを生成します。 墨消しやPDF/A 変換用に書き起こしが必要な場合は、オリジナルの体裁と併せて両方の出力を保存します。

適切なページと言語を自動検出

デフォルトでスキャンページを自動検出するため、必要な箇所だけでOCRが動作します。 資料を分割したり長いPDFを整理する前に、全ページに切り替えるか任意の範囲を入力できます。 言語自動検出が最適なTesseractモデルを選択し、軽量なダウンロードにしたい場合は英語・スペイン語・ドイツ語に固定できます。

専門家向けの高度なチューニング

アーカイブ用途のスキャンに合わせてDPIを微調整し、カラムやフォーム、手書き文向けにページ分割モードを調整します。最小信頼度を設定し、分割されたトークンを結合し、よりクリーンな出力のために使用文字のホワイトリスト/ブラックリストを制御できます。

PDFJuggler が OCR で勝てる理由

プライバシー、価格設定、セットアップ、言語処理、コントロールを 1 つのビューで比較します。

プライバシー

PDFジャグラー
ブラウザベースの処理により PDF がデバイス上に保持されるため、機密データがデスクから離れることはありません。
その他のOCRサービス
ほとんどのクラウド OCR ツールは、処理前にファイルをリモート サーバーにアップロードします。

価格

PDFジャグラー
サブスクリプション、トライアル、ウォーターマークのサプライズのない無料の OCR。
その他のOCRサービス
多くのサービスはページを計測したり、有料レベルの背後でエクスポートをロックしたりしています。

インストール

PDFジャグラー
ブラウザで即座に実行されます。デスクトップへのダウンロード、プラグイン、管理者の承認は必要ありません。
その他のOCRサービス
ネイティブ アプリやクラウド ポータルでは、多くの場合、インストーラー、サインアップ、または IT チケットが必要です。

言語の取り扱い

PDFジャグラー
言語を自動検出し、一貫した結果を得るために固定できる調整されたオフライン パックを出荷します。
その他のOCRサービス
限定された言語パックや手動切り替えにより、複数の市場にまたがるチームの作業が遅くなります。

高度なコントロール

PDFジャグラー
DPI、セグメンテーションを調整し、検索可能な PDF とプレーン テキストの両方を 1 回の実行でエクスポートします。
その他のOCRサービス
電源機能とデュアル出力ワークフローは通常、追加料金がかかるか、まったく備わっていません。

これらの Playbook に従って、ブラウザーを離れることなくスキャンを準備し、言語を処理し、検索可能なパケットを配信します。

検索可能なアーカイブとクリーンなハンドオフのための OCR PDF ワークフロー

PDF を検索可能にする方法

  1. スキャンした PDF をアップロードします。スキャンした文書をドラッグ アンド ドロップするか、デバイスから選択します。

  2. ドキュメントの言語を選択します。認識が文字と正確に一致するように言語を選択します。

  3. どのページを処理するかを決定します。すべてのページ、スキャンとして検出されたページのみ、またはカスタム ページ範囲で OCR を実行します。

  4. 結果を変換してダウンロードします。検索可能な PDF を作成するか、処理が完了したらプレーン テキストをエクスポートします。

OCR ワークフロー: 関連ツールとガイド

よくある質問

OCRとは何ですか?

OCR(光学文字認識)は、テキスト画像をPDF内の検索可能で機械判読可能なテキストに変換します。

PDFの見た目は同じですか?

はい。元のページ内容を保持し、不可視のテキストレイヤーを重ねるため、見た目は変わらずテキストは選択・検索できます。

モバイルでも動作しますか?

はい。インターフェイスはタッチ操作に対応しており、最新のモバイルブラウザで動作します。

ファイルは非公開ですか?

認識処理はブラウザ内で行われ、ファイルがサーバーに保存されることはありません。

大きなPDFのOCRにはどれくらい時間がかかりますか?

OCRの速度はページ数と言語によります。100ページのスキャンでも最新のノートPCなら通常1分以内で完了します。

どの言語がサポートされていますか?

PDF Juggler には、英語、スペイン語、ドイツ語、フランス語、イタリア語のオフライン Tesseract モデルがバンドルされています。これらのパックは、POS レシート、国境を越えた契約書、学術 PDF などの一般的な文書タイプに合わせて調整されているため、合計、条項、引用が正確に保たれます。

言語が混在した PDF を OCR できますか?

はい。検出を自動にしておくと、各ページが分析され、適切な言語パックがダウンロードされ、認識前に辞書のバランスがとれます。二か国語の領収書の場合は英語とスペイン語を切り替え、二段組みの契約書や研究用 PDF では表示される言語をロックして、テキストをエクスポートするときに段落の位置が揃うようにします。

OCRツール|スキャンPDFを検索可能化・テキスト抽出・多言語・ローカル処理対応・アップロード不要で安全高速 | pdfjuggler.com