howto

Как сделать сканированные PDF файлы доступными для поиска (пошагово)

Published 3 октября 2025 г.

By Reid Nakamura, Privacy Research Lead

Как сделать сканированные PDF файлы доступными для поиска (пошагово)

Раньше оптическое распознавание символов (OCR) требовало дорогих лицензий. С pdfjuggler вы сделаете сканированный PDF доступным для поиска без Adobe, без загрузок в облако и без сложных установок. После OCR появляется мгновенный поиск, стабильное копирование текста и более компактные архивы, если в конце воспользоваться инструментом Сжать PDF. Инструмент OCR PDF полностью работает в браузере, поэтому конфиденциальные файлы остаются на устройстве даже офлайн.

Что понадобится:

Сканированный PDF или многостраничный файл изображений, на который у вас есть права.
Браузер Chromium, Firefox, Safari или Edge с включенным JavaScript на компьютере или телефоне.
Дополнительные помощники: Повернуть PDF, Упорядочить PDF или Разделить PDF.

Примерное время: 10–15 минут на документ из 20 страниц плюс подготовка, если сканы проблемные.

Сложность: Простая для четких сканов, средняя для перекошенных или многоязычных страниц.

Пошаговая инструкция

Откройте инструмент OCR и уточните требования к документу

Перейдите в рабочую область OCR. Просмотрите скан, чтобы заметить мелкий текст, печати или смешанные языки. Сохраните исходную копию и запишите количество страниц для контроля прогресса.
Подготовьте скан для максимальной точности OCR

Выпрямите наклоненные страницы, удалите пустые листы и отсортируйте разделы через Упорядочить PDF. Если страницы бледные, пересканируйте или увеличьте яркость, а слишком тяжелые файлы уменьшите через Сжать PDF или разделите с помощью Разделить PDF.
Загрузите сканированный PDF безопасно и без облака

Перетащите файл в инструмент или нажмите Выбрать PDF. Распознавание выполняется локально с помощью WebAssembly и Tesseract, поэтому данные остаются конфиденциальными. Проверьте миниатюры перед продолжением.
Выберите язык OCR, макет и параметры оптимизации

Выберите основной язык и, при необходимости, дополнительные пакеты. Включите авто-поворот или выравнивание для кривых страниц и оставьте сохранение макета для таблиц. Решите, включать ли сжатие (удобно для почты) или сохранить максимум качества для архива.
Запустите OCR и следите за прогрессом

Нажмите Запустить OCR. Отслеживайте индикатор и устраняйте предупреждения, возвращаясь ко второму шагу. На устройствах с небольшим объемом памяти держите вкладку активной, пока каждая страница не получит зеленую отметку.
Скачайте, проверьте и поделитесь PDF с поиском

Скачайте готовый PDF, добавьте к имени _ocr и протестируйте поиск вместе с копированием. Если файл стал больше, дополнительно обработайте его в Сжать PDF. Сохраните обе версии и уведомьте коллег, что документ теперь поддерживает поиск, подсветку и чтение экранными дикторами.

Решение проблем и альтернативы

Текст остался нечитаемым. Повышайте разрешение скана, усилите контраст или разделите документ на меньшие части и повторите процесс.
Обработка зависает на больших архивах. Разбейте файл в Разделить PDF и объедините результаты через Объединить PDF.
Нужен только чистый текст. После экспорта откройте Упорядочить PDF, чтобы извлечь ключевые страницы, или скопируйте текст, сохранив PDF с поиском как ссылку.
В документе есть чувствительные данные. Зафиксируйте, что весь процесс локальный, и совместите его с инструкцией по надёжному редактированию перед публикацией.

Чек-лист перед отправкой

Найдите три фразы, включая числа, чтобы убедиться, что текстовый слой работает.
Увеличьте масштаб до 200 %, проверяя выравнивание таблиц, колонок и подписей.
Обновите метаданные и имя файла, чтобы команда сразу распознала версию после OCR.
Заархивируйте исходный и обработанный PDF в своей системе резервного копирования.
Добавьте в сопроводительных заметках, что файл поддерживает поиск и готов к доступности.

Продолжайте оптимизировать работу с PDF

Уменьшайте тяжелые сканы по инструкции по сжатию до 1 МБ или напрямую в инструменте Сжать PDF.
Объединяйте распознанные разделы через Объединить PDF и автоматизируйте процессы по гайду по автоматизации PDF.
Нужны аннотации или подписи после OCR? Изучите руководство по онлайн-подписанию PDF или исправьте макет по гайду по организации и повороту.

Частые вопросы

Действительно ли инструмент OCR pdfjuggler бесплатный?

Да. Вы можете запускать неограниченное число конверсий без аккаунта, водяных знаков и лимитов загрузки, потому что всё происходит прямо в браузере.

Какие языки и наборы символов поддерживаются?

Инструмент включает языковые пакеты Tesseract для десятков алфавитов. На шаге 4 выберите основной и дополнительные языки для максимальной точности.

Можно ли конвертировать файлы без подключения к интернету?

Конечно. Один раз загрузите инструмент OCR PDF онлайн, чтобы он сохранился в кэше. Затем открывайте вкладку и выполняйте весь процесс офлайн.

Как удержать размер файла после OCR?

Активируйте сжатие до запуска распознавания или отправьте итоговый документ в Сжать PDF. Оба способа сохраняют текстовый слой.

Что делать с рукописью и подписями?

Лучше всего распознаётся печатный текст. Рукопись останется изображением, поэтому при необходимости набросайте отдельное резюме или приложите оригинальный скан рядом с PDF с поиском.