Как настроить файн ридер для правильного распознавания

Правильно установленные параметры распознавания помогут вам быстро получить качественный документ, пригодный для дальнейшего редактирования. Выбор параметров зависит не только от объема и сложности исходного документа, но и от того, как вы намерены использовать распознанный документ.

Выбрать необходимые параметры вы можете на закладке Распознать диалога Опции (меню Сервис>Опции…).

Внимание! Распознавание страниц, добавленных в документ ABBYY FineReader, выполняется в автоматическом режиме с текущими настройками программы. Вы можете отключить автоматический анализ и распознавание добавленных изображений на закладке Сканировать/Открыть диалога Опции (меню Сервис>Опции…).

Замечание. Если вы изменили язык распознавания, выделили области на изображении вручную или изменили другие настройки программы, выполните распознавание заново.

На закладке Распознать диалога Опции вы можете изменить настройки для следующих групп опций:

Режим распознавания
Выберите один из режимов распознавания.

Подробнее.

В ABBYY FineReader 10 предусмотрено два режима распознавания:

Тщательное распознавание

Замечание. По сравнению с Быстрым режимом распознавания, Тщательный режим требует больше времени, но обеспечивает лучшее качество распознавания.

Быстрое распознавание
Данный режим рекомендуется для обработки больших объемов документов с простым оформлением и хорошим качеством печати.

Для выбора режима распознавания в группе Режим распознавания выберите одну из опций: Тщательное распознавание или Быстрое распознавание.

Обучение
По умолчанию режим Распознавание с обучением отключен. Для того чтобы в процессе распознавания проводилось обучение неизвестным символам, отметьте опцию Распознавание с обучением.

Подробнее.

Распознавание с обучением используется для распознавания следующих текстов:

Для набора которых использованы декоративные шрифты
В которых встречаются специальные символы (например, отдельные математические символы)
Большого объема (более 100 страниц) текста плохого качества

При распознавании вы можете использовать встроенные эталоны или создать собственный эталон. Для этого выберите нужную опцию в группе Обучение.

Источник

Как настроить файн ридер для правильного распознавания

В программе ABBYY FineReader вы можете менять общие опции автоматической обработки документа, а также опции сканирования и открытия страниц документа: включать/отключать автоматический анализ и автоматическое распознавание документа, предобработку изображений, выбирать интерфейс сканирования.

Выбрать необходимые параметры вы можете непосредственно в диалогах открытия или сканирования изображений (если вы используете для сканирования интерфейс ABBYY FineReader), а также на закладке Сканировать/Открыть диалога Опции (меню Сервис>Опции…).

Подробнее см. «Выбор интерфейса сканирования», «Диалог Опции».

Внимание! Если вы изменили настройки программы в диалоге Опции, то необходимо отсканировать или открыть изображение заново. Только после этого ваше изображение будет обработано с указанными настройками.

На закладке Сканировать/Открыть диалога Опции вы можете изменить следующие настройки:

Запуск автоматического анализа и распознавания полученных изображений.

Подробнее.

Автоматически распознавать полученные изображения
Анализ и распознавание документа будут производиться автоматически.
Автоматически анализировать полученные изображения
Анализ документа будет выполняться автоматически, а распознавание нужно будет запускать вручную.
Отключить автоматический анализ и распознавание изображения
Отсканированные или открытые изображения будут добавлены в документ FineReader. Анализ и распознавание документа нужно будет запускать вручную. Такой режим, как правило, используется для документов, имеющих сложную структуру.

Способы обработки изображений.

Подробнее.

Выполнять предобработку изображений
Если вы хотите отсканировать и распознать книгу или открываете изображение, полученное с помощью фотокамеры, включите эту опцию. Тогда программа, в зависимости от типа входного изображения, выполнит его предобработку: удалит шумы с цифровых фотографий, исправит перекос, нечеткость, искажение перспективы, выровняет документ по линиям текста.
Определять ориентацию страницы
Включите эту опцию для автоматического определения ориентации страниц, добавляемых в документ FineReader.
Делить разворот книги
Если вы сканируете разворот книги или открываете изображения сдвоенных страниц, включите эту опцию. Тогда, в процессе добавления страниц в документ FineReader, изображения будут разделяться на отдельные страницы.

Замечание. Вы можете не использовать опции предобработки изображений при сканировании или открытии страниц документа, а выполнить необходимую обработку в уже открытом документе с помощью редактора изображений. Подробнее см. «Как обработать изображение вручную».

Интерфейс сканера, который будет использоваться при сканировании.

Подробнее см. в статье «Выбор интерфейса сканирования».

Источник

Как распознать текст в PDF

Что вы выберете из двух вариантов: кропотливо перепечатывать несколько часов статью из редкого журнала, 10 страниц бумажного договора, главу из энциклопедического справочника? Или за несколько минут перевести необходимый материал в редактируемый формат с помощью сканера и программы для оптического распознавания символов, а освободившееся время посвятить себе, семье и друзьям? Ответ очевиден!

Применение современных OCR-технологий для распознавания текста помогает сэкономить много сил и времени при работе с любыми документами – будь то PDF-файлы, сканы, цифровые фотографии, бумажные договоры, справки, инструкции, а также книги, журналы и учебники. Например, с ABBYY FineReader PDF 15 можно отсканировать юридический отчет, портфолио или научный доклад, а затем просто и удобно редактировать их. Чтобы не перепечатывать статьи из журналов, фрагменты и цитаты из книг, достаточно воспользоваться программой для распознавания текста и быстро получить нужный материал у себя на компьютере в удобном формате.

С помощью цифровой фотокамеры, которая почти всегда есть под рукой, вы можете моментально сделать снимок любого постера или афиши, а также страниц и картинок из инструкции, а потом распознать текст с изображения в ABBYY FineReader PDF 15. После оцифровки документ можно использовать для дальнейшей работы. Составьте отчет, сделайте подборку или соберите портфолио. Кстати, программа позволяет объединить текст, изображения, таблицы, видео, интерактивные заполняемые формы и гиперссылки в единый PDF. Вы также легко найдете нужную информацию в этом многосоставном файле благодаря удобной строке поиска. Пробную версию можно скачать бесплатно здесь, срок ее действия – 30 дней.

КАК РАСПОЗНАТЬ ТЕКСТ ИЗ PDF

Оптическое распознавание символов (англ. Optical Character Recognition – OCR) – это технология, которая позволяет преобразовывать различные типы документов — сканы, PDF, бумажные или цифровые фотографии — в редактируемые форматы с возможностью поиска.

В основе технологии распознавания символов ABBYY OCR используются механизмы, позаимствованные у природы. Это три фундаментальных принципа IPA: целостность (integrity), целенаправленность (purposefulness) и адаптивность (adaptability). Согласно первому из них, изображение интерпретируется как объект, только если в нем заключены все структурные части этого объекта и все они находятся в соответствующих отношениях. То есть ABBYY FineReader PDF 15 не перебирает десятки тысяч эталонов в поисках наиболее подходящего. Программа выдвигает гипотезы, на что похоже найденное изображение, а затем последовательно проверяет каждую их них. Например, предполагая, что обнаруженный объект может быть буквой А, ABBYY FineReader PDF 15 будет искать у него именно те особенности, которые должны быть у изображения этой буквы. Таким образом, программа следует принципу целенаправленности. Исходя из принципа адаптивности, она умеет самообучаться, то есть каждый раз проверяет, верна ли выдвинутая гипотеза, опираясь на накопленные ранее сведения о возможных начертаниях символа.

Основываясь на результатах многолетних исследований, компания ABBYY воплотила принципы IPA в компьютерной программе FineReader. Именно поэтому она получилась гибкой и интеллектуальной, а ее работа максимально похожа на то, как распознает символы человек. Теперь, благодаря ABBYY FineReader, распознать текст и преобразовать его в редактируемый формат, например, Microsoft® Word – дело нескольких минут.

ВОЗМОЖНОСТИ РАСПОЗНАВАНИЯ И КОНВЕРТИРОВАНИЯ

Благодаря высокому качеству технологий распознавания текста ABBYY OCR всего за несколько минут происходит точная конвертация бумажных сканов, фотографий, а также PDF-файлов в редактируемые форматы. Конвертировать офисные деловые бумаги (отчет, приказ, план работ) в один клик поможет меню с предустановленными задачами. В программу включены и различные профессиональные инструменты, которые позволят точно воспроизвести внешний вид документов с более сложной структурой – с примечаниями, сносками, формулами и другими объектами.

Программа для распознавания текста ABBYY FineReader PDF 15 позволяет:

Быстро и легко конвертировать различные файлы в редактируемые форматы.

Сканы, фотографии страниц, PDF можно преобразовать в Microsoft® Word, Excel®, PowerPoint®, OpenOffice™ Writer, HTML, в форматы электронных книг и др.;

Создать PDF с возможностью поиска.

Для этого отсканируйте страницы из договора, книги или журнала, а затем выберете в меню «Конвертация документов» функцию «Конвертировать в PDF» с возможностью поиска. Исходный вид файла останется прежним, но его содержимое станет доступным для поиска или копирования. Это позволяет удобно работать с документами в электронном виде;

Использовать профессиональные инструменты для распознавания.

Они пригодятся, если вам необходимо распознать текст в PDF: например, преобразовать в электронный вид многостраничную научную статью, диссертацию или сборник исследовательских работ и сохранить расположение абзацев, таблиц, колонтитулов, примечаний, нумерацию страниц, содержание, оглавление и др. Для повышения качества распознавания можно вручную задать типы областей – «Текст», «Картинка» или «Таблица».

Провести предобработку изображений для повышения качества распознавания.

Чтобы повысить качество снимков с фотоаппарата, камеры мобильного телефона или планшета, программа автоматически обрабатывает изображения. Это помогает улучшить результат распознавания. Кроме того, при необходимости пользователь может вручную обработать фотографии документов в Редакторе изображений. Он позволяет отрегулировать яркость и контрастность, выбрать уровни интенсивности света и тени, исправить трапециевидные искажения, которые происходят во время съемки цифровой камерой, осветлить фон, обрезать лишние границы у изображения и др.

СЦЕНАРИИ ПРИМЕНЕНИЯ ПРОГРАММЫ ДЛЯ РАСПОЗНАВАНИЯ ТЕКСТА

С помощью ABBYY FineReader можно освободиться от ежедневных рутинных задач, выполняя привычные операции намного быстрее и легче. Вы можете:

Внести правки в бумажные документы и PDF-файлы.

Для этого достаточно распознать текст со сканов или из PDF и сохранить результат в необходимом вам формате, например, в Word, Excel или PowerPoint. После этого можно откорректировать любые слова, строчки или предложения, а затем заново распечатать отчет или статью, отправить коллегам, опубликовать на сайте или положить в папку на компьютере, чтобы отредактировать его потом.

Извлечь информацию из книг, статей, рефератов, отчетов и многого другого.

В результате распознавания к документу добавляется текстовый слой, благодаря которому возможно копирование любых предложений, строк и абзацев и поиск по ключевым словам. Выделите в отсканированных страницах или PDF-файле фрагмент текста, таблицы или изображения, скопируйте его в буфер обмена и вставляйте в любые другие приложения. Это позволит вам создать собственные документы на основе информации из различных источников – договоров, инструкций, статей из журналов и др.

Сделать электронные копии документов для удобного хранения и поиска.

Книги, статьи и деловые бумаги удобно хранить на компьютере, например, в формате PDF. У него есть несколько преимуществ: такой файл занимает мало места на жестком диске, его удобно создавать и легко открывать. Его содержание всегда одинаково отображается и на ПК, и на смартфонах с разными операционными системами.

С помощью ABBYY FineReader легко сделать электронную копию книги, статьи из журнала или договора. При создании такой копии программа запускает фоновое распознавание. Оно автоматически добавляет текстовый слой. Благодаря ему в документе легко найти нужную информацию по любым ключевым словам. ABBYY FineReader также позволяет преобразовать сканы и фотографии в формат PDF/A, который является международным стандартом для долгосрочного хранения.

Сохранить культурное наследие.

Технологии распознавания текста помогают не только в бизнесе и учебе, но и в такой важной области, как сохранение культурного наследия. Например, благодаря ABBYY FineReader и усердной работе 3000 волонтеров из 49 стран были оцифрованы все 90 томов сочинений и дневников Льва Николаевича Толстого. О проекте «Весь Толстой в один клик» можно прочитать здесь.

Вместе с Большим театром, компанией КАМИС, тысячами неравнодушных волонтеров и с помощью ABBYY FineReader мы помогаем оцифровать, сохранить и сделать доступной каждому 250-летнюю историю главного театра страны. Это 48 000 афиш, 120 000 программок и 100 000 фотографий. О проекте «Открой историю Большого» можно узнать здесь.

Программа для распознавания текста пригодится и частным пользователям. Она позволит им оцифровать домашние архивы, редкие или старинные книги и журналы.

Источник