Как настроить abbyy finereader чтобы правильно преобразовать файл

Как мы научили ABBYY FineReader PDF редактировать целые абзацы

Сегодня мы обновили ABBYY FineReader 15 и выпустили его под брендом ABBYY FineReader PDF, потому что он объединяет все инструменты для работы с PDF. По этому поводу публикуем первый пост из серии материалов о фичах программы. В нем мы расскажем об одной интересной возможности, которая не первый месяц есть в программе, но, возможно, не все о ней знали.

Давно ли вы открывали PDF-файлы? Готовы поспорить, что совсем недавно. Скорее всего, на вашем компьютере точно найдется пара сканов, а может, еще и макет презентации, аналитическое исследование или техническая инструкция. Для каких задач обычно используют эти документы? По данным опроса ABBYY, 62% респондентов ищут информацию в PDF, 60% — копируют текст из документа, а 52% — редактируют: вносят в файл правки, исправляют ошибки и опечатки.

Даже сейчас не все знают, что можно редактировать текст в PDF. Да, изменение таких файлов устроено не так, как редактирование обычного текстового документа. ABBYY FineReader PDF с многофункциональным текстовым редактором для работы с PDF и сканами позволяет быстро внести изменения прямо в PDF, без утомительной конвертации файла в другие форматы. При редактировании текст в PDF плавно перетекает со строчки на строчку, как в MS Word. Можно добавить или удалить несколько слов, изменить целые абзацы или даже поменять их местами.

Читайте также:  Сплит система кондиционер не работает компрессор

В этом посте мы раскроем технические подробности редактирования многострочных фрагментов текста в FineReader: как мы изменили движок программы, как редактирование устроено изнутри и как оно выглядит для пользователя. Поехали!

Форматом PDF пользуются по всему миру: его содержимое одинаково отображается на любых компьютерах, смартфонах и планшетах с разными операционными системами. Это удобно и помогает избежать неловких ситуаций. Например, когда вы написали текст в MS Word, отправили коллегам, а они открывают его LibreOffice’ом или Wordpad’ом, и все поехало и начинается веселье. PDF, конечно, в этом плане удобнее, но с текстом здесь все сложно. В 70% всех существующих PDF-документов текст есть, а в 30% — нет, так как это изображения.

Поговорим сначала о PDF, в которых текст есть. Чтобы редактировать PDF, надо понимать, как в нем записан текст. Открывали когда-нибудь PDF в блокноте? Если да, то вы видели такое:

Чтобы все это отображалось понятно для пользователя, нужно проделать большую работу.

Задача: понять PDF

Содержимое каждой страницы в PDF-файле хранится в виде потоков команд для отрисовки документа – это могут быть текст, изображения или векторная графика. Структуру файла определяют PDF-объекты, например, страница, картинка, комментарий (а абзацы, строчки текста и буквы – это всего лишь части объекта). Символ в PDF представляется глифом . То, как они записаны, определяется шрифтом . Каждый символ хранится отдельно: у него есть шрифт, код символа в шрифте и координаты его расположения на странице. То, где глифы расположены, определяется как раз потоком команд. Кроме того, буквы объединены в потоки текста (text run), но они не смысловые.

В PDF нет ни строк, ни абзацев, которые есть в документах текстовых форматов. Даже порядок текста не всегда определен. То есть вы видите текст, но на самом деле текста не существует. Это хаос из трудно понятных инструкций (как на изображении выше), которые нужно правильно отобразить в конкретных местах документа, с соответствующим форматированием.

«А как же текст?» – спросите вы.

Текст в PDF все же существует, и его даже получится редактировать. Для этого мы учим наши технологии понимать структуру текста, например, определять и выделять строки. Расскажем об этом подробнее.

Библиотеки PDF и как мы их поменяли

Чтобы сделать возможным редактирование целых абзацев, мы сильно поменяли нашу внутреннюю подсистему (библиотеку), которую мы называем PdfTools. Она занимается тем, что открывает PDF-файлы, парсит потоки команд (т.е. понимает, где расположен текст, где картинки, и воссоздает структуру документа) и помогает пользователям оперировать этими данными: прочитать, изменить, сохранить в PDF.

Подсистема PdfTools содержит все необходимые инструменты, чтобы прочитать содержимое и обернуть его в объекты (страница, картинка, комментарий), с которыми удобно работать программе. С этими объектами уже могут работать наши продукты, в частности ABBYY FineReader PDF и другие.

Как было раньше. В FineReader 14 мы умели редактировать текст только в рамках одной строчки. После редактирования необходимо было выполнить «рендеринг» — расставить глифы на свои новые места.

Вообще рендеринг — это визуализация. Но мы вкладываем в это слово иное понятие — расположение объектов в PDF на своих местах. Для PDF-специалистов это и есть визуализация, которую больше никто не видит. Когда мы говорим о визуализации в привычном понимании, то используем слово «растеризация».

Весь этот процесс располагался в подсистеме PdfTools. Она помогала нам собирать содержимое PDF в строчки и редактировать их. Например, надо поставить на 5-ое месте глиф «А». FineReader передавал подсистеме PdfTools, что на пятое место нужно поставить глиф «А» с заданным размером и шрифтом, а PdfTools вставляла «А» и перемещала на нужное место в строчке все глифы, которые следовали за буквой «А». Построчное редактирование довольно легкое: текст просто смещался вправо или, например, влево, если он записан на иврите или арабском языке. Это позволяло внести небольшие корректировки, например, исправить опечатку, но не давало возможность сделать более глобальные изменения в тексте PDF-документа.

Что решили изменить. Когда появилась задача многострочного редактирования, мы поняли, что в рамках одной библиотеки PdfTools это будет проблематично делать. Нам необходимо было научиться автоматически находить в тексте PDF более крупные фрагменты, например, «видеть» абзацы, понимать, где находятся их границы, какое форматирование должно быть у целого фрагмента текста и что происходит при переходе с одной строки на другую. Чтобы определить все эти параметры, мы решили привлечь для решения этой задачи и другие наши OCR-технологии — Document Analysis (DA) и Synthesis, которые умеют строить структуру документа.

Document Analysis и Synthesis

Чтобы определять в тексте блоки, ABBYY FineReader PDF использует технологию Document Analysis. Она позволяет найти абзацы, таблицы, картинки. Программа подсвечивает найденные блоки небольшими бледными рамками, чтобы пользователю удобнее было вносить правки:

Далее мы усовершенствовали другую подсистему нашей программы – Synthesis. Мы уже рассказывали на Хабре, зачем она нужна. Если вкратце, именно она определяет структуру и все характеристики распознанного текста: какие используются шрифты и размеры, какое начертание (bold, italic, underline), где заголовки, списки, отступы и многие другие параметры, которые можно настраивать в том же MS Word. Мы доработали Synthesis для того, чтобы при распознавании и воссоздании страницы очень точно восстанавливать исходные параметры текста.

Особенности подчеркнутого текста

В PDF нет такого атрибута текста как подчеркивание, привычного, например, пользователям MS Word. Подчеркивание в PDF – это векторная графика, никак не связанная с текстом. Без дополнительной доработки продукта при редактировании «подчеркнутого» текста символы бы перемещались привычным образом, а линии, обозначающие подчеркивания, оставались бы на месте. ABBYY FineReader PDF умеет определять и редактировать подчеркнутый текст привычным пользователю образом.

Редактирование таблиц в PDF

Изменилось и редактирование таблиц. Раньше программа «видела» таблицу, как отдельные строки, и редактировала ее так же. Теперь при работе с таблицами ABBYY FineReader PDF определяет содержимое каждой ячейки, умеет извлекать из них текст и работать с ним. Это удобно, когда надо исправить ошибку в цифре, поменять точку на запятую и при этом сохранить структуру таблицы, сделать это быстро и без конвертации PDF-документа в другие форматы.

Как отредактировать скан?

Возможность многострочного редактирования доступна и для сканов. Кстати, пользователю даже не надо задумываться, скан перед ним или нет. ABBYY FineReader PDF сам определит это и запустит нужные механизмы. Например, в дате договора — опечатка, или ФИО контрагента поменялось: оно стало длиннее и должно «перетечь» на следующую строчку.

В программе скан сначала распознается, а потом происходит подготовка к редактированию. Когда скан распознали, то текст получается не в нашем исходном документе, а в его виртуальном «двойнике». И именно в нем происходят все операции по редактированию.

Когда пользователь закончил редактировать документ, программа автоматически собирает все изменения со страницы и заменяет эти фрагменты в исходном документе. Наша задача — встроить текст обратно в PDF-документ, не повредив все то остальное, что уже есть в нем.

Редактирование скана позволяет не тратить время на конвертацию документа в другие форматы и обратно. Это удобно, когда нужно быстро внести забытую правку в дату или другой фрагмент текста.

Пример многострочного редактирования. Текст автоматически перераспределяется по строкам по мере добавления слов и предложений внутри абзаца.

Вместо заключения

Исправить опечатку в листовке, поменять местами текстовые блоки в инструкции, изменить целый абзац в скане договора или добавить несколько новых, поправить форматирование всего текста – все эти задачи теперь возможно решить:

  • быстро,
  • без конвертации документа,
  • с помощью одной программы.

Попробовать можно прямо сейчас – скачайте триал-версию ABBYY FineReader PDF бесплатно.

В следующем посте через неделю мы расскажем о том, как научили ABBYY FineReader PDF еще одной интересной фиче и для чего может пригодиться новая функциональность.

Пишите в комментариях, о каких еще технологических особенностях нашей программы вам было бы интересно узнать?

Источник

Как создавать и изменять интерактивные PDF-формы, или новый скилл ABBYY FineReader PDF

Мы регулярно обучаем ABBYY FineReader PDF новым навыкам. Две недели назад мы рассказали на Хабре, как научили ABBYY FineReader PDF редактировать целые абзацы. Этот пост — о еще одном продвижении нашего продукта на пути к совершенству: программа теперь умеет создавать и редактировать интерактивные PDF-формы.

Раньше ABBYY FineReader PDF мог только заполнять такие формы – заявления на отпуск или визу, резюме, согласие на обработку персональных данных, исследования, опросы и т.д. Но что если компании нужно создать в формате PDF анкету, разработать шаблон документа или отредактировать в готовом бланке несколько полей, чтобы затем отправить его сотрудникам или клиентам? Теперь все это можно сделать в одной программе. О том, как это работает, для чего и кому может понадобиться такая функциональность, мы сегодня и расскажем. Поехали!

Что такое интерактивная PDF-форма?

Интерактивная PDF-форма – это документ с полями, в которых пользователь может печатать текст, даты, проставлять галочки, выбирать одно или несколько значений из списка и выполнять другие действия, не редактируя основное содержимое документа.

PDF-формы могут выглядеть по-разному. Приведем несколько примеров:


Слева направо: первая страница анкеты на получение шенгенской визы; согласие на обработку персональных данных; PDF-форма для запроса сервисных услуг. Картинка кликабельна.

Если PDF-файл сам по себе – это статичная сущность, которая в первую очередь предназначена для передачи информации, то формы в PDF предназначены для получения информации от пользователей или организаций.

С технической точки зрения интерактивная форма в PDF – это набор «виджетов». Виджеты – это поля, которые можно создавать, редактировать и заполнять. Термин взят из спецификации PDF (международные стандарты PDF ISO, где описываются все стандартизированные возможности формата PDF). В спецификации сказано, как устроены интерактивные элементы, чтобы это понимал PDF-просмотрщик, то есть программа для работы с PDF. На основе этой спецификации мы и разработали фичу создания и редактирования форм в ABBYY FineReader PDF. Таким образом, интерактивные формы, созданные в нашей программе, будут доступны для заполнения или редактирования и в других редакторах PDF, если они поддерживают PDF ISO.

В чем преимущество интерактивных PDF-форм?

  • PDF-форма будет одинаково отображаться в любой операционной системе, любой программе и на любом устройстве;
  • PDF-форму легче и быстрее заполнить, чем бумажный документ. Меньше вероятность допустить ошибку;
  • PDF-форму можно заполнять без доступа к интернету;
  • PDF-форму легко напечатать;
  • Отправить форму можно несколькими способами: кнопкой действия (ниже мы расскажем об этом), по электронной почте, загрузить на сервер;
  • Данные из PDF-форм – цифровые, и поэтому их можно сразу отправить в системы обработки данных;
  • PDF-формы легко интегрировать в системы электронного документооборота организаций.

Приведем пример. Допустим, вам нужно оформить страховой полис для поездки за рубеж. Чтобы не приезжать в офис компании и не заполнять бумажное заявление, можно прямо у себя дома заполнить PDF-форму и отправить ее на почту менеджеру. Кроме того, сотруднику компании не придется перепечатывать данные. Информацию из PDF можно сразу вносить в корпоративные базы данных.

Как создать PDF-форму

ABBYY FineReader PDF помогает как создавать формы с нуля, в т. ч. в новом документе, так и отредактировать уже имеющиеся в форме поля.

Например, можно создать новый PDF-документ, войти в режим форм, нажав кнопку «Редактор форм» на главной панели инструментов, и затем добавить в файл нужные поля.

Либо можно открыть существующий PDF-документ с полями формы или без них и зайти в «Редактор форм». Если в документе уже есть интерактивные поля, то пользователь увидит сообщение:

В режиме «Редактор форм» рядом с полями формы отобразятся их имена.

При желании эту подсветку можно отключить, а имена отредактировать. Кроме того, можно изменить и другие настройки: внешний вид и формат полей, а также назначить значения по умолчанию для отдельных типов полей. Подробнее об этом мы расскажем чуть позже.

Принимать разные формы? Запросто

Программа умеет добавлять 7 видов интерактивных полей, которые многим знакомы:

Текстовое поле. Позволяет ввести строчку или несколько строк текста. К вводимому тексту можно применить форматирование, например, сделать из него дату. Если такое форматирование характерно для поля, то в окошке поля можно вызвать календарик и выбрать дату там. Пользователь сам может выбирать формат даты (например, 18.12.1987 или 1987/18/12).

Форматирование даты, как и любое другое форматирование, задается в поле формы при помощи JavaScript-инструкций. В продукт встроен JS-движок, который умеет эти инструкции выполнять и помогать пользователю вводить необходимый текст.

Флажок (check box). Позволяет поставить галочку, например, дать согласие на обработку данных, указать специальные условия при выборе номера в отеле, оформить подписку на новости и др.

Примечательная особенность: если вы думаете, что галочка в check box нарисована (векторными командами или картинкой), то это не всегда так. При создании check box в ABBYY FineReader PDF галочка — это символ. Есть специальный символьный шрифт, ZapfDingbats, и состоит он не из букв, а из вот таких специальных символов. И в нашем check box просто получается текст из одного символа этого шрифта.

Переключатель (его еще называют «радиокнопка»). Этот элемент позволяет выбрать только один из возможных вариантов в списке.

Переключатель в PDF – это наиболее яркий пример, как одно поле может содержать несколько виджетов. У каждого из них есть choice name (имя выбранного состояния), которые предустановил PDF-просмотрщик. Именно это имя прописывается в поле, когда какая-то кнопка выбрана. Каждый виджет имеет несколько предустановленных состояний (ChoiceName/Off, Normal/Down). И в зависимости от того, в каком состоянии виджет находится, такое состояние и будет показываться пользователю. Никакой анимации, просто подмена одной картинки на другую.

Раскрывающийся список. Дает возможность выбрать одно из заранее заданных значений или, если позволяет форма, ввести свое (произвольное )значение.

Список. Можно выбрать несколько вариантов.

Кнопка. Позволяет установить действие, которое выполняется при определенном событии (то есть взаимодействии с кнопкой). Например, при клике на кнопку или наведении курсора можно отправить форму по email, напечатать, сохранить, показать вложенные файлы, очистить форму и так далее.Вместо клика на кнопку можно выбрать и другие события, например, отпускание курсора и т.д. Вариантов действий много:

Поле подписи. Позволяет указать в документе место, где надо поставить цифровую подпись:

Совершенствуем форму дальше

Чтобы форма была понятной для пользователя, можно настраивать различные свойства для всех элементов форм и менять их в процессе редактирования.

1). Имя поля. Это внутреннее имя, которое помогает создателю формы ориентироваться в документе.

2). Подсказка. Она появляется, если навести указатель мыши на поле, и позволяет пользователю понять, что требуется сделать и какую информацию внести.

3). Можно сделать любое поле обязательным для заполнения. Тогда оно будет выделено красной рамкой, чтобы пользователь обратил внимание: в это поле необходимо внести информацию, чтобы форма была принята и рассмотрена. Красная рамка не накладывает ограничений на отправку или печать PDF-формы.

4). Опция «Только для чтения». Если выбрать ее, то поле станет недоступным для редактирования. Бывает, что в форме может быть информация, которая должна оставаться неизменной. Например, в опроснике для сотрудников-мужчин о том, какие подарки они предпочитают дарить женщинам, может быть поле «Пол»: туда можно вписать значение «Мужской» и оставить его неизменным. Это как бы подразумевает, что опрос для мужчин.

5). Внешний вид полей. Можно выбрать цвет заливки, толщину границ, свойства шрифтов и многое другое. Оформление всей формы можно настроить по умолчанию: тогда у всех новых полей, которые пользователь создаст в документе, будет единый внешний вид.

Расскажем о еще нескольких полезных действиях, которые пользователи могут совершать с при создании или редактировании форм. Любое из полей после создания можно перемещать в пределах страницы, копировать или удалять. Размеры полей также можно поменять.

Кроме того, чтобы форма не только приносила пользу, но и красиво выглядела, в программе есть инструмент, который аккуратно выровняет все поля по вертикали и горизонтали. Направляющие появляются при перемещении поля и помогают его выровнять относительно соседних полей или границ страницы.

Конечно, когда мы разрабатывали редактор форм в FineReader PDF, то оценивали, какие задачи нужно решать конечным пользователям. Расскажем о них.

Нужно разработать шаблоны для документов

С помощью ABBYY FineReader PDF государственные организации, а также юридические, страховые, медицинские и другие компании могут создавать в PDF шаблоны документов, которые необходимо заполнять в электронном виде:

  • заявления на отпуск,
  • разные виды юридических заявлений (на развод, опеку, алименты, смену имени, юридическую помощь),
  • шаблоны контрактов, резолюций, уведомлений, доверенностей,
  • маркетинговые формы для заказов, запросов и др.

Исходный документ, как правило, создается в MS Word. Он содержит текст и «пробелы» для добавления полей. Затем пользователь конвертирует документ в PDF, чтобы в редакторе форм создать поля, которые будет удобно заполнять.

Чтобы структуру формы, основное содержание и общий внешний вид нельзя было изменить, можно паролем защитить документ от редактирования, оставив доступным лишь функцию заполнения.

После того как пользователь заполнил этот документ, он может напечатать его и подписать от руки, либо добавить цифровую подпись и отправить по почте.

Нужно собрать данные и отправить информацию в другую организацию

В программе ABBYY FineReader PDF компании и государственные организации могут создавать и редактировать различные электронные бланки для сбора данных, например:

  • заявления на визу,
  • заявления на патент,
  • заявления на регистрацию лекарственного средства,
  • налоговые декларации,
  • заявление на прием к врачу,
  • формы согласия на медицинские манипуляции и т. д.

В электронном виде такие бланки проще заполнять и обрабатывать. Кроме того, сотрудники могут быстро отправлять такие формы внутри организации или за ее пределы, чтобы сразу получить ответ от коллег, консультации и др.

Нужно провести опрос внутри компании, обеспечив конфиденциальность данных

Для проведения внутренних исследований, опросов и аудитов в компаниях не всегда возможно использовать онлайн-сервисы типа SurveyMonkey и Google Forms. Они могут не подойти из-за требований к безопасности и политики управления персональными данными. В таком случае можно заменить онлайн-инструменты на интерактивные PDF-формы.

Надеемся, что ABBYY FineReader PDF поможет упростить многие задачи, требующие создания и редактирования интерактивных PDF-форм. Если вы хотите попробовать новую функциональность, то программу можно бесплатно скачать и пользоваться ей в течение триального периода.

Пишите в комментариях, о каких еще технологических особенностях нашей программы вам было бы интересно узнать?

Источник

Оцените статью