Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Практическая работа №17
Тема: Сканирование и распознавание документов с помощью программы ABBYY Fine Reader 8.0 Professional Edition
Цель: научиться сканировать и работать со сканером Оборудование: IBM PC, сканер Программное обеспечение: Windows, ABBYY Finereader
Краткая теория
Сканеры с интерфейсом SCSI требуют установки в компьютер дополнительной платы SCSI- адаптера, которая поставляется в комплекте со сканером. Преимуществом интерфейса SCSI является обеспечение высокой скорости сканирования. К компьютерам, оснащенным USB-портом, лучше подключать сканер с USB-интерфейсом. Скорость при этом несколько уступает интерфейсу SCSI, однако простота подключения сканера искупает этот недостаток. Сканеры с интерфейсом параллельного порта подключаются к уже имеющемуся параллельному порту. Пропускная способность параллельного порта значительно меньше по сравнению с интерфейсом SCSI. Однако при этом нет необходимости устанавливать дополнительную плату. В комплект поставки сканера входит специальная программа — драйвер, предназначенная для управления процедурой сканирования и настройки основных параметров сканера. Стандарт TWAIN определяет порядок обмена данными между прикладной программой и драйвером сканера, что позволило решить проблему совместимости различных компьютерных платформ, сканеров разных моделей и форматов представления данных. С помощью TWAIN-совместимого сканера можно сканировать изображения из любой программы, например Photoshop, CorelDRAW, PageMaker, PhotoStyler и др. OCR-приложения (приложения, которые производят сканирование и распознавание текста, от англ. Optical Character Recognition - Оптическое распознавание символов) - программы для перевода изображений документов в редактируемый текст, который можно затем обрабатывать в текстовых и табличных редакторах. По сравнению с ручной перепечаткой текста, такие программы дают существенный выигрыш в скорости работы, к тому же делают меньше ошибок. Еще одно достоинство - возможность сохранить иллюстрации, а они иногда не менее важны, чем текст документа. OCR CUNEIFORM - это бесплатная программа сканирования и распознавания текста российского разработчика Cognitive Technologies. Первоначально OCR CuneiForm разрабатывался как коммерческий продукт, однако, в декабре 2007 года компания-разработчик стала распространять программу бесплатно, а в апреле 2008 года открыла исходные тексты программы. В планах дальнейшее развитие этой системы распознавания текста - проект OpenOcr.Org, поддерживаемый компанией Cognitive Technologies и сообществом OpenSource разработчиков. Эта OCR программа прилагается в комплекте с некоторыми моделями сканеров фирм Canon, Hewlett Packard, Oki, Olivetti. Технологии распознавания компании Cognitive используются в популярном издательском пакете Corel Draw. OCR CuneiForm обеспечивает быстрое, удобное и качественное распознавание текста с сохранением* исходного вида документа. Поддерживается распознавание с более 20 языков, среди них русский, украинский, английский, немецкий, французский, испанский, итальянский, португальский, шведский, финский, сербский, хорватский, польский, а также распознавание смешанного русско-английского текста. Основные возможности бесплатной программы сканирования и распознавания текста OCR CuneiForm: · современный и интуитивно-понятный интерфейс, встроенные помощники для сканирования распознавания текста; · встроенный текстовый редактор и система контроля правописания для работы с распознанным текстом; · распознавание текста с сохранением исходного вида документа; · •распознавание таблиц со сложной структурой, многоколоночного текста; · сохранение черно-белых и цветных иллюстраций в распознанном документе; · поддерживаются все TWAIN-совместимые сканеры; · использование современных разработок, таких как нейронные сети, адаптивное распознавание символов, когнитивный анализ и другие; · распознавание печатных шрифтов из книг, журналов, газеты, текстов из пишущих машинок, распечаток из матричных и лазерных принтеров и т.п.; · режимы автоматического, полуавтоматического и ручного разбиения на блоки для поиска - документе текстовых фрагментов, рисунков и таблиц; · дополнительные возможности, повышающие удобство работы с программой.
Сайт компании-разработчика www.cognitive.ru. ABBYY Finereader - популярная программа распознавания текста российской компании ABBYY. Finereader обеспечивает качественное распознавание и сохранение оформления документов. Существуют три версии этого пакета распознавания: Home Edition, Professional Edition и Corporate Edition, которые отличаются своими возможностями, пользовательским интерфейсом, ценой и типом лицензии. Версия Home Edition предназначена только для домашнего использования и пригодится тем, кому время от времени требуется получить распознанную копию страниц книги, учебника, статьи из журнала для последующего редактирования в распространенных офисных программах. Интерфейс программы упрощен, для работы можно выбрать один из типовых способов обработки изображения и нажатием одной кнопки быстро получить результат. Professional и Corporate Edition имеют профессиональный интерфейс, дополнительно содержат поддержку распознавания PDF файлов, встроенный редактор текста, проверку орфографии. Corporate версия ориентирована на использование в организациях, поддерживаются сетевые сканеры и многофункциональные устройства, добавлены возможности для совместной работы пользователей. Программа производит распознавание текста с более 180 языков, для 38 из них предусмотрена встроенная проверка орфографии. Начиная с версии Professional, распознаются иврит, японский, тайский, китайский языки. Finereader открывает файлы графических форматов (TIFF, JPG, PFD, PNG и др.) в том числе DjVu - компактный формат для хранения отсканированных документов, книг.
Этапы работы с программой:
1. Запуск программы. Осуществляется в меню ПУСК-> Все программы ABBYY Finereader
Стартует программа с предложения - ввести документ с помощью Мастера Scan& Read, запустить обучающее приложение или показать работу пакета в демонстрационном режиме. Демо-пример, стоит отметить, отличный способ ознакомиться с принципом работы пакета для новичков.
2. Сканирование.
3. Теперь задаём в режим распознавания - мышкой или горячей клавишей, и процесс пошёл.
· Исправление или проверка орфографии и распознанного текста. · Если необходимо сканировать несколько листов повторяем 2-4 пункт. 4. Сохранение результатов.
Ход работы 1. Изучить краткую теорию и ответить на контрольные вопросы. 2. Проверьте подключение сканера. Запишите в отчёт марку и особенности предлагаемого оборудования. 3. Запустите ABBYY Finereader. 4. Произвести сканирование с источника, содержащего текстовый фрагмент и графическое изображение с разрешающей способностью 72, 96, 120, 150, 200, 300 точек на дюйм. Определить размеры полученных графических файлов в формате BMP. 5. Выполнить распознавание текста для каждого из полученных графических файлов. Определить количество ошибок (неправильно распознанных символов, включая знаки препинания и пробелы) для каждого случая. Сделать выводы о факторах, влияющих на качество распознавания текстовой информации и способах уменьшения ошибок распознавания. 6. При помощи графического редактора сохранить файл, имеющий максимальное разрешение, различных форматах (JPG (низкое качество), JPG (среднее качество), JPG (наилучшее качество), G. PNG). Выполнить качественное и количественное сравнение исходного BMP и файлов, использующих алгоритмы сжатия. Сделать выводы относительно достоинств и областей использования каждого из форматов. 7. Сделать вывод о проделанной работе.
Контрольные вопросы
Литература 1. Михеева Е.В. Информационные технологии в профессиональной деятельности: учеб. пособие для студ. сред. проф. образования / Е.В. Михеева. – 8-е изд., стер. – М.: Издательский центр «Академия», 2010. – 384 с.
|