Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Системы оптического распознавания символов
Многие системы обработки изображений включают программное обеспечение оптического распознавания символов (OCR). Применение OCR позволяет решить проблему перевода бумажных документов в электронную форму в виде текстового файла. Системы OCR позволяют получать электронную копию документа с печатного листа либо копию документа, пришедшего по факсу. Существуют экспериментальные системы, позволяющие подобным образом обрабатывать также и рукописные материалы (Intelligent Character Recognition). Кратко функционирование системы OCR можно представить следующим образом. С помощью сканирующего устройства считывается изображение документа. В результате распознавания текста изображение документа отображается в файл, отформатированный как текстовый. Таким образом, бумажный документ, минуя низко производительный и трудоемкий ручной ввод, автоматически преобразуется в электронную форму. Выделяют два класса систем OCR – обучаемые и интеллектуальные. Принцип действия систем первого класса основан на поточечном сравнении оцифрованного символа с образцом из справочника. При совпадении образца и символа последний считается распознанным и добавляется в результирующий файл. При таком способе распознавания размеры образца и шрифта документа должны совпадать, т.е. в системе необходимо иметь маски для каждого размера каждого типа шрифта, поэтому подобная система более эффективна в случае однотипного и качественного текста. Во втором случае «маска» символа заменяется на его «образ», который может быть использован для любых размеров шрифтов. Для повышения точности распознавания интеллектуальные системы могут выполнять ряд проверок результирующего текста. Например: осуществлять частотный анализ текста и сравнивать частоту появления данного символа в тексте с его частотой в языке оригинала или обнаруживать неправильное сочетание символов, исходя из правил орфографии. В реальных системах OCR сочетаются различные распознавательные механизмы, что дает возможность обрабатывать любые шрифты и любые тексты. На сегодняшний день известны несколько достаточно качественных программных продуктов по распознаванию текста, в том числе две системы отечественных фирм, ориентированных прежде всего на распознавание русскоязычных текстов (FineReader и CuneForm). Средняя скорость работы системы OCR на оборудовании средней мощности составляет примерно одну машинописную страницу в минуту. Качество распознавания в среднем 1–2 ошибки на 1000 знаков в тексте среднего качества. Можно рекомендовать следующие критерии выбора системы OCR: • совместимость с существующим или приобретаемым программным и аппаратным обеспечением; • скорость сканирования и распознавания преобладающего в данной организации типа текста, например факс – русский язык, ксерокопия различного качества, машинопись различного качества и др.; • качество распознавания текстов различных типов, например количество ошибок на 1000 знаков; • способность распознавать редкие шрифты; • способность обучения новым символам; • наличие элементов семантического анализа текста; • наличие модуля проверки орфографии; • удобство пользовательского интерфейса.
|