![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Системы автоматического чтения текстов
Для быстрого и качественного ввода текста в ПК используется сканер, работающий по принципу фотоаппарата. Чтобы «понять» текст, то бишь перевести графику в цифровой вид, нужна система автоматического распознавания текста. OCR (OpticalCharesterRecognition) – компьютерная программа, позволяющая преобразовывать текст бумажного носителя в электронный текстовый файл. Основные принципы работы системы: 1) Целостность (объект описывается как целое с помощью значимых элементов и отношений между ними); 2) Целенаправленность (распознавание строится как процесс выдвижения и целенаправленной проверки гипотез); 3) Адаптивность (способность компьютерной системы к самообучению). Этапы работы системы FineReader: 1) Сканирование (получение графического образа документа; 2) Распознавание текста страницы: а) Анализ графического макета страницы (выделение областей для распознавания, выделение в тексте строк и отдельных символов); б) Распознавание каждого символа на основе различных алгоритмов распознавания; 3) Проверка орфографии; 4) Сохранение. Алгоритмы распознавания (классификаторы): 1) Шаблонные (шрифтозависимые) – растровое изображение накладывается на шаблон, содержащийся в базе данных, наиболее подходящим является тот, у которого наименьшее количество точек отличается. 2) Шрифтонезависимые: а) Признаковые (позволяют анализировать не всё изображение знака, а лишь некоторые признаки, вычисляется по формулам, не отвечает принципу целостности); б) Структурные (содержат информацию не о точечном изображении символа, а о правилах начертания (или структуры).Структурными элементами являются составляющие символ линии, однако данный метод чувствителен к дефектам изображения). В FineReader работают все алгоритмы, экспертная система, встроенная внутрь ядра, сама выбирает нужный алгоритм. Возможности OCR: 1) Во время сканирования система автоматически подбирает яркость, фрагментирует каждую страницу, распознает символы текста; 2) Позволяет распознавать печатные символы (»200 языков), рукопечатные и рукописные тексты. 3) Способность самообучаться и распознавать плохо пропечатанные символы. 4) Распознавание изображения, полученного с помощью цифрового фотоаппарата, а также файлы в формате PDF. Развитие OCR идёт в направлении повышения точности распознавания текстов низкого качества, распознавание рукописного текста, выделение текстовой информации на фоне шумов, а также интеграций OCR-систем с различными программами обработки информации.
Вопрос 18.
|