Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Назначение и возможности систем автоматического чтения текста.
Для быстрого и качественного ввода текстовой информации в ПК широко используется сканер, который работает по принципу фотоаппарата. Для того, чтобы «понять» его содержание, т.е. перевести графическое изображение в текстовую форму, необходимы системы автоматического чтения текста или оптического распознавания символов (OCR – Optical Character Recognition). Основные принципы работы OCR: 1. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними. 2. Целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез. 3. Адаптивность – это способность компьютерной системы к обучению. Широко известны следующие OCR-системы: FineReader, CuneiForm. Этапы работы программы FineReader: 1. Этап сканирования. Получение графического образа документов (можно использовать цифровой фотоаппарат). 2. Распознавание: а) анализ графического макета страницы (выделение областей для распознавания таблиц, картинок; выделение в тексте строк и отдельных символов); б) распознавание каждого символа на основе различных алгоритмов распознавания. 3. Проверка орфографии (ошибок). 4. Сохранение. Алгоритмы распознавания (классификаторы): · шаблонные (шрифтозависимые). Растровое (точечное) изображение накладывается на шаблон, содержащийся в базе данных. Наиболее подходящим шаблоном является тот, у которого наименьшее количество точек отличается. · признаковые (шрифтонезависимые). Анализируют не всё изображения знака, а лишь некоторые признаки, которые вычисляются по формулам. Распознаванию подвергается не сам символ, а его характеристики. Не отвечает принципу целостности. · структурные (шрифтонезависимые). Содержат информацию не о точечном изображении символа, а о правилах его начертания (или структуре). В FineReader работают все типы классификаторов. Экспертная система, встроенная внутрь ядра, сама выбирает оптимальный для данного текста алгоритм. Возможности систем OCR. 1. Во время сканирования системы автоматически подбирают яркость, фрагментируют каждую страницу, распознают символы текста, проверяют ошибки. 2. Позволяют распознавать печатные (около 200 языков), рукопечатные, рукописные тексты. 3. Способны самообучаться и распознавать плохо пропечатанные символы. 4. Распознают изображения, полученные с помощью цифрового фотоаппарата. 5. Распознают файлы в формате PDF. Развитие программ OCR сегодня идёт в направлении повышения точности распознавания текстов низкого качества, распознавания рукописных текстов, выделения текстовой информации на фоне шумов, а также интеграции OCR-систем с различными программами обработки информации (система машинного перевода).
№ 18. Аннотация и реферат текста – основные понятия. Методы автоматического аннотирования и реферирования текста. Позиционный и логико-семантический методы. Аннотация и реферат – основные понятия. Реферат – это связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, полученные (основные) результаты описанного исследования. Аннотация – это краткое изложение содержания документа, дающее общие сведения о его теме. Это вторичные документы. Составление реферата (аннотации) текста с помощью компьютера называют автоматическим реферированием (аннотированием) текста. Машинный реферат представляет собой либо последовательность предложений исходного текста либо таблицу, в ячейках которой располагаются ключевые слова или словосочетания. 1958 год – первый машинный реферат. Этапы построения реферата человеком: 1. подготовительный (референт читает весь текст и пытается понять его в целом) 2. аналитический (референт выделяет в тексте основные смысловые единицы + строится план будущего реферата) 3. этап непосредственного построения реферата (аннотация) – (выделенные ранее смысловые единицы располагаются в единый вторичный текст в соответствии с планом) В качестве смысловых единиц реферата могут быть: 1. полное (без изменения) ключевое предложение исходного текста 2. перефразированные ключевые предложения исходного текста 3. предложения, составленные из ключевых слов или словосочетаний с помощью связующих элементов 4. предложение, обобщающее несколько предложений исходного текста Смысловые единицы аннотации: 1. ключевые слова или словосочетания исходного текста с предшествующими им специальными словами-реляторами типа «Рассматривается важная проблема…» 2. специальные предложения исходного текста, содержащие либо оценочные элементы текста («Статья посвящена…»), либо содержащие клише, т.е. специализированные словесные штампы («Ставится задача…») Компьютер должен уметь: 1. находить в тексте ключевые слова, словосочетания, предложения 2. находить в тексте менее значимые единицы 3. составлять из текстовых единиц смысловые единицы реферата и аннотации 4. располагать их Методы автоматического аннотирования и реферирования текста. 1. Статический 2. Позиционный 3. Логико-семантический Позиционный и логико-семантический методы. ПОЗИЦИОННЫЙ. Основным критерием этих методов является место или позиция предложения в исходном тексте. Выделяют два позиционных метода: а) метод заглавия (считается, что основное содержание текста выражается текстом заголовка, поэтому составляется словарь ключевых слов на основе знаменательных слов заголовков, подзаголовков); б) метод локализации, или местонахождения (такой метод работает на текстах узкой тематики). Идея метода в таких текстах – предложения о цели, результатах исследования занимают фиксированное место. Эти методы используются комплексно и дают результат где-то 75%. ЛОГИКО-СЕМАНТИЧЕСКИЙ. Исследуют структуру и семантику текста. Ключевые предложения – это предложения с наибольшим функциональным весом, на величину которых влияют различные факторы (связь с левым и правым окружением, наличие в предложении семантически значимых слов, …). Сегодня появились методы второго поколения, основанные на выделении из текстов документов, наиболее информативной информации и генерирования с помощью её новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Эти системы могут работать сразу с несколькими источниками и с видеоинформацией. Существует разные теории реализаций этих методов. SUSY, Text Analyst.
|