![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Методы автоматического аннотирования и реферирования текста. Статистический метод.
Методы автоматического аннотирования и реферирования текста. 1. Статический 2. Позиционный 3. Логико-семантический Статический метод. В этом методе ключевое слово – это знаменательное слово текста, которое с учётом его синонимов встречается наибольшее число раз. Ключевое предложение – это предложение исходного текста, которое: а) имеет несколько ключевых слов; б) ключевые слова находятся на небольшом расстоянии друг от друга. Принадлежность слова к числу ключевых определяется специальным коэффициентом важности. Задача: используя для выделения ключевых слов текста из вариантов статического метода, а именно коэффициент важности равен: Кважн. = F*m/N*n (где F – частота употребления слова в тексте; m – число абзацев, в которых встретилось слово; N – количество слов в тексте; n – количество абзацев в тексте), составить алгоритм, позволяющий получить: а) аннотацию текста в виде релятора со следующими за ними ключевыми словосочетаниями. (Ключевое словосочетание – это имя существительное со стоящим перед ним определением, выраженное прилагательным или причастием); б) словесный реферат текста в виде последовательной цепочки ключевых предложений (содержит три и более ключевых слов). Словоупотребление – это цепочка буквенных символов, находящихся между двумя знаками пробелов. Словоформа – это словоупотребление, находящееся вне предложения. Слово (лексема) для компьютера – несколько словоформ, имеющих одно и то же лексическое значение. Предложение с точки зрения ПК – это цепочка словоупотреблений, заключённых между двумя знаками конца предложения. Алгоритм решения задачи: 1. ПК по каждому абзацу текста составляет алфавитно-частотный словарь 2. алфавитно-частотные словари объединяются в единый распределительный словарь словоформ всего текста 3. машина проводит чистку словаря, сжимает его до словаря потенциально ключевых слов: ü удаляется вся служебная и общеупотребительная лексика ü объединяет все грамматические форма одного и того же слова ü удаляет слова, которые встретились только в одном абзаце ü объединяет синонимы 4. словарь потенциальных ключевых слов делится на: а) словарь главных опорных слов; б) второстепенных слов 5. строится аннотация, которая составляется из слов-реляторов и следующими за ними ключевыми словами-сочетаниями (из списка главных опорных слов) 6. строится реферат из главных и второстепенных опорных слов (просматривая исходный текст, ПК извлекает из него предложения, содержащие три и более опорных слова).
|