![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Морфологический анализ словоформы
Алгоритм морфологического анализа (МА) в решающей степени зависит от принятого в системе способа хранения информации. Существуют два основных метода: декларативный и процедурный. При декларативном методе реализации МА в словаре хранятся все возможные словоформы каждого слова с приписанной им МИ. По сути, в декларативном МА нет собственно морфологического анализа; задача алгоритма состоит только в поиске словоформы в словаре и переписывании из словаря соответствующего ей комплекса МИ. Таким образом, декларативный МА работает быстрее, чем процедурный. Однако велика трудоемкость построения словаря, а также требуются значительные затраты памяти ЭВМ. При процедурном методе в словаре системы хранятся основы слов. Процедурный МА выполняет следующие функции: выделяет в словоформе основу, идентифицирует ее (найдя в словаре основ и заменив на код, используемый этапами синтаксиса и семантики) и конструирует для данной словоформы комплекс МИ. Рассмотрим один из методов морфологического анализа словоформ русского языка, который называется обратным методом. Его алгоритм состоит из пяти блоков. 1. Поиск словоформы в словаре готовых форм. В русском языке существует небольшое количество неизменяемых слов и слов с нерегулярными формами изменения. Для этих слов МА не требуется вообще или не укладывается в стандартные правила. Примерами таких слов являются предлоги, наречия, неизменяемые существительные (пальто), знаки препинания, цифры, некоторые формы глаголов (идти — шел) и т.п. Указанные слова хранятся в словаре готовых форм (СГФ) и задача первого блока МА состоит в том, чтобы определить, не встречается ли в нем очередная словоформа входного текста. Если да, то вся необходимая МИ переписывается из СГФ и анализ словоформы заканчивается. 2. Выделение основы. Работа второго блока МА сводится к последовательным проверкам возможностей вложения в анализируемую словоформу справа налево окончаний и суффиксов. При этом для ускорения проверок вкладываются (отсекаются) аффиксы с большим числом букв, а информация о вкладывающихся в них меньших аффиксах получается не поиском, а за счет отсылок. Соотношение по вложенности аффиксов таково: аффиксы полных прилагательных включают аффиксы существительных, аффиксы глаголов включают аффиксы существительных и кратких прилагательных, а аффиксы существительных — аффиксы кратких прилагательных. Например, у аффикса -ей (часть речи — прилагательное, например, «средней») записано четыре МИ: 1) род., ед., ж., о; 2) дат., ед., ж., б; 3) тв., ед., ж., 6; 4) пр., ед., ж., о.— и указана отсылка на аффикс -ей (часть речи — существительное, например, «матрицей») с МИ: тв., ед., ж.. В результате вложения всех возможных аффиксов словоформе сопоставляется одна или несколько гипотетических основ (ГО) и для каждой основы — одна или несколько МИ. 3. Поиск основы в словаре основ. В случае нахождения ГО в словаре основ и совпадения части речи ГО с частью речи словарной основы (СО) (а для существительных при совпадении также типов основ, одушевленности, рода и числа) данная ГО и ее МИ (одна или несколько) признаются правильными. В противном случае ГО признается ошибочной и отбрасывается. Сравнение МИ, полученных по таблицам аффиксов, с информацией из словаря служит для разрешения лексической омонимии основ существительных. Такое сравнение позволяет в большинстве случаев отсеять омонимичные основы, оставляя неразрешенной только полную омонимию, т. е. когда омонимичны и основы и аффиксы. Для глагольных основ, подобная система разрешения омонимии возможна, но менее эффективна. Дело в том, что у существительных морфологические типы служат не столько для разрешения омонимии основ, сколько для разрешения омонимии аффиксов. При анализе глаголов, у которых омонимичных аффиксов нет, встречаются затруднения. Во-первых, по разным аффиксам может восстанавливаться один и тот же номер морфологического типа (так, суффиксы - ива - и - ыва - свойственны глаголам одного типа, но уб-ива-ть и уб-ыва-ть). Во-вторых, по некоторым аффиксам нельзя однозначно восстановить морфологический тип (суффикс - а - в бежать: бежит — и в вешать: вешает, т. е. может выступать показателем разных типов глаголов). Наиболее разумным подходом к этой проблеме является хранение в словаре основ с приписанными им аффиксами. При необходимости разрешать омонимию основ они сравниваются с аффиксом, который следует за основой в обрабатываемой словоформе. Например, в словаре хранятся две основы уб. Одна с аффиксом - ива - (от убивать), а другая с аффиксом - ыва - (от убывать). Если в обрабатываемом тексте встретилось слово убывал, то при анализе будет выбрана вторая основа уб. Данная проблема может быть решена и принципиально иным способом. При возникновении омонимии при анализе словоформы А включается этап синтеза, который по основам и их МИ (выделенным на анализе) строит словоформы. Правильными считаются те из выделенных основ и МИ, по которым будет построена словоформа А. Данный путь отличается наибольшим изяществом и отсутствием дополнений и поправок к словарю, хотя требует существенных машинных затрат. Подобный метод проверки «анализа через синтез» широко используется в системах понимания речевых сигналов. В задачу третьего блока входит также корректировка множества МИ, сопоставленных данной словоформе, полученного на основе таблиц аффиксов. Так, в зависимости от наличия возвратной частицы и типа активности глагола может корректироваться характеристика «залог». Особое место занимает определение «вида» глагола. Поясним детали работы МА на примере словоформ решает и решится. В основном словаре для основы -реш- записана следующая морфологическая информация: часть речи — «глагол», основа имеет активную и пассивную формы (а/п), основа относится к «виду» нсв/сов (например: «решать (нсв) — решить (сов)»). В связи с тем, что в СГФ указанные словоформы не будут найдены, начнет работу второй блок МА. Сначала будет вложена возвратная частица - ся (для первой словоформы) и окончание - ет (- ит). В таблице аффиксов окончанию - ет (- ит) соответствует МИ: глаг., наст., ед., р., акт. Данные окончания содержат отсылку на вкладывающиеся в них пустые окончания -0- для существительных типа «теодолит» (сущ., им., ед., м., о; сущ., вин., ед,. м., неод.), и типа «бит» — единица информации (сущ., род., мн., о; сущ., вин., мн., о.). Для глаголов будет произведено вложение суффиксов - а - (для первой словоформы) и -и- (для второй). Итак, будут сформированы следующие гипотетические основы (ГО): 1) для первой словоформы будет получено две основы: -решает- с МИ для существительного и -реш- с МИ для глагола; 2) для второй словоформы («решится») — одна основа -реш- с МП для глагола (существительное не будет рассматриваться в связи с частицей - ся). Основа -решает- в словаре не будет найдена и признается ошибочной. Основа - реш - признается правильной, так как части речи ГО и СО совпадают. В связи с тем, что основа имеет форму а/п и в «решится» вложена частица - ся, в МИ второй словоформы акт. заменяется на пасс. Основа -реш- относится к типу нсв/сов, т.е. информация о «виде» определяется по правилу, связанному с основой. Применение соответствующего правила к первой основе дает «нсв», а ко второй — «сов». В связи с тем, что у второй словоформы «вид» = «сов» и «время» = «настоящее», «время» изменяется на «будущее». Итак, словоформе «решает» соответствует МИ: «глаг., наст., ед., р, акт., нсв», а для «решится» — «глаг., буд., ед., р, пасс, сов». 4. Обработка словосочетаний. Задача четвертого блока состоит в том, чтобы преобразовать некоторые словоформы, отделенные друг от друга пробелами или другими словоформами, к одной основе (операция «склеивание»). Данная операция выполняется для упрощения синтаксического и семантического анализов. Операция «склеивание» выполняется для словосочетаний и «аналитических форм» глаголов (например, «будет строить», «была построена» и т. п.). Словоформы, образующие аналитическую форму глагола, заменяются на «новую» основу с МИ, приписанной на основе информации о глаголе «быть» и информации инфинитива (или краткого прилагательного). Так, например, в случае аналитической формы («быть» в будущем времени + инфинитив, например: будет строиться), выражающей будущее время глагола, стоящего в форме инфинитива, совершаются следующие преобразования. «Новой» основе приписывается словарный номер инфинитива «строить» с МИ: глаг. (по части речи «будет»), пассивность (по инфинитиву «строиться»), а время, род и число — по глаголу «будет». В данном случае «будет строиться» заменится на «строить» с МИ: глаг., пасс, буд., р., ед. (т. е. аналог «построиться»). Словосочетанием назовем жестко закрепленную последовательность словоформ, рассматриваемую на уровне семантики как единое понятие. В словаре системы у основы (X), хранится следующая информация обо всех словосочетаниях, начинающихся с X: а) перечень основ, образующих словосочетания, с указанием (при необходимости) для каждой основы части речи, рода, числа и падежа; б) главное слово словосочетания (т. е. слово, по которому словосочетанию приписывается МИ). Словарной статье собственно словосочетания приписана такая же информация, как и любой обычной основе. «Склеивание» словосочетаний протекает следующим образом. Сначала обрабатываются отдельные словоформы. Затем по словоформе (X), с которой может начинаться словосочетание (информация об этом указана в словаре), определяется, удовлетворяют ли следующие за X словоформы (по части речи, роду, числу, падежу и т. п.) перечню словосочетаний, начинающихся с X. Если совпадение обнаружено, то информация о возможности (по не обязательности) данного словосочетания приписывается первому слову предполагаемого словосочетания и передается на синтаксический анализ. Отсутствие совпадения указывает на отсутствие данного словосочетания в предложении. Этот алгоритм в общем случае усложняется из-за того, что слова, образующие словосочетания, могут идти не подряд. 5. Предсинтаксис. В задачу данного блока входит подготовка данных, упрощающая работу синтаксического анализа: 1) формируются номера уровней словоформ входного предложения; 2) помечаются слова, возможно обусловленные предыдущими словами; 3) используются предварительные синтаксические фильтры, устраняющие избыточную морфологическую информацию. Первая из перечисленных задач состоит в выделении (по возможности) уровня каждой словоформы. При этом словоформы основного предложения образуют нулевой уровень, а словоформы придаточных предложений и вложенных друг в друга оборотов (причастных, деепричастных) имеют более высокие уровни по числу вложенности. Это позволяет ускорить обработку на этапе синтаксического анализа за счет устранения взаимосвязи слов между разными уровнями. Вторая из задач состоит в том, чтобы пометить словоформы, идущие за количественными числительными как словоформы, подозрительные на обусловленность, запомнить наличие (отсутствие) частицы «не», обусловливающей синтаксическое отношение ПРЕД (т. е. изменяющей падеж с именительного на родительный), и т. п. В завершение работы МА на основе синтаксических фильтров (например, согласование прилагательных со следующим за ними существительным по падежу, роду и числу и т. п.) осуществить отбрасывание избыточной морфологической информации. Так, словоформе территории будет приписано пять МИ (род., ед., ж.; дат., ед., ж.; пр., ед., ж.; им., ив.; вин., мн., неод.). Однако если перед данной словоформой стоит предлог «на» (требующий винительного и дательного падежей), то три из этих МИ будут устранены. Оставшаяся омонимия («нападал на территории пяти государств» и «на территории района») будет разрешена с помощью синтаксиса и семантики.
|