Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






WordNet: основные принципы






Лингвистическая онтология WordNet

 

Лингвистический ресурс WordNet разработан в Принстонском университете США. WordNet относится к классу лексических онтологий, свободно доступен в Интернете, и на его основе были выполнены тысячи экспериментов в области информационного поиска.

WordNet версии 2.1 охватывает приблизительно 155 тысяч различных лексем и словосочетаний, организованных в 117 тысяч понятий, или совокупностей синонимов (synset); общее число пар " лексема-значение" насчитывает 200 тысяч.

Разработка тезауруса была начата в 1984 году. В 1995 году WordNet появился в Интернете в свободном доступе и вызвал всплеск исследований по его использованию в различных компьютерных приложениях автоматической обработки текстов. Результаты применения WordNet оказались не столь однозначно положительными, но WordNet открыл новую эпоху разработки сверхбольших структурированных лингвистических ресурсов, вызвал появление большого числа последователей в разных странах, создающих такие " ворднеты" для своих языков, а также стал базой для многоплановых дискуссий и исследований того, на основе каких принципов должны строиться большие лингвистические ресурсы, пригодные для разнообразных приложений в области компьютерной лингвистики.

Первоначально WordNet создавался как модель человеческой памяти. Многие решения представления описаний слов в WordNet мотивируются психолингвистическими экспериментами. Однако нужно отметить, что WordNet вызвал значительно больший интерес у компьютерных лингвистов, чем у психолингвистов.

 

WordNet: основные принципы

Основоположник WordNet Джордж Миллер формулирует основные гипотезы, лежащие в основе разработки WordNet, следующим образом:

гипотеза отделимости: описание лексического компонента естественного языка может быть отделено и может изучаться отдельно;

гипотеза «образца» (patterning hypothesis): существует такое формальное описание слов, которое может быть применено к большинству слов языка;

гипотеза о покрытии (comprehensiveness hypothesis): для эффективного использования компьютерного словаря в приложениях автоматической обработки текстов такие словари должны быть очень большой величины.

 

В то время была популярной теория семантического компонентного анализа, в которой предполагалось, что значение слова, как и значение предложения, может быть представлено на основе набора семантических примитивов. Однако годы исследований не выявили лучшего набора семантических примитивов, пригодного для использования в ресурсах для обработки естественного языка.

В качестве альтернативы был выбран подход так называемой реляционной семантики, когда значения слов представляются некоторым выражением компонентов, а не на основе описания отношений между значениями разных слов.

Основным отношением в WordNet является отношение синонимии. Наборы синонимов - синсеты - основные структурные элементы WordNet.

Понятие синонимии базируется на критерии, что два выражения являются синонимичными, если замена одного из них на другое в предложении не меняет значения истинности этого высказывания.

Понятие синонимии, используемое в WordNet, не требует заменяемости синонимов во всех контекстах - по такому критерию в естественном языке было бы слишком мало синонимов. Используется значительно более слабое утверждение, что синонимы WordNet должны быть взаимозаменимы хотя бы в некотором множестве контекстов. Например, замена plank для слова board редко меняет значение истинности в контексте плотницкого дела, но существуют контексты, где такая замена не может считаться приемлемой.

Именно определение синонимии в терминах заменимости делает необходимым разделение WordNet на отдельные подструктуры по частям речи.

В состав словаря входят лексемы, относящиеся к четырем частям речи: прилагательное, существительное, глагол и наречие. Лексемы различных частей речи хранятся отдельно, и описания, соответствующие каждой части речи, имеют различную структуру.

Синсет может рассматриваться как представление лексикализованного понятия (концепта) английского языка.

Авторы считают, что синсет существительных представляет понятия существительных, глаголы выражают глагольные концепты, прилагательные - концепты прилагательных и т.п.

Кроме того, авторы считают, что такое разделение соответствует психолингвистическим экспериментам, что представление информации о прилагательных, существительных, глаголах и наречиях устроено в человеческой памяти по-разному.

Большинство синсетов снабжены толкованием, подобным толкованиям в традиционных словарях, - это толкование рассматривается как одно для всех синонимов синсета. Если слово имеет несколько значений, то оно входит в несколько различных синсетов.

 


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.006 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал