Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Вопрос 29.






ЛИР -совокупность данных хранящихся на ПК.

Лингвистические информационные ресурсы – одна из составляющих информационных ресурсов.Под информационным ресурсом понимают некоторый интеллектуальный ресурс, результат коллективного творчества

К пассивным формам информационных ресурсов относят книги, журналы, газеты, словари, энциклопедии, патенты, базы и банки данных и т.п.

Активные формы включают алгоритмы, модели, программы, базы знаний

В самом общем виде ЛИР – это своеобразная лингвистические БД, которые можно обновлять и в которых можно искать ту или иную информацию. Лингвистические ресурсы необходимы как пользователям ПК, так и различным компьютерным системам, связанным с обработкой текста речи: реферирования, аннотирования и перевода текстов, автоматического анализа текста, синтеза речи и текста.

Пассивные лингвистические информационные ресурсы включают:

1) Письменный лексикон представлен одноязычными и многоязычными лексиконами. В общем смысле словарь - это справочная книга, которая содержит слова (морфемы, словосочетания, идиомы и т.п.), расположенные в определенном порядке (различном в разных типах словарей). В нем может содержаться толкование значения описываемых единиц, а также различная информацию о них. Любой словарь может быть представлен в виде реляционной БД

а) частотно-алфавитный словарь словоформ какого-либо текста – простейшая лингвистическая БД;

б) словоуказатель более сложная БД. В ней, кроме абсолютной частоты употребления словоформы в тексте, указываются номера страниц и строк на странице, где встретилась данная словоформа.

в) конкордансы ещё более сложный тип БД. В них каждая словоформа текста характеризуется не только численными показателями (частотой, номером страницы, номером строки и т.д.), но и некоторым контекстом, в котором она употреблена. Как правило, этот контекст состоит из 3-х предложений: предложения, в котором встретилась словоформа, предложения, стоящего перед основным предложением, и предложения, стоящего после него

г) энциклопедии словари, содержащие характеристики не слова как такового, а обозначенного им предмета, факта или явления. Существует достаточно большое число различных энциклопедий на машинных носителях информации. Наиболее известна среди них энциклопедия " Britannica". Она включает 82000 статей и 700 дополнительных материалов, опубликованных с 1768 года. Не менее известны французские энциклопедии " TonslessavoireduMonde", " Lemondesur CD-ROM", " Versailles" и др. На русском языке издана " Большая Энциклопедия Кирилла и Мефодия

д) тезаурус - принципиально иной тип словарей. В нем в явном виде указаны семантические связи между определенной частью его лексических единиц. Как правило, такие словари строятся для текстов достаточно узкой проблемной области: вычислительной техники, музыки, кораблестроения, сельского хозяйства и т.д.

е) терминологическим словарь (ТС) – словарь, основной единицей которого является термин.
Термин - это слово или подчинительное словосочетание, имеющее специальное значение, выражающее и формирующее профессиональное понятие и применяемое процессе познания и освоения научных и профессионально-технических объектов и отношений между ними.

 


Вопрос 30.

ЛИР -совокупность данных хранящихся на ПК.

Лингвистические информационные ресурсы – одна из составляющих информационных ресурсов.Под информационным ресурсом понимают некоторый интеллектуальный ресурс, результат коллективного творчества

К пассивным формам информационных ресурсов относят книги, журналы, газеты, словари, энциклопедии, патенты, базы и банки данных и т.п.

Активные формы включают алгоритмы, модели, программы, базы знаний

В самом общем виде ЛИР – это своеобразная лингвистические БД, которые можно обновлять и в которых можно искать ту или иную информацию. Лингвистические ресурсы необходимы как пользователям ПК, так и различным компьютерным системам, связанным с обработкой текста речи: реферирования, аннотирования и перевода текстов, автоматического анализа текста, синтеза речи и текста.

2) Письменный текстовый массив (корпус тексто в, т.е. совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке, диалекте или ином другом подмножестве языка).

а) Могут быть использованы:

- В лексикографии и лексикологии (для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте, выделения терминов и терминологических словосочетаний и т.п.).

- В грамматике (для определения частоты употребления грамматических морфем в текстах различного типа, выявления наиболее употребляемых типов словосочетаний и предложений, определения значений синонимичных морфологических единиц, частоты употребления классов слов и т.д.).

- В лингвистике текста (для дифференциации типов текста, создания конкордансов, выявления связи между предложениями в абзацах и между абзацами «т.д.).

- При автоматическом переводе текстов (для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов терминологических и фразеологических словосочетаний в параллельных текстах и т.д.).

- В учебных целях (для выбора цитат, отдельных фрагментов произведений, примеров, используемых в процессе создания учебников и учебных пособий.

б) таггированные корпусы текстов (от англ, tag - 'индекс, помета'). Все слова такого корпуса получают некоторые буквенные или цифровые индексы, которые обозначают их грамматические, лексические, семантические или структурные признаки. Таких индексов может быть несколько.

3) Фонетические лингвистические ресурсы
В настоящее время общепринято, что для создания машиночитаемых фонетических корпусов используется транскрипция на основе орфографического представления звуковречи с дополнительными знаками, передающими (при необходимости) просодические, паралингвистические и другие особенности произношения.

а) Фонетические корпусы текстов широко используются для решения следующих задач:

- сопоставительного изучения устной и письменной форм языка;

- изучения грамматических и лексических особенностей устной речи;

- исследования фонетических особенностей диалектов;

- построения частотных списков фонем и их сочетаний;

- изучения акустических свойств речевых единиц и их использования в психолингвистических и лингвистических экспериментах;

- создания компьютерных систем, распознавания и синтеза устной речи.


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.007 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал