Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Глава 3. Частотные словари






Для нужд лексико-статистических исследований используются частотные словари. В качестве единиц этих словарей могут быть использованы либо словоформы (агглютинативные конструкции), либо исходные формы слов.

Различаются следующие типы частотных словарей:

1) алфавитно - частотный словарь словоформ и слов;

2) обратно - частотный словарь словоформ и слов;

3) ранговый частотный словарь словоформ и слов.

Алфавитно-частотные словари можно разделить на три вида.

В словаре первого вида при каждом слове может указываться только суммарная частота встречаемости слова или словоформы в исследуемом тексте. Такой частотный словарь будем именовать алфавитно-частотным словарем слов (словоформ).

В словаре второго вида при каждом слове или словоформе могут даваться номера страниц и источников. Такой вид словаря будем называть алфавитно-частотным словарем-словоуказателем (конкордансом).

В словаре третьего вида помимо указания на суммарную частоту и ее распределение по источникам (или страницам) приводится толкование слова. Такой частотный словарь будем называть алфавитно-частотным толковым словарем. К этому виду относятся частотные словари, составленные по произведениям отдельных авторов.

Последние два вида словарей составляются обычно относительно слов.

Частотный словарь, построенный по алфавиту концов слов или словоформ, будем называть обратно - частотным словарем.

Частотный словарь, упорядоченный по убыванию или по возрастанию частот, назовем ранговым частотным словарем слов (словоформ). В дальнейшем вместо термина ранговый частотный словарь будем употреблять термин частотный словарь.

Можно использовать и другие приемы упорядочения лексики, например, упорядочение по длине словоформ или слов.

Основным объектом нашего анализа выступает частотный словарь лексики, который является той статистической моделью, с помощью которой описываются распределения вероятностей отдельных лексических единиц.

В частотных словарях рядом с лексической единицей обычно даются и квантитативные характеристики.

Для исследования статистической структуры текста особо важную роль играет рассмотрение вместо самого частотного словаря лексики его спектров, в которых указаны статистические и информационные характеристики:

1) абсолютная частота (),

2) накопленная абсолютная частота (), равная сумме частоты

данной лексической единицы и им предшествующих абсолютных частот,

3) относительная частота , равная отношению абсолютной частоты лексической единицы к объему текста N,

4) накопленная относительная частота ), равная отношению накопленной абсолютной частоты лексической единицы к объему текста N,

5) удельная энтропия ,

6) накопленная энтропия, равная сумме удельных энтропий

,

7) среднее количество энтропии (информации), приходящееся на словоформу

,

8) C – индекс дистрибуции (чем, эта величина больше, тем богаче словарь)

9) Ii – индекс итерации (индекс повторения слов в замкнутом тексте)

10) Ie – индекс исключительности (специфичности) лексики

11) P– индекс предсказуемости (чем P меньше, тем привлекательнее текст)

,

где

N – объем текста - число лексических единиц в тексте

L – число лексических единиц в тексте, которые встретились в тексте хотя бы один раз.

– лексические единицы, которые встретились в тексте только один раз


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.007 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал