Оценка надежности частотного словаря.

⇐ ПредыдущаяСтр 10 из 15Следующая ⇒

Как уже было сказано, частотные словари строятся либо на сплошном, либо на выборочном исследовании текста. Если частотный словарь построен выборочным путем, возникает вопрос, насколько получаемая статистическая я модель отражает свойства своего оригинала — в нашем случае распределены вероятностей исследуемых лексических единиц.

Ответ на этот вопрос можно получить, оценив надежность нашей модели, для чего используются не только математические, но и чист лингвистические приемы.

В частности, встает вопрос о качестве организации выборки текстов, т. е. о том, насколько стиль и тематика отобранных для статистического исследования текстов отвечают стилистика - тематическом своеобразию исследуемой разновидности языка.

Если тематические пропорции выборки соответствуют пропорциям тем в оригинале, то выборку можно считать репрезентативной. Это означает, что выборочное распределение изучаемого лингвистического признака будет достаточно близко к его распределению в генеральной (гипотетической, теоретической) совокупности. В качестве иллюстрации рассмотрим организацию выборочного отбора текстов для составления частотного словаря лексики русских газет.

Сначала весь газетный материал, включающий 500 номеров четырех газет, был распределен по жанрово-тематическим разделам. Из этих разделов было отобрано произвольно около 1090 статей, которые образовали экспериментальную выборку.

Эта выборка была разбита на 150 порций по 1000 словоупотреблений. В свою очередь, каждая из этих порций была разбита на 10 мелких выборок по 100 словоупотреблений каждая с учетом удельного веса каждого жанра и тематики.

Другой простой способ оценки качества составленного частотного словаря состоит в установлении того, насколько часто слова (словоформы) полученной списка встречаются в новых, неисследованных текстах, относящихся к той же тематике, что и ранее обследованные тексты. При этом важно определить, какой процент этих новых текстов будет покрывать единицы частотного словаря. Хотя оба эти подхода являются чисто эмпирическими и математически не строгими приемами, в целом они позволяют оценить качество частотного словаря.

С другой стороны, существуют чисто математические приемы, при помощи которых можно достаточно строго оценить достоверность полученных результатов.

К таким приемам, прежде всего можно отнести:

а) определение объема выборки и нижнего порога достоверности частот единиц частотного словаря;

б) определение доверительных интервалов вероятностей или математических ожиданий частот для слов (словоформ).

3.3. Описание программы «Текстовый анализатор»

Для начала работы с программой необходимо запустить файл TextAnalys.exe. При запуске программы открывается главная форма приложения (рисунок 1.1).

Рисунок 1.1- Главная форма приложения

Для начала разбора и анализа текста необходимо загрузить текстовый файл (файл с расширением *.txt). Для этого необходимо зайти в меню «Текст» и выбрать «Загрузка текста из файла» (рисунок 1.2)

Рисунок 1.2- Выбор файла

После выбора текстового файла можно начать непосредственно анализ и разбор текста. Для статистического (количественного) анализа корпуса текста необходимо выбрать меню «Анализ корпуса текста» и на экран вылезет форма с проанализированным текстом (рисунок 1.3).

Для каждой лексической единицы текста будет подсчитана ее абсолютная частота, относительная частота, удельная энтропия.

Список в левом окне формы упорядочен по рангу слова (т.е по его частоте встречаемости в тексте).

В правом окне этой формы будет показано количество слов в тексте, количество абзацев, подсчитаны знаки препинания (точки, запятые, восклицательные знаки, вопросы, двоеточия, точки с запятой).

А также: накопленная энтропия, индекс исключительности, индекс предсказуемости, индекс дистрибуции, индекс итерации. После этого вы можете увидеть, сколько слов в тексте встретились больше одного раза, сколько встретились хотя бы раз и один раз.

Далее идет список всех чисел встреченных в тексте.

Внизу формы выводиться сумма всех частот (т.е список всех лексических единиц, встреченных в данном тексте).

Рисунок 1.3- Количественный анализ корпуса текста

После произведенного анализа программа предлагает сохранить результат в файл (с расширением *.txt), который вы также можете выбрать, либо создать сами (рисунок 1.4).

Рисунок 1.4- Сохранение результата

В меню «Разбор» имеется подменю «Частичный разбор». Нажав на это подменю, либо нажав горячие клавиши “Ctrl+C” на экран вылезет форма с пятью пустыми окнами и кнопкой “Разбор”. При нажатии этой кнопки произойдет разбор текста на местоимения, междометия, предлоги, союзы и числительные (рисунок 1.5). Этот разбор осуществляется по имеющейся базе этих частей речи, которую вы можете просмотреть на главной форме программы.

Рисунок 1.5- Разбор на части речи 1

Результат данного разбора сохраняется в текстовых файлах (в папке с программой).

Кроме разбора на местоимения, междометия, предлоги, союзы и числительные имеется разбор на существительные, глаголы и прилагательные. Для этого разбора необходимо зайти в меню «Разбор», выбрать подменю «Разбор (сущ, глаг, прил)», либо нажать “Ctrl+S”.

Используя кнопки под каждым окном формы, получается разбор текста на данные части речи (рисунок 1.6).

Это разложение на части речи осуществляется по имеющейся базе данных, которая находится в папке с программой.

Рисунок 1.6 Разбор на части речи 2

Также в программе имеется “Помощь” в которой описывается, как обращаться с программой (рисунок 1.7).

Рисунок 1.7 Справка

Таким образом, используя все эти функции, можно разобрать текст на части речи и произвести количественный анализ корпуса данного текста.

В третьей главе описан комплекс программ для составления частотных словарей корпусов текстов и программа «Текстовый анализатор» для интерактивной обработки текстов.

Заключение

В результате дипломной работы была создана программа «Количественный анализ корпуса текстов». Данная программа позволяет разбирать тексты на части речи и анализировать их корпуса. Возможности программы можно описать кратко

⇐ Предыдущая 5 6 7 8 91011 12 13 14 Следующая ⇒

Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2026 год. (0.212 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал