Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Оценка надежности частотного словаря.
Как уже было сказано, частотные словари строятся либо на сплошном, либо на выборочном исследовании текста. Если частотный словарь построен выборочным путем, возникает вопрос, насколько получаемая статистическая я модель отражает свойства своего оригинала — в нашем случае распределены вероятностей исследуемых лексических единиц. Ответ на этот вопрос можно получить, оценив надежность нашей модели, для чего используются не только математические, но и чист лингвистические приемы. В частности, встает вопрос о качестве организации выборки текстов, т. е. о том, насколько стиль и тематика отобранных для статистического исследования текстов отвечают стилистика - тематическом своеобразию исследуемой разновидности языка. Если тематические пропорции выборки соответствуют пропорциям тем в оригинале, то выборку можно считать репрезентативной. Это означает, что выборочное распределение изучаемого лингвистического признака будет достаточно близко к его распределению в генеральной (гипотетической, теоретической) совокупности. В качестве иллюстрации рассмотрим организацию выборочного отбора текстов для составления частотного словаря лексики русских газет. Сначала весь газетный материал, включающий 500 номеров четырех газет, был распределен по жанрово-тематическим разделам. Из этих разделов было отобрано произвольно около 1090 статей, которые образовали экспериментальную выборку. Эта выборка была разбита на 150 порций по 1000 словоупотреблений. В свою очередь, каждая из этих порций была разбита на 10 мелких выборок по 100 словоупотреблений каждая с учетом удельного веса каждого жанра и тематики. Другой простой способ оценки качества составленного частотного словаря состоит в установлении того, насколько часто слова (словоформы) полученной списка встречаются в новых, неисследованных текстах, относящихся к той же тематике, что и ранее обследованные тексты. При этом важно определить, какой процент этих новых текстов будет покрывать единицы частотного словаря. Хотя оба эти подхода являются чисто эмпирическими и математически не строгими приемами, в целом они позволяют оценить качество частотного словаря. С другой стороны, существуют чисто математические приемы, при помощи которых можно достаточно строго оценить достоверность полученных результатов. К таким приемам, прежде всего можно отнести: а) определение объема выборки и нижнего порога достоверности частот единиц частотного словаря; б) определение доверительных интервалов вероятностей или математических ожиданий частот для слов (словоформ).
3.3. Описание программы «Текстовый анализатор» Для начала работы с программой необходимо запустить файл TextAnalys.exe. При запуске программы открывается главная форма приложения (рисунок 1.1).
Рисунок 1.1- Главная форма приложения Для начала разбора и анализа текста необходимо загрузить текстовый файл (файл с расширением *.txt). Для этого необходимо зайти в меню «Текст» и выбрать «Загрузка текста из файла» (рисунок 1.2) Рисунок 1.2- Выбор файла После выбора текстового файла можно начать непосредственно анализ и разбор текста. Для статистического (количественного) анализа корпуса текста необходимо выбрать меню «Анализ корпуса текста» и на экран вылезет форма с проанализированным текстом (рисунок 1.3). Для каждой лексической единицы текста будет подсчитана ее абсолютная частота, относительная частота, удельная энтропия. Список в левом окне формы упорядочен по рангу слова (т.е по его частоте встречаемости в тексте). В правом окне этой формы будет показано количество слов в тексте, количество абзацев, подсчитаны знаки препинания (точки, запятые, восклицательные знаки, вопросы, двоеточия, точки с запятой). А также: накопленная энтропия, индекс исключительности, индекс предсказуемости, индекс дистрибуции, индекс итерации. После этого вы можете увидеть, сколько слов в тексте встретились больше одного раза, сколько встретились хотя бы раз и один раз. Далее идет список всех чисел встреченных в тексте. Внизу формы выводиться сумма всех частот (т.е список всех лексических единиц, встреченных в данном тексте).
Рисунок 1.3- Количественный анализ корпуса текста После произведенного анализа программа предлагает сохранить результат в файл (с расширением *.txt), который вы также можете выбрать, либо создать сами (рисунок 1.4). Рисунок 1.4- Сохранение результата В меню «Разбор» имеется подменю «Частичный разбор». Нажав на это подменю, либо нажав горячие клавиши “Ctrl+C” на экран вылезет форма с пятью пустыми окнами и кнопкой “Разбор”. При нажатии этой кнопки произойдет разбор текста на местоимения, междометия, предлоги, союзы и числительные (рисунок 1.5). Этот разбор осуществляется по имеющейся базе этих частей речи, которую вы можете просмотреть на главной форме программы. Рисунок 1.5- Разбор на части речи 1
Результат данного разбора сохраняется в текстовых файлах (в папке с программой). Кроме разбора на местоимения, междометия, предлоги, союзы и числительные имеется разбор на существительные, глаголы и прилагательные. Для этого разбора необходимо зайти в меню «Разбор», выбрать подменю «Разбор (сущ, глаг, прил)», либо нажать “Ctrl+S”. Используя кнопки под каждым окном формы, получается разбор текста на данные части речи (рисунок 1.6). Это разложение на части речи осуществляется по имеющейся базе данных, которая находится в папке с программой.
Рисунок 1.6 Разбор на части речи 2
Также в программе имеется “Помощь” в которой описывается, как обращаться с программой (рисунок 1.7).
Рисунок 1.7 Справка
Таким образом, используя все эти функции, можно разобрать текст на части речи и произвести количественный анализ корпуса данного текста.
В третьей главе описан комплекс программ для составления частотных словарей корпусов текстов и программа «Текстовый анализатор» для интерактивной обработки текстов. Заключение В результате дипломной работы была создана программа «Количественный анализ корпуса текстов». Данная программа позволяет разбирать тексты на части речи и анализировать их корпуса. Возможности программы можно описать кратко
|