Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Коэффициент ранговой корреляции.
Система ранжирования получила широкое распространение в исторических исследованиях. Суть ее состоит в предваритель ной экспертной оценке вариантов качественного признака и при своении им количественного эквивалента, исходя из степени их интенсивности. Ранжировать изучаемые признаки обязательно в одном и том же порядке: либо по восходящей, либо по нисходя щей линии. Ранжированию подвергаются как количественные, так и качественные признаки. Коэффициент корреляции рангов может быть вычислен и для изучения взаимосвязи между каче ственным и количественным признаками. Ранги чаще всего обо значаются порядковыми числительными 1, 2, 3... Меру взаимо связи между парой признаков, каждый из которых ранжирует изучаемую совокупность объектов, показывает коэффициент ранговой корреляции. Одну из формул коэффициентов корреляции рангов пред ложил английский психолог Ч.Спирмен (18631945 гг.).
Коэффициент ранговой корреляции Спирмена измеряется и интерпретируется так же, как и другие корреляционные коэф фициенты. При совпадении ранжированных рядов по обоим рас сматриваемым признакам коэффициент примет значение 1, что говорит о максимально тесной прямой связи. Если объекты в од ном ранжированном ряду прямо противоположны рангам второго признака, то на лицо максимально тесная обратная связь. В обо их этих случаях вычисления коэффициента не требуется, до статочно проанализировать взаимное расположение рангов. Пример 6.4: Дано распределение семейного состояния населения по среднедушевому доходу.
Определить тесноту связи между рассматриваемыми приз наками. В приведенной таблице графы 3 и 4 показывают ранги рас сматриваемых признаков. Они составлены для качественного признака (х) в восходящем порядке, исходя из хронологической поэтапности смены семейного состояния. Второй признак количе ственный среднедушевой доход в месяц (у) проранжирован также в восходящем порядке по степени интенсивности проявле ния. Пятая графа представляет разницу между парами рангов, а шестая квадраты значений разности пар рангов. Полученные величины подставляем в формулу:
Значение коэффициента ранговой корреляции Спирмена в нашем примере свидетельствует о наличии прямой связи между рассматриваемыми признаками, но связь эта довольно невысока. Приведенной формулой пользуются для сгруппированных данных или при малых выборках, т.е. тогда, когда каждый ранг встречается в исходной совокупности по одному разу. На практи ке гораздо чаще встречаются материалы, где значения призна ков повторяются. В таких случаях формула коэффициента ранго вой корреляции Спирмена имеет вид:
Пример 6.5: Дано распределение студентов по полу и успеваемости.
Определить тесноту связи между признаками. Признак " успеваемость" (х) проранжирован по степени интенсивности проявления в убывающем порядке (первый ранг присвоен высшей успеваемости, последний низшей). Второй признак " пол" носит альтернативный характер и также должен быть проранжирован в убывающем порядке. Для этого оценим количественную интенсивность проявления признака в рассматриваемой совокупности. Женщин больше мужчин. В соот ветствии с этим женщинам присваеваем первый ранг, а мужчи нам второй. Далее для простоты подсчетов сведем имеющиеся сведения в таблицу:
Полученное значение свидетельствует о прямой тесной связи между рассматриваемыми признаками, т.е. успеваемость во многом зависит от пола студента. Причем, положительное значение коэффициента говорит о более высокой успеваемости женской части учащихся. В исторических исследованиях используются и другие ко эффициенты ранговой корреляции (коэффициент Кендалла, ко эффициент конкордации и др.), но общая теория статистики ре комендует пользоваться коэффициентом корреляции рангов Спирмена. Он менее трудоемок, достаточно представителен. Сложнее обстоит дело при вычислении силы взаимодей ствия признаков, проявляющейся во времени, в развитии. В ди намических рядах показатели могут быть обусловлены как слу чайными, так и детерминированными факторами, где каждое по следующее явление обусловлено предыдущим. На изменение значений признака в динамическом ряду могут влиять сезонные колебания, цикличность процесса. Следовательно, прежде чем вычислять какой бы то ни было коэффициент корреляции, необ ходимо оценить характер признаков динамического ряда и фак торы, определяющие изменения их значений. Анализ степени взаимодействия случайных признаков в динамическом ряду мож но провести на основе уже рассмотренных корреляционных ко Подставляем полученные значения в формулы: эффициентов. Обязательно в данном случае должно присутство вать в тексте работы доказательство правомерности использова ния избранного приема исследования. Когда предполагается, что компоненты динамического ря да могут быть связаны между собой, то прибегают к вычисле нию автокорреляции, раскрывающей силу зависимости между со седними уровнями динамического ряда. Она вычисляется по формуле линейного коэффициента корреляции. В качестве значе ний первого признака (х) берутся исходные уровни динамического ряда, за исключением последнего. В качестве значений второго признака (у) используются те же уровни динамического ряда, но без первого. Пример 6.6: Дано распределение социального состава РКП(б) в годы гражданской войны (в тыc/чел.)
Полученное значение очень высоко, что свидетельствует о прямой зависимости динамики социального состава от его на чального положения. Это может служить доказательством прове дения направленной социальной политики в партийном строи тельстве, а следовательно, о детерминированности изучаемого процесса. Можно считать, что математически подтверждено, что изменение социального состава РКП(б) в годы гражданской войны нельзя считать стихийным процессом, это было управляе мое и жестко контролируемое явление. Коэффициент автокорреляции рассчитывается не только между соседними уровнями, но и между сдвинутыми на любое число единиц времени. В математической статистике разработаны методы опреде ления зависимости между динамическими рядами при помощи корреляционного анализа, однако они требуют дополнительных вычислений, связанных с исключением тренда, исключением ав токорреляции.
Тема 6. Математические методы исследования текстов. Контент Анализ
Теория: Наиболее обширную группу исторических источников составляют развернутые индивидуальные тексты. Письменный текст имеет статистическую структуру и определенные характеристики, в нем содержащиеся, могут быть описаны с помощью вероятностных законов. Таким образом, в случае необходимости нарративный источник можно превратить в массовый путем частотных, классификационных преобразований, т. е. методом контентанализа. Контентанализ складывается из двух основных этапов. На первом, классификационном этапе, исходя из исследовательской цели и информативного потенциала источников, выделяется совокупность признаков, многократно встречающихся в документах. Здесь происходит формализация документа, вырабатывается не кое подобие анкеты.
На втором этапе решается вопрос " как считать? ". В зависимости от характера количественных данных, от частотных классификаций, от группировок определяется процедура расчета показателей по разработанным математикостатистическим методам.На втором этапе решается вопрос " как считать? ". В зависимости от характера количественных данных, от частотных классификаций, от группировок определяется процедура расчета пока зателей по разработанным математикостатистическим методам. Рассмотрим некоторые примеры: С помощью контентанализа О.Г.Буховец изучил содержание 72 приговоров и наказов политического характера, принятых крестьянами Самарской губернии в 19051906 гг. (См.Буховец О.Г. к методике изучения " приговорного" движения и его роли в борь бе крестьянства в 19051907 гг. //История СССР. 1979, N 3). Классификационный этап завершился формированием 30 катего рий требований. Подсчет частоты встречаемости каждой категории в тексте источника показал, что наиболее важными для кре стьян были: 1) амнистия политическим заключенным (73% документов), 2) установление демократических свобод (58 %), 100 3) отмена смертной казни (43%), 4) упразднение земских начальников, полиции, стражников (39%) и т.д. На основе математических методов получены полезные результаты при дешифровке текстов (например, в случае тайнописи или неизвестного языка написания), в области атрибуции памятника письменности, установления авторства. Использование теории информации в текстологии позволяет оценить число промежуточных списков, предшествующих данному. Возможна реконструкция источника, его ранее утраченных фрагментов, очищение оригинального текста от более поздних наслоений. Однако, несмотря на накопленный опыт, множество методологических и методических проблем, связанных с измерением нарративных источников остаются нерешенными. Область применения контентанализа: периодическая печать, мемуары, дневники, письма, летописи, агитационные материалы, философские тексты, анкеты, политические прошения и прокламации и др. Формализация информации документа: этапы, проблемы. Перевод текстовой информации в количественные показатели. Выбор математического метода. Явная и скрытая информация. Эффективность применения контентанализа. Тема 4: Урок 1
|