Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Сыктывкар 2014






Применения математики в исторических исследованиях

 

 

Научный руководитель:

К. ф-м. н. В.А.Попов

 

 

Исполнитель:

Студент 1415 гр И.Е.Казаков

Сыктывкар 2014

 

Содержание

Введение……………………………………………………………………….…..3

Рабочая учебная программа………………………………………………....……3

Тема 1. Группировки в историческом исследовании………………………....…5

Тема 2. Формы графического изображения. Визуализация статистических данных……………………………………………………………………………..7

Тема 3. Средние величины……………………………………………………..11

Тема 4. Методы несплошного наблюдения. Выборочный метод…………..…14

1. Монографическийметод……………………………………………….…14

2. Метод основного массива……………………………………………...…15

3. Выборочный метод……………………………………………………….15

4. Определение объема выборочной совокупности……………………….16

5. Выбор способа отбора единиц для наблюдения……………………..…17

6. Нахождение величины выборочной ошибки............................................20

Тема 5. Корреляционный анализ……………………………………..……….…23

Тема 6. Математические методы исследования текстов. Контент Анализ..................................................................................................................…38

Конспект Урока 1 по математике……………………………………...………..40

Конспект Урока 2 по математике……………………………………...………..48

Список литературы………………………………………………………………55

 

Введение

 

Предметом изучения дисциплины является система математических методов и ее использование для целей исторического познания.

Целью является формирование теоретической системы знаний о математических методах у учащихся в старших классах, ознакомление с навыками их практического применения в исторических исследованиях и профессиональной деятельности.

Задачи дисциплины: В результате изучения дисциплины учащийся должен знать: содержание ключевых понятий в области математических методов; базовые принципы и сущность математических методов, их возможности и сферу применения, методику расчёта и принципы интерпретации; систему массовых исторических источников, анализ которых возможен математическими методами; историографическую традицию применения математических методов и построения математических моделей. уметь: отбирать, систематизировать и анализировать информацию исторических источников математическими методами.

 

Рабочая учебная программа

 

 

Наименование тем Классные занятия Самостоя- тельная работа (час.) Всего
Тема 1. Группировки в историческом исследовании.      
Тема 2. Формы графического изображения. Визуализация статистических данных.      
Тема 3. Средние величины      
Тема 4. Методы несплошного наблюдения. Выборочный метод.      
Тема 5. Корреляционный анализ.      
Тема 6. Математические методы исследования текстов. Контент-анализ.      
  Итого 12 ч.    

 

В связи с большим обьёмом информации по данной теме, я представляю полный разбор двух тем – 4 и 6 и краткий разбор остальных тем для ознакомления.


 

УЧЕБНАЯ ПРОГРАММА

 

Тема 1. Группировки в историческом исследовании

Теория: Познание человеком окружающей действительности начинается с конкретных вещей и явлений, которые представляются существенными сами по себе, независимо друг от друга. Углубление знаний раскрывает взаимосвязь предметов и явлений и в их массе обнаруживаются общие типы, общие законы путем " сглаживания" индивидуальных особенностей. Познание исторической реальности также начинается со знакомства с конкретными фактами, процессами, явлениями, которые первоначально кажутся сугубо индивидуальными и неповторимыми. Каждый факт, каждое действующее в истории лицо характеризуется уникальным набором признаков, однако в процессе изучения выявляется общность в показателях. Либо повторяются или слабо различаются значения одних и тех же призна- ков разных явлений, либо повторяется или слабо различается набор признаков рассматриваемых явлений. Эта общность позво- ляет ряд явлений объединять в одну группу. Какую бы совокупность объектов мы не рассматривали, ее всегда можно разбить на группы по сходству признаков. Так, при всей неповторимости каждого человеческого лица в совокупности можно выделить типы (монголоидный, приветливый, овальный...) Изучая явления прошлого по первичным статистическим данным, историк сталкивается с неупорядоченной последовательностью чисел, показателей, характеризующих тот или иной аспект явления или процесса. Одним из наиболее распространенных приемов представления совокупности разрозненных данных в удобной для восприятия форме выступает группировка. Она является основным начальным этапом обработки данных источника, фундаментом для большинства других приемов математико- статистического анализа. Метод группировки заключается в разбиении исходной совокупности данных на группы, каждая из которых объединена общим» показателями. Различия между единицами одной группы должны быть меньше, чем различия между единицами разных групп. Сгруппированные данные представляются в виде таблиц или графиков. Это позволяет охарактеризовать как в целом изучаемую совокупность, так и ее части; обнаружить и зафиксировать связи между признаками; обеспечить наглядность компактность материала.

 

Пример: Группировка рабочих по стажу на данном предприятии и количеству детей.

В данном случае принципиальная связь между стажем работы на данном предприятии и количеством детей в семьях рабочих возможна. Следующим этапом работы можно считать построчное сравнение показателей. В рассматриваемом примере 22 мы констатируем разброс количественных характеристик, что го- ворит об отсутствии связи между признаками.

Метод группировки. Понятие группы. Правила составления таблиц. Статистическая совокупность, частота признака, плотность признака, значение переменной. Дискретные и непрерывные признаки. Интервальный ряд, границы интервала. Закрытые и открытые интервалы. Типологические, структурные и аналитические группировки. Безусловные распределения. Моментные и интервальные динамические ряды. Уровни динамического ряда. Условия построения динамического ряда.

 

Тема 2. Формы графического изображения. Визуализация статистических данных

Теория: Если в задачи исследования входит необходимость подчеркнуть какую-либо особенность данных, провести их сравнение, дать общее представление о закономерностях изменения в тех или иных показателях, обращаются к графикам. Они представляют собой условные изображения числовых величин и их соотношений с помощью линий, точек, геометрических фигур и т.п. Этим достигается наглядность, образность, эмоциональность, в определенной степени повышается эффективность восприятия материала. В исторической литературе используется несколько видов графиков, выбор которых зависит от цели работы и от характера представляемых данных. Графики классифицируются статистикой по способу построения. Историки чаще всего обращаются к диаграммам - полигонам распределения, гистограммам, кумулятам. В любом случае график (как и таблица) сопровождается заголовком (допустимо его размещение как над рисунком, так и под ним). Заголовок должен содержать информацию о характере изображенного показателя, единицах его измерения, территории и времени его определения Гистограмма распределения. (Гистограмма - от греческого " гистос" - ткань; строение.)

Это вид столбиковой диаграммы, применяе- мой для интервального ряда. На оси ОХ (абсцисс) откладываются интервалы значений варьирующего признака, а на оси OY (ординат) час- тоты признака, соответствующего масштаба.

Пример 1: Построим гистограмму распределения по данным таблицы:

Распределение населения РФ по среднедушевому совокупному доходу в 1992 г.(База данных РФ)

 

На оси абсцисс рисунка 3.1 отложены варианты признака (в нашем случае среднедушевой доход в месяц в тыс. руб.), а на оси ординат его частоты (в нашем случае количество человек в млн.). Каждое деление OY соответствует 5 млн. единиц, а ОХ - 1 тыс. На оси ОХ строим прямоугольники, высоты которых равны частотам соответствующих интервалов. Так мы поступаем, последовательно дойдя до интервала 7-9 (тыс. руб.). Все предыдущие интервалы были равны по величине 1 (тыс. руб.), а этот равен 2 (тыс. руб.). Здесь в действие вступает правило, согласно которому для частот больших интервалов на гистограмме 29 распределения берется меньший масштаб (и наоборот для частот меньших интервалов берется больший масштаб на графике). Следуя этому правилу, на графике мы должны построить прямоугольник, высота которого будет не 7 (млн. чел.) как указано в таблице примера 3.1, а 7/2, т.е. 3, 5 (млн. чел.), т.к. величина данного интервала больше в 2 р. величины предыдущих интервалов.

Следующий пример 2:

Произвольное сравнение данных за отдельные годы приводит к выводам, значительно отличающимся друг от друга. Если сравнить урожайность 1891 г. с уровнем 1883, то получается, что за 8 лет она выросла на 66 ц. с 1 га, т.е. более, чем по 8 ц. с 1 га за год. В то же время, если сравнить урожайность 1892 г. с уров- нем 1884 г., то увидим, что за 8 лет, из которых 7 лет те же, что и в предыдущем сравнении, урожайность возросла лишь на 2 ц. с 1 га. Помочь в этой ситуации может график (см. Рис.3.6).

 

На Рис.3.6 хорошо видно, что в период 1883-1893 гг. наблюдается устойчивая тенденция к росту урожайности, колебания носят хаотический, скорее случайный характер. Задачи графического метода не исчерпываются наглядностью. Графики позволяют приближенно получить средние ха- рактеристики, моду и медиану. Графиками проверяется характер и форма зависимости между признаками, что особенно важно для доказательства правомерности применения методов корреляционного анализа. На графике сразу видны пределы изменения показателей, их колеблемость, скорость изменения, выявляются и характеризуются закономерности. Если исследователь испытывает необходимость получить изображение географической характеристики изучаемого явления, он может применить картограмму. На ней условными знаками, точками, штриховкой, цветом отмечается распределение изучаемого признака по определенной территории, стране, району, области, городу и т.п., обозначается интенсивность его проявления. Картограммы помогают определить закономерность распространения какого-либо признака по территории, тенденцию его распределения между регионами. Так, например, картограммы 37 широко используются для характеристики восстаний, забастовоч- ного движения, миграционных связей, для анализа

 

экономического развития отдельных территориальных образований. В зависимости от задач исследования графики размещают в тексте работы или в приложении к ней. Чаще всего небольшие по формату рисунки иллюстративного характера, подтверждающие ранее полученные выводы, располагают по мере изложения материала в тексте исследования. Вместе с тем, графический метод имеет свои ограничения. Во-первых, график не может включить столько данных, сколько может войти в таблицу. Во-вторых, на графике показываются всегда приблизительные, округленные значения, а значит пропадают детали, фиксируется только общая ситуация. В-третьих, построение графика, его точность во многом зависят от аккуратности исследователя.

Задачи графического представления данных. Правила построения графиков. Гистограмма распределения. Полигон распределения. Кумулята. Тренд. Возможности и ограничения графического метода.

 

Тема 3. Средние величины

Теория: На каждый исторический факт, на каждое событие действует множество различных причин и сил, способствующих и препятствующих его появлению. Пытаясь классифицировать изучаемое явление, мы сталкиваемся с необходимостью выявления общих характеристик, относящихся как к любому элементу рассматриваемой совокупности, так и ко всей совокупности в целом. Такими общими характеристиками, раскрывающими определенные свойства и направление развития процесса, выступают средние величины. Категория средней величины имеет одну из самых древних историй. Процесс становления абстрактных понятий связан с отбором общих черт некоего предмета или явления. При этом стираются, отбрасываются свойства, присущие исключительно отдельным объектам изучаемого явления. Так, обратившись к истории языка, можно заметить долговременное применение лексических единиц, выражающих понятие " снег" через его характеристики, через его проявления - " падающий с неба", " холодный", " мягкий", " мокрый", " чистый", " тающий" и т.д. В данном случае " снег" является обобщением, абстрактным понятием, вбирающем в себя все типичные признаки конкретного природного явления. В исторической науке средние величины присутствуют давно, но не в полной мере. Для обработки массовых данных в статистике разработаны средние гармоническая, геометрическая, квадратическая, а также описательные средние - мода и медиана. Историки же традиционно обращаются, главным образом, к средней арифметической. Использование средних предполагает следование определённым правилам.

1. До вычисления средних необходимо обеспечить качественную однородность совокупности. Так, например, нельзя изучать среднюю землеобеспеченность по общим данным о наделах крестьян, мещан, дворян, купечества. Нарушение указанного принципа не позволит нам получить типи ческую характеристику признака в изучаемой совокупности.

2. Средние вычисляются по массовым данным, т.е. по данным достаточно большого числа единиц наблюдения.

3. Нельзя ограничиваться вычислением средней в целом по совокупности, не меньшее значение имеют средние характеристи- ки и для каждого отдельного типа.

Для уравновешивания указанных влияний используют средневзвешенную величину, равную сумме произведений каждого значения признака на его частоту, деленной на сумму всех частот.

Согласно вычислению в среднем за одну игру футбольных матчей высшей лиги в 1992 году забивалось 2.34 мяча. Где обращает на себя внимание тот факт, что величина средней арифметической может принимать дробные значения даже для дискретных признаков. Об этом важно помнить при интерпретации результатов вычислений. Если в группировке значения осредняемого признака заданы интервальным рядом, то при исчислении средней арифметической в качестве значения признака берутся середины интервалов. Условно предполагается, что единицы совокупности распре- делены равномерно по интервалу. Для открытых интервалов значения признака определяются экспертным путем, качественным анализом, исходя из сущности и свойств природы признака. Исследователь не всегда имеет возможность провести подобную экспертизу. В этом случае можно использовать формальный способ прибавления единицы к максимальному определенному значению и вычитания единицы из минимального заданного значения признака.

Определить средний возраст представленной группы рабочих Мы можем предположить, что минимальный возраст рабочих - 17 лет (возраст получения общего среднего образования), а максимальный - 65 лет (по экспертной оценке - наиболее типичный возраст прекращения трудовой деятельности). Тогда первый интервал становится " 17 - 20", а последний - " 50 - 65", соответственно середины интервалов - 18, 5 и 57, 5 (лет). Расчет проводится по формуле взвешенной средней арифметической, т.к. частоты вариант признака различны.

 

Предположения наши достаточно условны. Произведем подсчет средней величины, применив формальный способ решения проблемы открытых интервалов. Вместо " до 20" берем 20-1, т.е. 19, а вместо " старше 50" - 50+1, т.е. 51. Формула приобретает следующий вид:

Как видно из примера разница в показателях X несущественна, что иллюстрирует допустимость использования формальных методов. В практике исторического исследования встречаются ситуации, когда индивидуальные значения осредняемого признака неизвестны. В распоряжении исследователя имеются некие суммарные значения объемных признаков. Средняя величина определяется отношением между имеющимися итоговыми данными.

Свойства средних величин. Выявление закономерностей. Правила использования средних величин. Средняя арифметическая. Вес признака, средневзвешенная. Неявная форма средней. Мода. Наиболее типичное значение средней величины, модальный интервал. Медиана. Накопленная частота. Медианный интервал. Проблема выбора средней величины.

Дисперсия, размах вариации. Среднее квадратическое отклонение. Коэффициент вариации, проблема достоверности средней величины. Средняя квадратическая.

Средние показатели динамики. Средний уровень интервального динамического ряда. Средняя хронологическая. Средний темп изменения, средняя геометрическая. Средний абсолютный прирост. Средний темп прироста.

 

 

Тема 4. Методы несплошного наблюдения. Выборочный метод

 

Теория: 1. Монографический метод предполагает всестороннее изучение и описание единичных объектов. Метод широко применяется в истории, однако он требует особой осторожности при использовании массовых исторических источников. Монографический метод может быть успешно использован только в том случае, когда, по замечанию А.Чупрова, у исследователя будет уверенность, что " единичные объекты, избранные для изучения, не выделяются какими-либо резкими отличиями из ряда других

сходных предметов" Это значит, что выводы, полученные на основании применения данного метода должны базироваться на заранее выявленных

тенденциях и закономерностях. Монографический метод целесообразен для иллюстрации в качестве дополнительного приема.

2. Метод основного массива предполагает изучение той части единиц наблюдения, которая имеет по отношению ко всей совокупности в целом высокий удельный вес. Например, из учая развитие той или иной отрасли промышленности методом основного массива, мы должны будем сосредоточить все вни мание на наиболее крупных предприятиях. На рубеже 20-30-х гг. XX в. на основе изучения нескольких " гигантов первой пяти- летки" выводы о темпах индустриального развития СССР, о приросте промышленного производства, об уровне производительности труда были распространены на всю промышленность. Это дало основание пересмотреть показатели первого пятилетнего плана и в конечном итоге сорвать его результаты. Насколько правомерно распространение выводов, полученных на основании применения метода основного массива на все единицы совокуп- ности? Где его границы? Этот вопрос решается только профессиональной квалификацией исследователя. Зачастую важные тенденции не проявляются в равной степени у всех единиц наблюдения; только зарождающиеся, наби- рающие силу факторы, которые возможно сыграют решающую роль в будущем, затушевываются в генеральной совокупности. Для их яркого показа используют метод основного массива. Он может быть рекомендован в дополнение к другим приемам частичного обследования для демонстрации наиболее важных, предварительно выявленных тенденций, наиболее передовых направлений в развитии общества.

3. Выборочный метод. " Под выборочным методом подразумевается такая система отбора единиц для наблюдения, при которой результаты, полученные на частичном объеме, отражают всю изучаемую совокупность, т.е. являются для нее репрезентативными" (Славко Т.И. Указ.соч. - С. 61).

Осуществление выборочного исследования складывается из трех основных этапов:

1. Определение объема выборочной совокупности.

2. Выбор способа отбора единиц для наблюдения.

3. Нахождение величины выборочной ошибки.

4. Определение объема выборочной совокупности. Поскольку мы имеем дело с частичными данными, надо помнить, что каждая выборка, каждый показатель, каждая варианта признака несет в себе некую погрешность, связанную с неполнотой единиц наблюдения. Следовательно, во многом точность и досто верность результатов исследования зависят от объема выборки. Статистикой обнаружено, что при увеличении объема выборки до определенного уровня величина ошибки уменьшается быстро, а затем все медленнее. Разработаны специальные методики определения минимального объема выборки при сохранении достаточной репрезентативности показателей. Методы теории вы борки предписывают определять необходимый объем относительно каждого количественного и качественного признака (на практике же это требование соблюдается редко).

Выборка должна быть такой, чтобы свойство репрезентативности было присуще каждому изучаемому признаку, поэтому численность выборки надо насчитывать многократно, исходя из допустимых ошибок различных показателей. Допустим, при анализе единоличных крестьянских хозяйств мы выделили четыре важнейших признака размер землепользования, количество голов рабочего скота, найм рабочей силы и размер дохода на хоззяйство. Вариации признаков различны, неодинакова и допустимая погрешность. Произведя необходимые вычисления, мы получили разные объемы выборки: 1150; 497; 720; 300. Исследование надо базировать на максимальной величине объема выборочной совокупности или создавать многоступенчатую выборку и специальную программу ее анализа (подробнее см. ниже). Таким образом, выборочное изучение начинается с определения уровня точности будущих результатов. Он задается либо с помощью математических формул на основе предварительного изучеия данных, либо по таблице достаточно больших чисел (см. Приложение 1). Второй способ относится к приближенным, но наиболее употребимым в исторических исследованиях методам определения

выборочного объема. Таблица достаточно больших чисел (см. Приложение 1) рассчитана на определение выборочного объема для признаков, имеющих нормальное распределение (см. лекцию 6) или близкое к нему. Для остальных признаков точность снижается. Исследователь задает желаемый уровень вероятности (Р) и возможную допустимую ошибку (mдоп) будущих результатов работы. В соответствии с этим на стыке строки и столбца находим искомую величину, которая означает объем выборки. Допусти-

мая ошибка в историческом исследовании обычно не должна превышать 5% (т.е. до 0, 05), а вероятность в пределах 0, 95 - 0, 99 обеспечивает высокую точность работы. Предположим, мы задали Р = 0, 98 при mд о п = 0, 03, тогда оптимальный объем выборки определяется в 1503 единицы наблюдения (см. Приложение 1). Это значит, что.во-первых, мы должны изучить 1503 документа из генеральной совокупности; во-вторых, наши результаты в 98 случаях из 100 будут иметь ошибку, меньше 0, 03 и только в двух случаях из каждых 100 ошибка может превысить этот уровень. Объем выборки во многом зависит от цели работы. Для выявления общих тенденций изменения показателей достаточно иметь небольшую выборку. Для решения задач, связанных с необходимостью определения конкретных значений признаков объем выборки будет больше. После нахождения объема выборочной совокупности, заданного уровня точности и вероятности переходят ко второму, не менее важному этапу работы отбору единиц для наблюдения.

5. Выбор способа отбора единиц для наблюдения. Репрезентативность выборки обеспечивается объективностью отбора данных. Различают три способа случайный отбор, выбор по определенной схеме и комбинация первого и второго способов. В зависимости от этого находятся виды выборки собственно случайная, механическая, типическая и серийная (гнездовая). При собственно случайном отборе в задачу исследователя входит обеспечение равных шансов для всех единиц генеральной совокупности попасть в выборку. Это можно сделать с помощью таблицы случайных чисел, в математике их разработано несколько (см. Приложение 2), путем жеребьевки. Например, нам нужна выборка в 320 единиц из 7000 (объем генеральной совокуп ности). Для этого мы должны пронумеровать все имеющиеся до кументы, а затем: либо обратиться к таблице случайных чисел (см. Приложение 2), по которой с любого места, в любом порядке

(по строкам или по столбцам) отбираем 320 случайных чисел, которые являются порядковыми номерами документов генеральной совокупности, составляющими выборку. Если встречается число превышающее своим значением величину генеральной совокупности (в данном примере - 7000 единиц) - оно пропускается. Так, начав отбор с третьего столбца пятой строки, двигаясь по вертикали, мы получаем следующие номера: 3371, 5323, 1796, 2105 и т.д. (см. Приложение 2). либо проводим жеребьевку, составив колоду карточек с номерами от 1 до 7000, пронумеровав какие-нибудь шарики, палочки, (любые однородные предметы). Тщательно тасуем эти номера и вытаскиваем, не глядя, 320 предметов, номера которых указывают номера документов, попадающих в выборку. Механический отбор заключается в том, что генеральная совокупность делится на равные части, в зависимости от необходимого объема выборки, а затем из каждой части берется одна единица наблюдения (можно эти документы отбирать случайно, можно по определенному порядку, каждый второй, пятый, один- надцатый..). Например, получить механическую выборку в том же объеме в 320 единиц из той же генеральной совокупности в 7000 документов можно, поделив 7000 на 320, а потом из каждой подгруппы (их у нас будет 320) выберем по седьмому документу. Механический отбор нежелателен, если элементы генеральной совокупности частично или полностью упорядочены (например, документы сложены в порядке возрастания значений признаков). Типическая выборка формируется из генеральной совокупности, предварительно разделенной на качественно однородные группы, внутри которых производится случайный или механический отбор. Типическую выборку еще называют районированной или стратифицированной. Пусть наше исследование единоличных крестьянских хозяйств охватывает большую территорию, различающуюся природно-климатическими условиями, или формами хозяйственной деятельности, или... В этом случае для повышения точности результатов изучения мы предварительно выделяем ти- пические группы, образованные по какомулибо качественному признаку: по районам, по формам хозяйственной деятельности, по национальности, по социальным категориям и т.д. в зависимости от задач работы. После чего, внутри каждой однородной группы проводим выборку. При этом возможен как пропорциональный отбор в соответствии с численностью единиц наблюдения в группе, так и непропорциональный. Для исторических иссле- дований предпочтительней первый, т.к. повышается точность выводов и наблюдений, сделанных на его основе. При серийной (гнездовой) выборке случайным образом определяются пункты (гнезда), внутри которых проводится сплошное наблюдение. Например, обследованию подвергаются не единичные крестьянские хозяйства, а целые деревни, села. В математической статистике выборки делят на повторные и бесповторные. Допустим, вы пронумеровали все элементы гене- ральной совокупности, нанесли эти номера на карточки (шары, палочки или др. предметы жеребьевки) и начали отбор. Жребий, отобранный в выборку, может быть отложен в сторону (бесповторная выборка), а может быть возвращен в общую массу и иметь шанс вновь быть избранным (повторный отбор). В исторических и социально-экономических исследованиях не имеет смысла проводить повторную выборку и если специального указания в выборке нет редполагается бесповторная выборка. Объекты исторического исследования, как правило, имеют сложную структуру и разный разброс значений признаков, т.е. признаки имеют разную изменчивость. Например, признак " пол" имеет всего два варианта мужской и женский, а признак " размер посева" множество значений. Организовать выборочное обследование бывает очень сложно. Исследователи обращаются к многоступенчатой (комбинированной) и многофазовой выборке. Сочетание разных способов и разных единиц отбора на разных этапах исследования создает многоступенчатую выборку. Например, типическим путем можно определить губернии, механическим уезды, случайным волости, далее провести отбор сел и дворов. Получится пятиступенчатая выборка. Многофазовая выборка также предполагает несколько этапов исследования, отличающихся подробностью программы изучения. Для признаков, имеющих меньшую изменчивость можно сокращать объем выборки. Например, многофазовые выборки применялись земскими статистиками России в начале XX в. Так, пензенские статистики в 1913 г. провели сплошную перепись крестьянских хозяйств по сокращенной программе, каждое третье по более полной краткой, каждое девятое по полной хозяйственной, каждое двадцать седьмое по полной специальной и 25 хозяйств каждого уезда подверглись детальному бюджетному описанию (см. Ленин В.И. Полн.собр.соч. - Т.24 - С.274-275). В любом случае решение о способе отбора единиц для наблюдения, о виде выборки зависит от свойств объекта изучения, а следовательно предполагает обязательное предварительное знакомство с ним.

6. Нахождение величины выборочной ошибки. Нахождение величины выборочной ошибки связано с доказательством степени репрезентативности выборки, т.е. с выяснением насколько результаты, полученные на основе изучения выборочной сово- купности, можно распространить на все единицы наблюдения. Ошибки выборки бывают случайными и систематическими. Систематические возникают при тенденциозном, неправильном отборе данных или при искаженных сведениях источника. Стал уже классическим пример ошибки сотрудников американского журнала " Literary digest" (" Литературное обозрение"), попытавшихся предсказать результаты президентских выборов в США в 1936 г., приняв телефонные справочники за генеральную сово- купность. В результате опроса более, чем 2-х миллионов абонентов выходило, что на выборах победу одержит кандидат от республиканской партии. Прогноз журнала не оправдался с весомым перевесом (рекордным для США) победил демократ Франклин Д. Рузвельт. Дело в том, что в условиях середины 30-х годов XX в. в США иметь квартирные телефоны могли себе позволить только состоятельные люди, а они, в большинстве своем, симпатизировали республиканцам, что и отразили итоги опроса. Таким образом, был нарушен принцип случайности отбора единиц для наблюдения, а значит выборка, несмотря на большой объем, не отражала политических настроений большинства американских избирателей. Обнаружение и ликвидация систематических ошибок воз- можны только на основе прочных источниковедческих знаний, путем качественного анализа. Случайные ошибки присутствуют в любом выборочном обследовании, даже когда соблюдены все правила выборочного метода. Они зависят от методов отбора единиц наблюдения (от вида выборки), от степени однородности генеральной совокупности, от изменчивости признаков, а также от используемых в дальнейшем методов обработки данных. Для каждого вида выборки в статистике разработаны свои способы вычисления случайных ошибок. Оценить результаты выборочного исследования можно не только с помощью математических формул, но и путем привлечения дополнительной информации, сравнением с уже известными по другим источникам данными. Для этого надо иметь резуль- таты изучения признаков относительно всей генеральной совокупности. Тогда путем сравнения средних величин и относительных показателей выборочной и генеральной совокупностей можно оценить репрезентативность выборки. Чем меньше разница в показателях, тем выше степень репрезентативности выборки. Считается, что выборочное обследование достаточно полно отражает исходную совокупность объектов, если разница в показателях не превышает 5%. Однако чаще всего исследователь лишен этой возможности и должен обращаться к сложным математическим вычислениям. Сложнее дело обстоит тогда, когда историк встречается с частичными данными и не имеет представления об основных характеристиках генеральной совокупности, которую они представляют. Встает проблема использования неполных данных. Можно ли на основе их изучения делать обобщения и выходить на уровень тенденций и закономерностей, характерных для всего изучаемого явления, или надо ограничиться иллюстративным показом единичных объектов? Если из 40 тысяч личных карточек рабо, их какого-либо завода за период 1900 - 1941 гг. сохранились всего 280 штук можно ли их принять за выборку и для их изучения применить методы, разработанные для анализа выборочных совокупностей? Правомерно ли будет распространить полученные на их основе выводы на всю предполагаемую совокупность в 40 тысяч единиц? В исторической литературе подобные неполные совокупности называются " естественными" выборками. Исследователь должен доказать, отражает ли стихийно образовавшаяся выборка некую генеральную совокупность, насколько частичные данные обладают свойствами массового источника. Исходя из определения массового исторического источника, должны выполняться условия достаточности единиц наблюдения и их независимости, случайности имеющегося набора признаков. Первое условие достаточно большого объема в случае " естественных" выборок заменяется условием равномерности охвата частичными данными генеральной совокупности. Проверяется равномерность охвата частичными данными изучаемой территории и временного периода. Взяв тот же условный пример, мы должны проверить охватывают ли сохранившиеся 280 документов все (или большинство) годы с 1900 по 1941 и имеются ли в них сведения относительно всех (или большинства) структурных подразделений завода. Независимость признаков проверяется анализом происхождения и содержания совокупности документов. Надо доказать, что заполнение одного документа не влияло на заполнение другого, что текст одного документа не списывался с другого. Это достигается изучением истории формирования документов.. Случайность признаков определяется, во-первых, охватом каждым признаком всех (или большинства) возможных для генеральной совокупности значений и, во-вторых, случайностью различий в значениях признаков по отношению ко всем документам. Доказательство случайности признаков выступает одновременно и доказательством случайности выборки.

 

 

Тема 5. Корреляционный анализ

Термин корреляция употребляется в науке с конца XYIII века. Его ввел французский палеонтолог Жорж Кювье, основавший " закон корреляции", согласно которому череп с рогами обязательно принадлежал травоядному животному, обладавшему копытными конечностями; если же лапа имела когти, то животное было хищным, без рогов, но с крупными клыками.

Об этом " законе" сохранился рассказ о неудачной шутке студентов, пытавшихся во время университетского карнавала напугать Кювье. Ряженный в шкуре и маске с рогами крикнул профессору: " Я тебя съем! " На что получил спокойный ответ, что рогатых хищников не бывает, а за незнание закона корреляции можно получить плохую оценку. Корреляционная связь между признаками может возникать разными путями. Причинная зависимость предполагает, что один из пары рассматриваемых признаков выступает как фактор, второй как результат. Например, качество почвы может рассматриваться фактором урожайности сельскохозяйственных культур. Существует корреляционная связь и между двумя след ствиями одной причины. Пример такой связи приводил круп- нейший российский статистик начала XX в. А.А.Чупров. Рассматривались два признака ­ количество пожарных команд в городе и размер ущерба, причиненного городу от пожаров. Выходило, что, чем больше в городе пожарных, тем больше убытков от пожаров. Встал вопрос ­ не сократить ли пожарные команды? В данном случае мы имеем дело не с причиной и следстви­ ем, а с двумя следствиями общей причины ­­ размером города. Логично, что в крупных городах больше штат пожарных, т.к. ча­­ ще возникают пожары и ущерб огнем причиняется значительный. Сложнее дело обстоит тогда, когда каждый из признаков является одновременно и причиной, и следствием. Здесь мы стал­­ киваемся со взаимосвязью, взаимозависимостью между призна­­­­­­ ками. Например, размер оплаты труда зависит от его произво­­­­­­ дительности, но, в то же время, выступает в качестве стимула, а значит, фактора повышения уровня производительности труда. Как и любая классификация, это деление носит достаточно условный характер, однако сделанные здесь замечания необходимо учитывать при интерпретации результатов корреляционного анализа. Прежде, чем приступать непосредственно к корреляционному анализу, надо проверить правомерность его применения, надо про­­­­­­ верить, будут ли его результаты реально отражать историческую картину. Признаки, исследуемые методом корреляции, должны быть нормально распределены и линейно зависимы между собой. Признак обладает свойством нормальности, если его значения симметрично распределяются от " центра", которым считается его средняя арифметическая величина. Проще всего проверить нормальность распределения графическим методом. График нормально распределенного признака имеет колоколооб­ разный вид с центром, совпадающим со значением средней ариф­ метической (см.Рис.6.1).

От характера исходных данных, от особенностей источника и задач исследования зависит выбор формулы коэффициента корреляции. Чаще всего при изучении массовых источников применяют коэффициент линейной корреляции (r). Он вычисляется по формуле: Пример 6.1. Применение коэффициента линейной корреляции (r) рас­ смотрим по данным о возрасте и количестве детей двадцати пяти учителей. Необходимо определить тесноту связи между возрастом (х) и количеством детей (у) в выделенной группе учителей. Сразу заметим, что возраст выступает в факторный признак, а количество детей этом распределении как результативный

Все коэффициенты корреляции изменяются в пределах от О до Ѓ}1. Чем ближе значение коэффициента к 0, тем меньше, слабее связь между признаками и чем ближе величина коэффи­ циента к +.1, тем сильнее, значительнее, весомее связь между признаками. Если коэффициент корреляции принимает положи­ тельные значения ­ связь между признаками прямая, т.е. с уве­ личением значения одного признака ­ растет среднее значение второго. Если коэффициент корреляции имеет значение меньше О (т.е. отрицательное) ­ связь обратная. При r больше или равным Ѓ}0, 5 можно констатировать нали­ чие существенной связи между признаками. Оценка значимости r во многом зависит от объема исследуемой совокупности. Если число наблюдений велико, то даже небольшая величина коэффи­ циента линейной корреляции имеет определенную значимость, которой не следует пренебрегать. Это проверяется специальны­ ми статистическими таблицами, раскрывающими зависимость величины г от объема изучаемой совокупности. В нашем примере ­ связь между признаками очень тесная и прямая, т.е. количество детей в семье в значительной мере зави­ сит от возраста родителей и чем старше опрашиваемый, тем больше у него детей. Применение коэффициента линейной корреляции имеет ряд ограничений. Во­первых, он исчисляется только для количествен­ ных признаков. Во­вторых, признаки, связь между которыми вы­ 83 является, должны быть нормально распределены. В­третьих, связь, сила которой должна быть измерена, должна быть линей­ ной. До вычисления коэффициента следует проверить имею­ щиеся данные на соответствие, предъявляемым условиям. Напомним, что нормальность и линейность проверяются графическим методом. Приведенная формула определения величины r применяется только для первичных, несгруппированных данных. При анализе исторических событий исследователи работают преимущественно с качественными признаками, разновидностью которых выступают альтернативные (здесь: принимающие толь­ ко два значения). Для изучения силы их связи применяются коэффициент ассоциации (Q) и коэффициент сопряженности (Ф) или коэффициент контингенции (Kk). Их вычисление пред­ варяется тем, что имеющиеся данные сводятся в таблицу четы­ рех полей:

 

Таким образом, в распоряжении исследователя имются два

признака ­ грамотность и место жительства. В данном распре­

делении они приняли альтернативный характер, хотя в случае

необходимости могут дробиться и принимать больше значений.

Определить уровень связи между признаками.

Подставим имеющиеся данные в формулы:

 

Интерпретация полученных значений коэффициентов анало­

гична толкованию значений коэффициента линейной корреляции.

Однако надо сделать несколько замечаний.

1. Оценивать связь между признаками как тесную, суще­

ственную можно при значении Ф не ниже Ѓ}0, 3. (Некоторые ис­

следователи считают, что коэффициент Ф дает более­менее точ­

ную характеристику при значениях, превышающих Ѓ}0, 5.) Зна­

чение всегда несколько больше значения Ф.

2. Коэффициент ассоциации отражает одностороннюю

связь между признаками, т.е. показывает степень влияния толь­

ко одного признака на другой. Коэффициент сопряженности (Ф)

раскрывает силу взаимосвязи между признаками при их обоюд­

ном влиянии друг на друга.

3. Величина коэффициента сопряженности в определенной

мере зависит от абсолютных значений признаков в таблице рас­

пределения. В связи с этим надо быть особенно осторожным при

сравнении значений Ф, рассчитанных по разным исходным дан­

ным. Изменение его величины может в большей степени объяс­

няться разницей абсолютных частот признаков, чем разницей си­

лы их взаимодействия. По возможности следует по одним и тем

же данным вычислять оба коэффициента, особенно при необхо­

димости их сопоставления.

Значения коэффициентов, полученных по данным нашего

примера (см. Пример 6.2) говорят о том, что в условиях НЭП для

населения региона Среднего Поволжья выбор места жительства

в очень малой степени зависел от такого показателя, как гра­

мотность. Что же касается взаимодействия этих характеристик,

то оно почти отсутствует. Возможно это связано с общей низкой

грамотностью населения, его культурной отсталостью.

Когда достаточно получить ориентировочное представление

о тесноте связи между признаками можно обойтись без гро­

моздких вычислений, обратившись к коэффициенту совпаде­

ния знаков. Метод, предложенный немецким психиатром

Г.Т.Фехнером (1801­1887 гг.), основан на сравнении значений

признаков с их средними величинами. Если значение признака

больше его средней ­ оно фиксируется знаком " +", если меньше ­

знаком " _". Затем ведут подсчет по формуле:

 

Определить уровень влияния затрат труда на валовой до­

ход в сельском хозяйстве.

В нашем примере (см. Пример 6.3) из 10 случаев знаки от­

клонения значений признака от их средних величин совпали в 9

случаях и лишь в одном ­ не совпали (см. в таблице

хозяйство N3).

Пример 6.3:

Дано распределение факторов валового дохода в сельском

хозяйстве.

 

 

Коэффициент Фехнера измеряется и интерпретируется так

же, как и коэффициент линейной корреляции. Полученное зна­

чение 0, 8 говорит о тесной прямой связи между рассматри­

ваемыми признаками: чем больше затраты труда, тем выше

средний валовой доход на хозяйство.

Не всякий качественный признак можно превратить в аль­

тернативный или заменить количественным. Достичь цель выяв­

ления и измерения влияния качественных признаков помогает


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.033 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал