![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Задание 3. При большом числе наблюдений одно и то же значение x может появляться nx раз, одно и то же значение y – ny ⇐ ПредыдущаяСтр 3 из 3
При большом числе наблюдений одно и то же значение x может появляться nx раз, одно и то же значение y – ny, одна и та же пара чисел – nxy раз. Данные наблюдения группируют и представляют в виде корреляционной таблицы. ПРИМЕР корреляционной таблицы: Таблица 1.
В первой строке таблицы указаны наблюдаемые значения (60, 80, 100, 120, 140) признака X, в первом столбце (60, 80, 10, 120, 140) – признака Y. На пересечении строк и столбцов записаны частоты nxy наблюдаемых значений признаков. (т.е. насколько часто появлялось конкретная пара чисел). Все частоты располагаются в выделенном прямоугольнике корреляционной таблицы. Черточка в ячейке означает, что пара чисел не встречается (например, (140; 60)). В последнем столбце записаны суммы частот строк. Например, сумма для первой строки выделенного прямоугольника: ny=6+3=8. (Означет, что признак Y=60 в сочетании с разными X наблюдался 8 раз). В последней строке записаны суммы частот столбцов. Например, nx=10 означает, что признак X=60 в сочетании с другими Y встречается 10 раз. В нижнем правом углу выделенное число «200» является суммой всех частот:
При расчете коэффициентов линии регрессии нам понадобится еще одна вспомогательная таблица, составленная по методу четырех полей (подробно расписано в книге Гмурмана «Теория вероятностей и математическая статистика»). Представим вспомогательную таблицу в виде: Таблица 2.
Рассмотрим первый выделенный прямоугольник. Значения в первой колонки взяты из предыдущей таблицы соответствующей колонки. Рассмотрим выделенную ячейку: X*Y =(значение из столбца)*((значение из строки)=60*60=3600(ищем произведение чисел x и y). Рассчитываем таким же образом все остальные ячейки из выделенной цветом области (уже подсчитанные значения записаны курсивом). В последний столбик записываем для каждой из строк: nxy*x*y. Так для первой строки: nxy*x*y=6*3600+3*4800+0*6000+0*7200+0*8400=36000 и т. д. Рассчитаем общую сумму: Перейдем непосредственно к заданию. Для нахождения коэффициентов линии регрессии используем метод наименьших квадратов. Суть метода в том, чтобы подобрать такую регрессионную прямую f(xi, λ), которая имела бы минимальные отклонения от экспериментальных данных (xi, yi).
Рис. 54. Следовательно, параметры
в которой неизвестными являются все m + 1 параметров Предположим, что исследуемая зависимость может быть представлена линейной регрессией f(x, a) = a0 +a1x. Тогда система нормальных уравнений метода наименьших квадратов приобретает вид: Составим для расчетов этих параметров: Таблица 3.
Формулы для расчета (используем таблицу 1): N=200 (выделенное число из таблицы 1)
Подставляем систему уравнений, находим значения a0, a1. Записываем окончательное уравнение для линии регрессии: Для расчета коэффициента корреляции воспользоваться формулой:
где Ответ: линия регрессии:
|