![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Измерение связи между явлениями
(метод корреляции) Все явления в природе и обществе находятся во взаимной связи. Выяснение наличия связей между изучаемыми явлениями — одна из важных задач статистики. Многие медико-биологические и медико-социальные исследования требуют установления вида связи (зависимости) между случайными величинами. Сама постановка большого круга задач в медицинских исследовательских работах предполагает построение и реализацию алгоритмов «фактор — отклик», «доза — эффект». Зачастую нужно установить наличие эффекта при имеющейся дозе и оценить количественно полученный эффект в зависимости от дозы. Решение этой задачи напрямую связано с вопросом прогнозирования определенного эффекта и дальнейшего изучения механизма возникновения именно такого отклика. Как известно, случайные величины Х и Y могут быть либо независимыми, либо зависимыми. Зависимость случайных величин подразделяется на функциональную и статистическую (корреляционную). Функциональная зависимость — такой вид зависимости, когда каждому значению одного признака соответствует точное значение другого. В математике функциональную зависимость переменной Х от переменной Y называют зависимостью вида Х = f (У), где каждому допустимому значению Y ставится в соответствие по определенному правилу единственно возможное значение X. Например: взаимосвязь площади круга (S) и длины окружности (L). Известно, что площадь круга и длина окружности связаны вполне определенным отношением S = rL, где r — радиус круга. Умножив длину окружности на половину ее радиуса, можно точно определить площадь крута. Такую зависимость можно считать полной (исчерпывающей). Она полностью объясняет изменение одного признака изменением другого. Этот вид связи характерен для объектов, являющихся сферой приложения точных наук. В медико-биологических исследованиях сталкиваться с функциональной связью приходится крайне редко, поскольку объекты этих исследований имеют большую индивидуальную вариабельность (изменчивость). С другой стороны, характеристики биологических объектов зависят, как правило, от комплекса большого числа сложных взаимосвязей и не могут быть сведены к отношению двух или трех факторов. Во многих медицинских исследованиях требуется выявить зависимость какой-либо величины, характеризующей результативный признак, от нескольких факториальных признаков. Дело в том, что на формирование значений случайных величин Х и Y оказывают влияние различные факторы. Обе величины — и X, и Y — являются случайными, но так как имеются общие факторы, оказывающие влияние на них, то Х и Y обязательно будут взаимосвязаны. И связь эта уже не будет функциональной, поскольку в медицине и биологии часто бывают факторы, влияющие лишь на одну из случайных величин и разрушающие прямую (функциональную) зависимость между значениями Х и Y. Связь носит вероятностный, случайный характер, в численном выражении меняясь от испытания к испытанию, но эта связь определенно присутствует и называется корреляционной. Корреляционной является зависимость массы тела от роста, поскольку на нее влияют и многие другие факторы (питание, здоровье, наследственность и т. д.). Каждому значению роста (X) соответствует множество значений массы (Y), причем, несмотря на общую тенденцию, справедливую для средних: большему значению роста соответствует и большее значение массы, — в отдельных наблюдениях субъект с большим ростом может иметь и меньшую массу. Корреляционной будет зависимость заболеваемости от воздействия внешних факторов, например запыленности, уровня радиации, солнечной активности и т. д. Имеется корреляционная зависимость между дозой ионизирующего излучения и числом мутаций, между пигментом волос человека и цветом глаз, между показателями уровня жизни населения и смертностью, между числом пропущенных студентами лекций и оценкой на экзамене. Именно корреляционная зависимость наиболее часто встречается в природе в силу взаимовлияния и тесного переплетения огромного множества самых разных факторов, определяющих значение изучаемых показателей. Корреляционная зависимость — это зависимость, когда при изменении одной величины изменяется среднее значение другой. Строго говоря, термин «зависимость» при статистической обработке материалов медико-биологических исследований должен использоваться весьма осторожно. Это связано с природой статистического анализа, который сам по себе не может вскрыть истинных причинно-следственных отношений между факторами, нередко опосредованными третьими факторами, причем эти третьи факторы могут лежать вообще вне поля зрения исследователя. С помощью статистических критериев можно дать только формальную оценку взаимосвязей. Попытки механически перенести данные статистических расчетов в объективную реальность могут привести к ошибочным выводам. Например, утверждение: " Чем громче утром кричат воробьи, тем выше встает солнце", несмотря на явную несуразность, с точки зрения формальной статистики вполне правомерно. Таким образом, термин " зависимость" в статистическом анализе подразумевает только оценку соответствующих статистических критериев. Корреляционные связи называют также статистическими (например, зависимость уровня заболеваемости от возраста населения). Эти связи непостоянны, они колеблются от нуля до единицы. Ноль означает отсутствие зависимости между признаками, а единица — полную, или функциональную, связь, когда имеется зависимость только от одного признака. Мерой измерения статистической зависимости служат различные коэффициенты корреляции. Выбор метода для определения взаимосвязей обусловлен видом самих признаков и способами их группировки. Для количественных данных применяют линейную регрессию и коэффициент линейной корреляции Пирсона. Для качественных признаков применяются таблицы сопряженности и рассчитываемые на их основе коэффициенты сопряженности (С и Ф), Чупрова (К). Для признаков, сформированных в порядковой (ранговой, балльной) шкале, можно применять ранговые коэффициенты корреляции Спирмена или Кендэла. Любую существующую зависимость по направлению связи можно подразделить на прямую и обратную. Прямая зависимость — это зависимость, при которой увеличение или уменьшение значения одного признака ведет, соответственно, к увеличению или уменьшению второго. Например: при увеличении температуры возрастает давление газа (при его неизменном объеме), при уменьшении температуры снижается и давление. Обратная зависимость имеется тогда, когда при увеличении одного признака второй уменьшается, и наоборот: при уменьшении одного второй увеличивается. Обратная зависимость, или обратная связь, является основой нормального регулирования почти всех процессов жизнедеятельности любого организма. Оценка силы корреляционной связи проводится в соответствии со шкалой тесноты. Если размеры коэффициента корреляции от ±0, 9 до ±0, 7, то связь сильная, коэффициенты корреляции от ±0, 31 до ±0, 69 отражают связь средней силы, а коэффициенты от ±0, 3 до нуля характеризуют слабую связь. Известное представление о наличии или отсутствии корреляционной связи между изучаемыми явлениями или признаками (например, между массой тела и ростом) можно получить графически, не прибегая к специальным расчетам. Для этого достаточно на чертеже в системе прямоугольных координат отложить, например, на оси абсцисс величины роста, а на оси ординат — массы тела и нанести ряд точек, каждая из которых соответствует индивидуальной величине веса при данном росте обследуемого. Если полученные точки располагаются кучно по наклонной прямой к осям ординат в виде овала (эллипса) или по кривой линии, то это свидетельствует о зависимости между явлениями. Если же точки расположены беспорядочно или на прямой, параллельной абсциссе либо ординате, то это говорит об отсутствии зависимости. По форме корреляционные связи подразделяются на прямолинейные, когда наблюдается пропорциональное изменение одного признака в зависимости от изменения другого (графически эти связи изображаются в виде прямой линии или близкой к ней), и криволинейные, когда одна величина признака изменяется непропорционально изменению другой (на графике эти связи имеют вид параболы, эллипса или иной кривой линии). Таким образом, корреляционные связи различаются по характеру (прямые и обратные), по форме (прямолинейные и криволинейные), по силе (сильная, средняя, слабая). И, наконец, корреляционные связи могут иметь разную достоверность. Существуют статистически значимые связи с высокой вероятностью достоверного прогноза минимум на 95 %, максимум — на 99 % и выше. И могут быть статистически незначимые корреляционные связи, когда вероятность достоверного прогноза ниже 95 %. В основу исчисления коэффициента корреляции берется оценка совпадений колебаний значений взаимосвязанных признаков. Если объективно существующие колебания (вариации) этих значений совпадают, то можно говорить о наличии корреляции. Если колебания не совпадают, корреляции нет. Коэффициент корреляции. Нас часто интересует не предсказание значения одной переменной по значению другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом. Корреляция - это описание взаимосвязи количественных или качественных признаков. Коэффициент корреляции (r) Пирсона является мерой корреляции, он показывает, в какой степени изменение значения одного признака сопровождается изменением значения другого в данной выборке. Коэффициент корреляции может принимать значения от -1 до +1. Крайние значения этого интервала указывают на функциональную линейную зависимость признаков, ноль - на отсутствие статистической связи. Знак коэффициента корреляции показывает направление связи (прямая или обратная). При r > 0 говорят о прямой корреляции (с увеличением одной переменной другая также возрастает), при r < 0 — об обратной (с увеличением одной переменной другая уменьшается).
Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регрессионный анализ, он требует нормальности распределения. Он рассчитывается по формуле. Алгоритм расчета коэффициента корреляции по методу квадратов: 1. Вычислите среднюю арифметическую простую для каждого вариационного ряда (Мx и Мy) 2. Найдите отклонении вариант от средней арифметической dx = Vx - Мx dy = Vy – Мy 3. Вычислите произведение dx × d y 4. Определите ∑ dx × d y 5. Вычислите dx 2 и d y2 6. Найдите ∑ dx 2 и ∑ d y2 7. Вычислите произведение ∑ dx 2 × ∑ d y2 8. Рассчитайте коэффициент корреляции по методу квадратов (Пирсона) по выше указанной формуле.
Пример расчета коэффициента корреляции (табл. 40). Таблица 40 Расчет коэффициента корреляции по методу квадратов (Пирсона) rxy (Зависимость между температурой тела и числом сердечных сокращений)
Коэффициент ранговой корреляции Спирмена Коэффициент ранговой корреляции Спирмена можно использовать, когда связь нелинейна — и не только для количественных, но и для качественных признаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения. Идея коэффициента ранговой корреляции Спирмена состоит в следующем. Нужно упорядочить данные по возрастанию и заменить реальные значения их рангами. Рангом значения называется его номер в упорядоченном ряду. Затем, беря вместо самих значений их ранги, рассчитывают обычный коэффициент корреляции Пирсона. Если в ряду встретятся одинаковые значения, им следует присвоить один и тот же ранг, равный среднему занимаемых ими мест. Коэффициент ранговой корреляции Спирмена можно рассчитать и проще:
6 Σ dx2 ρ xy = 1 – ---------------- n (n2 – 1) Алгоритм расчета коэффициента ранговой корреляции (Спирмена) 1. Определите ранг вариант для каждого вариационного ряда 2. Вычислите разницу рангов (d) 3. Определите d 2 4. Найдите ∑ dx 2 5. Определите число сопряженных пар (n) 6. Рассчитайте коэффициент корреляции ранговой корреляции (Спирмена) по выше указанной формуле. Пример расчета коэффициента ранговой корреляции (табл. 41). Таблица 41 Расчет коэффициента ранговой корреляции (Спирмена) ρ xy
0, 9
0, 22
t ═ 4, 1 Для усвоения материала следует решить несколько задач.
Таблица 42
Сравнив оценки по обеим шкалам у 10 больных, В. Ернайчик получил следующие результаты (табл. 43): Таблица 43
Перед теми, кто пользуется той или иной шкалой стоит проблема ответа на вопрос: «Насколько согласованы оценки по шкале Бека и Гамильтона?». В связи с этим рассчитайте коэффициент ранговой корреляции (Спирмена). После того, как нам удалось рассчитать коэффициенты корреляции двумя методами, следует определить степень и характер связи по таблице 44. Таблица 44 Оценка степени тесноты и характера связи:
|