![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Построение регрессионной модели стохастического объекта
Пусть задан некоторый стохастический объект (рис. 2.6) входная и выходная координаты X и Y которого являются случайными величинами.
На Y влияет не только входная координата X, но и случайная помеха Z (нестабильность режима работы объекта, стохастические воздействия внешней среды, погрешности измерения Y и т.д.). Поэтому нельзя говорить о функциональной зависимости Y от X. В подобных случаях следует говорить о наличии стохастической (вероятносной) связи между переменными X и Y объекта в статике. Случайные величины X и Y являются зависимыми, если закон распределения вероятностей одной из них зависит от значений другой, т. е.
Функция Предположим, что можно установить X=x рис. 2.7 Будем считать, что структура Зависимость
Регрессионная зависимость показывает, как изменяется среднее значение Y при изменении X. Если соединить плавной линией точки Уравнением регрессии называют функцию При построении регрессионной модели статики (5.61) объекта широко применяется пассивный метод идентификации. Этот метод применяют при изучении статики объектов, уровень помех которых достаточно велик, а также в тех случаях, когда недопустимо нанесение искусственных возмущений на входе объекта. Пассивный метод идентификации основан в получении статистической информации об объекте по данным его нормальной эксплуатации. Затем реализации входной x и выходной y величин обрабатываются таким образом, чтобы определить регрессионную модель
где Определение уравнения регрессии состоит из двух этапов: выбор типа уравнения регрессии и расчет его коэффициентов. Первый этап обычно осуществляется либо путем эмпирического подбора типа уравнения регрессии по виду корреляционного поля между входными и выходными величинами, либо путем теоретического изучения закономерности физического процесса, отражением которого является стохастическая связь между этими величинами. Иногда оба подхода используются в сочетании друг с другом. Второй этап - расчет коэффициентов уравнения регрессии - чаще всего выполняется методом наименьших квадратов. При этом минимизация по
приводит к оценкам вектора Следует отметить, что пассивно - статистический метод имеет целый ряд существенных недостатков по сравнению с активными методами: 1) полученная модель объекта справедлива только в пределах использованного экспериментального статистического материала; 2) трудно разделить эффекты от коррелированности части входных величин многомерного объекта; 3) индивидуальные коэффициенты регрессии не имеют какого-либо физического смысла; 4) не извлекается информация об ошибке опытов; 5) требуется получить большой объем экспериментальных данных и производить трудоемкие вычисления. Указанные недостатки в значительной степени снижают ценность моделей, полученных пассивно-статистическим методом. К этому методу прибегают только в тех случаях, когда другие методы не могут быть использованы. Предварительный анализ экспериментального статистического материала составляет основную задачу корреляционного анализа при идентификации стохастического объекта. При этом суть корреляционного анализа сводится к оценке силы стохастической связи между случайными величинами X и Y и установлению вида зависимости между ними в виде уравнения регрессии. Чтобы предварительно определить наличие корреляционной связи между X и Y, наносят экспериментальные точки Рис. 2.8 На рис. 2.8 представлены: а - сильная отрицательная корреляция; б - сильная положительная корреляция; в - слабая положительная корреляция; г, д - отсутствие корреляции. По тесноте группирования точек вокруг прямой или кривой линии, по наклону линии можно визуально судить о наличии корреляционной связи. Корреляционное поле характеризует вид связи между X и Y, т.е. наличие линейной или нелинейной зависимости. Существует три вида корреляции - линейная, нелинейная и множественная корреляция. При линейной корреляции линия регрессии аппроксимируется уравнением прямой, при нелинейной - уравнением кривой. Множественная корреляция определяет связь между многими величинами, и при этом используется уравнение множественной регрессии. Наиболее распространенной является линейная корреляция. Понятие корреляции дает возможность судить о том, насколько тесно ложатся экспериментальные точки на аппроксимирующую кривую линии регрессии. Если регрессия определяет предполагаемое соотношение между переменными, то корреляция показывает, насколько хорошо это соотношение отражает действительность. Задача стохастического анализа объекта ставится таким образом: по данной выборке объема n оценить силу (тесноту) корреляционной связи между X и Y, найти уравнение приближенной регрессии и оценить допускаемую ошибку. Оценка тесноты корреляционной связи. В общем виде задача выявления и оценки силы стохастической связи не решена. Существуют показатели, оценивающие те или иные стороны стохастической связи. Поведение случайной величины Y описывается обычно следующими функциональными и числовыми характеристиками: - интегральным законом распределения вероятностей - дифференциальным законом распределения вероятностей - математическим ожиданием - дисперсией Отметим, что Поведение системы двух случайных величин X, Y, значения x и y которых изменяются от или плотностью распределения вероятностей
т.е. Отметим, что По известным f(x, y) всегда можно найти f(x) и f(y). Обратная задача - определение f(x, y) по известным f(x) и f(y) в общем случае не имеет решения т.к. эти две функции не характеризуют взаимную зависимость величин X и Y. Но для независимых случайных величин f(x, y) = f(x)f(y). Основной числовой характеристикой двух случайных величин X и Y является ковариационный (корреляционный) момент
Назовем случайную величину Момент Действительно, пусть X и Y независимы, тогда f(x, y) = f(x)f(y) и Обратное утверждение - если Следовательно, величина Ковариационный момент Размерность
где Величина Величину
где Тогда выборочный коэффициент корреляции определяется по формуле
где
Уменьшение на единицу знаменателя в приведенных выше формулах связано с тем, что величины Для удобства вычислений и повышения точности расчетов преобразуем формулы (5.66), (5.67) и (5.68). Несложные преобразования их приводят к следующим формулам:
Преимущество формул (5.69), (5.70) в том, что в них нет операций вычитания близких чисел, как в формулах (5.66) - (5.68), приводящих к потере точности вычислений. В формулах (5.69), (5.70) эта операция применяется только один раз. Коэффициент корреляции не меняется от прибавления к X и Y каких - либо неслучайных слагаемых, от умножения X и Y на положительные числа. Если же одну из величин, не меняя другой, умножить на - 1, то на - 1 умножится и коэффициент корреляции. Для независимых случайных величин Коэффициент корреляции характеризует не всякую зависимость, а только линейную. Линейная вероятностная зависимость случайных величин X и Y заключается в том, что при возрастании X случайная величина Y имеет тенденцию возрастать (при При Линейная регрессионная модель. Пусть с помощью коэффициента корреляции установлено, что зависимость между X и Y существует и она линейная, т.е.
Надо только определить коэффициенты
где М - символ математического ожидания (усреднения на интервале Для краткости записи обозначим Так как
Из необходимого условия минимума функции (5.72)
Первое уравнение системы (5.73) умножим на Отсюда находим
Из первого уравнения системы (5.73) определяем
Линейная регрессионная модель имеет вид
Уравнение линейной регрессии, записанное в стандартном виде
наилучшим образом (в смысле величины квадрата ошибок) аппроксимирует зависимость условного среднего Y от X. Если подставить
Отсюда следует, что чем ближе Уравнение (5.77) позволяет прогнозировать среднее значение выхода Y для заданного значения входа X. Теперь покажем, что Учитывая, что всегда Нелинейная регрессионная модель одномерного объекта. Зададим уравнение регрессии полиномом степени m
Коэффициенты Для оценки силы связи X и Y в общем случае используется корреляционное отношение
где
Рис. 2.9 Дисперсию
Последний член характеризует разброс Y относительно
Из (2.80) с учетом (2.81) имеем
Если все значения Y лежат на линии регрессии, т.е. абсолютно точно удовлетворяют уравнению (2.79), тогда X и Y связаны функциональной связью и Теперь пусть Y не зависит от X, поэтому линия регрессии Чем меньше величина Множественная линейная регрессия. Множественная регрессия применяется для описания связи входных величин Уравнение линейной множественной регрессии имеет вид
где
Оценки приведенных выше числовых характеристик случайных процессов можно определить по экспериментальным данным. Пусть в результате эксперимента имеем матрицу наблюдений
где n - количество опытов; Тогда имеем следующие оценки характеристик где всюду Коэффициенты Рассмотрим общий случай, учитывая возможные связи между факторами (входами). Перейдем от натурального масштаба к новому, проведя нормировку всех значений случайных величин по формулам:
При этом имеем исходный статистический материал в безразмерном масштабе: В новом масштабе имеем:
Вычисленные по этим формулам выборочные коэффициенты корреляции равны коэффициентам корреляции между переменными, выраженными в натуральном масштабе, т.е. Уравнение регрессии между нормированными переменными не имеет свободного члена, т.к.
Коэффициенты уравнения (5.88) находятся методом наименьших квадратов из условия: Которые дают следующую систему уравнений
где суммирование всюду осуществляется от 1 до n. Умножим левую и правую части системы уравнений (5.89) на 1/(n-1). В результате при каждом коэффициенте
Решая систему линейных уравнений (5.90), находим Для изучения тесноты связи между функцией отклика Y и факторами
Очевидно, что в случае линейно независимых входов
R всегда положителен и принимает значение от 0 до 1. Чем больше R, тем лучше качество предсказаний данной моделью опытных данных. От уравнения (5.88) можно перейти к уравнению (5.83) с переменными в натуральных масштабах, используя формулы (5.87) нормирования переменных входа Нетрудно получить следующие формулы для пересчета коэффициентов модели: Нелинейная регрессионная модель многомерного объекта. Уравнение нелинейной регрессии стохастического многомерного объекта задается обычно полиномом
где Коэффициенты уравнения (2.93), как правило, определяются методом наименьших квадратов. Наибольшие трудности вызывает структурная идентификация модели, т.е. выбор порядков полинома по каждому из входов, а также вычисление определителя плохообусловленной матрицы, часто встречающейся при идентификации коэффициентов модели. Использование метода Брандона для построения уравнения множественной регрессии позволяет избежать эти трудности. По этому методу уравнение регрессии записывается в виде
где Порядок расположения факторов Вид функции Рис. 2.10 По эмпирической линии регрессии определяется вид зависимости
Полученная величина
По точкам новой выборки величин
Рис. 2.11 Рассчитываются коэффициенты уравнения (5.97) и вновь составляется выборка новой величины
Полученная величина
Такая процедура определения функций
Полученная величина
где n - объем выборки. Таким образом, окончательно получаем зависимость условного среднего выхода объекта Y от всех факторов (входов) Оценка значимости коэффициентов и адекватности регрессионной модели. После того как уравнение регрессии найдено, необходимо провести статический анализ результатов. Он заключается в проверке значимости коэффициентов модели в сравнении с ошибкой воспроизводимости и оценке адекватности модели эксперименту. Такое исследование называется регрессионным анализом. Оценку значимости коэффициентов модели выполняют по критерию Стьюдента. Для каждого проверяемого коэффициента
где Как правило, для получения дисперсии воспроизводимости проводится отдельная серия из m повторных опытов при фиксированных значениях входов. Пусть при этом получено
Тогда
Значения частных производных находят из выражения коэффициентов, найденных, например, методом наименьших квадратов. Если Незначимые коэффициенты исключаются из уравнения регрессии. Оставшиеся коэффициенты пересчитываются заново, поскольку коэффициенты закоррелированы друг с другом. Адекватность модели проверяется по F - критерию Фишера. Для этого вычисляют дисперсию адекватности
где l - число коэффициентов модели, найденных по выборке объема n. Определяют значение F - критерия
|