Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Алгоритм построения нейронных сетей
Оценка адекватности нейромережевих моделей При построении нейромережевих моделей очень важным является вопрос оценки их качества. Для качественной модели нужно минимальное значение ошибки модели. Как мера ошибки в моделях регрессии может рассматриваться стандартная среднеквадратичная ошибка, коэффициент множественной корреляции, судьба естественной дисперсии прогнозируемого признака, который не достал объяснения в рамках модели. В моделях классификации как мера ошибки может быть избрана судьба случаев правильно классифицированных моделью. В связи с высокими потенциальными возможностями учебы нейромережевих моделей важную роль при оценке адекватности модели играют вопросы «переобучения» модели. В связи с этим рассмотрим процесс построения модели подробнее. Следовательно, нужно, чтобы на основании конечного набора параметров X, названных учебным множественным числом, была построена модель Mod некоторого объекта Obj. Процесс получения Mod из имеющихся отрывочных экспериментальных сведений о системе Obj может рассматриваться, как учеба модели поведению Obj в соответствии с заданным критерием, настолько близко, насколько это возможно. Алгоритмически, учеба означает подстраивание внутренних параметров модели (ваг синаптичних связей в случае нейронной сети) с целью минимизации ошибки модели, которая описывает некоторым чином отклонения поведения модели от системы, – E = |Obj – Mod |. Прямое измерение отмеченной ошибки модели на практике не возможно, поскольку функция Obj при произвольных значениях аргумента неизвестна. Однако возможно получение ее оценки: Ошибка! Объект не может быть создан из кодов полей редактирования., где суммирование проводится по учебному множественному числу X. При использовании базы данных наблюдений по системе, для учебы может уделяться некоторая ее часть, названная в этом случае учебной выборкой. Для учебных примеров X отзывы системы Obj известны. Таким образом, EX – ошибка учебы для модели. В дополнениях пользователя обычно интересуют предполагаемые свойства модели. При этом главным является вопрос, которым будет отзыв системы на новое влияние, пример которого отсутствует в базе данных наблюдений, – N. Неизвестна ошибка, которая допускается моделью Mod на данных, которые не использовались при учебе, называется ошибкой обобщения модели EN. Основной целью при построении информационной модели является уменьшение само ошибки обобщения, поскольку имела ошибка учебы гарантирует адекватность модели лишь в предварительно избранных точках (а в них значения отзыва системы известны и без всякой модели). Проводя аналогии с учебой в биологии, можно сказать, что имела ошибка учебы отвечает прямому запоминанию учебной информации, а имела ошибка обобщения – формированию понятий и навыков, которые позволяют распространить полученный из учебы опыт на новые условия. Последнее значительно более ценное при проектировании нейромережевих систем, потому что для непосредственного запоминания информации лучше приспособлены другие, не нейронные устройства компьютерной памяти. Важно отметить, что имела ошибка учебы не гарантирует малую ошибку обобщения. Классическим примером является построение модели функции (аппроксимация функции) по нескольким заданным точкам полиномом высокого порядка. Значения полинома (модели) при достаточно высокой его степени являются точными в учебных точках, то есть ошибка учебы равняется нулю. Однако значения в промежуточных точках могут значительно отличаться от аппроксимирующей функции, следовательно ошибка обобщения такой модели может быть неприемлемой большой. Поскольку истинное значение ошибки обобщения не доступно, на практике используется ее оценка. Для ее получения анализируется часть примеров из имеющейся базы данных, для которых известны отзывы системы, но которые не использовались при учебе. Эта выборка примеров называется тестовой выборкой. Ошибка обобщения оценивается, как отклонение модели на множественном числе примеров из тестовой выборки. Оценка ошибки обобщения является принципиальным моментом при построении модели. На первый взгляд может показаться, что не сознательное использование части примеров при учебе может только ухудшить итоговую модель. Однако без этапа тестирования единственной оценкой качества модели будет лишь ошибка учебы, что, как уже отмечалось, мало связано с предполагаемыми способностями модели. В профессиональных исследованиях могут использоваться несколько независимых тестовых выборок, этапы учебы и тестирования повторяются многоразово с вариацией начального деления ваг нейромережі, ее топологии и параметров учебы. Окончательный выбор " наилучшей" нейромережі делается с учетом имеющегося объема и качества данных, специфики задачи, с целью минимизации риска большой ошибки обобщения при эксплуатации модели. Построение нейронной сети (после выбора входных переменных) состоит из следующих шагов: Выбор начальной конфигурации сети. Проведение экспериментов с разными конфигурациями сетей. Для каждой конфигурации проводиться несколько экспериментов, чтобы не получить ошибочный результат из-за того, что процесс учебы попал в локальный минимум. Если в дежурном эксперименте наблюдается недонавчання (сеть не выдает результат приемлемого качества), необходимо прибавить дополнительные нейроны в промежуточный слой. Если это не помогает, попробовать прибавить новый промежуточный слой. Если имеет место переобучение (контрольная ошибка стала расти), необходимо удалить несколько спрятанных элементов. Отбор данных Для получения качественных результатов учебное, контрольная и тестовая множественные числа должны быть репрезентативными (представительскими) с точки зрения сути задачи (более того, эти множественные числа должны быть репрезентативными каждая отдельно). Если учебные данные не репрезентативны, то модель, как минимум, будет не очень красивой, а в хуже случае – непригодной. Учеба сети Учебу сети лучше рассмотреть на примере многослойного персептрона. Уровнем активации элемента называется взвешенная сумма его входов с прибавленным к ней предельным значением. Таким образом, уровень активации являет собой простую линейную функцию входов. Эта активация потом превратится с помощью сігмавидної (что имеет S-образную форму) кривой. Комбинация линейной функции нескольких переменных и скалярной сігмавидної функции приводит к характерному профилю " сігмавидного склона", который выдает элемент первого промежуточного слоя сети. При изменении ваг и порогов изменяется и поверхность отзыва. При этом может изменяться как ориентация всей поверхности, так и крутизна склона. Большим значением ваг отвечает более крутой склон. Если увеличить все весы в два разы, то ориентация не изменится, а наклон будет круче. В многослойной сети подобные функции отзыва комбинируются одна из одною с помощью построения их линейных комбинаций и применения нелинейных функций активации. Перед началом учебы сети весам и порогам случайным образом присваиваются небольшие по величине начальные значения. Тем самым отзывы отдельных элементов сети имеют малый наклон и ориентированные хаотически – фактически они не связаны друг с другом. По мере того, как происходит учеба, поверхности отзыва элементов сети возвращаются и смещаются в нужное положение, а значения ваг увеличиваются, поскольку они должны моделировать отдельные участки целевой поверхности отзыва. В задачах классификации исходный элемент должен выдавать сильный сигнал в случае, если данное наблюдение принадлежит к классу, что нас интересует, и слабый – в противоположном случае. Иначе говоря, этот элемент повинен стремиться смоделировать функцию, ровную единице в той области пространства объектов, где располагаются объекты из нужного класса, и ровную нулю вне этой области. Такая конструкция известна как дискримінантна функция в задачах распознавания. " Идеальная" дискримінантна функция должна иметь плоскую структуру, так, чтобы точки соответствующей поверхности располагались или на нулевом уровне. Если сеть не содержит спрятанных элементов, то на выходе она может моделировать только одинарный " сігмавидний склон": точки, которые находятся по одну его сторону, располагаются низко, по другую – высоко. При этом всегда будет существовать область между ними (на склоне), где высота принимает промежуточные значения, но в меру увеличения веса эта область будет сужаться. Теоретически, для моделирования любой задачи достаточно многослойного персептрона с двумя промежуточными слоями (этот результат известен как теорема Колмогорова). При этом может оказаться и так, что для решения некоторой конкретной задачи проще и удобно будет сеть с еще большим числом слоев. Однако, для решения большинства практических задач достаточно всего одного промежуточного слоя, два слоя применяются как резерв в особенных случаях, а сети с тремя слоями практически не применяются.
|