Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Сравнение скорости обучения при изменении ситуации.
TD-метод
Рис. 4. Надо пояснить, что изображено на рисунке Метод Q-обучения
Рис. 5. Надо пояснить, что изображено на рисунке
Как видно по рисункам TD-метод на 100-м шаге уже нашел оптимальную (термин «самое оптимальное» математически неграмотен, «оптимальное» - это уже и есть «самое» относительно выбранного критерия) траекторию движения, максимизирующую вознаграждения. Метод Q-обучения, нашёл оптимальную траекторию только к 200-му шагу. Сравнение скорости обучения при изменении ситуации. Поместим изначально агента в точку (4, 4) и выполним 190 шагов для метода Q-обучения и 25 шагов для метода TD-обучения. Получим (рис. 6):
Рис. 6. Надо пояснить, что изображено на рисунке Сделаем ещё 1 шаг и поместим в точку (1, 1) яму (локальный оптимум), т.е вознаграждение в этой точке = -1000. При выполнении 5-ти шагов оба агента прошли по яме (рис. 7):
Рис. 7. Надо пояснить, что изображено на рисунке На следующие 10 шагов алгоритмы «растерялись»: Рис. 8. Надо пояснить, что изображено на рисунке
Ещё через 42 для TD-агента и 247 для Q-агента шагов и они снова нашли оптимальный путь:
Рис. 9 Добавим ещё одну зону перемещения (1, 4) à (4, 4) с вознаграждением 5. Начальная точка будет (3, 3). Для достижения оптимальной траектории TD-агенту потребовалось 41 шаг, Q-агенту - 53 Рис. 10
Все рисунки надо пронумеровать и дать к ним развернутые пояснения, особенно к начальным. На все рисунки должны быть ссылки по тексту (сначала ссылка, потом рисунок).
Вывод Для данного типа задач метод TD-обучения оказался намного эффективнее метода Q-обучения во всех отношениях: он быстрее обучается и приспосабливается при меньших затратах памяти. Таким образом, метод TD-обучения может быть рекомендован для использования в ИСППР РВ.
|