Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Сравнение скорости обучения при изменении ситуации.

TD-метод

V(s)  
Месторасположения агента

Рис. 4. Надо пояснить, что изображено на рисунке

Метод Q-обучения

Q(s, a)

Рис. 5. Надо пояснить, что изображено на рисунке

 

Как видно по рисункам TD-метод на 100-м шаге уже нашел оптимальную (термин «самое оптимальное» математически неграмотен, «оптимальное» - это уже и есть «самое» относительно выбранного критерия) траекторию движения, максимизирующую вознаграждения. Метод Q-обучения, нашёл оптимальную траекторию только к 200-му шагу.

Сравнение скорости обучения при изменении ситуации.

Поместим изначально агента в точку (4, 4) и выполним 190 шагов для метода Q-обучения и 25 шагов для метода TD-обучения. Получим (рис. 6):

Рис. 6. Надо пояснить, что изображено на рисунке

Сделаем ещё 1 шаг и поместим в точку (1, 1) яму (локальный оптимум), т.е вознаграждение в этой точке = -1000.

При выполнении 5-ти шагов оба агента прошли по яме (рис. 7):

Рис. 7. Надо пояснить, что изображено на рисунке

На следующие 10 шагов алгоритмы «растерялись»:

Рис. 8. Надо пояснить, что изображено на рисунке

 

Ещё через 42 для TD-агента и 247 для Q-агента шагов и они снова нашли оптимальный путь:

Рис. 9

Добавим ещё одну зону перемещения (1, 4) à (4, 4) с вознаграждением 5.

Начальная точка будет (3, 3).

Для достижения оптимальной траектории TD-агенту потребовалось 41 шаг, Q-агенту - 53

Рис. 10

 

Все рисунки надо пронумеровать и дать к ним развернутые пояснения, особенно к начальным. На все рисунки должны быть ссылки по тексту (сначала ссылка, потом рисунок).

 

 

Вывод

Для данного типа задач метод TD-обучения оказался намного эффективнее метода Q-обучения во всех отношениях: он быстрее обучается и приспосабливается при меньших затратах памяти. Таким образом, метод TD-обучения может быть рекомендован для использования в ИСППР РВ.

<== предыдущая лекция | следующая лекция ==>
возвращает целую часть частного | Кратные единицы и их применение с основными
Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.008 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал