Member 13787458 Ответов: 0

Отбой подкрепление обучающий агент


Я пытаюсь реализовать агент обучения подкреплению для игры Lights Out который указан здесь:
Задачи программирования и конкурсы :: HackerRank[^]

Код до сих пор: GitHub - BugsBuggy/RL-LightsOut: запустите код в agent.py[^]

Проблема в том, что агент не приближается к политике. Она ничему не учится. Есть ли у кого-нибудь идея, почему он ничему не учится?

Алгоритм, который я пытался использовать для оценки значения состояния с помощью нейронной сети для аппроксимации нелинейных функций, можно получить из :
Саттон и Барто страница 198
http://incompleteideas.net/book/bookdraft2017nov5.pdf[^]


Я уверен, что Вы тоже чему-то научитесь, если заглянете в проект.

Спасибо и PS: Я новичок в обучении подкреплению

Что я уже пробовал:

И я попытался реализовать нейронную сеть в качестве аппроксиматора функций, который оценивает ценность каждого возможного действия.
Кроме того несколько деталей:
Действие выбирается случайным образом с вероятностью Эпсилон, а с вероятностью 1-Эпсилон выбирается argmax всех возможных действий.
Структура вознаграждения определяется следующим образом:
Агент получает вознаграждение -1, если он делает какое-либо движение, которое является действительным и не приводит к терминальному состоянию. Если агент делает ход, который приводит к терминальному состоянию, он получает вознаграждение 100. Если он делает неверный ход, который невозможен, потому что агент смотрит только на возможные ходы, агент получает вознаграждение в размере -300. Это может быть добавлено позже, чтобы агент сам узнал, какие ходы возможны.
Агент пытается учиться, играя против самого себя, имитируя противника случайными ходами и рассматривая результат как обратную связь от окружающей среды. Для оценки эффективности агент играет 100 игр против соперника со случайными ходами после каждых 500 игр, которые он играет против самого себя.

0 Ответов