Abstract:
|
В работе описываются методы обучения с подкреплением спайковой нейронной сети, управляющей роботом или интеллектуальным агентом. Применение спайковых нейронов в качестве базовых элементов сети позволяет использовать как пространственную,
так и временную структуру входной сенсорной информации. Обучение сети производится
с помощью подкрепляющих сигналов, идущих из внешней среды и отражающих степень
успешности недавно выполненных агентом действий. Максимизация получаемого подкрепления ведется путем модулированной минимизации информационной энтропии функционирования нейрона, которая зависит от весов нейронов. Полученные законы изменения весов
близки к явлениям синаптической пластичности, наблюдающейся в реальных нейронах. Работа алгоритма обучения с подкреплением проверяется на тестовой задаче поиска ресурсов
агентом в дискретной виртуальной среде. |