Головная страница ИПМ Библиотеки, издания  •  Поиск публикаций  English 
Публикация

Препринт ИПМ № 170, Москва, 2018 г.
Авторы: Князятов С.А., Малинецкий Г. Г.
Решение задачи распознавания блефа в игре «верю – не верю» с помощью алгоритмов обучения с подкреплением
Аннотация:
В работе исследуется возможность построения алгоритма на основе обучения с подкреплением для задачи распознавания и использования блефа в карточной игре «верю — не верю». Построенный алгоритм обладает «интеллектуальной способностью» перестраивать свою стратегию поведения и оценивать возможные ходы, основываясь на предыдущем опыте. Данный класс алгоритмов используется для принятия решений в быстроменяющихся средах. Описаны способ и результаты сравнения алгоритмов между собой, результаты игр лучших алгоритмов с реальным соперником. Обнаружен эффект «переобучения» — увеличение количества обучающих партий в ряде случаев не улучшает, а ухудшает качество работы алгоритма.
Ключевые слова:
обучение с подкреплением, математическое моделирование, Q-обучение, метод SARSA(λ), алгоритм распознавания блефа, имитация блефа, нейронные сети, высокоскоростное принятие решений
Язык публикации: русский,  страниц: 21
Направление исследований:
Математическое моделирование в актуальных проблемах науки и техники
Полный текст на русском языке:
Экспорт ссылки на публикацию в формате:   RIS    BibTeX
Статистика просмотров (обновляется раз в сутки):
за последние 30 дней — 10 (-6), всего с 01.09.2019 — 636
Сведения об авторах:
  • Князятов Станислав Александрович,  ,  Сибинтек
  • Малинецкий Георгий Геннадьевич,  orcid.org/0000-0001-6041-1926ИПМ им. М.В. Келдыша РАН