苗焕玲
基于对手池的两人格斗游戏深度强化学习
2025-5-22 10:21
阅读:174

论文简介

【编辑荐语】

本文将给大家分享《控制理论与应用》第42卷第2期论文"基于对手池的两人格斗游戏深度强化学习(Deep reinforcement learning for two-player fighting game based on opponent pool)". 如您对本期相关内容有好的理解与建议, 欢迎评论区留言.

本文基于深度强化学习对格斗游戏博弈对抗策略进行研究, 提出了一种创新性的自增长对手池算法及高效并行训练框架, 为复杂博弈场景的AI策略优化提供了重要突破. 研究团队通过构建马尔可夫决策过程, 结合阶段策略梯度算法, 攻克了传统方法中训练速度慢、对手策略单一等难题, 显著提升了智能体的鲁棒性与泛化能力. 其核心创新点在于动态扩展的对手池设计, 不仅有效模拟多样化对抗环境, 还通过主智能体与对手池的协同进化逼近纳什均衡策略. 实验结果表明: 训练后的智能体对历史对手胜率达96.6%, 面对未知测试对手仍保持72.2%的胜率, 展现了较好的战术适应性. 此外, 作者创新性地设计了多服务器分布式并行框架, 大幅提升采样效率, 为实时对抗类AI训练提供了可扩展的技术方案. 该研究不仅推动了格斗游戏AI的理论边界, 更为无人机空战等现实对抗场景的智能决策系统开发奠定了方法论基础, 具有显著的学术价值与产业应用前景.

【论文介绍】

基于对手池的两人格斗游戏深度强化学习

Deep reinforcement learning for two-player fighting game based on opponent pool

梁荣钦,  朱圆恒†,  赵冬斌

单位机构: 中国科学院大学, 人工智能学院; 中国科学院自动化研究所, 多模态人工智能系统全国重点实验室

引用: 梁荣钦, 朱圆恒, 赵冬斌. 基于对手池的两人格斗游戏深度强化学习. 控制理论与应用, 2025, 42(2): 226 – 234

DOI编号: 10.7641/CTA.2024.30688

全文链接: https://jcta.ijournals.cn/cta_cn/ch/reader/view_abstract.aspx?file_no=CCTA230688&flag=1

摘要

双人游戏在游戏人工智能领域是一个基本且重要的问题, 其中一对一零和格斗游戏是最为典型的双人游戏之一. 本文基于深度强化学习对格斗游戏博弈对抗策略进行研究. 首先建模格斗游戏环境, 设计可用于格斗游戏决策的状态、动作以及奖赏函数, 并将阶段策略梯度算法应用于对抗策略的学习. 为了尽可能学到纳什均衡策略实现战胜任意对手的目标, 本文设计了基于历年参赛的智能体构造对手池用于智能体训练, 并探索对手选择机制对于训练过程的影响. 最后在固定对手池的基础上, 设计了自增长对手池算法, 以提升对手策略的完备性和训练智能体的鲁棒性. 为了提高环境采样速度, 本文从传统并行框架出发, 设计了可用于双人游戏的多服务器分布式并行采样框架. 通过实验对比发现, 基于自增长对手池方法所学的智能体能以96.6%的胜率击败固定对手池中的智能体, 并且在与3个仅用于测试的智能体对战时, 也表现出了72.2%的胜率.

引言

在游戏中, 依据游戏过程中的交互模式以及玩家行动的同步性或异步性, 将可用于强化学习的游戏环境主要分为回合制游戏与实时类游戏. 回合制游戏在一个回合内只有一个玩家执行动作, 而实时类游戏在每一个时刻内都有大量的玩家以及其他中立生物执行动作. 常见的回合制游戏有围棋、五子棋、德州扑克和斗地主等. 这类游戏的显著特点是游戏节奏慢以及决策空间不大, 已经有大量团队进行试验并应用到了实际生活中, 例如腾讯绝艺围棋AI已经用于中国国家队作为选手的陪练程序. 而实时类游戏有星际争霸、王者荣耀、DogFight、ViZDoom和格斗类游戏等, 这类游戏由于有着决策时间短和决策空间巨大等难点, 因而更加具有挑战性.

在格斗类游戏领域, 日本立命馆大学的智能电脑娱乐实验室已经连续数年组织了一项格斗游戏人工智能比赛. 本文采用的比赛平台称为FightingICE, 为一对一格斗游戏提供了环境. 该平台不仅构成了理想的实验环境, 而且明确地展示了用于研究多种人工智能算法的独特优势. 首先, 在游戏的计算复杂度角度, 格斗游戏的计算复杂度位于棋盘游戏类型和实时战略模拟游戏之间, 构成了其独特的研究价值. 与深蓝或AlphaGo等棋盘游戏AI在游戏过程中有足够的时间去预测玩家未来的行为相比, 一对一的格斗游戏智能体需要在极短的时间内做出反应, 这无疑增加了构建格斗游戏AI的挑战性. 同时, 格斗游戏的决策时间相对比较短, 动作复杂度也低于星际争霸或DOTA2等实时战略模拟游戏. 这些特点让格斗游戏在计算能力较少时设计和评估人工智能算法方面具有无法忽视的优势. 因此, 通过对格斗游戏的研究, 可以探索出更多的人工智能的可能性.

深度强化学习借助于深度神经网络强大的表征能力, 有效解决了强化学习在高维空间中决策困难的问题, 提出了智能体在高维空间下的端到端序列决策优化方案. 然而在FightingICE环境中使用深度强化学习相对于其他算法占比偏小, 一是智能体训练速度慢, 二是只使用深度强化学习的智能体效果不佳. Tri等人提出使用卷积神经网络提取当前的状态特征, 然后使用强化学习训练出一个对手检测的模型. 这篇论文的缺点主要在于, 虽然提出的模型在预测AI的下一步动作时达到了54.24%的准确率, 但这个准确率并不足以赢过其他强大的AI. Yoon等人提出了通过视觉作为特征并结合深度Q网络(deep Q net-works, DQN)的算法. 该算法使用96×64分辨率的图像数据作为深度神经网络的输入, 并结合使用DQN来优化决策模型. 然而, 该工作的主要缺点包括在静态对手上的测试环境过于简化, 以及模型只使用了精简化的决策动作, 限制了模型的行为选择. Takano等人设计出了进攻与防守的两种奖赏, 通过加权求和的方式使用DQN算法去更新智能体策略. 然而, 他们的AI并未能击败2015年CIG格斗游戏AI竞赛的冠军. 这表明了虽然现有基于深度强化学习的智能体在某些方面表现出优势, 但在与顶级AI对抗过程中还是无法取得明显的胜率. Kim等人设计了一个结合近端策略优化(proximal policy optimization, PPO)算法的两阶段优化方案. 在第1阶段, 他们使用PPO构建了一个智能体并与通过蒙特卡洛树搜索构建的智能体进行对战, 学习基本的格斗技能; 在第2阶段, 使用第1阶段训练出的智能体进行自我博弈对抗, 通过这种对抗过程进一步提升智能体的表现. 生成的智能体在胜率上明显优于绝大多数其他智能体. Zhu等人提出了一种极小化极大Q网络学习算法(minimax Q network, M2QN). 该算法结合了博弈论、动态规划和深度强化学习, 可适用于双人游戏博弈场景, 在格斗游戏中取得了一定的效果.

现有的深度强化学习在FightingICE环境中的应用面临一系列挑战, 包括训练速度慢、对手模型预测准确率不足、测试环境过于简化, 以及动作选择受限等. 同时, 对于如何设计更精确的观测和奖赏, 以及如何更快地减少无效动作数量以提高学习速度等问题, 尚需深入研究. 此外, FightingICE环境中存在许多风格迥异的对手, 如何利用这些对手更快更好地训练深度强化学习也是一大挑战. 

本文对上述问题进行了深入研究和应用. 首先, 本文基于马尔可夫决策过程构建了格斗游戏的学习环境, 并采用阶段策略梯度算法训练智能体策略. 为了提升智能体的对抗性和鲁棒性, 提出了一种基于自增长对手池的训练方法, 这不仅大大增加了对手池中的智能体数量, 也改善了智能体策略的缺陷. 此外, 为了提高训练效率, 本文实现了基于Ray并行框架的多服务器分布式并行采样框架.

本文的贡献总结如下: 

1) 探索了在固定对手池中对手选择对于智能体策略性的影响; 

2) 提出了自增长对手池算法, 用于提升深度强化学习智能体的性能; 

3)基于Ray并行框架创建了一个可用于双人游戏的多服务器分布式并行采样框架.

结论

本文通过构建格斗游戏的马尔可夫决策过程, 应用深度强化学习中的阶段策略梯度算法学习智能体策略, 并设计一种新型并行生成框架提升训练过程中的并行采样速度. 为了提高智能体的对抗性和鲁棒性, 本文从博弈理论出发提出了一种基于自增长对手池的训练方法, 一方面采用阶段策略梯度算法快速增加对手池中智能体数量, 另一方面构造一个主智能体用于学习当前对手池的最优反应策略. 通过这种方式, 最终训练的智能体在面对训练对手池中的历届参赛智能体时能够取得96.6%的胜率, 并在与仅用于测试的对手对战时, 胜率达到了72.2%. 该工作对于复杂场景两人零和博弈问题提供了研究经验, 并对更为实际的应用场景奠定了研究基础. 未来会将相关研究技术应用在如空战等实际场景, 扩大深度强化学习的应用范围.

作者团队介绍

中国科学院自动化所深度强化学习团队, 负责人赵冬斌研究员为IEEE/CAA Fellow. 团队承担国家自然科学基金重点项目、重大项目课题和科技部重点研发项目课题等, 获北京市/天津市自然科学二等奖等. 在国际权威期刊会议上发表论文300余篇, 包括IEEE TASE/TCDS/TETCI期刊年度唯一杰出论文奖、热点论文和ESI高被引论文等20余篇, 得到Nature等论文引用. 在国家出版基金支持下出版《游戏人工智能方法》等多本. 获国内外领域主流比赛冠军/一等奖10余次. 在中国科学院大学讲授的《强化学习》获校级研究生优秀课程奖. 团队主要从事深度强化学习理论和方法、与游戏博弈、智能驾驶、机器人和具身智能等相关的专用人工智能, 以及结合多模态大模型的通用人工智能等方向的研究.

作者简介

梁荣钦  硕士研究生, 研究方向为强化学习、深度学习等;朱圆恒  博士, 副研究员, 研究方向为深度强化学习、多智能体博弈对抗等;赵冬斌  博士, 研究员, 研究方向为深度强化学习、自适应动态规划、智能交通、机器人等.

期刊介绍

《控制理论与应用》(Control Theory & Applications)是经国家科学技术部批准, 教育部主管, 由华南理工大学和中国科学院数学与系统科学研究院联合主办的全国性一级学术刊物, 1984年创刊, 月刊, 国内外公开发行. 《控制理论与应用》是中国科学引文数据库首批统计源期刊之一,中文核心期刊,入选中国精品科技期刊顶尖学术论文F5000项目,中国科协自动化学科领域高质量科技期刊目录以及中国科协百篇优秀科技论文遴选计划,2021年入选广东省高质量科技期刊建设项目,2022-2024年连续获得基金委资助(科技活动专项).

期刊封面2.jpg目录2.jpg

【收录】

目前被美国《工程索引》(Ei Compendex)、SCOUPS、CSCD、美国的《化学文摘》(CA)、英国《科学文摘》(Inspec)、德国《数学文摘》、俄罗斯《文摘杂志》(AJ)、《日本科学技术振兴机构中国文献数据库》等国内外检索系统收录.

【联系我们】

编辑部地址: 广州市五山路华南理工大学《控制理论与应用》

编辑部邮编: 510640

电话: 020-87111464

E-mail: aukzllyy@scut.edu.cn

官网:https://jcta.ijournals.cn/cta_cn/ch/index.aspx

公众号二维码.jpg

欢迎扫码关注控制理论与应用公众号

【2024-2025年期刊合集】

2025年第42卷第3期

2025年第42卷第2期

2025年第42卷第1期

2024年第41卷第12期

2024年第41卷第11期

2024年第41卷第10期

2024年第41卷第9期

2024年第41卷第8期(“区块链与工业4.0”专刊)

2024年第41卷第7期(“秦化淑教授90寿诞—复杂系统控制理论及其应用”专刊)

2024年第41卷第6期(“数据与模型融合的智能调度优化”专刊)

2024年第41卷第5期

2024年第41卷第4期

2024年第41卷第3期(“人工智能驱动的过程工业自动化与智能化”专刊)

2024年第41卷第2期

2024年第41卷第1期

转载本文请联系原作者获取授权,同时请注明本文来自苗焕玲科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3633987-1486696.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?