IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

好文分享‖美国工程院院士Dimitri Bertsekas教授最新综述:多智能体强化学习

已有 2551 次阅读 2021-5-7 16:19 |系统分类:博客资讯

文章导读


美国工程院院士、MIT教授Dimitri Bertsekas在IEEE/CAA Journal of Automatica Sinica 2021年第2期发表了多智能体强化学习的最新研究“Multiagent Reinforcement Learning: Rollout and Policy Iteration

该研究讨论了多智能体强化学习中的复杂多阶段决策问题,涉及多种形式的经典策略迭代方法,其中每次迭代的推广策略都将被作为下一次迭代的基本策略。基于广泛和一致的计算经验,基于仅生成一次改进策略的rollout算法是强化学习方法中最简单可靠的方法之一,也适于在线无模型实现和在线重新规划。

近似策略迭代是强化学习方法中最重要的一种,可被视为rollout算法的重复应用,并可提供(离线)基本策略。这种方法可以使用系统本身生成的数据以及策略近似值实现。

在AlphaZero象棋程序中,近似策略迭代得到了最显著的应用,特别是在其网络架构中,通过一个基于深度神经网络的近似策略迭代方案构建了一个基本策略,通过近似多步前瞻方案在线生成棋步,该方案使用蒙特卡洛树搜索,并将基本策略的近似评估作为终端成本函数的近似。研究表明,在多智能体背景下,rollout算法大大降低了计算要求,同时仍保持了标准rollout算法的基本特性。

图1.png

Conceptual struture of a multiagent system


注:文章导读由JAS编辑整理摘译,如有疏漏欢迎指正


Highlights:


❀ Assumed that the control constraint set is finite in order to argue about the computational efficiency of the agent-by-agent rollout algorithm.


❀ Proposed new autonomous multiagent rollout schemes for both finite and infinite horizon problems. The idea is to use a precomputed signaling policy, which embodies sufficient agent coordination to obviate the need for interagent communication during the on-line implementation of the algorithm.


❀ Finally mention that the idea of agent-by-agent rollout also applies within the context of challenging deterministic discrete/combinatorial optimization problems, which involve constraints that couple the controls of different stages.


推荐阅读:


美国工程院院士Dimitri P. Bertsekas: 强化学习及最优控制(71页PPT)


美国工程院院士Dimitri P. Bertsekas: 基于特征的聚合与深度强化学习


文章信息

Dimitri Bertsekas, "Multiagent Reinforcement Learning:Rollout and Policy Iteration," IEEE/CAA J. Autom. Sinica, vol. 8, no. 2, pp. 249-272, Feb. 2021.




https://wap.sciencenet.cn/blog-3291369-1285442.html

上一篇:基于乳腺X线摄影的肿块检测综述
下一篇:恶意攻击下基于分布式稀疏优化的安全状态估计
收藏 IP: 159.226.180.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-16 14:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部