||
随着AlphaGo的突破,深度强化学习已成为解决序列决策问题的一项公认技术。尽管深度强化学习声名远扬,由于其试错学习机制存在样本低效率问题,这项技术难以得到广泛应用。目前已经开发了许多用于高样本效率的深度强化学习方法,例如通过环境建模、经验迁移和分布式学习等。其中,分布式深度强化学习在诸多领域中展现出了巨大的潜力,如人机博弈和智能交通等。中国科学院自动化研究所黄凯奇研究员团队总结了这一领域的发展现状,比较了经典的分布式深度强化学习方法并梳理了实现高效分布式学习的重要组成部分,包括从单玩家单智能体分布式深度强化学习到最复杂的多玩家多智能体分布式深度强化学习。此外,文章还回顾了近期发布的工具箱,这些工具箱可以帮助实现分布式深度强化学习,而不需要对它们的非分布式版本进行太多修改。通过分析其优势与劣势,团队开发并发布了一个多玩家多智能体分布式深度强化学习工具箱,并在Wargame这一拥有复杂环境的游戏中进行了验证,证明了该工具箱在复杂游戏环境中的多玩家多智能体分布式深度强化学习能力。最后,文章尝试指出其面临的挑战及未来发展趋势,希望本文的简要综述能够为对分布式深度强化学习感兴趣的研究人员提供指导或启发。
全文导读
自动化所黄凯奇团队 | 分布式深度强化学习:综述与多玩家多智能体学习工具箱
全文下载:
Distributed Deep Reinforcement Learning: A Survey and a Multi-player Multi-agent Learning Toolbox
Qiyue Yin, Tongtong Yu, Shengqi Shen, Jun Yang, Meijing Zhao, Wancheng Ni, Kaiqi Huang, Bin Liang & Liang Wang
https://link.springer.com/article/10.1007/s11633-023-1454-4
https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1454-4
∨
关于Machine Intelligence Research
Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%,2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4,位列人工智能及自动化&控制系统两个领域JCR Q1区。
▼往期目录▼
2025年第2期 | 常识知识获取、图因子分解机、横向联邦学习、分层强化学习...
2025年第1期 | 机器视觉、机器人、神经网络、反事实学习、小样本信息网络...
2024年第6期 | 图神经网络,卷积神经网络,生物识别技术...
2024年第5期 | 大语言模型,无人系统,统一分类与拒识...
2024年第3期 | 分布式深度强化学习,知识图谱,推荐系统,3D视觉,联邦学习...
2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...
2023年第6期 | 影像组学、机器学习、图像盲去噪、深度估计...
2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架... (机器智能研究MIR)
2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习......
2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习...
2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调
2023年第1期 | 类脑智能机器人、联邦学习、视觉-语言预训练、伪装目标检测...
2022年第6期 | 因果推理、视觉表征学习、视频息肉分割...
2022年第4期 | 来自苏黎世联邦理工学院Luc Van Gool教授团队、清华大学戴琼海院士团队等
2022年第3期 | 聚焦自然语言处理、机器学习等领域;来自复旦大学、中国科学院自动化所等团队
2022年第2期 | 聚焦知识挖掘、5G、强化学习等领域;来自联想研究院、中国科学院自动化所等团队
▼好文推荐▼
王耀南院士团队 | 采摘机器人机器视觉的关键技术:综述与基准测试
哈工大江俊君团队 | SCNet:利用全1X1卷积实现轻量图像超分辨率
下载量TOP好文 | 人工智能领域高下载文章集锦(2023-2024年)
上海交大张拳石团队 | 综述: 基于博弈交互理论的神经网络可解释性研究
专题好文 | Luc Van Gool团队: 基于分层注意力的视觉Transformer
澳大利亚国立大学Nick Barnes团队 | 对息肉分割的再思考: 从分布外视角展开
前沿观点 | Segment Anything并非一直完美: SAM模型在不同真实场景中的应用调查
自动化所黄凯奇团队 | 分布式深度强化学习:综述与多玩家多智能体学习工具箱
约翰霍普金斯大学Alan Yuille团队 | 从时序和高维数据中定位肿瘤的弱标注方法
精选综述 | 零信任架构的自动化和编排: 潜在解决方案与挑战
欧洲科学院院士蒋田仔团队 | 脑成像数据的多模态融合: 方法与应用
专题好文 | 创新视听内容的联合创作: 计算机艺术面临的新挑战
下载量TOP好文 | 人工智能领域高下载文章集锦 (2022-2023年)
引用量TOP好文 | 人工智能领域高引用文章集锦 (2022-2023年)
哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计
Luc Van Gool团队 | 通过Swin-Conv-UNet和数据合成实现实用图像盲去噪
贺威团队&王耀南院士团队 | 基于动态运动基元的机器人技能学习
乔红院士团队 | 类脑智能机器人:理论分析与系统应用 (机器智能研究MIR)
南科大于仕琪团队 | YuNet:一个速度为毫秒级的人脸检测器
上海交大严骏驰团队 | 综述: 求解布尔可满足性问题(SAT)的机器学习方法
前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究
港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法
南航张道强教授团队 | 综述:用于脑影像基因组学的机器学习方法
ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法 (机器智能研究MIR)
Luc Van Gool团队 | 深度学习视角下的视频息肉分割
专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题
戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络
ETH Zurich重磅综述 | 人脸-素描合成:一个新的挑战
▼MIR资讯▼
喜报 | MIR 首次入选中国科学院期刊分区表计算机科学类二区
致谢审稿人 | Machine Intelligence Research
专题征稿 | Special Issue on Subtle Visual Computing
征稿启事 | AIART 2025 Call for Papers
专题征稿 | Special Issue on Embodied Intelligence
年终喜报!MIR科技期刊世界影响力指数跻身Q1区 (含100份龙年礼包)
双喜!MIR入选”2022中国科技核心期刊”,并被DBLP收录 | 机器智能研究MIR
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-5-23 11:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社