2021级博士研究生胡纪锋同学科研论文被CCF-A类会议NeurIPS2022会议接收

发布时间:2022-09-15 点击:

BETVLCTOR伟德官方网站陈贺昌老师和常毅老师共同指导的2021级博士研究生胡纪锋的论文《Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning》被CCF-A类会议NeurIPS 2022接收。NeurIPS,全称为神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),该会议固定在每年的12月举行,由NeurIPS基金会主办。NeurIPS是机器学习与泛人工智能领域的顶级国际会议。

胡纪锋同学是强化学习项目组成员,一直从事深度强化学习、多智能体深度强化学习相关的研究工作,本篇工作与美国里海大学(Lehigh University)的Lichao Sun老师和马里兰大学帕克分校(University of Maryland, College Park)的Yanchao Sun老师合作完成。

论文详情:

题目:Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning

第一作者:胡纪锋

会议名称:Thirty-sixth Conference on Neural Information Processing Systems (NeurIPS 2022)

会议类别:CCF A类会议

论文概述:多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)在大型实时对战游戏,机器人控制,自动驾驶以及股票交易等领域中取得了巨大的进步。虽然这种不断试错的学习方式能够带来超越人类专家的效果,但是现实中存在的很多不确定性会影响智能体的学习过程,例如:智能体之间的交互,奖励的不确定性等。为了解决复杂MARL场景中奖励信息不确定性带来的学习不稳定问题,我们首先提出分布式奖励函数估计框架用于更加有效地进行训练;其次,在该框架中我们进一步提出多动作分支奖励估计以及策略加权的奖励聚合方法对状态下的所有动作分支进行奖励分布估计,以聚合后的奖励值作为稳定的奖励信号进行模型学习;最后,我们在多种MARL场景中以及多种奖励不确定性条件下进行实验,验证了我们方法的有效性。