2023级博士研究生郭思源论文Sample Efficient Offline-to-Online Reinforcement Learning 近日被CCF-A类期刊IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING(简称TKDE)接收。
TKDE是人工智能、机器学习以及数据挖掘领域顶级的学术期刊之一,是CCF-A类推荐国际学术期刊。
论文详情
论文题目:Sample Efficient Offline-to-Online Reinforcement Learning
作者:郭思源,邹立新,陈贺昌,屈渤浩,迟浩天,Philip S. Yu,常毅
通讯作者:陈贺昌,常毅
论文概述:
离线强化学习是一种数据驱动的决策智能新范式。然后,受限于离线数据集的质量,离线强化学习智能体通常不能达到可以直接部署的性能标准。因此,通过与环境进行在线交互来进一步微调预训练的离线强化学习智能体成为解决该问题的一种可靠手段。现有离线转在线强化学习由于两个内在挑战,即探索局限性与分布偏移,而存在样本效率低的局限性。为此,本文提出一种通过乐观探索与元利用的样本高效离线转在线强化学习算法。具体地,我们提出一种乐观探索策略来使智能体稳定且高效地探索环境。此外,我们还提出了一种基于元学习的适应方法,以缩小分布偏移并加速离线转在线的适应进程。我们在D4RL基准测试上展现了高样本效率,并提供了对算法的深入分析来验证乐观探索与元利用的有效性。