【论文笔记】Skills Regularized Task Decomposit( 六 )


多任务强化学习已经被研究用于在现实世界环境中高效处理复杂控制问题 。通过共同训练带有多个任务的深度神经网络 , 多任务强化学习算法驱动智能体学习如何在相关任务之间共享、重复使用和组合知识 。
Yang等人提出了一个明确的模块化架构 , 带有软路由网络 , 用于训练集成的多任务策略 。这种软模块化称为soft  , 解决了单个网络中任务关系不清晰的问题 , 即哪些共享参数与哪些任务相关 。
Yang et al. “Multi-taskwith soft ”. In:of the 33rdin(). 2020.
Yu等人提出了一种梯度修剪方法 , 直接消除单个策略中多任务学习的负面影响 , 并在学习不同任务时识别和调整计算梯度的几何冲突 。
Yu et al. “for multi-task ”. In:of the 33rdin(). 2020.
Task and skillin multi-task RL
在元强化学习、多任务强化学习、模仿学习和非稳态强化学习的背景下 , 引入了几种使用任务嵌入的方法 。
等人证明了通过预训练的低层策略 , 可以轻松实现给定技能 , 而产生适当技能的高层策略可以提高学习效率 , 其中技能被嵌入到潜空间中 , 使用专家数据 。
Karlet al. “-with”. In:of the 5thon Robot(CoRL). Vol. 164. PMLR. 2022.
等人在学习多任务策略时使用额外的元数据 , 利用自然语言中的任务描述来表示任务在潜空间中的语义和关系 。
, Amy Zhang, and. “Multi-taskwith -based ”. In:of 38thon(ICML). PMLR. 2021, pp. 9767–9779.
尽管这些先前的工作依赖于在线交互 , 并且很少考虑多样化的数据集和不同的行为策略 , 这在多任务离线强化学习中很常见 , 但我们的模型采用了质量感知的正则化来处理多任务数据集的混合配置 。我们还设计了一种离线环境中技能和任务表示的联合学习机制 。
DatainRL
为了缓解离线强化学习中数据集有限和未知状态的问题 , 一些工作在离线强化学习中采用了数据增强、数据共享和基于模型的方法 。
Sinha等人测试了几种数据增强方案 , 展示了离线强化学习算法可能获得的性能提升 。
Sinha, Ajay , andGarg. “S4RL:self- forin ”. In:of 5thon Robot(CoRL). PMLR. 2022, pp. 907–917.
Yu等人提出了一种保守的Q函数 , 可以判断哪些转换对于学习特定任务是相关的 , 从而在数据稀缺情况下建立条件数据共享策略 。
Yu et al. “ datafor multi-task”. In:of the 34thin(). 2021
作者的虚拟演示数据增强方法与此类似 , 但它侧重于利用共同技能生成轨迹 , 很可能是由专家策略生成的 。
7
Theof ourworks is totheof skillwithin multi-taskRL. This willtheof our model thatonly fixed- sub- for task and skill .
我们未来工作的方向是研究多任务离线强化学习中不同时间抽象级别的技能表示层次结构 。这将解决我们模型的局限性 , 即仅考虑任务和技能嵌入的固定长度子轨迹 。