一、概述
提出一种较为通用的,去除繁杂假设的,高效的算法层次强化学习算法框架;
框架
$High-Level \space\space\space\space\space {———>}^{auto} \space\space\space\space Goal ————> ^{supervised} \space\space\space\space Low-Level controller$
使用Off-Policy进行High-level及Low-level训练,通用化的设计,使得较好的在low-level controller中使用DDPG,TD3等确定性、off-policy的算法,兼容性强;
提出针对于High-level的Off-Policy Correction。