Generative Adversarial Imitation Learning(GAIL) 论文阅读笔记

GAIL优点相较于IRL,可以省略很多中间步骤,比如通过IRL来学习Reward系统,再通过Reward系统来进行RL学习policy,GAIL可以直接通过expert trajectory 来直接学习policy。
IRL假定cost function的集合为$C $, $\pi_E$为专家策略(一系列采集来的专家策略样本)。IRL的目标是maximum causal entropy IRL其中是策略π的γ-discounted causal entropy,对于每一个cost function $c \in C$都有对于专家策略的cost最小,而其他策略的cost都相对较大。式(1)中包含了一个RL过程,实现了cost function到可以最小化期望cost误差的高熵策略的映射: