GAIL优点
相较于IRL,可以省略很多中间步骤,比如通过IRL来学习Reward系统,再通过Reward系统来进行RL学习policy,GAIL可以直接通过expert trajectory 来直接学习policy。
IRL
假定cost function的集合为$C $, $\pi_E$为专家策略(一系列采集来的专家策略样本)。IRL的目标是maximum causal entropy IRL
其中是策略π的γ-discounted causal entropy,对于每一个cost function $c \in C$都有对于专家策略的cost最小,而其他策略的cost都相对较大。式(1)中包含了一个RL过程,实现了cost function到可以最小化期望cost误差的高熵策略的映射: