Generative Adversarial Imitation Learning(GAIL) 论文阅读笔记

GAIL优点

相较于IRL,可以省略很多中间步骤,比如通过IRL来学习Reward系统,再通过Reward系统来进行RL学习policy,GAIL可以直接通过expert trajectory 来直接学习policy。

IRL

假定cost function的集合为$C $, $\pi_E$为专家策略(一系列采集来的专家策略样本)。IRL的目标是maximum causal entropy IRL
title
其中title是策略π的γ-discounted causal entropy,对于每一个cost function $c \in C$都有对于专家策略的cost最小,而其他策略的cost都相对较大。式(1)中包含了一个RL过程,实现了cost function到可以最小化期望cost误差的高熵策略的映射:
title

本文标题:Generative Adversarial Imitation Learning(GAIL) 论文阅读笔记

文章作者:zhkmxx930

发布时间:2019年01月05日 - 16:01

最后更新:2019年01月25日 - 09:01

原始链接:https://zhkmxx9302013.github.io/post/21152.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

一分钱也是爱,mua~