MAML | zhkmxx930 blog

模型$f(\theta):(x→a)$, 输入$x$, 输出$a$
任务$T =\{L(x_1, a_1, . . . , x_H, a_H), q(x_1), q(x_{t+1}|x_t, a_t),H\}$ ,其中$L$是trajectory的Loss，其将产生一个针对于特定任务的反馈，$H$是episode length，$q(x_1)$是初始observation 分布，$q(x_{t+1}|x_t,a_t)$是状态转移。
对于监督学习任务来说，$H=1$
$P(T)$是模型期望的任务分布，元学习场景中，希望模型能够适应的任务分布。
对于K-shot Learning 来说，在元学习过程中，从$P(T)$中采样一个任务$T_i$，模型用$K$个样本进行训练，然后从$T_i$对应的Loss中进行feedback，之后在从$T_i$上采样的新样本上进行测试。

模型$f_\theta$，当去适应新的任务$T_i$时，模型参数从$\theta$更新为$\theta’_i$:
$\theta'_i=\theta-\alpha\nabla_\theta L_{T_i}(f_\theta)$
这里的参数$\alpha$可以当成变量也可以当成超参数
目标函数(Meta objective)
$min_\theta\sum_{T_i \sim p(T)} L_{T_i}(f_{\theta'_i})$
Meta optimization
$\theta←\theta-\beta\nabla_\theta\sum_{T_i \sim p(T)}L_{T_i}(f_{\theta_i'})$

直观表示适应过程