zhkmxx930 blog

朴素贝叶斯

发表于 2019-07-18 | 评论数：

本文字数： 5.6k | 阅读时长 ≈ 5 分钟

1. 朴素贝叶斯

1.1 极大似然估计的朴素贝叶斯

特点： 计算简单，假设约束较强，假设每个条件分布都是独立的。
推导时使用的数学工具：
- 条件独立假设
- 通过贝叶斯公式，得到后验概率
- 构建0-1损失函数，对其进行推导可得到0-1损失函数时的期望风险最小化准则与后验概率最大化准则的等价性
- 由上一条得出最大后验概率
- 使用极大似然估计，对先验概率及条件概率进行估计。
算法目标即核心公式：
- 目标:
  
  是为了推出最大后验概率，计算过程中用到联合概率及先验概率，因而是生成模型，将生成数据的过程全都算了一遍
- 核心公式：
  $P(Y|X) = \frac{P(X,Y)}{P(X)} = \frac{P(X|Y)P(Y)}{\sum_{Y}P(Y)P(X|Y)}$
  阅读全文 »

[论文]Real-Time Visual-Inertial Mapping, Re-localization and Planning Onboard MAVs in Unknown Environments

发表于 2019-06-28 | 更新于 2019-06-30 | 评论数：

本文字数： 5.1k | 阅读时长 ≈ 5 分钟

1. 贡献

将通过视觉惯性里程计构造的local map 融合进global map
在地图上，使用在线重定位(online relocalization)补偿视觉惯性里程计漂移的问题
提出从稀疏的姿态图(pose graph) 构建稠密3D occupancy grid的方法，并用octomap八叉树地图表示
提出改进3D路径规划算法“Polynomial Trajectory Planning for Aggressive Quadrotor Flight in Dense Indoor Environments”
能够适应控制状态约束，提升稳定性及减少计算时间

分层规划，

2.平台

AscTecFly + stereo camera + IMU

平台概述如下图：

VI模块在local drift坐标下，返回pose消息，变换为Mission坐标（M）,该坐标系保证控制器层能够确保飞机的安全及避障
构建局部地图，以进行局部避障(不是本文的工作)
sparse mapping/relocalization层，并行构建全局地图（G），并进行高效的存储以便复用
在全局地图上构建全局三维路径规划
Mission controller被用来作为MAV和规划器之间的桥梁，手动控制时，速度控制指令直接给到MAV，轨迹跟踪时，全局规划信息需要转换为Mission坐标，给到MAV

阅读全文 »

[论文] An Open Source and Open Hardware Deep Learning-powered Visual Navigation Engine for Autonomous Nano-UAVs

发表于 2019-06-03 | 评论数：

本文字数： 4.9k | 阅读时长 ≈ 4 分钟

硬件平台项目详情

迁移resnet到RISC-V Soc

1. 改进Nano-scale UAV

低功耗视觉导航模块PULP-Shield
- GreenWaves Technologies GAP8 SoC
- ULP camera
- Flash/DRAM memory
- 兼容 CrazyFlie 2.0 nano-UAV
提出CNN-Based DroNet
- 在常规尺寸无人机上做离线计算
- 在nano无人机上做在线计算
功耗
- 6fps 功耗64mW
- 18fps 功耗 272mW

阅读全文 »

[论文](DAC) DISCRIMINATOR-ACTOR-CRITIC: ADDRESSING SAMPLE INEFFICIENCY AND REWARD BIAS IN ADVERSARIAL IMITATION LEARNING

发表于 2019-04-29 | 更新于 2019-06-03 | 评论数：

本文字数： 2.8k | 阅读时长 ≈ 3 分钟

一、概述

1.1 AIL存在的问题

bias reward，由于不正确的MDP吸收态导致的回报偏差
需要大量的交互，才能使得策略收敛
absorbing state（MDP吸收态）无法学习

1.2 本文所提方案

Discriminator-Actor-Critic (DAC) 兼容GAIL及AIRL框架，在二者原有框架基础上扩展 off-policy discriminator及 off-policy actor-critic 算法
改进：
- 通过上述改进去除了AIL算法中由于不准确的吸收态导致的偏差(bias due to the incorrect absorbing state)
- 加速从demonstration中的学习速度(off policy扩展)
- 增加鲁棒性。

二、方法

2.1 Bias in Reward

Absorbing states in MDPs: GAIL (GMMIL), Option GAN, AIRL，等这种AIL框架的算法，都忽略了absorbing state, 无法学习到吸收态的回报，所以导致吸收态的回报是0
一种常见的reward类型：$r(s,a)=-\log(1-D(s,a))$，这种严格正值reward容易导致局部最优，而且agent都被这种positive reward带跑偏了，去追求更高的reward，而不是真正的去学习demonstration。
另一种常见的reward类型：$r(s,a)=\log(D(s,a))$ ,这种回报经常用在单步penalty的场景，加入一个固定的单步惩罚，这种的并不能很好的学到一个优秀的策略，事实上，这种强先验式回报即使不用模仿demonstration也可能获得一个好结果.

2.2 Unbias in Reward

作者要明确吸收态的回报$R_T=r(s_T,a_T) + \sum_{t=T+1}^{\infin}\gamma^{t-T}r(s_a,\cdot)$，注意这里使用的是一个学到的回报$r(s_a,\cdot)$, 而非直接使用$R_T=r(s_T,a_T)$，这样将吸收态回报引入到学习过程，根据吸收态回报进行策略的学习。

为了能够兼容AIL以及RL框架，来兼顾吸收态进行学习，作者提出以下方案进行rollout：

完成一个episode的时候，将终态到吸收态的transition ($s_T,s_a$) 以及吸收态到吸收态的transition ($s_a,s_a$) 一起作为transition。

$Q(s_T,a)=r(s_T,a) + \gamma Q(s_a,\cdot) \\ Q(s_a,\cdot)=r(s_a,\cdot) + \gamma Q(s_a,\cdot)$

实现的时候，需要一个标志位来标识其是否是吸收态。

2.3 解决采样效率问题

使用off-policy RL以及 off-policy Discriminator来改善GAIL。

将从策略采样换成从replay buffer采样
$\max_{D} \mathbb{E}_R[\log(D(s,a))]+\mathbb{E}_{\pi_E}[\log(1-D(s,a))]-\lambda H(\pi)$
采样上使用重要性采样：
$\max_{D} \mathbb{E}_R[\frac{p_{\pi_\theta}(s,a)}{p_R(s,a)}\log(D(s,a))]+\mathbb{E}_{\pi_E}[\log(1-D(s,a))]-\lambda H(\pi)$
在实践过程中，重要性采样以及Discriminator的大方差，导致其训练效果不好，因而实践中省略掉了重要性采样权重。
TRPO 效果不如 PPO，这里使用了off-policy的TD3来替换on-policy，使用Discriminator的值作为回报进行训练。off-policy还可以应对multi modal情况，避免GAN带来的mode collapse问题。

[论文]Crowd-Robot Interaction:Crowd-aware Robot Navigation with Attention-based Deep Reinforcement Learning

发表于 2019-04-22 | 更新于 2019-07-18 | 评论数：

本文字数： 4.8k | 阅读时长 ≈ 4 分钟

一、概述

1.1 解决的问题

Crowd-Robot Interaction (CRI)，开源地址

1.2 先前方法总结

存在的问题
- 人群的集体影响通常是由成对相互作用的简化集合建模的，例如Maximin运算符或LSTM，它可能无法完全表示所有的相互作用。
- 大多数方法只关注从人到机器人的单向交互，而忽略了人群中可能间接影响机器人的交互。
已有的方法

【第一类基于人工设计函数】
- Social Force
- Interacting Gaussian Process (IGP)：
  
  将每个agent的traj建模为一个独立的高斯过程，并提出一个相互作用势项来结合单个的高斯过程，进行相互作用。
【第二类基于Imitation Learning】
- BC
- IRL
- GAIL
【第三类基于强化学习】

阅读全文 »

[论文] Go-Explore

发表于 2019-04-20 | 评论数：

本文字数： 10k | 阅读时长 ≈ 9 分钟

该论文的思路主要是考虑使用确定性的环境进行训练找到一个可行解，然后使用随机探索的测试，通过鲁棒化操作让随机探索更加可靠。目前尚未进行复现，但是关于这篇论文论坛上的争议很大，其实验结果可靠性有待验证，不过是一个很有趣的思路，文中说这是一个框架性的研究，许多细节可以进行深入挖掘。论文中确定性训练部分并没有使用神经网络，与传统的RL的做法有所不同，其开源代码与具体的环境交联很大，需要一定时间消化一下。

Downscaling

一、概述

1.1 Hard-Exploration Problems的定义

稀疏回报(sparse)
误导回报(deceptive)

1.2 之前的解决方法存在的问题

之前的方法一般是采用内部激励(Intrinsic Motivation[IM])给智能体提供一些内在回报intrinsic rewards(IRs)，去激励他们去探索。常用的手段有curiosity，novelty-seeking。但是其表现并不是很好，作者给出了表现不好的两个原因detachment 和 derailment

阅读全文 »

tensorflow常用基础变换

发表于 2019-04-15 | 更新于 2019-04-20 | 评论数：

本文字数： 18k | 阅读时长 ≈ 16 分钟

tf.slice

函数原型 tf.slice(inputs,begin,size,name=’’)
用途：从inputs中抽取部分内容

inputs：可以是list,array,tensor
begin：n维列表，begin[i] 表示从inputs中第i维抽取数据时，相对0的起始偏移量，也就是从第i维的begin[i]开始抽取数据
size：n维列表，size[i]表示要抽取的第i维元素的数目
有几个关系式如下:
（1） i in [0,n]
（2）tf.shape(inputs)[0]=len(begin)=len(size)
（3）begin[i]>=0 抽取第i维元素的起始位置要大于等于0
（4）begin[i]+size[i]<=tf.shape(inputs)[i]

阅读全文 »

Wasserstein GAN 与 WGAN-GP

发表于 2019-04-11 | 更新于 2019-07-18 | 评论数：

本文字数： 8k | 阅读时长 ≈ 7 分钟

一、fGAN使用JS散度存在的问题

当$P_G$分布与$P_{data}$分布没有重叠的时候，此时的JSD恒等于$log2$，这样导致$P_G$分布难以向$P_{data}$进行移动。

而大多数情况下，$P_G$与$P_{data}$是难以重叠的，其原因有两方面理解：

原始数据角度

$P_{data}$与$P_G$和二维图像相似都属于高维空间的低维流形。因而其重叠的部分几乎可以被忽略(三维空间中的两个交叉曲面投影到二维中可能只有两个点是相交的)
采样角度

由于采样的数量较少，而二者重叠的部分又比较小，所以很容易采样出来的都不是重叠部分的，因而会产生不重叠的现象。

二、 WGAN

参考：令人拍案叫绝的Wasserstein GAN

使用Wasserstein距离来替代JSD

Wasserstein距离又称作是Earth Mover’s 距离，他的目的是考虑一个最小的代价，将$P$分布转换成近似$Q$分布，如果用条形图来表示的话就和搬土块差不多。

这样就带来一个问题，如上图所示，搬土块的方式有很多，那么哪种方式代价最小？这里常用的方式就是穷举moving plans找到一个代价小的方式。

下图就是一个moving plan $\gamma$其中每个小方块代表从P到Q需要搬动多少土，越亮搬得越多，对于P和Q上的每一个Bar都代表着对应的一行或者一列的小方块的累和。那么Wasserstein距离对应的就是求解一个最优化问题，使得穷举出来的不同的moving plan代价最小。

阅读全文 »

MAML

发表于 2019-04-04 | 更新于 2019-04-11 | 评论数：

本文字数： 2.3k | 阅读时长 ≈ 2 分钟

一、 One-shot Learning

解决的问题

使用少量的样本进行快速的学习
解决的方法
- Transfer Learning
- Meta Learning
  - One-shot Learning with Memory-Augumented Neural Networks
  - Optimization as a Model for Few Shot Learning
  - Model-Agnostic Meta Learning (MAML)

二、Model Agnostic Meta Learning

Intuition
- 在任务之间的相关性，(Interal representations)
- 任务之间迁移
- 类似于迁移学习
Meta Learning
- 参数对微小的变化敏感
- 极大的优化了在任何问题上的Loss function

2.1 定义

模型$f(\theta):(x→a)$, 输入$x$, 输出$a$
任务$T =\{L(x_1, a_1, . . . , x_H, a_H), q(x_1), q(x_{t+1}|x_t, a_t),H\}$ ,其中$L$是trajectory的Loss，其将产生一个针对于特定任务的反馈，$H$是episode length，$q(x_1)$是初始observation 分布，$q(x_{t+1}|x_t,a_t)$是状态转移。
对于监督学习任务来说，$H=1$
$P(T)$是模型期望的任务分布，元学习场景中，希望模型能够适应的任务分布。
对于K-shot Learning 来说，在元学习过程中，从$P(T)$中采样一个任务$T_i$，模型用$K$个样本进行训练，然后从$T_i$对应的Loss中进行feedback，之后在从$T_i$上采样的新样本上进行测试。

2.2 方法

模型$f_\theta$，当去适应新的任务$T_i$时，模型参数从$\theta$更新为$\theta’_i$:
$\theta'_i=\theta-\alpha\nabla_\theta L_{T_i}(f_\theta)$
这里的参数$\alpha$可以当成变量也可以当成超参数
目标函数(Meta objective)
$min_\theta\sum_{T_i \sim p(T)} L_{T_i}(f_{\theta'_i})$
Meta optimization
$\theta←\theta-\beta\nabla_\theta\sum_{T_i \sim p(T)}L_{T_i}(f_{\theta_i'})$