强化学习专题笔记(一) 强化学习基础

发表于 2019-01-22 | 更新于 2019-05-07 | 评论数：

本文字数： 5.3k | 阅读时长 ≈ 5 分钟

一、长期回报

对于问题的简化，采用理想的MDP，简化问题到具有马尔科夫性，对于马尔科夫决策过程而言，在理想状态下，每一个行动都要为最终的目标最大化长期回报 而努力。

$\max\sum_{t}{r_t}$

但是很多情况下，仿真的时间维度较大，步数较多，甚至可以无限循环下去，这样的情况下我们需要引入一个可以和收敛的无穷数列，来替代我们最原始的长期回报公式。即对未来的回报乘以一个折扣率，使得长期回报变得更有意义：

$\sum_{t=0}{\gamma^tr_t} （\gamma < 1）$

由此我们引出长期回报的概念，即从当前状态开始对之后的所有回报，运用上式进行累加的折扣率计算：

$Ret_t=\sum_{k=0}\gamma^kr_{t+k+1}$

但是长期回报需要知道未来的行动情况，我们需要对上式进行一个合理的估计，因而我们定义了策略的价值。

阅读全文 »

MPC控制笔记(一)

发表于 2019-01-18 | 更新于 2019-01-25 | 评论数：

本文字数： 6.6k | 阅读时长 ≈ 6 分钟

笔记参考1：Understanding Model Predictive Control(Youtube 带自动生成字幕)
笔记参考2：Understanding Model Predictive Control(B站生肉)

一、什么是MPC模型预测控制

MPC(Model Predict Control)是一种反馈控制(feedback control)算法, 使用模型来预测过程的未来输出。

举例：
[场景] 车道保持
[已知模型] 车辆模型，比如速度控制，转向控制对应的偏航量
[预测] 根据已知模型和所选的控制策略(action)，进行轨迹预测
[优化] 通过优化控制策略，来尽可能的拟合预测的轨迹。

如下图所示为一个MIMO系统u1,u2输入与y1,y2输出相互影响。如果使用PID控制的话，每一个子系统单独设计一个PID控制器，两个相互影响的子系统没有任何的交联，使得系统难以设计，如果像图二一样设计一个较大的系统，则参数较多难以实现，而使用MPC控制器的话可以较好的解决两种问题，综合相互间的影响来设计参数。
MIMO

阅读全文 »

Generative Adversarial Imitation Learning(GAIL) 论文阅读笔记

发表于 2019-01-05 | 更新于 2019-01-25 | 评论数：

本文字数： 819 | 阅读时长 ≈ 1 分钟

GAIL优点

相较于IRL，可以省略很多中间步骤，比如通过IRL来学习Reward系统，再通过Reward系统来进行RL学习policy，GAIL可以直接通过expert trajectory 来直接学习policy。

阅读全文 »

Docker给运行中的容器添加映射端口

发表于 2019-01-05 | 更新于 2019-01-25 | 评论数：

本文字数： 2.2k | 阅读时长 ≈ 2 分钟

声明

这篇文章选自[教程技巧] DOCKER 给运行中的容器添加映射端口

正文

Docker 给运行中的容器添加映射端口方法1　　

获得容器IP
1
$ docker inspect `container_name` | grep IPAddress
比如我的容器叫mysqlserver么就输入下列代码来获取该容器的ip地址
1
$ docker inspect mysqlserver | grep IPAddress
执行完之后会发现我的mysqlserverdocker容器的ip地址为192.168.0.2

阅读全文 »

使用Scala基于词法单元的解析器定制EBNF范式文法解析

发表于 2019-01-05 | 更新于 2019-01-25 | 评论数：

本文字数： 15k | 阅读时长 ≈ 14 分钟

前言

近期在做Oracle迁移到Spark平台的项目上遇到了一些平台公式翻译为SparkSQL(on Hive)的需求，而Spark采用亲妈语言Scala进行开发。分析过大概需求过后，拟使用编译原理中的EBNF范式模式，进行基于词法的文法解析。于是拟采用传统的正则词法解析到EBNF文法解析的套路来实现,直到发现了StandardTokenParsers这个Scala基于词法单元的解析器类。