1. 朴素贝叶斯
1.1 极大似然估计的朴素贝叶斯
特点: 计算简单,假设约束较强,假设每个条件分布都是独立的。
推导时使用的数学工具:
- 条件独立假设
- 通过贝叶斯公式,得到后验概率
- 构建0-1损失函数,对其进行推导可得到0-1损失函数时的期望风险最小化准则与后验概率最大化准则的等价性
- 由上一条得出最大后验概率
- 使用极大似然估计,对先验概率及条件概率进行估计。
算法目标即核心公式:
算法步骤:
计算先验概率及条件概率
- 先验:
- 条件:
对于给定的数据集计算不同类别的后验概率(j是对数据集的每个特征进行条件概率累乘)
选择最大的后验概率作为最终分类
1.2 贝叶斯估计的朴素贝叶斯
由于极大似然估计的朴素贝叶斯,在极大似然估计过程中可能出现概率为0的情况,影响后续计算。因而使用贝叶斯估计,在先验概率及条件概率公式中加入$\lambda$作为平滑项。
先验:($K$为分类类别)
条件:($S_j$为第j个特征的可能的取值)
当$\lambda = 0$的时候即为极大似然估计,$\lambda=1$的时候为拉普拉斯平滑。
2. 由贝叶斯得到的Sigmoid
在二分类过程中,由上述的二分类的贝叶斯公式可以得到:
对该式上下除以分子得到:
其中:
3. 分类问题
从贝叶斯角度入手,对于二分类问题,可以用两个高斯分布去对其进行极大似然估计,$N_1(\mu1,\Sigma_1)$,$N_2(\mu2,\Sigma_2)$
如果两个分布的$\Sigma$不同,则其分类决策面是一个非线性的,两个分布的$\Sigma$相同,其分类决策面是一个线性的,其中的原因可以由使用贝叶斯公式得到的Sigmoid函数的展开来说明。两个分布的协方差矩阵相同的话可以做一次简化,使其形式上是线性方程。
推导过程参考李宏毅61:35s
4. Linear Regression 和 Logistic Regression
4.1 关于交叉熵
在逻辑回归中,对于二分类问题可以定义其似然函数为:
对其取对数似然:
这里$\sum$后面的部分就是交叉熵$C$
其中$p$为训练集中的样本标签分布:
其中$q$为模型预测的标签分布:
4.2 二者异同
Logistic Regression | Linear Regression | |
---|---|---|
函数集 | $f_{w,b}(x)=\sigma(\sum_i w_ix_i+b)$ 该函数值域介于0~1之间 | $f_{w,b}(x)=\sum_i w_ix_i+b$ 该函数值域是任意实数 |
Loss | 训练集:$(x^n,\hat{y}^n)$ ,$\hat{y}^n$满足伯努利分布,$L(f)= \sum _n C(f(x^n),\hat{y}^n)$ | 训练集:$(x^n,\hat{y}^n)$ ,$\hat{y}^n$是任意实数,$L(f)= \frac{1}{2}\sum _n (f(x^n),\hat{y}^n)^2$ |
GD | $ w_i=w_i - \eta\sum_n-(\hat{y}^n-f_{w,b}(x^n))x_i^n$ | $ w_i=w_i - \eta\sum_n-(\hat{y}^n-f_{w,b}(x^n))x_i^n$ |
4.3 关于Logistic Regression为何不使用平方误差作为loss
若像Linear Regression一样使用平方误差作为loss,公式展开后会发现,当$\hat{y}^n=0$时,无论$f_{w,b}(x^n)$为0还是1,其loss都为0,这使得训练过程极为缓慢,并且难以调参得到效果。