朴素贝叶斯

1. 朴素贝叶斯

1.1 极大似然估计的朴素贝叶斯

  • 特点: 计算简单,假设约束较强,假设每个条件分布都是独立的。

  • 推导时使用的数学工具:

    • 条件独立假设
    • 通过贝叶斯公式,得到后验概率
    • 构建0-1损失函数,对其进行推导可得到0-1损失函数时的期望风险最小化准则与后验概率最大化准则的等价性
    • 由上一条得出最大后验概率
    • 使用极大似然估计,对先验概率及条件概率进行估计。
  • 算法目标即核心公式:

    • 目标:

      ​ 是为了推出最大后验概率,计算过程中用到联合概率及先验概率,因而是生成模型,将生成数据的过程全都算了一遍

    • 核心公式:

  • 算法步骤:

  1. 计算先验概率及条件概率

    • 先验:
    • 条件:
  1. 对于给定的数据集计算不同类别的后验概率(j是对数据集的每个特征进行条件概率累乘)

  2. 选择最大的后验概率作为最终分类

1.2 贝叶斯估计的朴素贝叶斯

由于极大似然估计的朴素贝叶斯,在极大似然估计过程中可能出现概率为0的情况,影响后续计算。因而使用贝叶斯估计,在先验概率及条件概率公式中加入$\lambda$作为平滑项。

  • 先验:($K$为分类类别)

  • 条件:($S_j$为第j个特征的可能的取值)

当$\lambda = 0$的时候即为极大似然估计,$\lambda=1$的时候为拉普拉斯平滑。

2. 由贝叶斯得到的Sigmoid

在二分类过程中,由上述的二分类的贝叶斯公式可以得到:

对该式上下除以分子得到:

其中:

3. 分类问题

从贝叶斯角度入手,对于二分类问题,可以用两个高斯分布去对其进行极大似然估计,$N_1(\mu1,\Sigma_1)$,$N_2(\mu2,\Sigma_2)$

如果两个分布的$\Sigma$不同,则其分类决策面是一个非线性的,两个分布的$\Sigma$相同,其分类决策面是一个线性的,其中的原因可以由使用贝叶斯公式得到的Sigmoid函数的展开来说明。两个分布的协方差矩阵相同的话可以做一次简化,使其形式上是线性方程。

推导过程参考李宏毅61:35s

4. Linear Regression 和 Logistic Regression

4.1 关于交叉熵

在逻辑回归中,对于二分类问题可以定义其似然函数为:

对其取对数似然:

这里$\sum$后面的部分就是交叉熵$C$

其中$p$为训练集中的样本标签分布:

其中$q$为模型预测的标签分布:

4.2 二者异同

Logistic Regression Linear Regression
函数集 $f_{w,b}(x)=\sigma(\sum_i w_ix_i+b)$ 该函数值域介于0~1之间 $f_{w,b}(x)=\sum_i w_ix_i+b$ 该函数值域是任意实数
Loss 训练集:$(x^n,\hat{y}^n)$ ,$\hat{y}^n$满足伯努利分布,$L(f)= \sum _n C(f(x^n),\hat{y}^n)$ 训练集:$(x^n,\hat{y}^n)$ ,$\hat{y}^n$是任意实数,$L(f)= \frac{1}{2}\sum _n (f(x^n),\hat{y}^n)^2$
GD $ w_i=w_i - \eta\sum_n-(\hat{y}^n-f_{w,b}(x^n))x_i^n$ $ w_i=w_i - \eta\sum_n-(\hat{y}^n-f_{w,b}(x^n))x_i^n$

4.3 关于Logistic Regression为何不使用平方误差作为loss

若像Linear Regression一样使用平方误差作为loss,公式展开后会发现,当$\hat{y}^n=0$时,无论$f_{w,b}(x^n)$为0还是1,其loss都为0,这使得训练过程极为缓慢,并且难以调参得到效果。

本文标题:朴素贝叶斯

文章作者:zhkmxx930

发布时间:2019年07月18日 - 17:07

最后更新:2019年07月18日 - 17:07

原始链接:https://zhkmxx9302013.github.io/post/f77f0066.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

一分钱也是爱,mua~