鸿 网 互 联 www.68idc.cn

当前位置 : 服务器租用 > 软件教程 > 图形图像 > >

概述,贝叶斯策略,最大似然估计

来源:互联网 作者:佚名 时间:2017-09-12 10:53
概述,贝叶斯策略,最大似然估计 标签: 模式分类 @author lancelot-vim 绪论 宽度和数量直方图: 光泽度和数量直方图: 宽度-光泽度联合分类图: 简单归纳: 从单一特征得到的分类一般不强 将单一特征组合起来成多特征分类能得到更强的分类器 分类器模型简

概述,贝叶斯策略,最大似然估计

标签: 模式分类

@author lancelot-vim


绪论

宽度和数量直方图:

宽度与数量直方图.png-138.7kB

光泽度和数量直方图:

光泽度与数量直方图.png-137.3kB

宽度-光泽度联合分类图:

宽度-光泽度联合分类.png-176.6kB

简单归纳:

  1. 从单一特征得到的分类一般不强
  2. 将单一特征组合起来成多特征分类能得到更强的分类器
  3. 分类器模型简单(如图中红色线条)会比较弱,分类器太强(如图中蓝色线条)可能会过分类
  4. 以上问题,可能会存在如果鲈鱼分错,可能不会有太大的问题,但反之可能造成很大的影响

问题:

  1. 如何选择特征
  2. 如何选择分类器
  3. 分类之后如何采取行动

处理方案流程图:

st=>start: 输入 (物理信号)
e=>end: 决策 (行为)
op1=>operation: 传感器 (输入信号,模拟信号、数字信号等)
op2=>operation: 预处理 (分割,组织,对单词、字母、图像去除背景等操作)
op3=>operation: 特征提取 (平移不变性、旋转不变性、尺度不变性,三维问题、遮挡问题、透视失真等)
op4=>operation: 分类 (同一类别特征值波动, 不同类别的差异,特征丢失)
op5=>operation: 后处理 (上下文信息改善分类,根据风险选择策略)

st->op1->op2->op3->op4->op5->e


----------

贝叶斯决策论

引言

条件概率密度与贝叶斯公式

条件概率密度与贝叶斯公式.png-90.5kB

$P(w_1) = \frac{2}{3} $, $P(w_2) = \frac{1}{3} $时的后验概率:

后验概率图.png-84kB


误差定义:

$$ p(error)=\left{
\begin{aligned}
p(w_{1}|x) & & x \in w_{2} \
p(w_{2}|x) & & x \notin w_{2} \
\end{aligned}
\right.
$$

总误差为: $ P(error) = \int_{-\infty}^{\infty} p(error,x)dx = \int_{-\infty}^{\infty} p(error|x)p(x)dx $

对 $ \forall x $, 若 $ p(error|x) $ 尽量小, 那么 $ P(error) $就尽量小, 所以令 $ p(error|x) = min[p(w_{1}|x), p(w_{2}|x)] $


连续特征的贝叶斯决策论

  • 允许使用多于一个的特征
  • 允许使用两种类别以上的情形
  • 允许有其他行为而不仅仅只是判定类别
  • 通过引入一个更一般的损失函数来代替误差概率

以下4个约定:

  1. $ {w_1, w_2, w_3,... w_c} $ 表示c个类别(class)
  2. $ {\alpha_1, \alpha_2, \alpha_3.... \alpha_a } $ 表示a中行动(action)
  3. $\lambda(\alpha_i|w_j)$ 表示类别为$ w_j $,采取行为$\alpha_i$的损失
  4. $\vec{x}$表示d维的特征

根据贝叶斯公式: $p(w_j|\vec{x}) = \frac{p(\vec{x} | w_j)p(w_j)}{p(\vec{x})}$

若观测到$\vec{x}_0$,采取行为$\alpha_i$,则损失为:$R(\alpha_i | \vec{x}0) = \sum{j=1}^{c}\lambda(\alpha_i
| w_j)p(w_j|\vec{x}_0)$

总损失为: $R = \int R(\alpha(\vec{x}) | \vec{x})P(\vec{x})d\vec{x} $
若选择$\alpha(\vec{x})$使得:$R(\alpha_i | \vec{x})$对每个$\vec{x}$尽可能小,则风险函数最小化


对于二分类问题

约定:

  1. $\alpha_1$ 对应于$w_1$
  2. $\alpha_2$ 对应于$w_2$
  3. $\lambda_{ij} = \lambda(\alpha_i | w_j)$ 表示损失

则损失函数方程为:
$$ \left{
\begin{aligned}
R(\alpha_1 | \vec{x}) = \lambda_{11}p(w_1|\vec{x}) + \lambda_{12}p(w_2|\vec{x})\
R(\alpha_2 | \vec{x}) = \lambda_{21}p(w_1|\vec{x}) + \lambda_{22}p(w_2|\vec{x})
\end{aligned}
\right.
$$

若$R(\alpha_1 | \vec{x}) < R(\alpha_2|\vec{x})$, 即$(\lambda_{21} - \lambda_{11})p(w_1|\vec{x}) > (\lambda_{12} - \lambda_{22})p(w_2|\vec{x}) $ ,将该类别判为$w_1$

若$\lambda_{21} > \lambda_{11} $且 $\frac{p(\vec{x} | w_1)}{p(\vec{x} | w_2)} > \frac{\lambda_{12} - \lambda{22}}{\lambda_{21} - \lambda{11}}\frac{P(w_2)}{P(w_1)} = \theta$, 将该类别判为$w_1$, 如下图
似然比图.png-75.2kB


极小化极大原则

总损失:

$R = \int_{R1}[\lambda_{11}p(\vec{x}|w_1)P(w_1) + \lambda_{12}p(\vec{x}|w_2)P(w_2)]d\vec{x} \
\qquad + \int_{R_2}[\lambda_{21}p(\vec{x}|w_1)P(w_1) + \lambda_{22}p(\vec{x}|w_2)P(w_2)]d\vec{x}$

由于$P(w_2) = 1 - P(w_1)$, $\int_{R_1} = 1 - \int_{R_2}$得:

$R[P(w_1)] = \lambda_{22} + (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} + \ \qquad \qquad \quad P(w_1)[(\lambda_{11} - \lambda_{22}) + (\lambda_{21} - \lambda{11})\int_{R2}p(\vec{x}|w_1)d\vec{x} - (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x}]$

令$(\lambda_{11} - \lambda_{22}) + (\lambda_{21} - \lambda{11})\int_{R2}p(\vec{x}|w_1)d\vec{x} - (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} = 0$

可得$R_1$,$R_2$, 以及极小化极大误差:$R_{mm} = \lambda_{22} + (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} = \lambda_{11} + (\lambda_{21} - \lambda_{11})\int_{R2}p(\vec{x}|w_1)d\vec{x} $

极小化极大描述图:

极小化极大描述图.png-62kB

分类器、判别函数和判定面

定义:

一般我们认为对于所有的$j \neq i$,有$g_i(\vec{x}) > g_j(\vec{x})$,则认为该特征向量$\vec{x}$的类型为$w_i$

一般流程如下图:

分类决策流程图.png-79.3kB

一般判决函数选择:

  1. $g_i(\vec{x}) = P(w_i|\vec{x})=\frac{p(\vec{x}|w_i)P(w_i)}{\sum_{j=1}^cp(\vec{x}|w_j)P(w_j)} $
  2. $g_i(\vec{x}) = p(\vec{x}|w_i)P(w_i) $
  3. $g_i(\vec{x}) = \ln p(\vec{x}|w_i) + \ln P(w_i)$

正态判别函数

对于正态分布,通常我们取判别函数为$g_i(\vec{x}) = \ln p(\vec{x}|w_i) + \ln P(w_i)$,根据正态分布密度函数可得:
$g_i(\vec{x})=-\frac{1}{2}(\vec{x}-\vec{u}i)^T\Sigma^{-1}{i} (\vec{x}-\vec{u}_i) - \frac{d}{2}\ln 2\pi - \frac{1}{2}\ln |\Sigma_i| + \ln P(w_i)$

情况1 : $\Sigma_i = \sigma^2I$

对此情况,$|\Sigma_i| = \sigma^{2d} $, $ \Sigma_i^{-1}=\frac{I}{\sigma^2}
$,由此简化判别函数为:

$g_i(\vec{x})=-\frac{||\vec{x}-\vec{u}i||}{2\sigma^2} + \ln P(w_i) = -\frac{1}{2\sigma^2}[\vec{x}^T\vec{x} - 2\vec{u_i}^T\vec{x} + \vec{u_i}^T\vec{u_i}] + \ln P(w_i)$
显然$\vec{x}^T\vec{x}$对所有的i是相等的,所以可以简化$g_i$为线性判别函数:$g_i(\vec{x}) = \vec{w_i}^T\vec{x} + w
{i0}$

其中$\vec{w_i} = \frac{1}{\sigma^2}\vec{u_i}$, $w_{i0} = \frac{-1}{2\sigma^2}\vec{u}_i^T\vec{u}_i + \ln P(w_i)$

对于$i \neq j $,令$g_i = g_j$,得:$\vec{w}^T(\vec{x} - \vec{x}_0 ) = 0 $,其中$\vec{w} = \vec{u}_i- \vec{u}_j ,\vec{x}_0 = \frac{1}{2}(\vec{u}_i + \vec{u}_j) - \frac{\sigma^2}{||\vec{u}_i - \vec{u}_j||}\ln \frac{P(w_i)}{P(w_j)}(\vec{u}_i - \vec{u}_j)$

由$\vec{w}$可见,判别面为数据的法平面,当$P(w_i) = P(w_j) $时,正好是中垂面

情形一示意图.png-50.6kB


情况2 : $\Sigma_i = \Sigma$

判别函数可重写为: $g_i(\vec{x}) = -\frac{1}{2}(\vec{x}-\vec{u}_i)^T\Sigma^{-1}_i(\vec{x}- \vec{u}_i) + \ln P(w_i)$

由同样的方法可得:
$\vec{w} = \Sigma^{-1}(\vec{u}_i - \vec{u}_i), x_0 = \frac{1}{2}(\vec{u}_i + \vec{u}_j)-\frac{\ln [P(w_i)]/P(w_j)]}{(\vec{u}_i - \vec{u}_j)^T\Sigma^{-1}(\vec{u}_i - \vec{u}_j)}(\vec{u}_i-\vec{u}_j) $

由$\vec{w}$可见,判别面为数据马氏距离的法平面,当$P(w_i) = P(w_j) $时,正好是马氏距离中垂面


最大似然估计

假设每个分类有数据集$D_1, D_2 ... D_c$的样本分别都是根据独立同分布的$p(\vec{x}|w_j)$抽取的,概率分布形式已知,但参数未定,约定未知参数符号为$\vec{\theta}_j $,那么可以写出最大似然函数:$L(D_j|\vec{\theta}j) = \Pi{k=1}^np(\vec{x}_k | \vec{\theta}_j)$

我们认为发生的事情为是概率最大的事,所以目标为求得使得$L(D_j|\vec{\theta}_j)) $最大的$\vec{\theta}_j$, 一般情况,为了计算方便,我们使用似然函数的对数函数即$l(\vec{\theta}_j) = \ln L $

最大似然估计示意图.png-96.2kB

高斯解

  1. $u$未知:$\hat{u} = \frac{1}{n}\sum_{k = 1} ^n\vec{x}_k $
  2. $u,\Sigma$未知:$\hat{u} = \frac{1}{n}\sum_{k = 1} ^n\vec{x}k , \hat{\Sigma} = \frac{1}{n}\sum{k = 1}^n(\vec{x}_k-\hat{u})(\vec{x}_k-\hat{u})^T$

网友评论
<