贝叶斯决策

时间：2021-11-08 16:11:54 资料我要投稿

贝叶斯决策

模式识别

第2章贝叶斯决策理论与统计判别方法

武汉大学电子信息学院

贝叶斯决策理论

模式识别

学习指南

主要内容是说明分类识别中为什么会有错分类, 在何种情况下会出现错分类?错分类的可能性会有多大?在理论上指明了怎样才能使错分类最少? 不同的错分类造成的危害是不同的,有的错分类种类造成的危害更大,因此控制这种错分类则是更重要的.为此引入了一种"风险"与"损失" 概念,希望做到使风险最小.要着重理解"风险" 与"损失"的概念,以及在引入"风险"概念后的处理方法.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

理解这一章的关键是要正确理解先验概率, 类概率密度函数,后验概率这三种概率, 对这三种概率的定义,相互关系要搞得清清楚楚.Bayes公式正是体现这三者关系的式子,要透彻掌握.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

2.1 引言

模式识别是一种分类(classify)问题,即根据识别对象所呈现的观察值,将其分到某个类别中去.统计决策理论是处理模式分类问题的基本理论之一,对模式分析和分类器(classifier)的设计起指导作用.贝叶斯决策理论是统计模式识别中的一个基本方法, 我们先讨论这一决策理论,然后讨论涉及统计判别方法的一些基本问题.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

特征向量与特征空间

例:苹果的直径尺寸限定在7厘米到15厘米之间,它们的重量在3两到8两之间变化. 如果直径长度x用厘米为单位,重量y以两为单位.那么,由x值从7到15,y值从3到8 包围的二维空间就是对苹果进行度量的特征空间.

总体概率分布已知要决策分类的类别数一定

武汉大学电子信息学院

贝叶斯决策理论

模式识别

贝叶斯决策理论所要讨论的问题

各类别ωi=1,2,…,c的先验概率P(ωi)及类条件概率密度函数p(x|ωi)已知的条件下,如何对某一样本按其特征向量分类的问题. 几种常用的决策规则正态分布时统计决策的问题以及错误概率等问题

武汉大学电子信息学院

贝叶斯决策理论

模式识别

2.2 几种常用的决策规则

不同的决策规则反映了分类器设计者的不同考虑,对决策结果有不同的影响.其中最有代表性的是: 基于最小错误率的贝叶斯决策基于最小风险的贝叶斯决策

武汉大学电子信息学院

贝叶斯决策理论

模式识别

2.2.1 基于最小错误率的贝叶斯决策

分类识别中为什么会有错分类,在何种情况下会出现错分类?错分类的可能性会有多大? 当某一特征向量值X只为某一类物体所特有,即

对其作出决策是容易的,也不会出什么差错.问题在于出现模棱两可的情况.此时,任何决策都存在

判错的可能性. 条件概率 :P(*|#)是条件概率的通用符号,P(ωK|X) 是表示在X出现条件下,样本为ωK类的`概率.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

先验概率,后验概率,概率密度函数

先验概率 P(ω1) 及P(ω2)

由先验知识在识别前就得到的概率

后验概率 P(ω1|X) 概率密度函数 P(X|ω1) 及P(X|ω2) 联合概率 P(X, ωi)

武汉大学电子信息学院

贝叶斯决策理论

模式识别

先验概率,后验概率,概率密度函数

Bayes(贝叶斯)公式是根据联合概率这一概念推出的 P(x,ωi)=P(x|ωi)P(ωi)=P(ωi|x)P(x)

贝叶斯公式实质上是通过观察x,把状态的先验概率P(i)转化为后验概率P(i|x)

武汉大学电子信息学院

贝叶斯决策理论

模式识别

图2.1

武汉大学电子信息学院

贝叶斯决策理论

模式识别

图2.2

武汉大学电子信息学院

贝叶斯决策理论

模式识别

基于最小错误率的贝叶斯决策

基于最小错误概率的贝叶斯决策理论就是按后验概率的大小作判决的 (1)后验概率: 如果则

武汉大学电子信息学院

贝叶斯决策理论

模式识别

(2)如果则 (3)似然比: 如果则

否则

武汉大学电子信息学院

贝叶斯决策理论

模式识别

(4)似然比写成相应的负对数形式: 如果

则否则

武汉大学电子信息学院

贝叶斯决策理论

模式识别

例2.1

假设在某地区切片细胞中正常(ω1)和异常 (ω2)两类的先验概率分别为P(ω1)=0.9, P(ω2)=0.1.现有一待识别细胞呈现出状态 x,由其类条件概率密度分布曲线查得 p(x|ω1)=0.2,p( x|ω2)=0.4,试对细胞x 进行分类. 解:利用贝叶斯公式,分别计算出状态为x 时ω1与ω2的后验概率

武汉大学电子信息学院

贝叶斯决策理论

模式识别

P(ω1|x)=0.818>P(ω2|x)=0.0182 因此判定该细胞为正常细胞比较合理.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

基于最小错误率的贝叶斯决策的证明

平均错误率 :在观测值可能取值的整个范围内错识率的均值

武汉大学电子信息学院

贝叶斯决策理论

模式识别

两类别情况:

当P(w2|x)>p(w1|x)时决策为w2,对观测值x有P(w1|x)概率的错误率

R1:作出w1决策的所有观测值区域,条件错误概率为p(w2|x) R2: 条件错误概率为p(w1|x).因此平均错误率P(e)可表示成

武汉大学电子信息学院

贝叶斯决策理论

模式识别

在R1区内任一个x值都有P(w2|x)

(2-9)

武汉大学电子信息学院

模式识别

错误率为图中两个划线部分之和, 对应的错误率区域面积为最小.

武汉大学

电子信息学院

贝叶斯决策理论

模式识别

C类别情况 :

最小错误率贝叶斯决策规则: 如果则 X∈ω i (2-10) 用先验概率与类条件概率密度相联系的形式,得 : 如果

武汉大学电子信息学院

(2-11)

贝叶斯决策理论

模式识别

计算平均正确分类概率P(c)即

(2-12)

平均错误率 :P(e)=1-P(c)

武汉大学电子信息学院

贝叶斯决策理论

模式识别

例: 应用贝叶斯决策的肤色提取

武汉大学电子信息学院

贝叶斯决策理论

模式识别

利用贝叶斯原理,可以建立简单的肤色模型,并用来从图像中提取手部,脸部肤色,进而得到人的身体姿势. 1.先在一副训练图象中手工描绘出肤色区域, 2.然后统计每种颜色点在肤色区域中出现的次数和在区域外出现的次数的比值,作为这种颜色是肤色的概率

武汉大学电子信息学院

贝叶斯决策理论

模式识别

3.这样就得到了一张查找表,表中的每个元素是这个点是肤色的概率.我们就得到了一个点是不是肤色的概率分布.以上的"颜色训练结果窗口"就是这样一张表的直观显示.实际表格是三维的(HSI颜色空间,32×32×8)把这个条形区域分成八块以后,每一块是个32×32 的正方形,表示HS空间下的概率分布,颜色越亮,说明这种颜色是肤色的概率越大. 4.再加上域值限制之后,认为只有概率大于一定域值的才是肤色.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

2.2.2基于最小风险的贝叶斯决策

使错误率最小并不一定是一个普遍适用的最佳选择. 一个与损失有关联的,更为广泛的概念——风险

(2-13) 观测样本X实属类别j,而被判为状态i时所造成的损失, Ri则表示了观测值X被判为i类时损失的均值分类则依据Ri,(i=1,…,c)中的最小值,即最小风险来定.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

例 :病理切片

ω1表示病理切片正常 ω2表示病理切片异常 P(ω1|X)与P(ω2|X)分别表示了两种可能性的大小 : X确实是癌细胞(ω2),但被判作正常(ω1) 损失 : X确实是正常(ω1),却被判定为异常(ω2) 损失

武汉大学电子信息学院

贝叶斯决策理论

模式识别

定义:

自然状态 :指待识别对象的类别 A={ α1,α2,……αn} 状态空间:由所有自然状态所组成的空间 , Ω={ω1,ω2,…,ωc} 决策 :不仅包括根据观测值将样本划归哪一类别(状态),还可包括其它决策,如"拒绝"等决策空间 :由所有决策组成的空间

武汉大学电子信息学院

贝叶斯决策理论

模式识别

损失函数λ(αi|ωj)(或写成λ(αi,ωj) ) 观测值X条件下的期望损失R(αi|X), i=1,2,…,a (2-14) Ri: 条件风险

武汉大学电子信息学院

贝叶斯决策理论

模式识别

最小风险贝

叶斯决策规则

如果期望风险R 则α=αk

(2-15)

(2-16)

它表示对所有X取值所作的决策α(X)所带来的平均风险

武汉大学电子信息学院

贝叶斯决策理论

模式识别

最小风险贝叶斯决策步骤

根据贝叶斯公式计算出后验概率 : j=1,…,x 利用计算出的后验概率及决策表,计算出采取αi,i=1,…,a的条件风险

j=1,…,x

找出使条件风险最小的决策αk,即

武汉大学电子信息学院

贝叶斯决策理论

模式识别

例2.2

P(ω1)=0.9, P(ω2)=0.1 p(X|ω1)=0.2, p(X|ω2)=0.4 λ11=0, λ12=6, λ21=1, λ22=0 后验概率 P(ω1|X)=0.818, P(ω2|X)=0.182

武汉大学电子信息学院

贝叶斯决策理论

条件风险

模式识别

由于R(α1|X)>R(α2|X) 判待识别的细胞X为ω2类——异常细胞比较例2.1 P(ω1|X)=0.818, P(ω2|X)=0.182 ,正常细胞

武汉大学电子信息学院

贝叶斯决策理论

模式识别

两种决策方法之间的关系

基于最小错误率的决策是基于最小风险决策的一个特例设损失函数为

式中假定对C类只有C个决策,即不考虑 "拒绝"等其它情况,(2-17)表明,当作出正确决策(即i=j)时没有损失,而对于任何错误决策,其损失均为1.这样定义的损失函数称为0—1损失函数.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

两种决策方法之间的关系

根据(2-14)式条件风险为

最小错误率贝叶斯决策就是在0—1损失函数条件下的最小风险贝叶斯决策

武汉大学电子信息学院

贝叶斯决策理论

模式识别

图2.4

武汉大学电子信息学院

贝叶斯决策理论

模式识别

图2.3 与图2.4

武汉大学电子信息学院

贝叶斯决策理论

模式识别

2.2.4判别函数,决策面与分类器设计

决策域 :待识别的特征向量落在哪个决策域,该样本就被判为哪一类. 决策面 :决策域的边界面判别函数 :用于表达决策规则的某些函数

武汉大学电子信息学院

贝叶斯决策理论

模式识别

例 :两类别问题按最小错误率作决策

相应的判别函数: gi(X)=P(ωi|X), i=1,2 决策面方程 : g1(X)=g2(X) 决策规则如果gi(X)>gj(X) i,j=1,2 且 i≠j 则X∈ωi

武汉大学电子信息学院

贝叶斯决策理论

模式识别

多类别情况决策规则:

如果则将X归于ωi类决策面 : 当ωi的决策域与ωj的决策域相邻时,以下关系决定了相应的决策面 gi(X)=gj(X)

武汉大学电子信息学院

贝叶斯决策理论

模式识别

图2.5(a)表示了一个三类别问题用一维特征空间时的所有决策边界,而图2.5(b)则表示了相应的二维特征空间中的决策边界

武汉大学电子信息学院

贝叶斯决策理论

模式识别

两类别问题分类器的框图:

武汉大学电子信息学院

贝叶斯决策理论

模式识别

多类别分类器的结构框图:

武汉大学电子信息学院

贝叶斯决策理论

模式识别

§2.3 正态分布时的统计决策

具体的决策域划分与样本的概率分布有关. 下面结合正态分布概率密度函数进行讨论, 在讨论结束时我们会发现从中可以得到不少启示.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

2.3.1正态分布概率密度函数的定义与性质

单变量正态分布

正态分布是指一个随机实数度量值在整个实数域上的分布规律,属于概率密度函数类

武汉大学电子信息学院

贝叶斯决策理论

模式识别

多元正态分布

多元正态分布的概率密度函数:

μ是X的均值向量,d维 μ=E{X}=[μ1,μ2,…,μd]T ∑是d×d维协方差矩阵,而∑-1是∑的逆矩阵,|∑|是∑的行列式 ∑=E{(X-μ)(X-μ)T}

武汉大学电子信息学院

贝叶斯决策理论

模式识别

多元正态分布的重要的特性

多元正态分布的概率密度函数中的元就是我们前面说得特征向量的分量数,也就是维数 . 多维向量:每一个分量都是随机变量,服从正态分布.http://http://www.unjs.coM/news/5587D97E021E5268.html但是一个二维随机向量不仅要求考虑每个分量单独的分布,还要考虑两个随机变量之间的关系 ——相关性

武汉大学电子信息学院

贝叶斯决策理论

模式识别

例:两个二元正态分布

武汉大学电子信息学院

贝叶斯决策理论

模式识别

协方差矩阵:

用 E[x1-μ1)(x2-μ2)]来衡量这种相关性,称为协方差矩阵非对角元素正表示了两个分量之间的相关性主对角元素则是各分量本身的方差协方差矩阵的重要属性:正定的对称矩阵

武汉大学电子信息学院

贝叶斯决策理论

模式识别

多元正态分布的性质

参数μ与∑对分布具有决定性,记作p(X)～ N(μ,∑). 等密度点分布在超椭球面上. 等密度点对应: (x-μ)T∑-1(x-μ)=常数

武汉大学电子信息学院

贝叶斯决策理论

模式识别

向量X到向量μ的Mahalanobis距离的平方 r2=(x-μ)T∑-1(x-μ) 多元正态分布的离散程度由参数|∑|1/2决定, 这与单变量时由标准差σ决定是对应一致的. 不相关性等价于独立性. —不相关 :E[xixj]=E[xi]〃E[xj] —相关 :(xi,xj)=p(xi)p(xj),

武汉大学电子信息学院

贝叶斯决策理论

模式识别

边缘分布和条件分布的正态性多元正态分布的边缘分布和条件分布仍然是正态分布. 线性变换的正态性 Y=αTx,则Y的分布仍然是正态的.

武汉大学电子信息学院

模式识别贝叶斯决策理论 2.3.2正态分布概率模型下的最小错误率贝叶斯决策

如果则X∈ωi 判别函数为 p(x| ωi) p(ωi) ,采用对数形式

武汉大学电子信息学院

贝叶斯决策理论

模式识别

决策规则:

相应的决策面方程为

武汉大学电子信息学院

贝叶斯决策理论

模式识别

最小

距离分类器情况

定义:每个样本以它到每类样本均值的欧氏距离的最小值确定其分类 . 如果则 X∈ωi 样本分布满足以下正态分布条件时,最小错误分类器与(2-39)表示的决策规则相当:

武汉大学电子信息学院

贝叶斯决策理论

模式识别

在这种条件下,由于|∑|=σ2d及 ∑i-1=σ2I ,代入(2-37)得

武汉大学电子信息学院

贝叶斯决策理论

模式识别

由于决策是根据各判别函数之间的大小,因而在 (2-48)中一些与类别无关的项可以忽略,再加上先验概率相等这个条件,判别函数可简化成

最小距离分类器就可看作模板匹配.每个类有一个典型样本(即均值向量),称为模板,而待分类样本X只要按欧氏距离计算与哪个模板最相似(欧氏距离最短)即可作决定.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

线性分类器

∑i=σ2I i=1,…,c

其中

武汉大学电子信息学院

贝叶斯决策理论

模式识别

决策面方程

利用以及代入(2-46)并整理,可得 WT(X-X0)=0 (2-47) W=μi-μj

武汉大学电子信息学院

贝叶斯决策理论

模式识别

另一种简单情况

∑i=∑

表示在二维特征空间的情况

武汉大学电子信息学院

贝叶斯决策理论

模式识别

判别函数

如果c类先验概率都相等,

其中

武汉大学电子信息学院

贝叶斯决策理论

模式识别

决策面方程

gi(X)-gj(X)=0 即其中

武汉大学电子信息学院

贝叶斯决策理论

模式识别

线性分类器总结

在正态分布条件下,基于最小错误率贝叶斯决策只要能做到两类协方差矩阵是一样的,那么无论先验概率相等不相等,都可以用线性分界面实现. 小欧氏距离分类器则要求正态分布协方差矩阵为单位阵,先验概率相等.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

各类协方差矩阵不相等的情况

∑i≠∑j i,j=1,2,…,c

(d×d矩阵) (d维列向量)

武汉大学电子信息学院

贝叶斯决策理论

模式识别

决策面方程(当两个决策域毗邻)

根据gi(X)-gj(X)=0有

武汉大学电子信息学院

贝叶斯决策理论

模式识别

图2.10

武汉大学电子信息学院

贝叶斯决策理论

模式识别

讨论与分析

分析了在何种正态分布条件下,最小错误率贝叶斯决策具有线性决策面. 最小距离分类器与统计上最小错误率决策上一致的条件.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

本章小结

主要的知识: 使用什么样的决策原则我们可以做到错误率最小Bayes决策错分类最小并不一定是一个识别系统最重要的指标风险,损失学习获得对样本概率分布的估计

武汉大学电子信息学院

贝叶斯决策理论

模式识别

贝叶斯决策理论是统计模式识别

的重要理论基础理论上讲,贝叶斯决策方法是最优的(在最小错误率或最小风险意义上) 应用中:需要首先得到先验概率和类条件概率密度方法一: 先估计概率密度,后求解决策规则方法二: 若已知或可假设概率密度为某种形式(比如正态分布),可先求出判决函数形式,再从样本估计其中的参数. 方法三: 直接选择或假设某种判决函数形式,用样本确定其参数.

武汉大学电子信息学院

贝叶斯决策理论

模式识别

习题

1. 试简述先验概率,类条件概率密度函数和后验概率等概念间的关系: 2. 试写出利用先验概率和分布密度函数计算后验概率的公式 3. EX2.5 4. EX2.15 5. 写出最小错误率和最小风险决策规则相应的判别函数(两类问题). 6. 用Matlab计算两类识别问题:根据血液中白细胞的浓度来判断病人是否患血液病.

武汉大学电子信息学院

【贝叶斯决策】相关文章：

基于贝叶斯理论的指挥引导决策研究07-31

基于前景理论与贝叶斯决策模型的彩民动机研究07-19

贝叶斯推理研究综述01-20

基于参数的贝叶斯先验选择方法07-05

朴素贝叶斯算法的实例 -电脑资料01-01

ARFIMA模型参数贝叶斯估计的渐近性质11-03

朴素贝叶斯算法的python实现 -电脑资料01-01

机匣包容性的贝叶斯评价方法07-07

基于贝叶斯动态模型的某器件性能预测07-25