模式识别习的题目及问题详解.pdf

资源描述

《模式识别习的题目及问题详解.pdf》由会员分享，可在线阅读，更多相关《模式识别习的题目及问题详解.pdf（8页珍藏版）》请在三一文库上搜索。

1、实用标准文案精彩文档第一章绪论 1.什么是模式？具体事物所具有的信息。模式所指的不是事物本身，而是我们从事物中获得的_信息 _。 2.模式识别的定义？让计算机来判断事物。 3.模式识别系统主要由哪些部分组成？数据获取预处理特征提取与选择分类器设计/ 分类决策。第二章贝叶斯决策理论 1.最小错误率贝叶斯决策过程？答：已知先验概率，类条件概率。利用贝叶斯公式得到后验概率。根据后验概率大小进行决策分析。 2.最小错误率贝叶斯分类器设计过程？答：根据训练数据求出先验概率类条件概率分布利用贝叶斯公式得到后验概率如果输入待测样本X，计算 X 的后验概率根据后验概率大小进行分类决策分析。

2、 3.最小错误率贝叶斯决策规则有哪几种常用的表示形式？答： 4.贝叶斯决策为什么称为最小错误率贝叶斯决策？答：最小错误率Bayes 决策使得每个观测值下的条件错误率最小因而保证了（平均）错误率最小。 Bayes 决策是最优决策：即，能使决策错误率最小。 5.贝叶斯决策是由先验概率和（类条件概率）概率，推导（后验概率）概率，然后利用这个概率进行决策。 6.利用乘法法则和全概率公式证明贝叶斯公式答： m j AjpAjBpBp ApABpBpBApABp 1 )()|()( )()|()()|()( 所以推出贝叶斯公式 7.朴素贝叶斯方法的条件独立假设是（P(x| i) =P(x1,

3、x2, , xn | i) 2 1 12 2 1 _,)(/)(_ )|( )|( )( w w xwpwp wxp wxp xl则如果 2 1 )()|( )()|( )|( j jj ii i wPwxP wPwxP xwP 2,1),(iwP i 2,1),|(iwxp i 2 1 )()|( )()|( )|( j jj ii i wPwxP wPwxP xwP M j jj ii ii i APABP APABP BP APABP BAP 1 )()|( )()|( )( )()|( )|( 实用标准文案精彩文档 = P(x1| i) P(x2| i) P(xn| i)） 8.怎样

5、几个就求出多少个类条件概率。 10，朴素贝叶斯分类器的优缺点？答：分类器容易实现。面对孤立的噪声点，朴素贝叶斯分类器是健壮的。因为在从数据中估计条件概率时。这些点被平均。面对无关属性，该分类器是健壮的。相关属性可能降低分类器的性能。因为对这些属性，条件独立的假设已不成立。 11.我们将划分决策域的边界称为(决策面 )，在数学上用可以表示成(决策面方程 ) 12.用于表达决策规则的函数称为(判别函数 ) 13.判别函数与决策面方程是密切相关的，且它们都由相应的决策规则所确定. 14.写出多元正态概率下的最小错误率贝叶斯决策的判别函数，即 15.多元正态概率下的最小错误率贝叶斯决策的决策

6、面方程为 ()()0 ij ggxx 16.多元正态概率下的最小错误率贝叶斯决策，当类条件概率分布的协方差矩阵为 2 i 时，每类的协方差矩阵相等，且类内各特征间（相互独立），并具有相等的方差。 17.多元正态概率下的最小错误率贝叶斯决策，如果先验概率相等，并2 i 且 i=1,2,.c，那么分类问题转化为只要计算待测样本x 到各类均值的(欧式距离 )，然后把x 归于具有（最小距离平方）的类。这种分类器称为（最小距离分类器）。 18. 19. 多元正态概率下的最小错误率贝叶斯决策，类条件概率密度各类的协方差矩阵不相等时，决策面是（超二次曲面），判别函数是（二次型） ( )ln( ( |)

7、 () iii gpPxx 1 1 2 1 2 ()() ln 2lnln() 2 T iii ii d P xx 实用标准文案精彩文档第三章概率密度函数的估计 1.类条件概率密度估计的两种主要方法（参数估计）和（非参数估计）。实用标准文案精彩文档 2.类条件概率密度估计的非参数估计有两种主要的方法（ Parzen窗法）和（ KN 近邻法）。它们的基本原理都是基于样本对分布的（未知）原则。 3.如果有 N 个样本，可以计算样本邻域的体积V，然后获得V 中的样本数k，那么 P(x)= V N K 4.假设正常细胞和癌细胞的样本的类条件概率服从多元正态分布，使用最大似然估计方法，

8、对概率密度的参数估计的结果为。证明：使用最大似然估计方法，对一元正态概率密度的参数估计的结果如下： 5.已知 5 个样本和2个属性构成的数据集中，w1 类有 3 个样本， w2 类有两个样本。如果使用贝叶斯方法设计分类器，需要获得各类样本的条件概率分布，现假设样本服从多元正态分布则只需获得分布的参数均值向量和协方差矩阵即可，那么采用最大似然估计获得的w1 类的类条件概率密度均值向量为（3,2转置） ,以及协方差矩阵为（ 422 220 202 ）。第四章线性判别函数 1.已知两类问题的样本集中，有两个样本。属于类，属于类，对它们进行增广后，这两个样本的增广样本分别为 y1 =

9、(1,1,-3,2)T,y2 =(-1,-1,-2,3)T 2.广义线性判别函数主要是利用(映射 )原理解决（普通函数不能解决的高次判别函数）问题，利用广义线性判别函数设计分类器可能导致（维数灾难）。 3.线性分类器设计步骤？主要步骤： 1.收集训练数据集D=x1,x2,xN 2.按需要确定一个准则函数J(D,w,w0) 或 J(D,a)，其值反映分类器的性能，其极值解对应于 “最好”决策。 3.用最优化技术求准则函数J 的极值解w* ，w* 或 a*。 4.最终，得到线性判别函数，完成分类器设计 5.线性判别函数g(x)的几何表示是：点x 到决策面H 的（距离的一种代数度量）。 6.增

10、广样本向量使特征空间增加了（一）维，但样本在新的空间中保持了样本间的（欧氏距离）不变，对于分类效果也与原决策面相同。在新的空间中决策面H 通过坐标（原点） 7.Fisher 准则的基本原理为：找到一个最合适的投影轴，使_(类间 )在该轴上投影之间的距离尽可能远，而（类内）的投影尽可能紧凑，从而使分类效果为最佳。 8.Fisher 准则函数的定义为 9Fisher 方法中，样本类内离散度矩阵Si 与总类内离散度矩阵Sw 分别为 10.利用 Lagrange 乘子法使Fisher 线性判别的准则函数极大化，最终可以得到的判别函数 1 1 1 ? N k k x N 2 2 2 1 1 ?()

11、N k k x N (|)(,)1,2 iii pNix 1(1 , 3,2) T x 2 (1,2,3) T x 0 ( )(*),( )( *) TT g xxwg xayw 12 ( ) b F S Jw SS T b T w S S ww ww ()() , 1,2 i T iii D i x Sxmxm 12w SSS 实用标准文案精彩文档权向量 11.叙述 Fisher 算法的基本原理。 Fisher 准则的基本原理：找到一个最合适的投影轴，使两类样本在该轴上投影之间的距离尽可能远，而每一类样本的投影尽可能紧凑，从而使分类效果为最佳。 12 13.已知两类问题的样本集中，有两

12、个样本。属于 w1 类，属于 w2 类，对它们进行增广规范化后，这两个样本的规范化增广样本分别为y1=(1,1,-3,2) 转置和 y2=(1,-1,-2,3) 转置。 14.叙述感知准则的梯度下降算法的基本过程。答： 1. 初值 : 任意给定一向量初始值a(1) 2. 迭代 : 第 k+1 次迭代时的权向量a(k+1)等于第 k 次的权向量a(k)加上被错分类的所有样本之和与pk 的乘积 3. 终止 : 对所有样本正确分类 15 感知准则函数 *1 12 () w Swmm 1 (1,3,2) T x 2 (1, 2,3) T x ()() k T P Y J y aay 实用标准文

13、案精彩文档 16 线性判别函数g(x)的几何表示是：点x 到决策面H 的（距离的代数度量） 17.感知机方法主要有两种，批量样本修正法与单样本修正法。它们之间的区别是什么？答单样本修正法：样本集视为不断重复出现的序列，逐个样本检查，修正权向量批量样本修正法：样本成批或全部检查后，修正权向量 18.感知准则特点是随意确定权向量（初始值），在对样本分类训练过程中（逐步修正）权向量直至最终确定。 19.对于感知准则函数，满足（）的权向量称为解向量，解向量不止一个，而是由无穷多个解向量组成的解，称这样的区域为（解区域）。 20.感知准则函数为极小值时的a 为最优解证明使用梯度下降算法的迭代

14、过程公式证明： 21.下列哪种分类方法最不适用于样本集线性不可分情况：B AFisher 线性判别的Lagrange 乘子法B感知准则的梯度下降算法C最小错分样本数准则的共轭梯度法D最小平方误差准则的梯度下降法 22.多类问题可以利用求两类问题的方法来求解。这样做的缺点是会造成(无法确定类别的区域增大 )，需要训练的(子分类器及参数增多)。 23.利用最小平方误差准则函数进行分类器设计，主要是求极小化时的权向量。当时，最小平方误差准则函数的解等价于(Bayes)线性判别的解。 24.叙述分类器错误率估计中的留一法的运算过程。答： 1.N 个样本，取N-1 个样本作为训练集，设计分类器

15、。 2.剩下的一个样本作为测试集，输入到分类器中，检验是否错分。 3.然后放回样本，重复上述过程，直到N 次，即每个样本都做了一次测试。 4.统计被错分的次数k, 作为错误率的估计率。 25 利用两类问题的线性分类器解决多类问题常用的两种方法的优缺点。答：优点：设计思想简单，容易实现。缺点：（ 1）需要训练的子分类器或参数多，效率低。（ 2）无法确定类别的区域多。【造成该问题的根本原因是将多类问题看成了多个两类问题来解决。这样必然造成阴影区域的出现。解决办法用多类问题的分类器】 26 线性分类器设计中的最小平方准则函数方法采用的准则函数公式是什么？当利用伪逆解方法求解时，遇到计算

16、量过大时，可以代替采用何种方法来训练分类器参数？叙述你所使用方法的基本原理，并解释为什么你的方法可以降低计算量。答：因为 e=Ya-b，常用梯度下降法来降低计算复杂度 0 T ay ( )() k T P Y J y aa y (1), (1)( ) k k y Y a kkyaa 任意 () () p p J J a a a () k Yy y (1)()() kp kkJaaa() k k Y k y ay (1,.,1) T b ? k N 2 () s Jae 2 Y ab 2 1 () N T ii i bay 1 ( )2()2() N TT siii i JbYYaa yy

17、ab 实用标准文案精彩文档批量样本修正法：单样本修正法： 27 利用两类别的线性分类器如何解决多类别的分类问题？ i/i 法：将 C 类别问题化为(C-1)个两类（第i 类与所有非i 类）问题，按两类问题确定其判别函数与决策面方程 i/j 法：将 C 类中的每两类别单独设计其线性判别函数，因此总共有C(C-1)/2 个线性判别函数 28.叙述分类器错误率估计中的m-重交叉验证方法的运算过程，并说明什么情况下该方法将退化为留一法。答：（1）N 个样本被划分成m 个不相交的集合，每组有 m N 个样本。（2）在 m 个样本中取m-1 个组的样本作为训练集，设计分类器。（3）剩下

18、的一组样本作为测试集，输入到分类器中检验，统计错分数k. （4）然后放回，重复上述过程，直到m 次。（5）设 ki （i=1,m)是第 i 次测试的错分数，则当 m=N 时，退化为留一法。第五章近邻法近邻法性能优点：（1）设计简单（2）分类性能优良（3）适用于线性不可分情况缺点：（1）计算量大，存储量大第六章特征的选择与提取 1.叙述用于特征选择的增l 减 r 搜索算法的算法步骤。并考虑l 值大于（或小于）r 值时，增 l 减 r 算法步骤应做出怎样的修改，以及该情况下，增l 减 r 搜索算法的特点？答步骤一：用SFS 法在未入选特征组中逐个选入L 个特征，形成新特征

19、组Xk+L ，设置 k=k+L ，步骤二：用SBS 法从特征组Xk 中逐个剔除r 个最差的特征，形成新特征组Xk-r ，设置 k=k-r ，若 k=d，则终止算法，否则设置xk=xk-r ，转向第一步。（1）当 Lr 时， L-r 法是一种自下而上的算法，先执行第一步，然后执行第二步，开始时，设置 k=0，x0=空（2）当 Lr 时，L-r 法是一种自上而下的算法，此时先执行第二步，然后执行第一步，开始时设置 k=0，x0=x1 ， ,xD 2 模拟退火法采用Metropolis 接受准则，冷却进度表的主要参数包括（温度T 的初始值，控制参数T 的衰减函数，Mapkob 链的长度，

20、停止准则）。 (1), (1)()() T k kkYYk a aaab 任意初始化 (1), (1)( )( ) Tkk kk kkbk a aaay y 任意初始化 11 11 ? / mm i i ii k k mNmN 实用标准文案精彩文档 3.遗传算法的运算过程主要分四个阶段：包括编码阶段、选择阶段、交叉阶段、（变异阶段）。其中，（选择）阶段可以加入最优保留策略，该策略的优点是（保留有利的，不利的淘汰）。遗传算法的初始群体规模过小，可能导致算法（局部最优）现象发生，从而降低算法的搜索性能。遗传算法的终止条件有多种，你认为使用（？）方法终止算法，能较好提高搜索结果的质量。

展开阅读全文