Amro通过一个简单的二元分类决策树解释信息熵和信息增益这两个概念.doc

上传人:白大夫 文档编号:3249516 上传时间:2019-08-06 格式:DOC 页数:3 大小:16KB
返回 下载 相关 举报
Amro通过一个简单的二元分类决策树解释信息熵和信息增益这两个概念.doc_第1页
第1页 / 共3页
亲,该文档总共3页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《Amro通过一个简单的二元分类决策树解释信息熵和信息增益这两个概念.doc》由会员分享,可在线阅读,更多相关《Amro通过一个简单的二元分类决策树解释信息熵和信息增益这两个概念.doc(3页珍藏版)》请在三一文库上搜索。

1、Amro通过一个简单的二元分类决策树解释信息熵和信息增益这两个概念StackOverflow人气答主(top 0.12%)Amro通过一个简单的二元分类决策树例子,简明扼要地解释了信息熵和信息增益这两个概念。为了解释熵这个概念,让我们想象一个分类男女名字的监督学习任务。给定一个名字列表,每个名字标记为m(男)或f(女),我们想要学习一个拟合数据的模型,该模型可以用来预测未见的新名字的性别。现在我们想要预测“Amro”的性别(Amro是我的名字)。第一步,我们需要判定哪些数据特征和我们想要预测的目标分类相关。一些特征的例子包括:首/末字母、长度、元音数量、是否以元音结尾,等等。所以,提取特征之后

2、,我们的数据是这样的:我们可以构建一棵决策树,一棵树的例子:长度=3| | 元音结尾=1: 女| | 元音结尾=0: 男长度=7| 长度=5: 男基本上,每个节点代表在单一属性上进行的测试,我们根据测试的结果决定向左还是向右。我们持续沿着树走,直到我们到达包含分类预测的叶节点(m或f)。因此,如果我们运行这棵决策树判定Amro,我们首次测试“长度当然,熵的定义可以推广到有N个离散值(超过2)的随机变量X:(公式中的log通常为以2为底的对数)回到我们的名字分类任务中,让我们看一个例子。想象一下,在构建决策树的过程中的某一点,我们考虑如下分割:以元音结尾9m,5f/ =1 =0- -3m,4f

3、6m,1f如你所见,在分割前,我们有9个男名、5个女名,即P(m)=9/14,P(f)=5/14。根据熵的定义,分割前的熵为:Entropy_before = - (5/14)*log2(5/14) - (9/14)*log2(9/14) = 0.9403接下来我们将其与分割后的熵比较。在以元音结尾为真=1的左分支中,我们有:Entropy_left = - (3/7)*log2(3/7) - (4/7)*log2(4/7) = 0.9852而在以元音结尾为假=0的右分支中,我们有:Entropy_right = - (6/7)*log2(6/7) - (1/7)*log2(1/7) = 0.

4、5917我们以每个分支上的实例数量作为权重因子(7个实例向左,7个实例向右),得出分割后的最终权重:Entropy_after = 7/14*Entropy_left + 7/14*Entropy_right = 0.7885现在比较分割前后的权重,我们得到信息增益的这一量度,也就是说,基于特定特征进行分割后,我们获得了多少信息:Information_Gain = Entropy_before - Entropy_after = 0.1518你可以如此解释以上运算:通过以“元音结尾”特征进行分割,我们得以降低子树预测输出的不确定性,降幅为一个较小的数值0.1518(单位为比特,比特为信息单位)。在树的每一个节点,为每个特征进行这一运算,以贪婪的方式选择可以取得最大信息增益的特征进行分割(从而偏好产生较低不确定性/熵的纯分割)。从根节点向下递归应用此过程,停止于包含的节点均属同一分类的叶节点(不用再进一步分割了)。注意,我省略了超出本文范围的一些细节,包含如何处理数值特征、缺失特征、过拟合、剪枝树,等等。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1