Amro通过一个简单的二元分类决策树解释信息熵和信息增益这两个概念.doc

资源描述

《Amro通过一个简单的二元分类决策树解释信息熵和信息增益这两个概念.doc》由会员分享，可在线阅读，更多相关《Amro通过一个简单的二元分类决策树解释信息熵和信息增益这两个概念.doc（3页珍藏版）》请在三一文库上搜索。

1、Amro通过一个简单的二元分类决策树解释信息熵和信息增益这两个概念StackOverflow人气答主（top 0.12%）Amro通过一个简单的二元分类决策树例子，简明扼要地解释了信息熵和信息增益这两个概念。为了解释熵这个概念，让我们想象一个分类男女名字的监督学习任务。给定一个名字列表，每个名字标记为m（男）或f（女），我们想要学习一个拟合数据的模型，该模型可以用来预测未见的新名字的性别。现在我们想要预测“Amro”的性别（Amro是我的名字）。第一步，我们需要判定哪些数据特征和我们想要预测的目标分类相关。一些特征的例子包括：首/末字母、长度、元音数量、是否以元音结尾，等等。所以，提取特征之后

2、，我们的数据是这样的：我们可以构建一棵决策树，一棵树的例子：长度=3| | 元音结尾=1: 女| | 元音结尾=0: 男长度=7| 长度=5: 男基本上，每个节点代表在单一属性上进行的测试，我们根据测试的结果决定向左还是向右。我们持续沿着树走，直到我们到达包含分类预测的叶节点（m或f）。因此，如果我们运行这棵决策树判定Amro，我们首次测试“长度当然，熵的定义可以推广到有N个离散值（超过2）的随机变量X：（公式中的log通常为以2为底的对数）回到我们的名字分类任务中，让我们看一个例子。想象一下，在构建决策树的过程中的某一点，我们考虑如下分割：以元音结尾9m,5f/ =1 =0- -3m,4f

3、6m,1f如你所见，在分割前，我们有9个男名、5个女名，即P(m)=9/14，P(f)=5/14。根据熵的定义，分割前的熵为：Entropy_before = - (5/14)*log2(5/14) - (9/14)*log2(9/14) = 0.9403接下来我们将其与分割后的熵比较。在以元音结尾为真=1的左分支中，我们有：Entropy_left = - (3/7)*log2(3/7) - (4/7)*log2(4/7) = 0.9852而在以元音结尾为假=0的右分支中，我们有：Entropy_right = - (6/7)*log2(6/7) - (1/7)*log2(1/7) = 0.

4、5917我们以每个分支上的实例数量作为权重因子（7个实例向左，7个实例向右），得出分割后的最终权重：Entropy_after = 7/14*Entropy_left + 7/14*Entropy_right = 0.7885现在比较分割前后的权重，我们得到信息增益的这一量度，也就是说，基于特定特征进行分割后，我们获得了多少信息：Information_Gain = Entropy_before - Entropy_after = 0.1518你可以如此解释以上运算：通过以“元音结尾”特征进行分割，我们得以降低子树预测输出的不确定性，降幅为一个较小的数值0.1518（单位为比特，比特为信息单位）。在树的每一个节点，为每个特征进行这一运算，以贪婪的方式选择可以取得最大信息增益的特征进行分割（从而偏好产生较低不确定性/熵的纯分割）。从根节点向下递归应用此过程，停止于包含的节点均属同一分类的叶节点（不用再进一步分割了）。注意，我省略了超出本文范围的一些细节，包含如何处理数值特征、缺失特征、过拟合、剪枝树，等等。

展开阅读全文