KL散度在各领域不同的使用情况.doc

上传人:白大夫 文档编号:3253468 上传时间:2019-08-06 格式:DOC 页数:5 大小:21KB
返回 下载 相关 举报
KL散度在各领域不同的使用情况.doc_第1页
第1页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《KL散度在各领域不同的使用情况.doc》由会员分享,可在线阅读,更多相关《KL散度在各领域不同的使用情况.doc(5页珍藏版)》请在三一文库上搜索。

1、KL散度在各领域不同的使用情况相对熵,又称为KL散度(Kullback-Leibler divergence),是两个概率分布P和Q差别的非对称性的度量。近日,CMU的助理教授Simon DeDeo就在推特上表示:“用到KL散度的领域十分广泛,包括心理学、认知学(epistemic)、热力学、统计学、计算、几何学等等。关于这个话题我能开一场研讨会。”于是,Simon Dedeo就在他的推特上列出了KL散度在各领域不同的使用情况,并附上相关文章。论智整理编译如下:心理学在心理学领域,KL散度可以作为预测注意力指向哪里的优秀预测器。在美国南加州大学2005年发表的一篇论文中,研究人员用数据流和新颖

2、的数学方法探究了人们在惊讶情况下大脑的反应。他们认为,惊讶是一种一般的、理论上的概念,它可以由第一原理生成,并还可以通过时空尺寸、感觉形态和数据类型及数据来源形成。利用贝叶斯框架理论,研究人员捕捉到实验对象的先验概率分布,然后将背景信息表示为:其中模型或假设为M。有了先验分布,新数据带来的基本影响D将先验分布转换为后验分布P(M|D),表示为:在这个框架中,如果实验对象的情绪未受影响,那么D就不含有惊讶情绪,即后验和先验是一样的。反之,如果研究对象产生惊讶的情绪,那么后验和先验就会产生距离。于是研究人员通过测量后验和先验之间的距离,间接地测出是否有惊讶知情。这就用到了KL散度,表示为:论文地址

3、:ilab.usc.edu/surprise/认知学KL散度可以作为决定实验方向的测量标准(让模型产生的效果最大化)。通常,T-optimality是用来获得最优设计,以分辨具有正态分布的同方差模型。该功能经过拓展,还用于研究文学中异方差情况和二元响应模型。在2007年的一篇论文中,来自西班牙和意大利的研究人员提出了一种基于KL距离的新标准,用于区分相应的不具有动态分布的模型。统计学KL散度在统计学中的应用可就太多了,但是作者重点讨论了它作为测量近似求解法失败的工具。 在作者曾经写的博客中有这样一个例子:假设我们是太空科学家,到了一座遥远的陌生星球,我们想研究星球上一种虫子,这种虫子有10颗牙

4、齿,但是长期生活过后,虫子的牙齿会脱落一部分,收集了一部分样本后,我们得到了以下牙齿数量分布:虽然数据很好,但是有一点问题。我们离地球太远了,传输数据回去的成本太高。我们现在想将数据简化成简单模型,只保留一两个参数。其中一种方法是用一种均匀分布的方式表示虫子的牙齿数量。我们知道一共存在11种可能的情况:很显然,我们的数据并不是均匀分布的,但是它看起来也不像我们通常所见的某种分布形态。另一种方法是我们可以试着用二项分布对数据建模。在这个案例中,我们需要做的就是估计二项分布中概率参数。我们知道,假设试验次数为n,概率为p,那么期望值就是Ex=np。在这个案例中,n=10,期望值就是我们数据的平均数

5、,假设是5.7吧。所以我们对p的最佳估计就是0.57.得到的二项分布如下:将这些模型与原始数据对比,没有一个能完美契合的,但是哪个更好呢?其中虽然存在一些错误的指标,但我们最初的目的是尽量减少发送的信息。所以,想要知道那种模型保留了原始数据最多的信息,最好的方法就是用KL散度。计算(机器学习)KL散度可以作为检测模型是否有效的工具,即可以显示模型留有多少的无用信息。在Still等人2012年发表的一篇论文中,他们为了测试模型的质量,利用KL散度。另一个机器学习的应用:将KL散度(通常在这种情况下被称为“交叉熵”)当做自动编码器、深度学习等的基本损失函数。另外,还可用作算法公平性(algorit

6、hmic fairness)。如何以最佳方式限制一个预测算法,同时还要保证公平。本文作者与2016年发表论文,研究了大数据中的变量问题。作者认为,当我们用机器学习处理公共政策时,我们发现很多有用的变量与其他一些有问题的变量结合在了一起。这一现象在大数据时代更加严重,有些预测根本没有强有力的理论支撑。如果高质量算法无法提供有力的证明,那么随意做出决策是非常危险的。为了保证预测的准确性,作者用KL散度对两种决策进行比较。论文地址:arxiv/abs/1412.4643计算(压缩)当为一种系统设计的压缩算法无法应用到另一种系统上时,就需要用KL散度进行计算。文化发展我们认为KL散度还可以作为研究个人

7、发展与创新人物的测量标准。在2016年的一篇论文中,研究人员认为,在一个不确定资源分布的陌生环境中进行研究,总会在新旧发现中摇摆不定,二者要进行权衡。在查找信息的过程中也是如此,求知若渴的人总会犹豫,是在已知领域深究,还是开发新领域的研究呢?为了研究这一决策过程,他们以达尔文为例,找出了他的阅读笔记中出现的所有书,并用KL散度生成了一个模型,量化了他的读书选择。论文地址:sciencedirect/science/article/pii/S0010027716302840同时,KL散度还能用来研究竞争与合作的创造以及想法的分享。在前不久发表的论文中,美国研究人员就利用KL散度研究在法国大革命期

8、间,人们是如何做出民主决策的。论文地址:pnas/content/115/18/4607.short量子理论剑桥大学的学生Felix Leditzky写了一本关于相对熵的介绍及其在量子理论中的应用的博士论文,其中包括KL散度是如何在互换算子的情况下生成量子的。论文共200页,感兴趣的同学可以拜读一下。论文地址:pdfs.semanticscholar/30a7/6a44a4f0f882c58bd0b636d6393956258c3f.pdf用户postquantum补充:“如果你有一些受限的操作类别,那么KL散度会告诉你你需要多少原材料(研究成果、量子纠缠、信息),这种测量是独一无二的。”具体

9、可参考论文:arxiv/abs/quant-ph/0207177另外如果你想使用广义熵和超统计学(即耦合系统),这是Rnyi熵的特殊情况。论文地址:pnas/content/108/16/6390数字人文学科KL散度与TFIDF相关,但是当它涉及粗粒化时,KL散度的性能更好。(特征最明显的单词在梳理文件时部分KL较高;停止词的KL值最低)。具体可查看相关论文。论文地址:mdpi/1099-4300/15/6/2246经济学另外,KL散度在经济学中也有出现,推特用户itsaguytalking就发表论文,用KL散度研究不同国家之间的贸易情况,论文研究的目的是如何测量不同意见之间的距离。论文地址:

10、columbia.edu/ez2197/HowToMeasureDisagreement.pdf生物学在2015年的一篇论文中,研究者Nihat Ay认为,随机交互单元的相互依赖型通常由静态联合概率分布的KL散度量化得来的,而概率分布来自对应的参数集合上。本文中的设置由静态扩展为动态版本,利用马尔科夫链信息几何来捕捉暂时的相互依赖关系。论文地址:mdpi/1099-4300/17/4/2432几何学将微分几何扩展到概率单纯形时,KL散度作为非测量连接。热力学一项可以从不平衡的系统中提取的测量方法,使其达到平衡。结语由此可见,KL散度作为概率的概念之一,在多个领域都得到了应用。除了上述所介绍的领域外,KL散度最常用的领域还是统计学。除了上文所说的用处,在模型选择上,它还是赤池信息量准则的基础标准。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1