理解玻尔兹曼机和深度学习.ppt

上传人:本田雅阁 文档编号:2609093 上传时间:2019-04-17 格式:PPT 页数:39 大小:1.49MB
返回 下载 相关 举报
理解玻尔兹曼机和深度学习.ppt_第1页
第1页 / 共39页
理解玻尔兹曼机和深度学习.ppt_第2页
第2页 / 共39页
理解玻尔兹曼机和深度学习.ppt_第3页
第3页 / 共39页
亲,该文档总共39页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《理解玻尔兹曼机和深度学习.ppt》由会员分享,可在线阅读,更多相关《理解玻尔兹曼机和深度学习.ppt(39页珍藏版)》请在三一文库上搜索。

1、理解玻尔兹曼机和深度学习,侯越先 天津大学网络智能信息技术研究所 2014-11-03,1,动机,解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功 启发面向维数约简、信息抽象和去噪应用的新颖方法和模型,2,存在的解释,神经生理解释 通用近似解释(可近似性和近似复杂性) 规则化解释,3,我们的观点,现有解释中包含了有益的启发 现有解释远不完备,玻尔兹曼机和深度学习的有效性需要基于“第一原则”的形式化澄清 信息几何为形式化解释提供了理论工具,4,维数约简、信息抽象和去噪的“第一原则”,第一原则:维数约简、信息抽象和去噪应该尽可能地保留数据中的主要信息,同时滤除噪声或次要信息 “第一原则”能否

2、被一般地实现?,5,存在的方法,常用维数约简、信息抽象和去噪算法实现了“第一原则”吗? 例子:PCA 例子:低通滤波,6,反思,基于特征空间的模型似乎都建议在特定先验假设之上 为了更一般地实现维数约简、信息抽象和去噪目的,有必要考虑替换的数据表示空间,7,我们的基本思路,考虑数据的参数空间! 一般地定义生成模型的参数的相对重要性 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪,8,例子:log-linear分布族与高斯分布,9,满足,参数约减!,关键技术问题,如何一般地定义参数的相对重要性? 解决方案: 1 定义概率分布或密度之间的距离度量 2 由参数相对于距离度量的重要性给出

3、参数之间的相对重要性,10,度量概率分布(或密度)之间距离的“公理”,1 满足基本的度量三公理 2 似然一致性:可有效反映统计推断的似然性,11,度量概率分布(或密度)之间距离的“公理”(续1),3 重参数化不变性 对于概率分布(或密度)和的任两种参数化和,均有 这里是距离度量,12,度量概率分布(或密度)之间距离的“公理”(续2),4 相对于变量集上的随机映像的单调性: (1) 如果随机映像对应于充分统计量,则距离度量不变 (2) 否则,距离度量减小,13,是否存在同时满足上述所有公理的距离度量?,存在且唯一! 里程碑: 1 Fisher (Early 1930) 2 Rao (1945)

4、3 Cencov (1982),14,Fisher-Rao度量,单参数定义 多参数定义,15,Fisher-Rao距离(信息距离),局域定义: 全局定义:,16,Cramer-Rao下界与Fisher-Rao度量的似然一致性,Fisher信息决定了参数无偏估计的方差下界 单参数情形 多参数情形 由参数估计的渐进正态性及渐进有效性,可直接说明Fisher-Rao度量对应于参数被“误估计”的可能性(似然一致性),17,参数约简基本思路(Refined),1 特征空间 - 参数空间 2 利用参数的Fisher信息,定义参数的相对重要性 3 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去

5、噪 可信信息优先原则(Confident Information First)!,18,实例:n布尔变量分布,个布尔型随机变量 个布尔型随机变量的参数化中的任意项,这里表示,其余类似 如何对上述分布应用CIF原则?,19,实例:n布尔变量分布(续1),技术困难:各个p参数具有相等的Fisher信息 解决办法:寻找替换的参数表示(利用信息几何),20,实例:n布尔变量分布(续2),布尔变量分布的坐标表示(即参数化) 坐标:-1个归一化的正数 坐标: 坐标:,21,实例:n布尔变量分布(续3),混合坐标: (l-分割混合坐标) 在混合坐标系下,参数谱系的信息含量(Fisher信息)可建立显著的层次

6、结构,且低Fisher信息含量的参数可自然地确定中立值!,22,玻尔兹曼机与n布尔变量分布,随机神经网络, 网络的整体能量函数: 玻尔兹曼-吉布斯分布:,BM模型参数,23,24,玻尔兹曼机与CIF原则(1),结论1(Amari et. al. , 1992):给定目标概率分布: 单层波尔兹曼机(SBM)实现了2-分割混合坐标 上的参数剪切,即: l-分割混合坐标,24,玻尔兹曼机与CIF原则(2),结论2(Zhao, Hou and et. al., 2013):SBM实现的参数剪切符合CIF原则:保留具有大Fisher信息的参数,同时对小Fisher信息的参数采用中立估计。,25,可信参数

7、,非可信参数,玻尔兹曼机与CIF原则(3),结论3(Zhao, Hou and et. al., 2013):在所有同维度子流行M中,SBM所实现的映像在期望意义上最大程度地保持概率分布间的Fisher信息距离,26,为以为 中心的KL等距球面,和分别为在上的投影,玻尔兹曼机与CIF原则(4),结论4(Zhao, Hou and et. al., 2013):给定联合概率分布的分数2-分割混合坐标: RBM实现了分数2-分割混合坐标下参数剪切,27,玻尔兹曼机与CIF原则(5),结论5 (Zhao, Hou and et. al., 2013):RBM实现的参数剪切符合CIF原则:保留具有大F

8、isher信息的参数,同时对小Fisher信息的参数采用中立估计,28,可信参数,非可信参数,玻尔兹曼机与CIF原则(6),结论6(贝叶斯分析):假设背景分布中的绝大多数p项 趋近于0,则可证明:由任意被BM剪切掉的参数所导致的信息距离损失典型地趋近于0;而任意被BM保留的参数所对应的信息距离典型地大于0。,29,,为小常数,为任意小常数,为的阶数,深度结构,多层CIF原则的应用 逐层保持可信信息、并实现信息抽象 在最高层同时达到“最可信”和“最抽象”的目标,30,训练波尔兹曼机: -Maximum Likelihood and Contrastive Divergence,ML目标:最大化l

9、og似然函数 随机梯度方法,31,分别表示在样本分布稳态分布和迭代次的近似稳态分布上的期望值,正Gibbs采样:,负Gibbs采样:,CD-m:使用近似梯度,受限波尔兹曼机(RBM) -迭代映像算法(IP),为所有RBM稳态分布的集合 为正Gibbs采样的样本分布的集合,最小化KL距离: 背景分布 边际稳态分布,32,任务:5个显式变量概率密度估计,受限波尔兹曼机 -迭代映像算法(IP),33,基于CIF的模型选择,最小化模型误差最大保持Fisher信息距离 如何区分可信参数及非可信参数? 对Fisher信息距离的贡献程度大小,34,结论:对于布尔分布,BM为同等参数规模下的最优模型。,对BM

10、的模型选择-无隐含节点,参数过多模型复杂过度拟合样本 权衡:模型复杂度 vs 保留的样本信息 保留可信参数,约减非可信参数,35,a,b,c,d,a,b,c,d,BM模型选择-无隐含节点,评价:10变量的概率密度估计;对比模型:随机选边 横轴:参数保留比率 纵轴:与样本分布(第一行)和真实分布(第二行)的KL距离,36,BM模型选择-有隐含节点,权衡:模型复杂度 vs 保留的样本信息 RBM + 可视结点边,37,BM模型选择-有隐含节点,评价:10变量的概率密度估计(隐变量10个);对比模型:随机选边 横轴:参数保留比率; 纵轴:与样本分布(第一行)和真实分布(第二行)的KL距离,38,问题

11、和回答,X. Zhao, Y. Hou et al: Understanding Deep Learning by Revisiting Boltzmann Machines: An Information Geometry Approach. CoRR abs/1302.3931 (2013). Xiaozhao Zhao, Yuexian Hou et al: Extending the Extreme Physical Information to Universal Cognitive Models via a Confident Information First Principle. Entropy 16(7): 3670-3688 (2014).,39,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1