语义分析方案贾俊华.docx_三一文库31doc.com

资源描述

《语义分析方案贾俊华.docx》由会员分享，可在线阅读，更多相关《语义分析方案贾俊华.docx（26页珍藏版）》请在三一文库上搜索。

1、本文主要由以下三部分组成：文本基本处理，文本语义分析，语义分析小结。先讲述文本处理的基本方法，这构成了语义分析的基础。接着分文本和图片两节讲述各自语义分析的一些方法，值得注意的是，虽说分为两节，但文本和图片在语义分析方法上有很多共通与关联。最后我们简单介绍下语义分析在广点通“用户广告匹配”上的应用，并展望一下未来的语义分析方法。1文本基本处理在讲文本语义分析之前，我们先说下文本基本处理，因为它构成了语义分析的基础。而文本处理有很多方面，考虑到本文主题，这里只介绍中文分词以及Term Weighting。1.1中文分词拿到一段文本后，通常情况下，首先要做分词。分词的方法一般有如下几种：基于字符串

2、匹配的分词方法。此方法按照不同的扫描方式，逐个查找词库进行分词。根据扫描方式可细分为：正向最大匹配，反向最大匹配，双向最大匹配，最小切分(即最短路径)；总之就是各种不同的启发规则。全切分方法。它首先切分出与词库匹配的所有可能的词，再运用统计语言模型决定最优的切分结果。它的优点在于可以解决分词中的歧义问题。下图是一个示例，对于文本串“南京市长江大桥”，首先进行词条检索(一般用Trie存储)，找到匹配的所有词条（南京，市，长江，大桥，南京市，长江大桥，市长，江大桥，江大，桥），以词网格(word lattices)形式表示，接着做路径搜索，基于统计语言模型(例如n-gram)找到最优路径，最后可能

3、还需要命名实体识别。下图中“南京市长江大桥”的语言模型得分，即P(南京市，长江，大桥)最高，则为最优切分。图1.“南京市长江大桥”语言模型得分由字构词的分词方法。可以理解为字的分类问题，也就是自然语言处理中的sequence labeling问题，通常做法里利用HMM，MAXENT，MEMM，CRF等预测文本串每个字的tag62，譬如B，E，I，S，这四个tag分别表示：beginning, inside, ending, single，也就是一个词的开始，中间，结束，以及单个字的词。例如“南京市长江大桥”的标注结果可能为：“南(B)京(I)市(E)长(B)江(E)大(B)桥(E)”。由

4、于CRF既可以像最大熵模型一样加各种领域feature，又避免了HMM的齐次马尔科夫假设，所以基于CRF的分词目前是效果最好的。除了HMM，CRF等模型，分词也可以基于深度学习方法来做，也取得了state-of-the-art的结果。图2.基于深度学习的中文分词上图是一个基于深度学习的分词示例图。我们从上往下看，首先对每一个字进行Lookup Table，映射到一个固定长度的特征向量(这里可以利用词向量，boundary entropy，accessor variety等)；接着经过一个标准的神经网络，分别是linear，sigmoid，linear层，对于每个字，预测该字属于B,E,I,S的

5、概率；最后输出是一个矩阵，矩阵的行是B,E,I,S 4个tag，利用viterbi算法就可以完成标注推断，从而得到分词结果。一个文本串除了分词，还需要做词性标注，命名实体识别，新词发现等。通常有两种方案，一种是pipeline approaches，就是先分词，再做词性标注；另一种是joint approaches，就是把这些任务用一个模型来完成。一般而言，方法一和方法二在工业界用得比较多，方法三因为采用复杂的模型，虽准确率相对高，但耗时较大。1.2语言模型前面在讲“全切分分词”方法时，提到了语言模型，并且通过语言模型，还可以引出词向量，所以这里把语言模型简单阐述一下。语言模型是用来计算一个句

6、子产生概率的概率模型，即P(w_1,w_2,w_3w_m)，m表示词的总个数。根据贝叶斯公式：P(w_1,w_2,w_3 w_m) = P(w_1)P(w_2|w_1)P(w_3|w_1,w_2) P(w_m|w_1,w_2 w_m-1)。最简单的语言模型是N-Gram，它利用马尔科夫假设，认为句子中每个单词只与其前n1个单词有关，即假设产生w_m这个词的条件概率只依赖于前n1个词，则有P(w_m|w_1,w_2w_m-1) = P(w_m|w_m-n+1,w_m-n+2 w_m-1)。其中n越大，模型可区别性越强，n越小，模型可靠性越高。N-Gram语言模型简单有效，但是它只考虑了词的位置关

7、系，没有考虑词之间的相似度，词语法和词语义，并且还存在数据稀疏的问题，所以后来，又逐渐提出更多的语言模型，例如Class-based ngram model，topic-based ngram model，cache-based ngram model，skipping ngram model，指数语言模型（最大熵模型，条件随机域模型）等。最近，随着深度学习的兴起，神经网络语言模型也变得火热4。用神经网络训练语言模型的经典之作，要数Bengio等人发表的A Neural Probabilistic Language Model3，它也是基于N-Gram的，首先将每个单词w_m-n+1,w_m-

8、n+2 w_m-1映射到词向量空间，再把各个单词的词向量组合成一个更大的向量作为神经网络输入，输出是P(w_m)。本文将此模型简称为ffnnlm（Feed-forward Neural Net Language Model）。ffnnlm解决了传统n-gram的两个缺陷：(1)词语之间的相似性可以通过词向量来体现；(2)自带平滑功能。文献A neural probabilistic language model 2003不仅提出神经网络语言模型，还顺带引出了词向量，关于词向量，后文将再细述。图3.基于神经网络的语言模型从最新文献看，目前state-of-the-art语言模型应该是基于循环神经

9、网络(recurrent neural network)的语言模型，简称rnnlm。循环神经网络相比于传统前馈神经网络，其特点是：可以存在有向环，将上一次的输出作为本次的输入。而rnnlm和ffnnlm的最大区别是：ffnnmm要求输入的上下文是固定长度的，也就是说n-gram中的 n 要求是个固定值，而rnnlm不限制上下文的长度，可以真正充分地利用所有上文信息来预测下一个词，本次预测的中间隐层信息(例如下图中的context信息)可以在下一次预测里循环使用。图4.基于simple RNN(time-delay neural network)的语言模型如上图所示，这是一个最简单的rnnlm，

10、神经网络分为三层，第一层是输入层，第二层是隐藏层(也叫context层)，第三层输出层。假设当前是t时刻，则分三步来预测P(w_m)：1，单词w_m-1映射到词向量，记作input(t)2，连接上一次训练的隐藏层context(t1)，经过sigmoid function，生成当前t时刻的context(t)3，利用softmax function，预测P(w_m)Rnnlm library中列出了一个rnnlm的library，其代码紧凑。利用它训练中文语言模型将很简单，上面“南京市长江大桥”就是rnnlm的预测结果。基于RNN的language model利用BPTT(BackPro

11、pagation through time)算法比较难于训练，原因就是深度神经网络里比较普遍的vanishing gradient问题（在RNN里，梯度计算随时间成指数倍增长或衰减，称之为Exponential Error Decay）。所以后来又提出基于LSTM(Long short term memory)的language model，LSTM也是一种RNN网络， LSTM通过网络结构的修改，从而避免vanishing gradient问题。图5.LIST memory cell如上图所示，是一个LSTM unit。如果是传统的神经网络unit，output activation bi

12、= activation_function(ai)，但LSTM unit的计算相对就复杂些了，它保存了该神经元上一次计算的结果，通过input gate，output gate，forget gate来计算输出，具体过程请参考LSTM Neural Networks for Language Modeling，LONG SHORT-TERM MEMORY。1.3 Term WeightingTerm重要性对文本分词后，接下来需要对分词后的每个term计算一个权重，重要的term应该给与更高的权重。举例来说，“什么产品对减肥帮助最大？”的term weighting结果可能是: “什么 0.1，

13、产品 0.5，对 0.1，减肥 0.8，帮助 0.3，最大 0.2”。Term weighting在文本检索，文本相关性，核心词提取等任务中都有重要作用。Term weighting的打分公式一般由三部分组成：local，global和normalization 1,2。即TermWeight=L_i,j G_i N_j。L_i,j是term i在document j中的local weight，G_i是term i的global weight，N_j是document j的归一化因子。常见的local，global，normalization weight公式2有：图6.Local weig

14、ht formulas图7.Global weight formuls图8.Normalization factorsTf-Idf是一种最常见的term weighting方法。在上面的公式体系里，Tf-Idf的local weight是FREQ，glocal weight是IDFB，normalization是None。tf是词频，表示这个词出现的次数。df是文档频率，表示这个词在多少个文档中出现。idf则是逆文档频率，idf=log(TD/df)，TD表示总文档数。Tf-Idf在很多场合都很有效，但缺点也比较明显，以“词频”度量重要性，不够全面，譬如在搜索广告的关键词匹配时就不够用。除了T

15、F-IDF外，还有很多其他term weighting方法，例如Okapi，MI，LTU，ATC，TF-ICF59等。通过local，global，normalization各种公式的组合，可以生成不同的term weighting计算方法。不过上面这些方法都是无监督计算方法，有一定程度的通用性，但在一些特定场景里显得不够灵活，不够准确，所以可以基于有监督机器学习方法来拟合term weighting结果。图9.Okapi 计算公式利用有监督机器学习方法来预测weight。这里类似于机器学习的分类任务，对于文本串的每个term，预测一个0,1的得分，得分越大则term重要性越高。既然是有监督学

16、习，那么就需要训练数据。如果采用人工标注的话，极大耗费人力，所以可以采用训练数据自提取的方法，利用程序从搜索日志里自动挖掘。从海量日志数据里提取隐含的用户对于term重要性的标注，得到的训练数据将综合亿级用户的“标注结果”，覆盖面更广，且来自于真实搜索数据，训练结果与标注的目标集分布接近，训练数据更精确。下面列举三种方法(除此外，还有更多可以利用的方法)：从搜索session数据里提取训练数据，用户在一个检索会话中的检索核心意图是不变的，提取出核心意图所对应的term，其重要性就高。从历史短串关系资源库里提取训练数据，短串扩展关系中，一个term出现的次数越多，则越重要。从搜索广告点击日志里提

17、取训练数据，query与bidword共有term的点击率越高，它在query中的重要程度就越高。通过上面的方法，可以提取到大量质量不错的训练数据（数十亿级别的数据，这其中可能有部分样本不准确，但在如此大规模数据情况下，绝大部分样本都是准确的）。有了训练数据，接下来提取特征，基于逻辑回归模型来预测文本串中每个term的重要性。所提取的特征包括：term的自解释特征，例如term专名类型，term词性，term idf，位置特征，term的长度等；term与文本串的交叉特征，例如term与文本串中其他term的字面交叉特征，term转移到文本串中其他term的转移概率特征，term的文本分类、t

18、opic与文本串的文本分类、topic的交叉特征等。核心词、关键词提取短文本串的核心词提取。对短文本串分词后，利用上面介绍的term weighting方法，获取term weight后，取一定的阈值，就可以提取出短文本串的核心词。长文本串(譬如web page)的关键词提取。这里简单介绍几种方法。采用基于规则的方法。考虑到位置特征，网页特征等。基于广告主购买的bidword和高频query建立多模式匹配树，在长文本串中进行全字匹配找出候选关键词，再结合关键词weight，以及某些规则找出优质的关键词。类似于有监督的term weighting方法，也可以训练关键词weighting的模型。基

19、于文档主题结构的关键词抽取。 2 文本语义分析前面讲到一些文本基本处理方法。一个文本串，对其进行分词和重要性打分后（当然还有更多的文本处理任务），就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主题模型。说到主题模型，第一时间会想到pLSA，NMF，LDA。关于这几个目前业界最常用的主题模型，已经有相当多的介绍了。在这里，主要想聊一下主题模型的应用以及最新进展(考虑到LDA是pLSA的generalization，所以下面只介绍LDA)。LDA训练算法简单介绍我们主要看一下怎么训练LDA。在Blei的原始论文中，使用variational inference和EM算法进行

20、LDA推断(与pLSA的推断过程类似，E-step采用variational inference)，但EM算法可能推导出局部最优解，且相对复杂。目前常用的方法是基于gibbs sampling来做。Step1: 随机初始化每个词的topic，并统计两个频率计数矩阵：Doc-Topic 计数矩阵N(t,d)，描述每个文档中的主题频率分布；Word-Topic 计数矩阵N(w,t)，表示每个主题下词的频率分布。Step2: 遍历训练语料，按照概率公式(下图所示)重新采样每个词所对应的topic, 更新N(t,d)和N(w,t)的计数。Step3: 重复 step2，直到模型收敛。对文档d中词w的主

21、题z进行重新采样的公式有非常明确的物理意义，表示为P(w|z)P(z|d)，直观的表示为一个“路径选择”的过程。图10.gibbs sampling过程图以上描述过程具体请参考Peacock：大规模主题模型及其在腾讯业务中的应用。对于LDA模型的更多理论介绍，譬如如何实现正确性验证，请参考Xuemin. LDA工程实践之算法篇，而关于LDA模型改进，请参考Newman团队的最新文章Care and Feeding of Topic Models。主题模型的应用点在广点通内部，主题模型已经在很多方面都得到成功应用65，譬如文本分类特征，相关性计算，ctr预估，精确广告定向，矩阵分解等。具体来说，

22、基于主题模型，可以计算出文本，用户的topic分布，将其当作pctr，relevance的特征，还可以将其当作一种矩阵分解的方法，用于降维，推荐等。不过在我们以往的成功运用中，topic模型比较适合用做某些机器学习任务的特征，而不适合作为一种独立的方法去解决某种特定的问题，例如触发，分类。Blei是这样评价lda的：it can easily be used as a module in more complicated models for more complicated goals。为什么topic model不适合作为一种独立的方法去解决某种特定的问题(例如分类，触发等)。个人总结，主

23、要原因是lda模型可控性可解释性相对比较差：对于每个topic，不能用很明确的语义归纳出这个topic在讲什么；重新训练一遍lda模型，每个topic id所对应的语义可能发生了变化；有些topic的准确性比较好，有些比较差，而对于比较差的topic，没有特别好的针对性的方法去优化它；另外一个就是topic之间的重复，特别是在topic数目比较多的情况，重复几乎是不可避免的，当时益总(yiwang)在开发peacock的时候，deduplicate topic就是一个很重要的任务。如果多个topic描述的意思一致时，用topic id来做检索触发，效果大半是不好的，后来我们也尝试用topic

24、word来做，但依旧不够理想。主体模型最新进展首先主题模型自PLSA, LDA后，又提出了很多变体，譬如HDP。LDA的topic number是预先设定的，而HDP的topic number是不固定，而是从训练数据中学习得到的，这在很多场景是有用的，具体参考hdp vs lda。深度学习方面，Geoff Hinton及其学生用Deep Boltzmann Machine研究出了类似LDA的隐变量文本模型82，文章称其抽取的特征在文本检索与文本分类上的结果比LDA好。heavenfireray在其微博评论道：lda结构是word-hidden topic。类lda结构假设在topic下产生每个

25、word是条件独立而且参数相同。这种假设导致参数更匹配长文而非短文。该文章提出word-hidden topic-hidden word，其实是(word,hidden word)-hidden topic，增加的hidden word平衡了参数对短文的适配，在分类文章数量的度量上更好很自然。其次，随着目前互联网的数据规模的逐渐增加，大规模并行PLSA，LDA训练将是主旋律。大规模主题模型训练，除了从系统架构上进行优化外，更关键的，还需要在算法本身上做升级。variational方法不太适合并行化，且速度相对也比较慢，这里我们着重看sampling-base inference。collaps

26、ed Gibbs sampler57：O(K)复杂度，K表示topic的总个数。SparseLDA66：算法复杂度为O(Kd + Kw)，Kd表示文档d所包含的topic个数，Kw表示词w所属的topic个数，考虑到一个文档所包含的topic和一个词所属的topic个数是有限的，肯定远小于K，所以相比于collapsed Gibbs，复杂度已有较大的下降。AliasLDA56：利用alias table和Metropolis-Hastings，将词这个维度的采样复杂度降至O(1)。所以算法总复杂度为O(Kd)。Metropolis-Hastings sampler13：复杂度降至O(1)。主体

27、模型并行化在文献David Newman. Distributed Algorithms for Topic Models中，Newman团队提出了LDA算法的并行化版本Approximate distributed-LDA，如下图所示：图11.AD-LDA算法在原始gibbs sampling算法里，N(w,t)这个矩阵的更新是串行的，但是研究发现，考虑到N(w,t)矩阵在迭代过程中，相对变化较小，多个worker独立更新N(w,t)，在一轮迭代结束后再根据多个worker的本地更新合并到全局更新N(w,t)，算法依旧可以收敛67。那么，主题模型的并行化(不仅仅是主题模型，其实是绝大部分机器

28、学习算法)，主要可以从两个角度来说明：数据并行和模型并行。数据并行。这个角度相对比较直观，譬如对于LDA模型，可以将训练数据按照worker数目切分为M片(M为worker数)，每个worker保存一份全局的N(w,t)矩阵，在一轮迭代里，各个worker独立计算，迭代结束后，合并各个worker的本地更新。这个思路可以借用目前通用的并行计算框架，譬如Spark，Hadoop，Graphlab等来实现。模型并行。考虑到矩阵N(w,t)在大规模主题模型中相当巨大，单机内存不可能存下。所以直观的想法，可以将N(w,t)也切分成多个分片。N(w,t)可以考虑使用全局的parameter server

29、来存储，也可以考虑存储在不同worker上，利用MPI AllReduce来通信。数据与模型并行，可以形象的描述为一个棋盘。棋盘的行按照数据划分，棋盘的列按照模型划分。LDA的并行化，就是通过这样的切分，将原本巨大的，不可能在单机存储的矩阵切分到不同的机器，使每台机器都能够将参数存储在内存。再接着，各个worker相对独立计算，计算的过程中不时按照某些策略同步模型数据。最近几年里，关于LDA并行化已有相当多的开源实现，譬如：PLDA，PLDA+Yahoo LDAParameter server最近的并行LDA实现Peacock70,65和LigthLda13没有开源，但我们可以从其论文一窥究竟

30、，总体来说，并行化的大体思路是一致的。譬如LightLDA13，下图是实现架构框图，它将训练数据切分成多个Block，模型通过parameter server来同步，每个data block，类似于sliding windows，在计算完V1的采样后，才会去计算V2的采样(下图中V1,V2,V3表示word空间的划分，即模型的划分)。图12.Lightda并行结构图2.2词向量，句向量在文本分析的vector space model中，是用向量来描述一个词的，譬如最常见的One-hot representation。One-hot representation方法的一个明显的缺点是，词与词之间

31、没有建立关联。在深度学习中，一般用Distributed Representation来描述一个词，常被称为“Word Representation”或“Word Embedding”，也就是我们俗称的“词向量”。词向量起源于hinton在1986年的论文，后来在Bengio的ffnnlm论文中，被发扬光大，但它真正被我们所熟知，应该是word2vec的开源。在ffnnlm中，词向量是训练语言模型的一个副产品，不过在word2vec里，是专门来训练词向量，所以word2vec相比于ffnnlm的区别主要体现在：模型更加简单，去掉了ffnnlm中的隐藏层，并去掉了输入层跳过隐藏层直接到输出层的连

32、接。训练语言模型是利用第m个词的前n个词预测第m个词，而训练词向量是用其前后各n个词来预测第m个词，这样做真正利用了上下文来预测，如下图所示。图13.word2vec的训练方法上图是word2vec的两种训练算法：CBOW(continuous bag-of-words)和Skip-gram。在cbow方法里，训练目标是给定一个word的context，预测word的概率；在skip-gram方法里，训练目标则是给定一个word，预测word的context的概率。关于word2vec，在算法上还有较多可以学习的地方，例如利用huffman编码做层次softmax，negative sampl

33、ing，工程上也有很多trick。词向量的应用词向量的应用点：可以挖掘词之间的关系，譬如同义词。可以将词向量作为特征应用到其他机器学习任务中，例如作为文本分类的feature，Ronan collobert在Senna37中将词向量用于POS, CHK, NER等任务。用于机器翻译，分别训练两种语言的词向量，再通过词向量空间中的矩阵变换，将一种语言转变成另一种语言。word analogy，即已知a之于b犹如c之于d，现在给出 a、b、c，C(a)-C(b)+C(c)约等于C(d)，C(*)表示词向量。可以利用这个特性，提取词语之间的层次关系。Connecting Images and Se

34、ntences，image understanding。例如文献，DeViSE: A deep visual-semantic em-bedding model。Entity completion in Incomplete Knowledge bases or ontologies，即relational extraction。Reasoning with neural tensor net- works for knowledge base completion。more word2vec applications，点击link1，link2除了产生词向量，word2vec还有很多其他应用

35、领域，对此我们需要把握两个概念：doc和word。在词向量训练中，doc指的是一篇篇文章，word就是文章中的词。假设我们将一簇簇相似的用户作为doc（譬如QQ群），将单个用户作为word，我们则可以训练user distributed representation，可以借此挖掘相似用户。假设我们将一个个query session作为doc，将query作为word，我们则可以训练query distributed representation，挖掘相似query。句向量分析完word distributed representation，我们也许会问，phrase，sentence是否也有其

36、distributed representation。最直观的思路，对于phrase和sentence，我们将组成它们的所有word对应的词向量加起来，作为短语向量，句向量。在参考文献34中，验证了将词向量加起来的确是一个有效的方法，但事实上还有更好的做法。Le和Mikolov在文章Distributed Representations of Sentences and Documents20里介绍了sentence vector，这里我们也做下简要分析。先看c-bow方法，相比于word2vec的c-bow模型，区别点有：训练过程中新增了paragraph id，即训练语料中每个句子都有一个

37、唯一的id。paragraph id和普通的word一样，也是先映射成一个向量，即paragraph vector。paragraph vector与word vector的维数虽一样，但是来自于两个不同的向量空间。在之后的计算里，paragraph vector和word vector累加或者连接起来，作为输出层softmax的输入。在一个句子或者文档的训练过程中，paragraph id保持不变，共享着同一个paragraph vector，相当于每次在预测单词的概率时，都利用了整个句子的语义。在预测阶段，给待预测的句子新分配一个paragraph id，词向量和输出层softmax的参数

38、保持训练阶段得到的参数不变，重新利用梯度下降训练待预测的句子。待收敛后，即得到待预测句子的paragraph vector。图14.sentence2vec cBow算法sentence2vec相比于word2vec的skip-gram模型，区别点为：在sentence2vec里，输入都是paragraph vector，输出是该paragraph中随机抽样的词。图15.sentence2vec Skip-gram算法下面是sentence2vec的结果示例。先利用中文sentence语料训练句向量，然后通过计算句向量之间的cosine值，得到最相似的句子。可以看到句向量在对句子的语义表征上还

39、是相当惊叹的。图16.sentence2vec结果示例词向量的改进学习词向量的方法主要分为：Global matrix factorization和Shallow Window-Based。Global matrix factorization方法主要利用了全局词共现，例如LSA；Shallow Window-Based方法则主要基于local context window，即局部词共现，word2vec是其中的代表；Jeffrey Pennington在word2vec之后提出了GloVe，它声称结合了上述两种方法，提升了词向量的学习效果。它与word2vec的更多对比请点击GloVe vs

40、 word2vec，GloVe & word2vec评测。目前通过词向量可以充分发掘出“一义多词”的情况，譬如“快递”与“速递”；但对于“一词多义”，束手无策，譬如“苹果”(既可以表示苹果手机、电脑，又可以表示水果)，此时我们需要用多个词向量来表示多义词。2.3 卷积神经网络介绍卷积神经网络(convolutional neural network，简记cnn)之前，我们先看下卷积。在一维信号中，卷积的运算，请参考wiki，其中的图示很清楚。在图像处理中，对图像用一个卷积核进行卷积运算，实际上是一个滤波的过程。下面是卷积的数学表示：f(x,y)w(x,y)=s=aat=bbw(s,t)f(xs

41、,yt)f(x,y)是图像上点(x,y)的灰度值，w(x,y)则是卷积核，也叫滤波器。卷积实际上是提供了一个权重模板，这个模板在图像上滑动，并将中心依次与图像中每一个像素对齐，然后对这个模板覆盖的所有像素进行加权，并将结果作为这个卷积核在图像上该点的响应。如下图所示，卷积操作可以用来对图像做边缘检测，锐化，模糊等。图17.卷积操作示例什么是卷积神经网络卷积神经网络是一种特殊的、简化的深层神经网络模型，它的每个卷积层都是由多个卷积滤波器组成。它最先由lecun在LeNet中提出，网络结构如下图所示。在cnn中，图像的一小部分（局部感受区域）作为层级结构的最低层的输入，信息再依次传输到不同的层，每

42、层通过多个卷积滤波器去获得观测数据的最显著的特征。图18.Lenent5网络结构图卷积神经网络中的每一个特征提取层（卷积层）都紧跟着一个用来求局部平均与二次提取的计算层（pooling层），这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。如下图所示，就是一个完整的卷积过程图19.一次完整的卷积过程它的特殊性体现在两点：(1)局部感受野(receptivefield)，cnn的神经元间的连接是非全连接的；(2)同一层中同一个卷积滤波器的权重是共享的（即相同的）。局部感受野和权重共享这两个特点，使cnn网络结构更类似于生物神经网络，降低了网络模型的复杂度，减少了神经网络需要

43、训练的参数的个数。卷积神经网络的一些细节卷积神经网络的一些注意点和问题。激励函数，要选择非线性函数，譬如tang，sigmoid，rectified liner。在CNN里，relu用得比较多，原因在于：(1)简化BP计算；(2)使学习更快。(3)避免饱和问题(saturation issues)Pooling：其作用在于(1)对一些小的形态改变保持不变性，Invariance to small transformations；(2)拥有更大的感受域，Larger receptive fields。pooling的方式有sum or max。Normalization：Equalizes th

44、e features maps。它的作用有：(1) Introduces local competition between features；(2)Also helps to scale activations at each layer better for learning；(3)Empirically, seems to help a bit (12%) on ImageNet训练CNN：back-propagation；stochastic gradient descent；Momentum；Classification loss，cross-entropy；Gpu实现。预处理：Me

45、an removal；Whitening(ZCA)增强泛化能力：Data augmentation；Weight正则化；在网络里加入噪声，包括DropOut，DropConnect，Stochastic pooling。DropOut：只在全连接层使用，随机的将全连接层的某些神经元的输出置为0。DropConnect：也只在全连接层使用，Random binary mask on weightsStochastic Pooling：卷积层使用。Sample location from multinomial。模型不work，怎么办？结合我自身的经验，learning rate初始值设置得太大，

46、开始设置为0.01，以为很小了，但实际上0.001更合适。卷积神经网络在文本上的应用卷积神经网络在image classify和image detect上得到诸多成功的应用，后文将再详细阐述。但除了图片外，它在文本分析上也取得一些成功的应用。基于CNN，可以用来做文本分类，情感分析，本体分类等。传统文本分类等任务，一般基于bag of words或者基于word的特征提取，此类方法一般需要领域知识和人工特征。利用CNN做，方法也类似，但一般都是基于raw text，CNN模型的输入可以是word series，可以是word vector，还可以是单纯的字符。比起传统方法，CNN不需要过多的人

47、工特征。将word series作为输入，利用CNN做文本分类。如下图所示36，该CNN很简单，共分四层，第一层是词向量层，doc中的每个词，都将其映射到词向量空间，假设词向量为k维，则n个词映射后，相当于生成一张n*k维的图像；第二层是卷积层，多个滤波器作用于词向量层，不同滤波器生成不同的feature map；第三层是pooling层，取每个feature map的最大值，这样操作可以处理变长文档，因为第三层输出只依赖于滤波器的个数；第四层是一个全连接的softmax层，输出是每个类目的概率。除此之外，输入层可以有两个channel，其中一个channel采用预先利用word2vec训练好

48、的词向量，另一个channel的词向量可以通过backpropagation在训练过程中调整。这样做的结果是：在目前通用的7个分类评测任务中，有4个取得了state-of-the-art的结果，另外3个表现接近最好水平。图20.基于CNN的文本分类利用cnn做文本分类，还可以考虑到词的顺序。利用传统的”bag-of-words + maxent/svm”方法，是没有考虑词之间的顺序的。文献41中提出两种cnn模型：seq-cnn, bow-cnn，利用这两种cnn模型，均取得state-of-the-art结果。将doc character作为输入，利用CNN做文本分类。介绍了一种方法，不利用word，也不利用word vector，直接将字符系列作为模型输入，这样输入维度大大下降(相比于word)，有利于训练更复杂的卷积网络。对于中文，

展开阅读全文