GAN新手必读：如何将将GAN应用于NLP（论文笔记）.doc

资源描述

《GAN新手必读：如何将将GAN应用于NLP（论文笔记）.doc》由会员分享，可在线阅读，更多相关《GAN新手必读：如何将将GAN应用于NLP（论文笔记）.doc（3页珍藏版）》请在三一文库上搜索。

1、GAN新手必读：如何将将GAN应用于NLP（论文笔记）作者：原始GAN主要应用实数空间（连续型数据）上，在生成离散数据（在生成text时，GAN对整个文本序列进行建模打分。对于部分(partially)生成的序列，十分难判断其在之后生成整个 (fully) 序列时的分数。另一个潜在的挑战涉及RNN的性质（生成文本大多采用RNN模型）。假设我们试图从latent codes生成文本，error就会随着句子的长度成指数级的累积。最开始的几个词可能是相对合理的，但是句子质量会随着句子长度的增加而不断变差。另外，句子的长度是从随机的latent representa论文链接：这是2016年的 NIPS

2、 GAN Workshop 上的一篇论文，尝试将 GAN 理论应用到了文本生成任务上。文中的方法比较简单，具体可以总结为：以递归本文的目标函数和原始GAN有所不同，文中采用了feature matching的方法。迭代优化过程包含以下两个步骤：本文的初始化非常有意思，特别是在判别器的预训练方面，利用原始的句子和该句子中交换两个词的位置后得到的新句子进行判别训练。(在初始化的过程中，运用逐点分类损失函数对判别器进行优化)。这非常有意思，因为将两个单词互换位置，输入的数据信息实际上是基本相同的。比如，大多数卷积计算最终会得出完全相同的值。本文生成器的更新频率是判别器的更新频率的5倍，这与原始

3、GAN的设定恰好相反。这是因为LSTM比CNN的参数更多，更难训练。然而，本文生成模型 (LSTM) decode阶段有exposure bias问题，即在训练过程中逐渐用预测输出替代实际输出作为下一个词的输入。论文链接：https:/论文源码：文本将误差作为一种增强学习的奖励，以一种前馈的方式训练，用增强的学习的探索模式去更新G网络。主要内容：这篇论文将序列生成过程当作一个sequential decision making过程。如下图：实验论文链接：https:/论文源码：这篇论文是2017年1月26号上传到arxiv上的，属于最新的GAN用于NLP的论文。文中主要用对抗性训练 (adve

4、rsarial training) 方法来进行开放式对话生成 (open-domain dialogue generation)。文中把这项任务作为强化学习(RL)问题，联合训练生成器和判别器。和SeqGAN一样，本文也是使用判别器D的结果作为RL的reward部分，这个reward用来奖励生成器G，推动生成器G产生的对话类似人类对话。总体来说，本文的思路和SeqGAN是大体一样的，但是有几处不同和改进的地方：部分实验结果：值得思考的地方：文中只尝试用判别器的结果作为reward, 结合原文作者之前在dialogue system文中提出的其他reward机制(e.g., mutual in

5、formation)会不会提高效果？论文链接：https:/相比前面两篇论文，本文在处理离散数据这个问题上则比较简单暴力。离散数据 (用one-hot方法表示)一般可以从多项式采样取得，例如由softmax函数的输出p = softmax(h)。根据之前的概率分布，以p的概率进行采样y的过程等价于：y=one_hot(argmax_i(h_i+g_i) , 其中g_i是服从Gumbel distribution (with zero location and unit scale)。然而one_hot(argmax(.) 是不可微分的。与原始GAN不同，作者提出了一种方法来近似上面的式子：

6、y = softmax(1/ r (h + g)。这个公式是可以微分的。算法结构如下：本文的实验部分做得比较粗糙，只展示了生成得context-free g总的来说，这篇论文本身方法还值得改进，也可以值得借鉴下。论文链接：https:/https:/arxiv/pdf/1610.01945.pdfhttps:/arxiv/pdf/1610.01945.pdf啊发afaffaActor-critic methods 2: 许多RL方法 (e.g., policy gradient) 只作用于policy 或者 value function。Actor-critic方法则结合了policy-onl

7、y和value function-only 的方法。其中critic用来近似或者估计value function，actor 被称为policy structure, 主要用来选择action。Actor-critic是一个on-policy的学习过程。Critic模型的结果用来帮助提高actor policy的性能。GAN和actor-critic具有许多相似之处。Actor-critic模型中的actor功能类似于GAN中的generator，他们都是用来take an action or generate a sample。Actor-critic模型中的critic则类似于GAN中

8、的discriminator, 主要用来评估 actor or generator 的输出。具体的相同和不同点，感兴趣的朋友可以仔细阅读原文。这篇论文主要贡献在于从不同的角度来说明了GAN和actorcritic模型的相同与不同点，从而鼓励研究GAN的学者和研究actor-critic模型的学者合作研发出通用、稳定、可扩展的算法，或者从各自的研究中获取灵感。最近Bahdanau等大神提出了用actor-critic模型来进行sequence prediction 3。虽然3中并没有用到GAN，或许对各位能有启发。用类似的思想，GAN在sequence prediction上也许也能取得的比较好的效果？1 深度解读：GAN模型及其在2016年度的进展2 Actor-Critic Algorithms3 An actor-critic algorithm for sequence prediction

展开阅读全文