【例会】Learning Adversarial Networks for Semi-Supervised Text Classification via Policy Gradient

主持人:明鉷

参会老师:杨矫云

参会学生:韩朋,景波,江思源,刘杰,唐晨,滕越

本次例会主要学习讨论了文章

Yan Li and Jieping Ye. 2018. Learning Adversarial Networks for Semi-Supervised Text Classification via Policy Gradient. In KDD ’18: The 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.

研究背景

现在数据量愈来愈多,但大多数据都是无标签的,监督学习要获得带标签数据集往往很难成本也高,而无监督学习用到的无标签数据集往往很容易获取

半监督学习根据一部分带标签的数据来推测无标签数据的标签。近些年来,半监督学习算法也被逐渐开发出来

生成式对抗网络(generative adversarial networks, GAN)就是其一,生成模型和判别模型互相对弈,在图像等连续数据领域取得了不错的成绩,但在非连续数据比如文本分类中表现不好

为了克服这个问题,一些学者提出了差异对抗网络(discriminative adversarial networks, DAN),自我训练(self-training)等方法。但是这些主流方法也存在着不足,比如GAN-based半监督模型要假设数据分布、准确率不高等缺点。

问题与假设

问题:有没有一种方案能集思广益,综合这些模型的有点避免短板还        能稍微提高分类准确率呢

假设:使用RLANS模型

RLANS: Reinforcement Learning based Adversarial Networks for Semi-supervised learning

方法

图片1

 

使用类似于生成式对抗网络,其中网络中有预测模型和判别模型。预测模型会对数据集做出分类并使用策略梯度法优化参数,判别模型会根据数据集使用最小交叉熵优化方法优化参数。而本文将使用LSTM网络作为预测模型和判别模型。下面进行具体介绍。

要想使得网络对数据集的预测效果最好,就要使:

图片1

 

取得最大值,其中x为数据样本,y为预测模型对于x的预测值,p(y|x)为预测模型对x做出分类在y类的概率,V(y,x)为这个概率的可信度,可信度定义为:

图片1

 

j(x, y)即为判别模型对样本x的预测结果y与真实样本标签的差异。

预测模型使用的LSTM网络有一层隐藏层,激活函数为ReLu,一层输出层,用softmax函数去确定样本x与预测结果y的概率分布。使用策略梯度反向传播误差,优化网络参数。

判别模型也是使用LSTM网络,有两个隐藏层,第一层同样用ReLu,第二层为sigmoid层,用来判断预测结果的可信度。使用最小化交叉熵反向传播误差,优化网络参数。

实验开始时,先用标签数据集预训练预测模型,再用预测模型预测无标签数据集标签,最后用整个数据集预训练判别模型。

实验

实验采用四个新闻数据集,它们具体信息为:

图片1

 

实验结果为:

图片1

结果分析:

RLANS可以有效处理离散数据,准确率相比现阶段方法有着提升。RLANS模型比较依赖预训练,但结果也是令人满意的。

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论