主持人:明鉷
参会老师:杨矫云
参会学生:韩朋,景波,江思源,刘杰,唐晨,滕越
本次例会主要学习讨论了文章
Yan Li and Jieping Ye. 2018. Learning Adversarial Networks for Semi-Supervised Text Classification via Policy Gradient. In KDD ’18: The 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.
研究背景:
现在数据量愈来愈多,但大多数据都是无标签的,监督学习要获得带标签数据集往往很难成本也高,而无监督学习用到的无标签数据集往往很容易获取
半监督学习根据一部分带标签的数据来推测无标签数据的标签。近些年来,半监督学习算法也被逐渐开发出来
生成式对抗网络(generative adversarial networks, GAN)就是其一,生成模型和判别模型互相对弈,在图像等连续数据领域取得了不错的成绩,但在非连续数据比如文本分类中表现不好
为了克服这个问题,一些学者提出了差异对抗网络(discriminative adversarial networks, DAN),自我训练(self-training)等方法。但是这些主流方法也存在着不足,比如GAN-based半监督模型要假设数据分布、准确率不高等缺点。
问题与假设:
问题:有没有一种方案能集思广益,综合这些模型的有点避免短板还 能稍微提高分类准确率呢
假设:使用RLANS模型
RLANS: Reinforcement Learning based Adversarial Networks for Semi-supervised learning
方法:
使用类似于生成式对抗网络,其中网络中有预测模型和判别模型。预测模型会对数据集做出分类并使用策略梯度法优化参数,判别模型会根据数据集使用最小交叉熵优化方法优化参数。而本文将使用LSTM网络作为预测模型和判别模型。下面进行具体介绍。
要想使得网络对数据集的预测效果最好,就要使:
取得最大值,其中x为数据样本,y为预测模型对于x的预测值,p(y|x)为预测模型对x做出分类在y类的概率,V(y,x)为这个概率的可信度,可信度定义为:
j(x, y)即为判别模型对样本x的预测结果y与真实样本标签的差异。
预测模型使用的LSTM网络有一层隐藏层,激活函数为ReLu,一层输出层,用softmax函数去确定样本x与预测结果y的概率分布。使用策略梯度反向传播误差,优化网络参数。
判别模型也是使用LSTM网络,有两个隐藏层,第一层同样用ReLu,第二层为sigmoid层,用来判断预测结果的可信度。使用最小化交叉熵反向传播误差,优化网络参数。
实验开始时,先用标签数据集预训练预测模型,再用预测模型预测无标签数据集标签,最后用整个数据集预训练判别模型。
实验:
实验采用四个新闻数据集,它们具体信息为:
实验结果为:
结果分析:
RLANS可以有效处理离散数据,准确率相比现阶段方法有着提升。RLANS模型比较依赖预训练,但结果也是令人满意的。