Title: Semi-supervised Sequence Learning
Authors: Andrew M. Dai, Quoc V. Le from Google Brain
概述
本文将无监督学习训练好的weights/embedded vectors作为下游有监督学习任务的初始值,在下游任务上进行微调就可实现在具有较好泛化性和准确率的结果。
有监督学习经过实验,对比RNN选择LSTM。
无监督学习有两种方法,一是 recurrent language model 循环神经网络语言模型;二是 sequence autoencoder 序列自动编码器。论文中将使用前者的叫做 LM-LSTM,使用后者的叫做SA-LSTM。
Sequence Autoencoder
如图1 作者使用 seq2seq 的结构,区别在于让output部分和input一样。因为这个SA是无监督的,所以可以使用大量无标签数据来提升模型质量。

Recurrent Language Model
该方法就是将SA的encoder部分去除得到的。具体参考以下论文。
Y. Bengio, R. Ducharme, P. Vincent, and C. Jauvin. A neural probabilistic language model. In JMLR, 2003.
T. Mikolov, M. Karafiat, L. Burget, J. Cernock ´ y, and S. Khudanpur. Recurrent neural network based language model. In INTERSPEECH, 2010
实验
作者在5类任务中进行对比实验。实验结果均取得sota的成绩。
具体实验方法和细节待我有需要时补充。列出论文中的5个实验。