论文阅读:Semi-supervised Sequence Learning


Title: Semi-supervised Sequence Learning

Authors: Andrew M. Dai, Quoc V. Le from Google Brain

概述

本文将无监督学习训练好的weights/embedded vectors作为下游有监督学习任务的初始值,在下游任务上进行微调就可实现在具有较好泛化性和准确率的结果。

有监督学习经过实验,对比RNN选择LSTM。

无监督学习有两种方法,一是 recurrent language model 循环神经网络语言模型;二是 sequence autoencoder 序列自动编码器。论文中将使用前者的叫做 LM-LSTM,使用后者的叫做SA-LSTM。

Sequence Autoencoder

如图1 作者使用 seq2seq 的结构,区别在于让output部分和input一样。因为这个SA是无监督的,所以可以使用大量无标签数据来提升模型质量。

图1

Recurrent Language Model

该方法就是将SA的encoder部分去除得到的。具体参考以下论文。

Y. Bengio, R. Ducharme, P. Vincent, and C. Jauvin. A neural probabilistic language model. In JMLR, 2003.

T. Mikolov, M. Karafiat, L. Burget, J. Cernock ´ y, and S. Khudanpur. Recurrent neural network based language model. In INTERSPEECH, 2010

实验

作者在5类任务中进行对比实验。实验结果均取得sota的成绩。

具体实验方法和细节待我有需要时补充。列出论文中的5个实验。

Sentiment analysis experiments with IMDB

Sentiment analysis experiments with Rotten Tomatoes and the positive effects of additional unlabeled data

Text classification experiments with 20 newsgroups

Character-level document classification experiments with DBpedia

Object classification experiments with CIFAR-10


Author: yangli
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint polocy. If reproduced, please indicate source yangli !
  TOC