预训练语言模型

自回归VS自编码（Autoregressive LM VS Autoencoder LM）

自回归模型可类比于早期统计语言模型，根据上文内容预测下一个可能出现的单词，或者反过来根据下文预测前面的单词.GPT 就是典型的自回归语言模型。ELMo把LSTM的两个方向的隐节点状态拼接到一起实现双向语言模型，尽管看上去利用了上文也利用了下文，但是本质上仍然是两个自回归LM的拼接。所以ELMo仍然是自回归语言模型。可参考这篇文章。
自编码模型通常也被称为降噪自编码模型（Denosing Autoencoder）,自编码简单来说就是压缩后再解压的过程，而压缩的过程提取了源数据的主要特征。参考这篇文章。降噪自编码就是在此基础上给源数据上添加一些噪音，从而达到模拟真实数据，增模型强鲁棒性的效果。以Bert为例，Bert通过在输入X中随机Mask掉一部分单词，然后预训练过程的主要任务之一是根据上下文单词来预测这些被Mask掉的单词，那些被Mask掉的单词就是在输入侧加入的所谓噪音。
XLNet模型尝试融合自回归LM和自编码LM两者的优点。就是说如果站在自回归LM的角度，如何引入和双向语言模型等价的效果；如果站在自编码LM的角度看，它本身是融入双向语言模型的，如何抛掉表面的那个[Mask]标记，让预训练和Fine-tuning保持一致。

	自回归	自编码
优点	天然匹配生成类NLP任务	自然地融入双向语言模型
缺点	只能利用上文或者下文的信息，不能同时利用上文和下文的信息，或只能简单拼接	输入侧引入`[Mask]`标记，导致预训练阶段和Fine-tuning阶段不一致的问题；不擅长生成类的NLP任务
代表模型	GPT系列、ELMo	BERT、ERINE、RoBERTa