预训练语言模型
自回归VS自编码(Autoregressive LM VS Autoencoder LM)
自回归模型可类比于早期统计语言模型,根据上文内容预测下一个可能出现的单词,或者反过来根据下文预测前面的单词.GPT 就是典型的自回归语言模型。ELMo把LSTM的两个方向的隐节点状态拼接到一起实现双向语言模型,尽管看上去利用了上文也利用了下文,但是本质上仍然是两个自回归LM的拼接。所以ELMo仍然是自回归语言模型。可参考这篇文章。
自编码模型通常也被称为降噪自编码模型(Denosing Autoencoder),自编码简单来说就是压缩后再解压的过程,而压缩的过程提取了源数据的主要特征。参考这篇文章。降噪自编码就是在此基础上给源数据上添加一些噪音,从而达到模拟真实数据,增模型强鲁棒性的效果。以Bert为例,Bert通过在输入X中随机Mask掉一部分单词,然后预训练过程的主要任务之一是根据上下文单词来预测这些被Mask掉的单词,那些被Mask掉的单词就是在输入侧加入的所谓噪音。
- XLNet模型尝试融合自回归LM和自编码LM两者的优点。就是说如果站在自回归LM的角度,如何引入和双向语言模型等价的效果;如果站在自编码LM的角度看,它本身是融入双向语言模型的,如何抛掉表面的那个
[Mask]
标记,让预训练和Fine-tuning保持一致。
自回归 | 自编码 | |
---|---|---|
优点 | 天然匹配生成类NLP任务 | 自然地融入双向语言模型 |
缺点 | 只能利用上文或者下文的信息,不能同时利用上文和下文的信息,或只能简单拼接 | 输入侧引入[Mask] 标记,导致预训练阶段和Fine-tuning阶段不一致的问题;不擅长生成类的NLP任务 |
代表模型 | GPT系列、ELMo | BERT、ERINE、RoBERTa |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 yelin!