nlp理解六层次图,nlp理解层次模型

大多数现代NLP系统都遵循非常标准的方法来训练各种用例的新模型。 也就是说,训练后进行微调。 其中,预处理训练的目标是利用大量未标注的文本,在微调机器翻译、文本摘要等特定自然语言处理任务之前,建立通用的语言理解模型。

本文介绍了两种常见的预训练方案:掩蔽语言建模(MLM )和因果语言建模(CLM )。

掩码语言模型解释掩码语言建模通常对给定语句中特定百分比的单词进行掩码。 模型期望根据该文中的其他单词预测这些被屏蔽的单词。 通过这样的训练方案,该模型本质上是双向的。 因为掩蔽语的表示是根据出现词学习的,无论是左还是右。 也可以认为是填补式的问句。

下图显示了更详细的视图和损耗计算步骤-

这里,被屏蔽的词语的表示可以是基于注意力的,如BERT或其他变体。 可以根据(注意权重)的分布,比较表示其他输入的单词,学习表示被隐藏的单词。 例如,-=1同等重视,隐藏周围的单词(也就是说,隐藏每个单词平等的贡献表示)。

因果语言模型说明因果语言模型。 在这里,我们考虑预测给定句子的覆盖标记,但是与MLM不同,这个模型只考虑其左边出现的单词来做同样的事情(理想情况下,这个可以是左边也可以是右边,想法是把那个作为一个方向)。 这样的培训方案在本质上使这种模式成为单向的

如下图所示,预计该模型根据出现在左侧的单词来预测出现在句子中的蒙版标记。 基于对模型实际标签的预测,计算并反向传播交叉熵损失以训练模型参数。

下图显示了更详细的视图和损耗计算步骤-

这里,被屏蔽的单词的表示可以像GPT和变型一样基于注意力,也可以不设计成在LSTM中使用一样。 可以根据的分布(参见图)与表示输入的其他单词进行比较,学习表示被屏蔽的单词。 例如,-=1被同等重视,周围的单词(也就是说,每个单词对被屏蔽有平等的贡献)。

这些系统也称为解码模型。 这是因为在机器翻译、文本摘要等典型的编码器解码器架构中,解码器(文本生成器)的工作原理相似。

什么时候用? 当目标为学习输入文件的良好表示时,MLM损失优先,当希望学习产生流畅文本的系统时,CLM优先。 另外,从直觉上来说,这是有道理的。 因为当你学习每个单词合适的输入表达时,你想知道这个单词是左还是右。 另外,因为当你想学习生成文本的系统时,你想知道什么是你至今为止看到的,所有的内容是否都被生成了。 因此,制作在生成文本的同时也能窥视到另一方的系统,有可能会引入限制模型创造性的偏差。

在培训具有编码器和解码器的整个体系结构时,MLM和CLM的损失很常见。 这两者都有其优势和局限性,一个称为XLNet的新模型使用替换技术,同时利用了MLM和CLM的优势。

作者: Prakhar Mishra

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注