编程问答
超越gpt-凯发ag旗舰厅登录网址下载
©作者 | 杜伟、陈萍
来源 | 机器之心
来自 facebook ai 的研究者提出了 normformer,该模型能够更快地达到目标预训练的困惑度,更好地实现预训练困惑度和下游任务性能。
在原始的 transformer 架构中,layernorm 通常在 residual 之后,称之为 post-ln(post-layer normalization)transformer,该模型已经在机器翻译、文本分类等诸多自然语言的任务中表现突出。
最近的研究表明,在 post-ln transformer 中,与较早层的网络相比,在较后层的网络中具有更大的梯度幅度。
实践表明,pre-ln transformer 可以使用更大的学习率、极小的学习率进行预热(即 warm-up),并且与 post-ln transformer 相比通常会产生更好的性能,所以最近大型预训练语言模型倾向于使用 pre-ln transformer。
来自 facebook ai 的研究者表明,虽然 pre-ln 比 post-ln 提高了稳定性,但也具有缺点:较早层的梯度往往大于较后层的梯度。这些问题可以通过该研究提出的 normformer 来缓解,它通过向每一层添加 3 个归一化操作来缓解梯度幅度不匹配问题(见图 1,中间):自注意力之后添加层归一,自注意力输出的 head-wise 扩展,在第一个全连接层之后添加层归一。这些操作减少了早期层的梯度,增加了后期层的梯度,使不同层的梯度大小更接近。
此外,这些额外的操作产生的计算成本可以忽略不计( 0.4% 的参数增加),但这样做可以提高模型预训练困惑度和在下游任务的表现,包括在 1.25 亿参数到 27 亿参数的因果模型和掩码语言模型的性能。例如,该研究在最强的 1.3b 参数基线之上添加 normformer 可以将同等困惑度提高 24%,或者在相同的计算预算下更好地收敛 0.27 倍困惑度。该模型以快 60% 的速度达到了与 gpt3-large (1.3b)零样本相同的性能。对于掩码语言模型,normformer 提高了微调好的 glue 性能,平均提高了 1.9%。
论文地址:https://arxiv.org/pdf/2110.09456.pdf
与计算匹配、微调好的 pre-ln 基线相比,normformer 模型能够更快地达到目标预训练的困惑度,更好地实现预训练困惑度和下游任务性能。
论文一作 sam shleifer 在推特上表示:很高兴发布 normformer,这是我们新的语言建模架构,在实验过的每个扩展(高达 2.7b 参数)上都优于 gpt-3。
来自魁北克蒙特利尔学习算法研究所的机器学习研究者 ethan caballero 表示:「更多的归一化 is all you need,在 gpt-3 架构中使用 normformer 达到了 sota 性能, 速度提高了 22%,并在下游任务中获得了更强的零样本性能。」
方法架构
normformer 对 pre-ln transformer 做了三处修改:在注意力模块内部应用 head-wise 缩放,并添加两个额外的 layernorm 操作(一个放在注意力模块后面,另一个放在首个全连接层后面)。这些修改引入了少量额外的可学得参数,使得每个层都能以经济高效的方式改变特征大小,进而改变后续组件的梯度大小。这些变化的细节如下图 1 所示:
缩放注意力头。标准多头注意力操作定义如下:
研究者提出通过学得的标量系数γ_i 缩放每个注意力头的输出:
额外层归一化以及将所有组件放在一起。在 pre-ln transformer 中,每个层 l 将输入 x_l 做出如下修改:
相反,normformer 将每个输入 x_l 修改如下:
其中,新引入了 bolded operations。
实验结果
对于因果语言模型(casual language model),研究者预训练的 clm 模型分别为 small(1.25 亿参数)、medium(3.55 亿参数)、large(13 亿参数)和 xl(27 亿参数)。
他们训练了 3000 亿个 token 的基线模型,并用等量的 gpu 小时数训练 normformer 模型,由于归一化操作的额外开销,后者通常会减少 2%-6% 的 steps 和 tokens。
在使用的数据集上,研究者发现 gpt-3 中提出的学习率不是最理想的。因此,对于除了 27 亿参数之外的每个大小的基线和 normformer 模型,他们通过训练 5 万 steps 的模型并从 {1e−4, 6e−4, 3e−4, 6e−4, 1e−3, 3e−3} 中选择性能最佳的学习率来对学习率进行调整。这一过程中获得的学习率如下表 1 所示,normformer 的学习率是 gpt-3 的 3-5 倍。
对于掩码语言模型(masked language model, mlm),研究者采用了 liu et al. (2019)中使用的 roberta-base、pre-ln 架构和超参数。对于基线模型,他们对 100 万个 token 预训练了 200 万个 batch,是原始 roberta-base 训练预算的 1/4。相较之下,normformer 在相同时间内运行了 192 万个 batch。
对于预训练数据,研究者在包含 cc100 英语语料库以及由 bookcorpus、英文维基百科和 common crawl 过滤子集组成的 liu et al. (2019)的数据英语文本集合上对所有模型进行预训练。
在下图 2 中,研究者将 clm 和 mlm 的预训练困惑度表示训练时间,即 gpu days。可以看到,normformer 的训练速度明显更快,并且在给定训练计算预算下实现了更好的验证困惑度。
研究者在下游任务上也观察到了类似的趋势。如下表 2 所示,研究者使用 brown et al. (2020)中的任务和 prompt 来观察 clm 模型的零样本准确率。同样地,normformer 在所有大小上均优于 gpt-3。
对于 mlm 模型,研究者在下表 3 中报告了在 glue 上的微调准确率。再次,normformer mlm 模型在每个任务上都优于它们的 pre-ln 模型。
为了度量架构的稳定性,研究者使用具有极大峰值学习率的学习率计划对其进行训练,使得学习率每个 step 增加一点,直到损失爆炸。图 5 显示了与基线相比,normformer 模型在此环境中可以承受更多的更新。
特别鸣谢
感谢 tcci 天桥脑科学研究院对于 paperweekly 的支持。tcci 关注大脑探知、大脑功能和大脑健康。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。paperweekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
paperweekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无凯发ag旗舰厅登录网址下载的版权问题
• paperweekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时凯发ag旗舰厅登录网址下载的联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加paperweekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎凯发ag旗舰厅登录网址下载首页搜索「paperweekly」
点击「关注」订阅我们的专栏吧
·
与50位技术专家面对面20年技术见证,附赠技术全景图总结
以上是凯发ag旗舰厅登录网址下载为你收集整理的超越gpt-3!normformer:归一化提高预训练、缓解梯度不匹配的全部内容,希望文章能够帮你解决所遇到的问题。
如果觉得凯发ag旗舰厅登录网址下载网站内容还不错,欢迎将凯发ag旗舰厅登录网址下载推荐给好友。
- 上一篇:
- 下一篇: