谷歌：大模型不仅有涌现能力，训练时间长了还有「领悟」能力

2023-08-18 03:40:19 来源：手机网易网

机器之心报道

(资料图片仅供参考)

编辑：陈萍、小舟、梓文

2021 年，研究人员在训练一系列微型模型时取得了一个惊人的发现，即模型经过长时间的训练后，会有一个变化，从开始只会「记忆训练数据」，转变为对没见过的数据也表现出很强的泛化能力。

这种现象被称为「领悟（grokking）」，如下图所示，模型在长时间拟合训练数据后，「领悟」现象会突然出现。

既然微型模型有这种特性，那么更复杂一点的模型在经过更长时间的训练后，是否也会突然出现「领悟」现象？最近大型语言模型（LLM）发展迅猛，它们看起来对世界有着丰富的理解力，很多人认为 LLM 只是在重复所记忆的训练内容，这一说法正确性如何，我们该如何判断 LLM 是输出记忆内容，还是对输入数据进行了很好的泛化？

为了更好的了解这一问题，本文来自谷歌的研究者撰写了一篇博客，试图弄清楚大模型突然出现「领悟」现象的真正原因。

本文先从微型模型的训练动态开始，他们设计了一个具有 24 个神经元的单层 MLP，训练它们学会做模加法（modular addition）任务，我们只需知道这个任务的输出是周期性的，其形式为 (a + b) mod n。

MLP 模型权重如下图所示，研究发现模型的权重最初非常嘈杂，但随着时间的增加，开始表现出周期性。

如果将单个神经元的权重可视化，这种周期性变化更加明显：

别小看周期性，权重的周期性表明该模型正在学习某种数学结构，这也是模型从记忆数据转变为具有泛化能力的关键。很多人对这一转变感到迷惑，为什么模型会从记忆数据模式转变为泛化数据模式。

用 01 序列进行实验

为了判断模型是在泛化还是记忆，该研究训练模型预测 30 个 1 和 0 随机序列的前三位数字中是否有奇数个 1。例如000110010110001010111001001011 为 0，而010110010110001010111001001011 为 1。这基本就是一个稍微棘手的 XOR 运算问题，带有一些干扰噪声。如果模型在泛化，那么应该只使用序列的前三位数字；而如果模型正在记忆训练数据，那么它还会使用后续数字。

该研究使用的模型是一个单层 MLP，在 1200 个序列的固定批上进行训练。起初，只有训练准确率有所提高，即模型会记住训练数据。与模运算一样，测试准确率本质上是随机的，随着模型学会通用解决方案而急剧上升。

通过 01 序列问题这个简单的示例，我们可以更容易地理解为什么会发生这种情况。原因就是模型在训练期间会做两件事：最小化损失和权重衰减。在模型泛化之前，训练损失实际上会略有增加，因为它交换了与输出正确标签相关的损失，以获得较低的权重。

测试损失的急剧下降使得模型看起来像是突然泛化，但如果查看模型在训练过程中的权重，大多数模型都会在两个解之间平滑地插值。当与后续分散注意力的数字相连的最后一个权重通过权重衰减被修剪时，快速泛化就会发生。

「领悟」现象是什么时候发生的？

值得注意的是，「领悟（grokking）」是一种偶然现象 —— 如果模型大小、权重衰减、数据大小和其他超参数不合适，「领悟」现象就会消失。如果权重衰减太少，模型就会对训练数据过渡拟合。如果权重衰减过多，模型将无法学到任何东西。

下面，该研究使用不同的超参数针对 1 和 0 任务训练了 1000 多个模型。训练过程充满噪音，因此针对每组超参数训练了九个模型。表明只有两类模型出现「领悟」现象，蓝色和黄色。

具有五个神经元的模块化加法

模加法 a+b mod 67 是周期性的，如果总和超过 67，则答案会产生环绕现象，可以用一个圆来表示。为了简化问题，该研究构建了一个嵌入矩阵，使用 cos⁡ 和 sin⁡ 将 a 和 b 放置在圆上，表示为如下形式。

结果表明，模型仅用 5 个神经元就可以完美准确地找到解决方案：

观察经过训练的参数，研究团队发现所有神经元都收敛到大致相等的范数。如果直接绘制它们的 cos⁡ 和 sin⁡ 分量，它们基本上均匀分布在一个圆上。

接下来是

，它是从头开始训练的，没有内置周期性，这个模型有很多不同的频率。

该研究使用离散傅立叶变换 (DFT) 分离出频率。就像在 1 和 0 任务中一样，只有几个权重起到关键作用：

下图表明，在不同的频率，模型也能实现「领悟」：

开放问题

现在，虽然我们对单层 MLP 解决模加法的机制及其在训练过程中出现的原因有了扎实的了解，但在记忆和泛化方面仍有许多有趣的开放性问题。

哪种模型的约束效果更好呢？

从广义上讲，权重衰减的确可以引导各种模型避免记忆训练数据。其他有助于避免过拟合的技术包括 dropout、缩小模型，甚至数值不稳定的优化算法。这些方法以复杂的非线性方式相互作用，因此很难先验地预测哪种方法最终会诱导泛化。

此外，不同的超参数也会使改进不那么突然。

为什么记忆比泛化更容易？

有一种理论认为：记忆训练集的方法可能比泛化解法多得多。因此，从统计学上讲，记忆应该更有可能首先发生，尤其是在没有正则化或正则化很少的情况中。正则化技术（如权重衰减）会优先考虑某些解决方案，例如，优先考虑「稀疏」解决方案，而不是「密集」解决方案。

研究表明，泛化与结构良好的表征有关。然而，这不是必要条件；在求解模加法时，一些没有对称输入的 MLP 变体学习到的「循环」表征较少。研究团队还发现，结构良好的表征并不是泛化的充分条件。这个小模型（训练时没有权重衰减）开始泛化，然后转为使用周期性嵌入的记忆。

在下图中可以看到，如果没有权重衰减，记忆模型可以学习更大的权重来减少损失。

甚至可以找到模型开始泛化的超参数，然后切换到记忆，然后切换回泛化。

较大的模型呢？

理解模加法的解决方案并非易事。我们有希望理解更大的模型吗？在这条路上可能需要：

1) 训练更简单的模型，具有更多的归纳偏差和更少的运动部件。

2) 使用它们来解释更大模型如何工作的费解部分。

3) 按需重复。

研究团队相信，这可能是一种更好地有效理解大型模型的的方法，此外，随着时间的推移，这种机制化的可解释性方法可能有助于识别模式，从而使神经网络所学算法的揭示变得容易甚至自动化。

谷歌：大模型不仅有涌现能力，训练时间长了还有「领悟」能力

谷歌：大模型不仅有涌现能力，训练时间长了还有「领悟」能力

机器之心报道编辑：陈萍、小舟、梓文模型在达到一定规模时会出现涌现现

心里美滋滋的作文600字初中（心里美滋滋的作文600字）

导读1、满分作文上海市一考生说来你可能不信，我有个不寻常的爱好——

王文涛部长出席阿联酋企业圆桌会

王文涛部长出席阿联酋企业圆桌会,迪拜,王文涛,阿联酋,圆桌会,国家石油

实拍试驾博越COOL，优惠8000元，顶配车型够卷！

吉利家族的博越(图片|配置|询价)一直是中流砥柱，相信很多人并不陌生，

阿联酋ADNOC Gas与日本石油勘探公司签署LNG供应协议，价值可达5.5亿美元

路透社8月17日消息，阿布扎比国家石油公司天然气子公司ADNOCGas周四宣

发展与未来”暑期夏令营活动隆重开营

（聊城新闻传媒中心全媒体记者潘秀梅王承功）为了进一步提升聊城市孤困

同城增长超四成 前7个月韩国汽车出口额达416亿美元

8月17日，韩国产业通商资源部发布数据显示，今年前7个月，韩国汽车出口

维科技术（600152）8月17日主力资金净买入1695.69万元

截至2023年8月17日收盘，维科技术(600152)报收于8 0元，上涨5 96%，换

法人申请破产后应如何处置债务

法人申请破产后，处置债务的方法是以破产财产依次偿还破产费用、共益债

《博德之门3》贫血解除方式介绍

《博德之门3》贫血解除方式介绍攻略带给大家，这款游戏的人气还是非常

美国游客回顾夏威夷毛伊岛大火逃生经历：像是路过核爆原点

美国游客回顾夏威夷毛伊岛大火逃生经历：像是路过核爆原点夏威夷毛伊岛

化学制品板块8月16日跌0.95%，昊华科技领跌，主力资金净流出2.72亿元

8月16日化学制品板块较上一交易日下跌0 95%，昊华科技领跌。当日上证指

光遇蜡像馆一个人怎么进 光遇蜡像馆两个人怎么去

首先一个人是可以进入千岛城的。玩家在霞谷地图的最后，如果光翼比较多

杂图(31)

本期主题：M6图不是很多，但真的不是我懒，最近M6的图真的比之前少了很

airpods使用方法和技巧（airpods后面的按钮是干嘛的）

1、airpods后面按键就是配对键，主要功能是用来重置airpods或者连接非

德化县县长方俊钦调研城市更新工作

8月15日，德化县县长方俊钦调研城市更新工作并召开座谈会。座谈会上，

斗罗：萧萧的三生镇魂鼎防御一流，大力金刚拳都能直接拦下

霍雨浩和王冬一起破了蓝素素、蓝洛洛的武魂融合技，很了不起，但是萧萧

海王生物：拟不超1.5亿元投资设立全资医疗器械平台公司

海王生物公告，公司拟以自有资金不超过1 5亿元投资设立全资子公司海王

安徽六安梅山水库，这里的人工湖风光秀美，俯览如同江南风情画

依水而生，逐水而居是人们的自然本性。到了夏季酷暑时节，人们对水的喜

演艺界为何是性骚扰重灾区？从凯文·史派西性骚扰案判决谈起

当地时间7月26日，伦敦南沃克皇家法庭宣判针对《纸牌屋》男星凯文·史

杭州萧山辟谣“转运珠式卖淫”

据@萧山发布消息，近日，关于“转运珠式卖淫”、“杭州有一条产业链”

第12届中国西部（兰州）国际汽车博览会开幕

第12届中国西部（兰州）国际汽车博览会开幕

创变之路：消除泡沫助力电商平台繁荣成长

在电子商务领域，为了促进用户购物和推广裂变团队，不可避免地会采用一

小摩看好美国房地产概念股潜力 给予AppFolio (APPF.US)“增持”评级

摩根大通给予AppFolio(APPF US)“增持”评级，目标价为200美元。该行分

米生虫用什么方法治 米生米虫怎么处理

1、若米已经长虫了,可用新鲜的生姜放在米中,把虫子驱赶出来 另外,在晴

聚焦消费提振年丨暑期文化市场持续升温 激发消费新活力

暑期以来，国内商业演出市场持续升温，题材类型丰富的优质影片连连上映

因油价上涨，8月18日起杭州市区出租车将收取1元燃油附加费

央视网消息：据“杭州交通”微信公众号消息，近期，由于国内成品油价格

身体缺乏维生素已发出警告 ·1.抽筋：补充维生素D，立刻缓解疼痛

身体缺乏维生素已发出警告。·1 抽筋：补充维生素D，立刻缓解疼痛。

博德之门3去除脑虫怎么做 去除脑虫完成方法

博德之门3去除脑虫怎么做?不少玩家可能还不太清楚这里如何完成，下面带

汽车音响改装预算（汽车音响改装价格）

1、改装汽车音响，除了价格，还需要明白的是你平时喜欢听什么音乐，人

2023年最新昆明灵活就业人员社保缴费多少钱一个月

目前灵活就业人员缴纳社保的方式主要有两种，即职工社保与居民社保。总

夏威夷野火善后中的广东力量：有机构表示慰问，侨胞做志愿者

狂风呼啸，火海茫茫。大火疯狂吞噬着毛伊岛上的建筑和树木，著名古镇拉

开开实业8月17日快速上涨

以下是开开实业在北京时间8月17日09:30分盘口异动快照：8月17日，开开

《原神》白露与黑潮的序诗任务流程详解

原神4 0枫丹魔神任务白露与黑潮的序诗怎么做呢？下面小编给大家带来

“东莞一香港国际空港中心宣传推介活动”今日举办

东莞—香港国际空港中心项目自4月18日正式投入运作以来，截至8月14日，

城园互融 文化共享

到成都街头走走看看，城中有园，城园互融，我们常在下一个转角与艺术不

一粒小莲子亿元大产业 江西广昌以“莲”铺就乡村致富路

江西省抚州市广昌县是远近闻名的“中国白莲之乡”，种莲历史长达130

嘉祥县大张楼镇对主要道路两侧树木进行修剪整形

大张楼镇工作人员对主要道路两侧树木进行修剪整形大众网见习记者王冉冉

宁夏检察机关依法对马冬决定逮捕

石嘴山市国防动员办公室原党组副书记、副主任马冬（正处级）涉嫌受贿罪

中国人民银行增加支农支小再贷款额度350亿元 支持做好抗灾救灾及灾后重建金融服务工作

同城增长超四成前7个月韩国汽车出口额达416亿美元

光遇蜡像馆一个人怎么进光遇蜡像馆两个人怎么去

小摩看好美国房地产概念股潜力给予AppFolio (APPF.US)“增持”评级

米生虫用什么方法治米生米虫怎么处理

1、若米已经长虫了,可用新鲜的生姜放在米中,把虫子驱赶出来另外,在晴

聚焦消费提振年丨暑期文化市场持续升温激发消费新活力

博德之门3去除脑虫怎么做去除脑虫完成方法

城园互融文化共享

一粒小莲子亿元大产业江西广昌以“莲”铺就乡村致富路

中国人民银行增加支农支小再贷款额度350亿元支持做好抗灾救灾及灾后重建金融服务工作

中国法院网讯　因一时利欲熏心，李某将他人游戏账户内的装备转到自己账

[本站资讯]5月30日，我们从京西门头沟北京日报官方微信公众号处了解到

1、二：地下水　　地下水是深基础施工中最常见的问题，它给人工挖孔桩

瑞穗：看好雪佛龙(CVX.US)等产油强劲公司对炼油股不乐观

恒大汽车获中东资本5亿美元战略投资但设有先决条件

携带逾3378标箱外贸货物航运“带货王”首航厦门港

健民集团：上半年归母净利润2.52亿元同比增长34.14% 龙牡壮骨颗粒等主导产品收入增长

澳门位居内地居民出境旅游目的地首位占比超五成