人类智能正在迎来第六次突破

图源:Unsplash / Steve Johnson

去年,27岁的前OpenAI研究员姚顺雨出任腾讯“CEO/总裁办公室”首席AI科学家。在接受一档访谈时,姚顺雨向大家推荐了麦克斯·班尼特(Max Bennett)的《智能简史》。并且分享了书中提到的一个科学问题,“为什么大多数动物都是左右两侧对称,并且有一个像嘴一样的食物入口,有一个像肛门一样的食物出口?为什么气体是同一个口,而食物和水是两个口”?

这个问题表面上与智能无关,但在作者麦克斯·班尼特看来,它正是智能演化的起点。围绕这一问题,作者用五次关键突破串联起生物智能、人类智能乃至人工智能的发展脉络。

第一次突破是转向:两侧对称的身体,让导航变成了简单地向左或者向右。外界刺激则被简单划分为有利和有害,最终汇总为单一的行动方向。多巴胺、血清素神经调质让这种价值状态得以持续和调节,快乐、痛苦、满足与压力这些情绪,其实最早不过是服务于这一简单的需求。

第二次突破是强化:脊椎动物能够进行试错学习。这种无模型强化学习,使动物能够从缺失中学习,形成时间感、好奇、恐惧、兴奋、失望与宽慰等一整套围绕预期与结果展开的心理机制。

第三次突破是模拟:新皮质的出现,让生物能够做到在真正行动前先进行想象中的尝试,从而实现规划与反事实思考。

第四次突破是心智化:灵长类能够在内部建构自己与他人的心理状态模型,据此理解意图、预测行为,并通过观察学习。

第五次突破是语言:在能够理解自己与他人心理状态的基础上,人类用命名和语法把这些心理内容固定为共享的符号,使思想不仅可以被理解,还可以被传递、累积和跨代扩展。

智能并非一蹴而就,而是一次次结构性突破的叠加。从转向到强化,再到模拟、心智化和语言,每一步都在塑造理解世界和行动的方式。这本书提醒着身处大模型时代的我们——理解智能的去向,往往需要先看清它从何处出发。

01

理解人的智能,答案并不在当下

在漫长的人工智能发展之路上,我们一直很难判断距离创造人类级智能还有多远。在20世纪60年代,问题求解算法取得初步成功之后,人工智能先驱马文·明斯基(Marvin Minsky)曾发表著名的预言:“3~8年内,我们将拥有一台具有人类平均智力的机器。”

然而,这并没有发生。在20世纪80年代专家系统取得成功后,《商业周刊》宣称“人工智能来了”,但随后进展却停滞了。现在随着大语言模型的进步,许多研究人员再次宣称“游戏结束了”,因为我们“即将实现人类级人工智能”。

在这个过程中,随着人工智能变得越来越聪明,我们越来越难以评估我们在实现这一目标方面的进展。

如果一个人工智能系统在某项任务上的表现超过人类,这是否意味着这个系统已经掌握了人类解决该任务的方式?计算器能够比人类更快地处理数字,但它真的理解数学吗?ChatGPT在律师职业资格考试中的成绩比大多数律师都要好,但它真的理解法律吗?我们如何区分这些差异,在什么情况下,这些差异是有意义的呢?

人工智能和人类智能之间的差异令人困惑不已。为什么人工智能可以在国际象棋比赛中击败地球上的任何人,但把碟子装进洗碗机的能力却比不上一个6岁的孩子?

我们难以回答这些问题,是因为我们还不了解我们正在试图重新构造的东西。从本质上讲,所有这些问题都不是关于人工智能的,而是关于人类智能的本质——它是如何工作的,它为什么这样工作,它是如何形成的。

数千年来,科学家一直在研究大脑是如何工作的,虽然取得了一些进展,但仍然没有令人满意的答案。问题在于其复杂性,这使得通过逆向工程破解大脑的工作原理变得非常困难。如果我们想要利用逆向工程揭示大脑的工作原理,如果我们想要揭开人类智能的隐藏本质,或许人类大脑并不是大自然给出的最佳线索。

尽管最直观的了解人类大脑的方式是观察人类大脑本身,但反直觉的是,这可能应该是最后研究的地方。而最佳的起点可能在地壳深处布满尘土的化石中,在藏匿于动物细胞内部的微观基因中,以及在我们星球上众多其他动物的大脑中。

换句话说,答案可能不在当下,而是在远古的隐藏遗迹中。

当研究其他动物的大脑时,最令人震惊的是,它们的大脑与我们的大脑有着惊人的相似之处。除了大小,我们的大脑和黑猩猩的大脑几乎没有什么区别。我们的大脑和大鼠的大脑之间的差异也只是少数大脑结构的差异。鱼类的大脑几乎拥有与我们的大脑相同的全部结构。

动物界中大脑的相似性具有重要的意义,因为它们是线索,是关于智能的本质、关于我们自身和我们过去的线索。

尽管如今的大脑很复杂,但它们并非一直如此。在进化过程中,系统起初很简单,随着时间的推移才逐渐变得复杂。大脑最早出现在6亿年前,当时拥有这个大脑的是一种大小如米粒的蠕虫。这种蠕虫是所有现代拥有大脑的动物的祖先。

经过数亿年的进化调整,和对无数神经环路的细微调整,它的简单大脑逐渐进化成现代多样化的大脑。这种古老蠕虫后代中的一个分支,最终演化出了我们的大脑。

每一个动物的大脑都是我们重构祖先大脑的一点线索。通过研究这些动物共有的智力成就以及它们不具备的能力,我们不仅可以开始重构我们祖先的大脑,还可以确定这些古老的大脑赋予了他们哪些智力。

物理学家理查德·费曼在他行将去世时曾在黑板上留下了这样一句话:“我不能创造的东西,我就无法理解它。”我们需要一个新的关于大脑的进化故事,这个故事不仅要基于现代对大脑解剖结构与时俱进的理解,还要基于现代对智能本身的理解。

作为这个故事的初步概述,人类大脑的整个进化过程可以合理地概括为仅仅五次突破的集大成,从最初的大脑一直发展到人类大脑。

02

第一次突破

第一次突破是转向:通过区分外界刺激的好坏,从而趋利避害地进行导航。大约6亿年前,原本具有径向对称神经元的类珊瑚动物逐渐演化成两侧对称动物。这种两侧对称的身体结构将导航决策简化为二元的转向选择,神经网络被整合成第一个大脑,使具有相反效价的信号能够被整合成单一的转向决策。

多巴胺和血清素等神经调质使持续的状态能够更有效地重新定位并局部搜索特定区域。联想学习使这些古老蠕虫能够调整各种刺激的相对效价。在这个最早的大脑中出现了动物的早期情感模板:快乐、痛苦、满足和压力。

乍一看,动物界的多样性似乎令人惊叹。但如果你进一步思考,会很容易地得出这样的结论:动物界的惊人之处在于其多样性如此贫瘠。地球上几乎所有动物都有相同的身体结构。它们都有一个前端,包括嘴巴、大脑和主要的感觉器官(如眼睛和耳朵),它们都有一个后端用于排泄废物。

进化生物学家将具有这种身体结构的动物称为“两侧对称动物”。第一批动物被认为是径向对称的,然而,现今的大多数动物物种却是两侧对称的。

对珊瑚等采用等待食物策略的生物来说,径向对称的身体结构相当便利;但对采用主动寻找食物的捕食策略的生物来说,这却非常糟糕。如果径向对称的生物需要移动,它们就需要有感觉机制来检测所有方向的食物位置,并且需要有一种机制能够向任意方向移动。

相比之下,两侧对称的身体结构则让移动变得简单得多。它们不需要一个能够朝任意方向移动的运动系统,只需要决定是向右还是向左调整。

两侧对称动物是唯一拥有大脑的动物。这并不是巧合。第一个大脑和两侧对称动物的身体共享了相同的初始进化目的:它们使动物能够通过转向进行导航。转向便是第一次突破。

现代线虫被认为自早期两侧对称动物以来一直保持相对不变。这些生物为我们提供了了解我们线虫祖先内部机制的窗口。

转向的突破需要两侧对称动物将世界分为要接近的事物(“好的事物”)和要避免的事物(“坏的事物”)。

线虫头部周围有感觉神经元,其中一些对光有反应,一些对摸有反应,还有一些对特定的化学物质有反应。为了进行转向,早期的两侧对称动物需要对它们检测到的每一种气味、触感或其他刺激做出选择:我是接近这个东西,避开这个东西,还是忽略这个东西?

当动物将刺激物分为好的和坏的时,心理学家和神经科学家称它们正在给刺激物赋予效价(valence)。效价并不涉及道德判断,它是一种更为原始的概念:动物是否会对刺激物做出接近或避开的反应。

如果一组感觉神经元实际上是正效价神经元,那么线虫认为好的事物(如食物的气味)会直接激活它们。反之,如果一组感觉神经元实际上是负效价神经元,那么线虫认为坏的事物(如高温、捕食者的气味、强光)会直接激活它们。

转向至少需要四样东西:用于转弯的两侧对称身体结构、用于检测和将刺激归类为好或坏的效价神经元、用于将输入整合为单个转向决策的大脑,以及根据内部状态调节效价的能力。但即便如此,进化仍在不断进行微调。在早期的两侧对称动物大脑中出现了另一种技巧,这种技巧进一步提高了转向的有效性。这就是我们现在所说的情感的维形。

线虫的脑部通过使用被称为“神经调质”的化学物质来产生这些情感状态,其中最著名的两种神经调质是多巴胺和血清素。许多精神疾病,包括抑郁症、强迫症、焦虑症、创伤后应激障碍和精神分裂症等,都被认为至少部分是由神经调质失衡引起的。

线虫简单的大脑为我们提供了了解多巴胺和血清素最早或至少是非常早期功能的窗口。当线虫检测到周围有食物时,就会释放多巴胺;而当食物被检测到在虫体内部时,线虫会释放血清素。

尽管这些情感状态在两侧对称动物中普遍存在,但我们那些更远房的动物亲戚,如海葵、珊瑚和水母,并不表现出这样的状态,其中许多动物甚至根本没有血清素神经元。

这使我们面临一个令人惊讶的假设:情感,尽管在现代有着丰富的色彩,但它在5.5亿年前在早期两侧对称动物中进化出来,其初衷不过是转向而已。

情感的基本模板似乎源于转向的两个基本问题。第一个问题是唤醒问题:我是否愿意消耗能量来移动?第二个问题是效价问题:我是愿意待在这个地方,还是离开这个地方?释放特定的神经调质会强制针对每个问题给出特定的答案。

03

第二次突破

第二次突破是强化学习:通过学习来重复历史上带来正面价值的行为,并抑制带来负面价值的行为。在人工智能领域,这可以被视为无模型强化学习的突破。大约5亿年前,一个古老的两侧对称动物的分支逐渐进化出了脊椎、眼睛、鳃和心脏,成为最早的脊椎动物,它们与现代鱼类最为相似。它们的大脑也逐渐形成了所有现代脊椎动物大脑的原型:大脑皮质负责识别模式和构建空间地图,基底神经节则进行试错学习。这两个结构都建立在下丘脑中更古老的效价机制遗迹之上。这种无模型强化学习带来了一系列熟悉的智力和情感特征:从缺失中学习、时间感知、好奇心、恐惧、兴奋、失望和宽慰。

寒武纪大爆发的高温造就了脊椎动物的大脑模板,这一模板至今仍被这些早期鱼类生物的所有后代共享。

鱼类利用试错方法学习任意动作序列的能力,已被多次发现。鱼可以学会找到并按下特定按钮来获取食物,可以学会游过一个小逃生口来避免被网抓住,甚至可以学会跃过铁环来获取食物。鱼在被训练后几个月甚至几年内都能记住如何完成这些任务。

试错学习通常有另一个名字:强化学习。只有当科学家试图让人工智能系统通过强化学习时,他们才意识到这并不简单。通过直接强化正面结果和惩罚负面结果来训练算法,是行不通的。

假设我们教人工智能下跳棋。在跳棋比赛中,强化和惩罚(输赢结果)只会在游戏结束时发生,而一局游戏可能包含数百步棋。如果你赢了,哪一步棋应该被认为是好的?如果你输了,哪一步棋应该被认为是坏的?如果没有合理的跨时间分配贡献度的策略,强化学习将不起作用,这被称为“时序贡献度分配问题”。

1984年,一个名叫理查德·萨顿(RichardSutton)的学生提交了他的博士论文。萨顿有一种预感:期望是之前强化学习尝试中缺失的关键要素。

萨顿提出了一个简单但激进的想法:与其使用实际的奖励来强化行为,不如使用预期的奖励来强化行为?换句话说,在人工智能系统认为自已快要赢的时候给予奖励,而不是在它实际赢了之后才给予奖励,又会怎样呢?

萨顿将强化学习分解为两个独立的组成部分:“行动者”(actor)和“评判者”(critic)。评判者在游戏过程中的每一刻都预测获胜的可能性:它预测哪些棋盘布局是好的,哪些是坏的。而行动者则负责选择采取什么行动,并且不是在游戏结束时获得奖励,而是在评判者认为行动者的行动增加了获胜可能性时获得奖励。行动者所学习的信号并不是奖励本身,而是从某一时刻到下一时刻预测奖励的时序差异。因此,萨顿将自己的方法命名为“时序差分学习”。

想象一下你正在下跳棋。在前9步中,你和对手一直势均力敌。然后在第10步时,你采取了一些巧妙的策略,扭转了游戏的局面。突然之间,你意识到自己比对手占据了更有利的位置。就是在这一刻,时序差分学习信号强化了你的棋步。

时序差分学习是否只是一种碰巧有效的巧妙技术,还是它捕捉到了智能本质中具体的基本要素?虽然萨顿希望他的想法与大脑之间存在联系,却是他的一名同事彼得·达扬(PeterDayan)证明了这一点。

任何试图理解强化学习如何在脊椎动物大脑中工作的尝试,都始于我们已经知道的一种神经调质:多巴胺。

一位名叫沃尔夫拉姆·舒尔茨(WolframSchultz)的科学家,曾设计了一个简单的实验来探究多巴胺与强化之间的关系。舒尔茨向猴子展示不同的提示(如几何形状的图片),几秒钟后喂它们一些糖水。

当猴子看到一张它们知道会带来糖水的图片时,它们的多巴胺神经元会兴奋起来,但是当这些猴子稍后得到糖水时,它们的多巴胺神经元并没有偏离其基线活动水平。多巴胺神经元停止了对奖赏本身的反应,而只对预测线索做出反应。

在他的一只猴子学会了在看到特定图片后期待糖水以后,舒尔茨再次展示了这张预示奖励的图片,却没有给猴子糖水。在这种情况下,尽管惊讶程度相同,但多巴胺活动却急剧下降。

为什么多巴胺的活动会从奖励本身转移到奖励的预测线索上?为什么当预期的奖励缺失时,多巴胺的活动会减少?多年来,神经科学界一直不知道如何解读舒尔茨的数据。

10年后,达扬和蒙塔古开始查阅文献,寻找大脑是否利用了某种形式的时序差分学习的线索。当他们最终看到舒尔茨的数据时,他们立刻明白了他们所看到的意味着什么。

舒尔茨在猴子身上发现的多巴胺反应与萨顿的时序差分学习信号完全吻合。舒尔茨的猴子的多巴胺神经元因预测线索而兴奋,因为这些线索意味着预测的未来奖励增加(正时序差分);当预期的奖励到来时,多巴胺神经元并没有受到影响,因为预测的未来奖励没有发生变化(没有时序差分);而当预期的奖励缺失时,多巴胺神经元的活动减少,因为预测的未来奖励减少(负时序差分)。

甚至,多巴胺对概率的反应方式也与时序差分学习信号一致:可能获得食物的线索更能引起多巴胺的分泌。

鱼类和哺乳动物大脑中的多巴胺系统神经环路基本相同,并且在鱼类、大鼠、猴子和人类的大脑结构中,也发现了时序差分学习的信号。相反,在线虫或其他简单的两侧对称动物的多巴胺神经元中,未发现时序差分学习的信号。

在早期的两侧对称动物中,多巴胺是“好事将近”的信号,是一种原始的渴望。然而,在向脊椎动物过渡的过程中,这种“好事将近”的信号,转变为“10秒钟后恰好有35%的机会发生天大的好事”的信号。它从一个关于最近检测到的食物的模糊平均值,转变为一个不断波动的、精确测量的和严格计算的预测未来奖励的信号。

早期脊椎动物中的强化学习之所以可能,是因为早期两侧对称动物已经进化出了效价和关联性学习的机制。强化学习基于更简单的好坏效价信号。从概念上讲,脊椎动物的大脑是建立在更古老的两侧对称动物转向系统之上的。如果没有转向,就没有试错的起点,也就没有衡量应该强化或减弱什么的基础。

脊椎动物的试错,又使得随后更加复杂和重大的突破成为可能。早期的哺乳动物首先发现了如何以不同方式进行试错学习:不是通过实践,而是通过想象。

04

第三次突破

第三次突破是模拟:在精神上模拟刺激和行为。大约1亿年前,在我们大约4英寸长的哺乳动物祖先中,我们脊椎动物祖先的皮质亚区域逐渐演变成了现代的新皮质。这种新皮质使动物能够在内部模拟现实,进而使它们能够在实际行动之前,通过想象向基底神经节展示应该做什么——这就是通过想象来学习。

这些动物逐渐发展出了规划的能力,这使得这些小型哺乳动物能够重新演绎过去的事件(即情景记忆)并思考过去事件的不同可能性(即反事实学习)。运动皮质的后续进化使动物不仅能够规划整体导航路线,还能规划具体的身体动作,从而赋予这些哺乳动物独特而高效的精细运动技能。

在恐龙统治地球的1亿年里,小型哺乳动物在世界的各个角落中艰难求生,并掌握了一项生存技巧一—进化出了一种新的认知能力,这是自寒武纪鱼类以来最大的神经系统创新:大脑皮质的一个区域经过目前尚不清楚的一系列变化,转变为一个名为“新皮质”(neocortex)的新区域。

新皮质赋予了这只“小鼠”一种超能力——在动作发生之前进行模拟的能力。如果说通过强化学习,早期脊椎动物获得了通过实践学习的能力,那么早期哺乳动物则获得了更加令人印象深刻的能力一在行动前学习,即通过想象来学习。

新皮质的出现是人类智能进化史上的一个分水岭。

我们人类过于重视语言和符号作为智能的基础。灵长类动物、狗、猫、乌鸦、鹦鹉、章鱼以及许多其他动物,并没有类似人类的语言,但它们却表现出了超越我们最先进人工智能系统的智能行为。它们所具有的是学习强大“世界模型”的能力,这些模型使它们能够预测自己行为的后果,并寻找路径和规划行动以实现目标。学习这种世界模型的能力正是当今人工智能系统所缺少的。

哺乳动物新皮质(也许还有鸟类甚至章鱼类似结构中的新皮质)所呈现的模拟正是这种缺失的“世界模型”。新皮质之所以如此强大,不仅是因为它可以将内部模拟与感觉证据相匹配(亥姆霍兹的通过推断进行感知),更重要的是,这种模拟可以独立地进行探索。

如果你有一个足够丰富的外部世界内部模型,你就可以在脑海中探索这个世界,并预测你从未采取过的行动的后果。是的,你的新皮质让你睁开眼睛认出你面前的椅子,但它也让你闭上眼睛,在脑海中依然能看到那把椅子。你可以在脑海中旋转和修改椅子,改变它的颜色与材质。当新皮质中的模拟与你周围的真实外部世界脱节时一当它想象出一些不存在的东西时——它的强大之处就变得最为明显。

这是新皮质赋予早期哺乳动物的礼物。正是想象力一呈现未来可能性和重温过去事件的能力一一成为人类智能进化中的第三次突破。

从这种能力中涌现出了许多我们熟悉的智能特征,其中一些我们已经在人工智能系统中重新创造并超越了,而另一些仍然不在我们的掌握中。但所有这些特征都源自第一批哺乳动物微小的大脑。

拥有新皮质的早期哺乳动物,不仅学会了预测反射的激活或未来的奖励,还学会了预测一切。

20世纪30年代,在加州大学伯克利分校工作的心理学家爱德华·托尔曼(EdwardTolman)注意到了一些奇怪的现象。当大鼠来到迷宫中的岔路口,面临模糊的方向选择时,它们会停下来,左右张望几秒钟,然后再选择方向。

托尔曼提出了一个推测:大鼠在选择之前会“预演”每一个选项。托尔曼把这种现象称为“替代性试错”。

通过实践来学习的旧策略存在的另一个问题是,有时过去的奖励并不能预测当前的奖励。例如,把一只大鼠放在一个迷宫中,一侧提供过咸的食物,另一侧提供正常食物。让大鼠正常地在迷宫中导航,并尝试咸的食物(它会讨厌并回避)和正常食物(大鼠会喜欢)。

假设你再次把大鼠置于那种情况,但有一点不同:你让它严重缺盐。大鼠会怎么做呢?

它会立刻奔向盐。这让人膛目结舌,因为现在大鼠正跑向迷宫中之前被负面强化过的区域。这之所以可能,是因为大鼠“模拟”了每条路径,并通过替代性试错意识到过咸的食物现在具备的吸引力。换句话说,在大鼠采取行动之前,通往盐的这条路径就已经通过替代性试错得到了强化。我没听说过有任何研究表明鱼类或爬行动物能够完成这样的任务。

05

第四次突破

第四次突破是心智化:建立自己的思维模型。大约在1000万至3000万年前,早期灵长类动物的新皮质中进化出了新区域,建立了对旧哺乳动物新皮质区域的模型。这意味着这些灵长类动物不仅能够模拟行为和刺激(像早期的哺乳动物一样),还能够模拟自己具有不同意图和认知的心理状态。这些灵长类动物随后能够利用这一模型来预测自己的未来需求,理解他人的意图和认知(即心智理论),并通过观察来学习技能。

许多哺乳动物谱系的脑容量(按比例)并没有比早期哺乳动物的大多少,只有某些哺乳动物谱系,如大象、海豚和灵长类动物的脑容量才显著增大。

事实上,“为什么灵长类动物拥有如此大的大脑(特别是如此大的新皮质)?”这个问题自达尔文时代以来就一直困扰着科学家。早期灵长类动物的生活方式中究竟有什么需要如此大的大脑呢?

在20世纪80年代和90年代,包括尼古拉斯·汉弗莱(Nicho-lasHumphrey)、弗兰斯·德·瓦尔(FransdeWaal)和罗宾·邓巴(RobinDunbar)在内的众多灵长类动物学家和进化心理学家开始推测,灵长类动物大脑的增大并不是1000万到3000万年前作为非洲丛林中的猴子所面临的生态需求的结果,而是独特的社会需求的结果。

罗宾·邓巴的发现震惊了整个领域。这种相关性已在许多灵长类动物中得到证实:灵长类动物的大脑新皮质越大,其社会群体就越大。有趣的是,这一相关性并不适用于大多数其他动物。总的来说,并不是群体规模,而是早期灵长类动物所创造的特定类型的群体,似乎需要更大的大脑。

随着研究人员对猴子和猿类行为的深入观察,他们发现,早期灵长类动物的社交性发生了某种不同于早期哺乳动物的变化。

早期灵长类动物似乎有一种独特的饮食习惯,直接在树梢上觅食水果一一它们是食果动物。它们在果实成熟后、落到森林地面之前直接从树上采摘。这使得灵长类动物能够轻松获取食物,同时避免与其他物种发生太多竞争。

这个独特的生态位可能为早期灵长类动物带来了两大优势,为它们拥有超大的大脑和复杂的社会群体奠定了基础。其一,轻松获取水果为早期灵长类动物提供了充足的热量,使它们有了将能量用于发展更大的大脑的进化选择。其二,也许更重要的是,它们获得了大量的时间。

在动物界中,空闲时间是极为罕见的。但这些食果灵长类动物不必像其他动物那样花费大量时间觅食,因此,当它们试图攀登社会等级阶梯时,这些灵长类动物拥有了一个新的进化选择:它们不必将能量花费在进化出更强健的肌肉上以打斗的方式登顶,而是可以将能量用于进化出更大的大脑,通过政治手段登上顶端。

灵长类动物似乎把空闲时间都用来搞政治活动了。现代灵长类动物每天花费多达20%的时间进行社交,这比大多数其他哺乳动物花费的时间要多得多。研究表明,这种社交时间与灵长类动物拥有的空闲时间存在因果关系:随着空闲时间的增加(通过更便捷地获取食物),灵长类动物会花费更多时间进行社交。

这催生了一场全新的进化军备竞赛:一场政治智慧的较量。

任何天生就擅长取悦他人和结交盟友的灵长类动物都会生存得更好,并繁衍出更多的后代。这给其他灵长类动物施加了更大的压力,迫使它们进化出更聪明的政治手段。事实上,灵长类动物的大脑新皮质大小不仅与社会群体规模有关,还与社交技巧有关。

这场军备竞赛的结果似乎促进了人类许多社会本能的蓬勃发展,既有好的一面(友谊、互惠、和解、信任、分享),也有坏的一面(部落主义、裙带关系、欺骗)。尽管这些行为变化的许多方面并不需要特别聪明的新大脑系统,但在这场政治较量背后确实有一项智力成就:运用心智理论的能力。

如果一个物种没有任何一种基本且原始的心智理论,那么其政治智慧就不可能实现一—只有具备这种能力,个体才能推断出他人的需求,从而决定应该与谁亲近以及如何亲近。只有通过心智理论,个体灵长类动物才知道不应该去招惹那些虽然自身等级低但拥有高等级朋友的个体,这需要理解高等级个体的意图以及他们在未来情境中可能的行为。只有具备运用心智理论的能力,你才能判断出谁在未来可能变得强大,你需要与谁交朋友,以及你可以欺骗谁。

因此,这可能是灵长类动物开始拥有如此大的大脑的原因,为什么它们的大脑大小与社会群体规模相关,以及为什么灵长类动物进化出了推理他人思维的能力。

06

第五次突破,以及即将到来的第六次

第五次突破,关乎语言。

早期人类陷入了一场不太可能发生的“连锁反应”。非洲草原上日渐消亡的森林将早期人类推向了一个制造工具、以肉为食的生态位,这个生态位需要准确地将使用工具的技能代代传承下去。

原始语言开始出现,令使用和制造工具的技能能够成功地跨代传播。使语言得以产生的神经变化并不是一种新的神经结构,而是对更古老结构的调整,这种调整创造了一个语言学习程序。这个程序包括原始对话和共享注意力,使儿童能够将名称与其内部模拟的组成部分联系起来。通过这一课程训练,新皮质较老的区域被重新用于语言。

从这时起,人类开始尝试与毫不相关的人一起使用这种原始语言,由此形成了一个由八卦、利他主义和惩罚措施组成的反馈循环,不断促使人们发展更复杂的语言技能。随着社会群体的扩大,思想开始在人们之间传播,人类的集体智慧逐渐形成,为思想在不同代际间传播和积累创造了一个短暂而灵活的媒介。

这要求人类拥有更大的大脑来储存和分享更多的知识积累。也许正是出于这个原因(或者它促成了这一变化),人类发明了烹饪,提供了巨大的热量盈余,使得大脑的体积能够扩大到原来的3倍。

因此,在这场连锁反应中,人类大脑进化历程中的第五次也是最后一次重大突破——语言,应运而生。伴随语言的产生,人类拥有了众多特质,从无私到无情。如果说什么真正让人类独一无二,那就是人类的思想不再孤立存在,而是通过漫长历史中积累的思想与他人紧密相连。

迄今为止,人类的历史可以分为两大篇章。第一篇是进化的篇章,讲述现代人类如何从宇宙中的原始无生命物质中演化而来。第二篇是文化的篇章,描述大约10万年前,社会性的现代人类如何从生物学上大体相同但文化上尚处于蒙昧状态的祖先中逐步崛起、发展。

如果将我们宇宙千万亿年的历程压缩成一年,那么我们会发现,今天的我们正处于这一年的第7分钟,甚至还没有迎来第一天的黎明。我们仍然立于山脚之下,只是迈出了通向某处的漫长阶梯上的第五步而已。

当然,我们不知道第六次突破会是什么,但它似乎越来越有可能是超级智能的出现——我们后代在硅基中的出现,实现智能载体从生物媒介到数字媒介的转变。在这个新的媒介中,单一智能的认知能力将实现天文级的扩展。人类大脑的认知能力受到神经元处理速度、人体热量以及大脑能在碳基生命形式中达到的最大尺寸等因素的严重限制。

第六次突破将是智能摆脱这些生物限制的时刻。基于硅的人工智能可以根据需要无限扩大其处理能力。实际上,随着人工智能能够自由复制和重新配置自身,个体性将失去其明确的界限。随着生物交配机制被新的基于硅的机器训练和构建新智能实体的机制所取代,亲子关系也将获得新的意义。

智能将不再被遗传变异和自然选择的缓慢过程所束缚,而是由更基本的进化原则,即最纯粹的变异和选择原则所驱动——当人工智能重构自身时,那些选择支持更佳生存特征的人工智能当然会存活下来。

我们站在人类智能发展史上第六次突破的悬崖边上,即将掌控生命起源的过程,并孕育出超级智能的人工生命体。

当我们展望这个新时代时,我们有必要回首那段长达10亿年的漫长历程,探寻我们大脑诞生的奥秘。随着我们逐渐获得如神一般的创造能力,我们也应从“无意识的进化过程”这位前辈那里汲取智慧。我们越深入理解自己的心智,就越能够按照我们的形象创造出人工心智。同时,对心智形成过程的理解越透彻,我们就越能够明智地选择哪些智能特征需要摒弃,哪些需要保留,哪些有待改进。

我们是这一伟大转变的中坚力量,这一转变历经140亿年的漫长岁月。无论我们是否愿意,宇宙已将接力棒交到了我们手中。

07

结论:第六次突破

大约在10万年前,随着现代人类大脑的出现,人类长达40亿年的进化故事终于画上了句号。回首过去,我们可以开始描绘一幅图景或一个框架,来展现人类大脑和智能的形成过程。我们可以将这些故事整合到我们前五次突破的框架中。

第一次突破是转向:通过区分外界刺激的好坏,从而趋利避害地进行导航。大约6亿年前,原本具有径向对称神经元的类珊瑚动物逐渐演化成两侧对称动物。这种两侧对称的身体结构将导航决策简化为二元的转向选择,神经网络被整合成第一个大脑,使具有相反效价的信号能够被整合成单一的转向决策。多巴胺和血清素等神经调质使持续的状态能够更有效地重新定位并局部搜索特定区域。联想学习使这些古老蠕虫能够调整各种刺激的相对效价。在这个最早的大脑中出现了动物的早期情感模板:快乐、痛苦、满足和压力。

第二次突破是强化:通过学习来重复历史上带来正面价值的行为,并抑制带来负面价值的行为。在人工智能领域,这可以被视为无模型强化学习的突破。大约5亿年前,一个古老的两侧对称动物的分支逐渐进化出了脊椎、眼睛、鳃和心脏,成为最早的脊椎动物,它们与现代鱼类最为相似。它们的大脑也逐渐形成了所有现代脊椎动物大脑的原型:大脑皮质负责识别模式和构建空间地图,基底神经节则进行试错学习。这两个结构都建立在下丘脑中更古老的效价机制遗迹之上。这种无模型强化学习带来了一系列熟悉的智力和情感特征:从缺失中学习、时间感知、好奇心、恐惧、兴奋、失望和宽慰。

第三次突破是模拟:在精神上模拟刺激和行为。大约1亿年前,在我们大约4英寸长的哺乳动物祖先中,我们脊椎动物祖先的皮质亚区域逐渐演变成了现代的新皮质。这种新皮质使动物能够在内部模拟现实,进而使它们能够在实际行动之前,通过想象向基底神经节展示应该做什么——这就是通过想象来学习。

这些动物逐渐发展出了规划的能力,这使得这些小型哺乳动物能够重新演绎过去的事件(即情景记忆)并思考过去事件的不同可能性(即反事实学习)。运动皮质的后续进化使动物不仅能够规划整体导航路线,还能规划具体的身体动作,从而赋予这些哺乳动物独特而高效的精细运动技能。

第四次突破是心智化:建立自己的思维模型。大约在1000万至3000万年前,早期灵长类动物的新皮质中进化出了新区域,建立了对旧哺乳动物新皮质区域的模型。这意味着这些灵长类动物不仅能够模拟行为和刺激(像早期的哺乳动物一样),还能够模拟自己具有不同意图和认知的心理状态。这些灵长类动物随后能够利用这一模型来预测自己的未来需求,理解他人的意图和认知(即心智理论),并通过观察来学习技能。

第五次突破是语言:通过命名和语法,语言将我们的内部模拟联系在一起,使得思想能够跨代积累。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平