大语言模型 – 神经现实

神经系统理解：人工智能与自然大脑交集之处

神经现实 — Sun, 08 Dec 2024 08:51:12 +0000

2023年3月，如果你偶然进入纽约大学的某个礼堂，可能会以为自己在参加一场纯粹的神经科学会议。事实上，这是一个关于人工智能的研讨会——但你的困惑是可以理解的。演讲者们谈论“切除术”，即常见于动物模型实验中的脑损伤创建手术。他们提到“探测”，比如使用电极来获取大脑信号。他们还展示了语言分析，并引用了心理学中长期以来关于“先天还是后天”的争论。

在场的一百多名研究人员中，很多人可能从七年级解剖青蛙以来就再没接触过自然大脑。但他们在会议中使用的语言反映了其领域的新里程碑：最先进的AI系统（如ChatGPT）已经在规模和复杂性上堪比自然大脑，AI研究人员几乎像研究头骨中的大脑一样研究它们。作为这一部分，他们借鉴了传统上以人类为唯一研究对象的学科：心理学、语言学和心灵哲学。而他们自己的发现也开始对这些领域产生影响。

在这个研讨会上，纽约大学心理学和数据科学助理教授格雷斯·林赛（Grace Lindsay）认为，这些学科现在的目标和方法如此接近，以至于可以合并为一个领域。她建议将合并后的科学统称为“神经系统理解”（neural systems understanding）。

她对同僚们说：“老实说，我认为神经科学将获益最大。”她指出神经科学仍然缺乏一个普遍的大脑理论。“依我看，我所在的领域未能达成目标。神经科学已经存在了100多年。我真切认为当人们开发出人工神经系统时，可以来找我们。”

相比之下，人工智能已经取得了成果：从十年前的视觉感知到最近的语言处理，多层或“深层”人工神经网络已成为大脑建模的最先进方法——至少在重现外部行为方面。这些模型不仅是大脑某个方面的理想化版本。它们做的正是自然大脑做的事情。现在你可以和机器进行真正的对话，这在几年前几乎难以实现。

哥伦比亚大学心理学和神经科学教授尼古拉斯·克里格斯科特（Nikolaus Kriegeskorte）表示：“与神经科学家们长期以来建立的计算模型不同，这些模型执行认知任务，攀登智力高峰。”他目前在扎克曼研究所（Zuckerman Institute）研究视觉。

这种转变改变了日常的科学方法论。正如在纽约大学会议上所描述的那样，与这些系统一起工作，与在人类或猕猴身上做实验差异不大。研究人员可以给它们相同的刺激，并将其内部活动与活体大脑的数据直接进行比较。他们可以创建DIY的奥利弗·萨克斯式病例研究，比如人工损伤的机器大脑可以识别披头士乐队的所有成员，但无法分辨鼓和吉他。这种直接干预在区分因果关系与相关性方面非常有用，但在人脑中是不可能的。

这些成功格外引人瞩目，因为这些系统的工作方式与大脑截然不同。所谓的神经元和突触是实际事物的极大简化版本，训练方案迥异于儿童通常的学习方式。如此异质的机制仍能产生类人输出，这让许多科学家认为细节实际上并不重要。低级别的组件，无论是活细胞还是逻辑门，都会被计算任务的要求塑造成更大的结构，就像演化利用它所拥有的一切来解决当下问题一样。

“只要架构足够优秀，表征更容易受到数据和训练过程的影响。”谷歌DeepMind的认知心理学家安德鲁·兰皮宁（Andrew Lampinen）说，“这表明在广泛的系统中，预测和理解语言的计算瓶颈是相似的。”

鉴于这种相似性，林赛、克里格斯科特和其他著名计算神经科学家在2019年的一篇论文中指出，科学家们应该开始用网络架构和学习算法来解释大脑功能，而非精细的生物机制。机器学习先驱、蒙特利尔大学计算机科学教授约书亚·本吉奥（Yoshua Bengio，该论文的共同作者）解释道：“神经科学倾向于更具有描述性，因为那更容易；你可以观察事物。但我认为提出有助于解释为什么的理论，正是机器学习的思维和理论方式（更数学的理论）有所裨益之处。”

人工神经网络如何解决视觉问题？

视觉神经科学家率先将AI与神经生物学结合，这也情有可原。20世纪50年代中期，首个硬件神经网络就是为了模仿自然视觉感知而设计的。即便如此，在接下来的几十年里，AI研究人员经常放弃任何生物逼真性的幌子，特别是在训练网络的方式上。到2010年代，当图像识别网络开始媲美人类（尽管仅在狭义任务上），其生物逼真性如何并不明确。

为了回答这个问题，麻省理工学院的神经科学家很快开发出一种基本实验范式，研究其他形式的感知和认知的研究者此后也采用了这种范式。第一步是向猴子展示视觉刺激并测量其大脑反应。然后他们用相同的刺激训练一系列人工神经网络并提取其“表征”——即网络产生的最高抽象层次的输出。要将大脑数据与此输出进行比较（通常只是一个没有特定生物学意义的数字向量）需要一个“映射模型”，该模型与人工神经网络本身不同。研究人员可以通过假设模拟和真实大脑在某些数据子集上匹配来构建这样的模型，计算它们之间的关系，然后在另一数据子集上测试这种关系。

这种方法揭示了猴子大脑和人工网络以类似方式对相同的视觉刺激作出反应。“这是我们第一次拥有能够预测神经反应的模型。”吉森大学心理学研究员凯瑟琳娜·多布斯（Katharina Dobs）说。这种一致性不仅仅是偶然产生的。这些系统被设计和训练来识别图像，但没人要求它们像自然大脑一样运作。“你发现模型中的激活和大脑中的激活之间有惊人的相似程度，你知道这完全不是必然的。”麻省理工学院认知神经科学教授南希·坎威舍尔（Nancy Kanwisher）说，“它们完全不同。一个是计算机程序，另一个是一堆由自然选择优化的生物黏液，它们最终对类似问题有类似解法的事实令人惊讶。”

自此，这些网络改变了计算神经科学家进行研究的规模。与其提出一个视觉感知模型并为其辩护，不如在一篇论文中同时比较十几个模型。2018年，一组研究人员建立了Brain-Score.org网站来对视觉模型进行排名。该网站现在已有超过200个模型，每个模型都代表视觉皮层工作方式的某种直觉。所有这些模型在某些任务上都表现得像人类一样，因此排名代表了模型更细微的方面，例如它们是否犯了我们大脑犯的同样错误，以及它们的反应时间是否与我们的反应时间一样变化。“这为我们提供了一个强大的框架来判定模型之间的优劣。”克里格斯科特说。

这些人工神经网络为解决视觉科学中的老问题开辟了新的途径。尽管这些网络常常与大脑本身一样晦涩难懂，研究人员至少可以直接访问其人工神经元——它们只是机器中的变量。例如，林赛及其同事们转向一个人工网络来探索“祖母神经元”，即几十年来关于某些脑细胞仅在你看到祖母或某个特定的人时才会激活的想法。林赛的团队证实，一个在图像上训练的人工网络确实有神经元仅在某些物体出现时才会激活。但当他们追踪网络中的信息流动时，发现这些神经元与网络识别人物或物体的整体能力无关；它们仅仅是偶然地选择性地响应。

“在这些人工神经网络模型中，我们实际上看到，神经元对图像的响应方式并不一定说明它在分类物体中所起的作用。”林赛说。

人工神经网络也使通过实验深入探讨视觉处理层次成为可能。传统神经科学方法测量早期处理层中神经元的反应，如视网膜、外侧膝状体和初级视觉皮层。这些方法表明神经元对特定方向的简单刺激（如线条和光栅）做出反应。但这些方法难以描述处理更广泛和复杂几何图案的后期层细胞。“随着你进入视觉系统的更深层次，找到某种简单特征来解释神经元的响应变得更加困难。”林赛说。

然而，人工神经网络可以找到这些特征。研究人员可以训练机器识别蓝色咖啡杯和蓝色花朵的图像。这些物体在像素层面上几乎看起来一样，并在早期层次上引发相似的反应；只有在后期层次上它们的差异才变得明显。林赛表示，机器所发展的高级表征应该与大脑的表征相匹配。“你只需将其视为一种数据分析工具——一种表示数据的不同方式——然后在大脑中寻找这种表征。你可以说这更关乎于语言，而非大脑。”

实际上，使用人工神经网络，研究人员甚至可以在现实环境中观察大脑的运作——或行话所说的“生态有效实验”。在传统的刺激-反应实验中，他们必须麻醉小鼠以消除其大脑对某些简单刺激反应测量中的噪音。林赛说，让动物自由活动，收集眼动追踪和其他行为数据，然后将其输入网络寻找不太明显的模式，这样要好得多。“这减轻了对控制条件的需求。”她补充道。

人工神经网络还揭示了视觉神经科学中关于层级结构的另一个长期存在的谜团——即为何视觉处理在功能上是专门化的。大脑成像显示视觉皮层的某些区域对面孔的反应比对其他类型的物体更强。“自fMRI问世之后，我们知道这个现象已经几十年了，但我们不知道‘为什么？面孔有什么特别之处？’”多布斯说。她说有两种可能性：我们的脑部要么天生具有专门的面部识别能力，要么通过早期生活中看到大量面孔而习得专门化。

为了找到答案，她的团队构建了一个有超过1亿个可调参数的网络，训练它识别450种不同类型的物体，并识别1700名名人的面孔。该网络是分层的，类似于视觉皮层，尽管这些层并没有与其生物对应物一一对应。然后研究人员通过损伤网络的某些部分进行实验。禁用某些单元使网络在面部或物体识别中的表现受损，但不会同时影响两者，这表明这些单元专门化于其中之一。而损伤处理基本几何图案的早期层会同样影响网络在两项任务上的表现，表明专门化发生在更深层次。

除了让网络接触大量名人之外，研究人员并没有暗示面孔有什么特别之处——例如不需要读取情绪。他们得出结论，大脑必须从经验中获得专门的面部识别能力，而当大脑或人工网络需要同时处理两个或多个任务时，它会发展出这样的专门模块。“这是为了做好这两项任务的结果。”多布斯说。作为测试，她和同事们还训练网络来分类食物。“没有证据表明视觉皮层有功能专门化的食物识别处理，所以我们认为在网络中也不应发现它。”她说，“然而当我们这样做时，意外发现了区隔。”

自那以后，其他团队发现人脑中也有专门的食物识别区域，多布斯和团队正在寻找更多例子。“如果你是汽车方面的老手，你大脑中可能也有一些神经元专门处理对汽车的识别。”她说。她们还没有检查面孔、汽车和一般物体的三重专门化，但她们发现网络可以像识别面孔一样确定汽车品牌和型号。去年发表的一篇论文表明，汽车识别网络表现出类似面孔倒置效应的现象：就像我们更难识别倒置的面孔一样，网络也难以处理倒置的汽车图片。

大语言模型是否反映大脑语言区域处理？

理解视觉已经够困难的了，理解语言则更难。坎威舍尔回忆道：“六、七年前，我在给本科生的导论课中经常随口提到一些大问题，这些问题超越了最前沿（的研究）。比如，一群神经元如何掌握句子的意义？这到底是怎么回事？我们如何思考这个问题？”教科书中的神经科学方法根本无法解决这样的问题。研究人员可以详细绘制猫的视觉皮层，但不能绘制其语言区域——它没有。动物模型最多只能捕捉语言的某些狭窄特征。中美洲的歌唱鼠有着完美的沟通礼仪，但并不以使用虚拟语气而闻名。

视觉神经科学和图像处理系统共同发展，而语言神经科学与技术之间的联系一直很松散。该领域在20世纪80年代开始采用人工神经网络，但这些早期系统并未尝试理解或生成一般语言。它们模拟了理论家认为可能是学习而非天生的特定能力，如构建动词时态，并且更以引发争议而非解决问题而闻名。“语言神经科学一直是不太令人满意的非正式领域。”麻省理工学院神经科学教授叶夫利娜·费多连科（Evelina Fedorenko）说。

随着GPT这类大语言模型问世，研究人员正在弥补失去的时间。在机械层面上，这些模型甚至比图像识别模型更算不上大脑化。与语言相关的大脑区域被认为是一个反馈回路的丛林，而语言模型是前馈系统，其中数据从输入到输出是没有环路的。然而，这些系统确实有特殊的transformer层（GPT中的“T”）行使一些反馈角色，如跟踪单词的上下文。最近的研究表明，这些层类似于大脑生物学的某些方面。“它们与之前的海马体模型相关，并且被证明在某些方面有所改进。” 兰皮宁说。他补充道，它们和所有人工神经网络一样，充其量是一个简化的版本。

尽管如此，大语言模型在模拟大脑方面的表现令人惊讶。2021年，费多连科及其同事们开始应用视觉领域同行十年来一直在使用的技术。他们从文献中收集了人们阅读和聆听句子时的大脑反应，这些反应是通过fMRI成像或为癫痫植入的颅内电极测量的。他们用相同的句子训练了一系列不同的语言模型，并创建了一个在人类和机器神经活动之间的映射模型。他们发现，这些网络不仅生成了类人文本，而且以大体类似于人类的方式生成。在他们测试的各种系统中，GPT-2（ChatGPT的前身）特别擅长模仿人类。GPT在最基本的层面上是一个高级自动更正算法，基于之前的内容预测下一个单词。他们的结论认为，我们大脑的语言区域可能也是如此。

费多连科及其同事们的研究还表明，大脑和机器之间的差异并没有看起来那么显著。支持这些模型肯定以异于人类的方式学习，其常见论点在于它们需要更多的数据。但实际上，大语言模型在大约1亿个单词后达到熟练程度。根据去年费多连科实验室博士生伊格巴尔·侯赛尼（Eghbal Hosseini）的研究，这相当于一个孩子在10岁时听到的单词数量。但如果像培养孩子那样以更阶段性的方式训练网络，而不是将整个互联网灌输给它呢？“你不会和1岁幼童谈论广义相对论、Transformer或别的东西。”Fedorenko说，“你首先谈论简单的概念和方式；给出简单的短句。”更现实的教育策略可能会使系统更好地反映人类。

Brain-Score.org现在不仅对视觉模型进行排名，也囊括了语言模型。将模型相互比较——借用自视觉神经科学家的另一策略——已经对现有系统更好地反映人类提供了一些见解。例如，费多连科和侯赛尼设计了“争议刺激”（controversial stimuli）——一些不同模型会产生不同表征的句子。“你试图构建一组刺激，能够将这些模型区分开来。”她说。好消息是他们找到了很多这样的刺激。坏消息是没有一个模型能与人类对这些句子的反应相匹配。“我们发现了模型的‘盲点’。”她补充道。

一个可能的结论是这些模型都应该被抛弃，但侯赛尼深入挖掘。他构建了一组无争议刺激，模型对这些刺激的反应一致。他发现这些反应确实与人类数据相匹配。所以，当模型之间一致时，它们也与人类数据一致，而当模型之间不一致时，它们也与人类不一致。“我们想，好吧，也许我们发现了一些东西。” 费多连科说，“也许这并非一个糟糕的实验。”她希望这些相关性能让他们弄清楚，是什么影响了模型运作的好坏。

既然已经确定大语言模型在表示大脑的语言处理方面还不错，费多连科和其他团队正在寻求解答弥漫在教科书中的谜题。例如，当我们解析一个句子时，大脑主要依赖正式的语法结构，还是考虑单词的含义？在今年4月发表的一篇论文中，费多连科的两名研究生通过各种方式调整句子，看看它们是否影响模型与大脑数据的匹配。在这项工作中，他们并没有将这些调整后的句子给人类，而只是使用人类作为参考点来研究模型内部发生的情况。

他们发现，轻微的改变，如去掉“the”或交换连续的单词，几乎没有影响。这些改变可能违反了语法规范，但没有触及单词的含义。但以影响含义的方式破坏句子，如改变名词和动词，对模型有很大影响。例如，考虑包含所有26个字母的著名句子“The quick brown fox jumped over the lazy dogs.” 一个稍微扰乱的变体是“Quick brown fox jumped over lazy dogs.”显然，我们的大脑从扰乱的句子中形成的心理图像与原句相同。研究人员发现模型也是如此。模型形成的表征显然编码了一个足够高级的含义，不受小词的影响。

但如果你输入变体“The quick brown jump foxed over the lazy dogs”，模型会与人类数据偏离，表明它生成的表征与之前有很大不同。句子的结构没有改变——仍然是<冠词> <形容词> <形容词> <名词> <动词> <介词短语>——所以模型必须依赖额外的语义信息：一只狐狸可以跳，但一个跳不能“狐狸”。“这在某种程度上与乔姆斯基生成语法学派的观点相反，该学派长期以来强调句法是语言的核心，而含义是次要的。” 费多连科说。

这个领域的一个巨大挑战是将语言与其他认知分离：逻辑、社会认知、创造力、运动控制等等。大语言模型还没有（这些能力）。尽管它们确实拥有庞大的记忆和某些推理能力，而插件或特殊用途的模块提供了其中一些其他功能，但它们仍然只是大脑语言区域的模型——在使用ChatGPT和其他系统时，你必须不断提醒自己这一点。当它们“幻觉”出信息时，这不是它们的失败，而是我们的：我们强迫它们回答超出其有限能力范围的问题。“从过去20年的认知神经科学中，我们真正学到的是语言和思维在大脑中是分开的。” 坎威舍尔说，“你可以将这一见解应用于大语言模型。”

尽管这对期望从这些系统中获得可靠信息的人来说充满挑战性，但它们对于神经科学来说作用重大——正如很多人在纽约大学那场会议上提到的那样。它们与人脑足够接近，可以让神经科学家进行直接比较。但它们又足够不同，可以帮助人们越过人类寻找感知和智能的普遍原则。这些系统已经表明，智能是普遍的——不仅限于人类，甚至不限于其他哺乳动物，而是存在于任何具有足够计算能力来提取所接触世界中显著特征的认知系统中。

来源：Can an emerging field called ‘neural systems understanding’ explain the brain?

为何ChatGPT如此擅长一本正经地胡说八道

MATTEO WONG — Thu, 16 Mar 2023 08:45:43 +0000

语言常被认为是思维驾驭着的工具，人们“表达出”、“说出想法”，人们遵循着“思维的列车”或是“意识流”。而人类创造的一些巅峰——音乐，几何，计算机编程，则被定义为隐喻语言。这其中隐含了一种假设，即大脑通过一系列单词来处理世界以及我们对世界的体验。这种假定的联系也正是ChatGPT和类似程序如此神奇的原因：AI能够用类似人类的语言回答任何提词，这意味着机器具有某种意图，甚至是感知。

但随后程序说了一些完全荒谬的东西，例如在“nineteen”中有12个字母、或是旗鱼是哺乳动物——语言智能的“面纱”就此掉落。尽管ChatGPT可以生成流畅甚至优雅的散文，轻松通过困扰了AI领域超过70年的图灵测试基准，但它也可能看起来非常愚蠢，甚至危险：它在数学上会出错，无法给出最基础的烹饪建议，还会表现出令人震惊的偏见。

在一篇新论文*中，认知科学家和语言学家通过将语言交流和思维行为分离来解决这种不协调：具有一种能力并不代表具有另外一种。在专家们专注于生成式人工智能颠覆我们生活和工作的潜力之际，他们的争论也应该迫使人们去重新评估人工智能于人类智能的局限与其复杂性。

Mahowald, Kyle, et al. “Dissociating language and thought in large language models: a cognitive perspective.” arXiv preprint arXiv:2301.06627 (2023). https://arxiv.org/abs/2301.06627

*译者注：本文考虑了大语言模型在语言使用的两个不同方面的表现来评价其能力，即”形式语言能力”——包括指定语言的规则和模式的知识，以及”功能语言能力”——现实世界中语言理解和使用所需的一系列认知能力。大语言模型在形式语言的任务中表现令人深刻，却在很多需要功能语言能力的测试中失败。

研究人员解释道，作为思想的借代/提喻，语言的效果或许并不是很好。毕竟人们是基于视觉与语言思维的连续性来识别自我的*，无法用语言表达一个想法的体验，或许和语言本身一样是人类所特有的。这项研究的两位主要作者之一、麻省理工学院的认知神经科学家安娜·伊万诺娃（Anna Ivanova）也说道，当代对人脑的研究也表明“语言与思想之间存在分割”。对使用数十种语言的人们进行脑扫描后，研究人员发现了一个特殊的神经元网络*，其激活与所使用的语言无关（包括虚构的纳维语Na’vi和多斯拉克语Dothraki*）。

*译者注：识别自我：在Visual Thinking: The Hidden Gifts of People Who Think in Pictures, Patterns, and Abstractions一书中，Temple Grandin提到了一种思维风格的连续体，大致分为三部分，其中一端为语言思考者——更倾向于有序的、基于符号的方法，而另外一端则是，对象可视化思考者——他们通过使用具体的、类似于照片的心理图像来得出结论，而在中间的则是空间可视化思考者，他们似乎结合了抽象和具体的方法。链接：https://www.newyorker.com/magazine/2023/01/16/how-should-we-think-about-our-different-styles-of-thinking

研究人员发现了一个特殊的神经元网络：https://www.nature.com/articles/s41593-022-01114-5

虚构的纳维语Na’vi和多斯拉克语Dothraki：分别为《阿凡达》与《冰与火之歌》中的虚构语言。

该神经元网络一般不涉及包括数学，音乐与编程在内的思想活动。此外，许多丧失了理解和处理语言能力的失语症患者，仍然拥有计算或是其他非语言性心智任务的能力。结合来看，这两项证据表明语言本身并非思想的媒介，它更像是一个信使。人类语言的特殊之处便在于，它能够使用语法和词汇来与涉及了其他脑区的功能相连通，例如社交与逻辑。

虽然ChatGPT和其他类似的软件，展现出了将单词串联在一起的令人难以置信的能力，但它们在其他任务上却很吃力。如果你想要一封向孩子解释“圣诞老人是虚假的”的信，它会生成一个由圣诞老人本人签名的感人回复。这些大语言模型，或被称为LLMs*，基于前文的一切预测一句话中的下一个单词（例如在“相较于”后接上“主流看法”）。但如果让ChatGPT做一些基本计算和拼写，或是为煎蛋给出建议，你可能会得到语法完美的废话：“如果你在煎蛋时用力过大，蛋壳就会碎裂。”

*译者注：LLMs，Large language mode

这些缺陷表明了一种与人脑中所存在的相同的区别，即拼凑单词与拼凑想法的区别——论文的作者分别称之为形式语言能力与功能语言能力。该论文的另外一名作者，德克萨斯大学奥斯汀分校（the University of Texas at Austin）的语言学家凯尔·马霍瓦尔德（Kyle Mahowald）表示“语言模型确实很擅长生成流利且合乎语法的语句，但这并不一定意味着一个东西能够生成符合语法的语言，它就能够进行数学计算、逻辑推理、思考或者确认社会语境。”

– Shahbaz Ali Khan –

如果人类大脑的语言网络不负责数学，音乐或编程这些思考任务，那么一个在TB级文本上训练的人工“神经网络”也就没理由擅长这些。作者写道，“与认知神经科学的证据一致，LLMs的行为突出了擅长语言和擅长思考之间的差异。”ChatGPT在一些商学院和法学院的考试中取得中等分数的能力，与其说是理解能力的象征，不如说只是泡影。

尽管如此，关于下一代语言模型的炒作仍然四起：下一代将会在更多的单词之上进行训练，并且拥有更强大的计算能力。ChatGPT的创始者OpenAI声称，他们的程序正在靠近所谓的通用智能，这将会使机器与人类处于同等智慧水平。如果该比较成立，那么仅仅是让模型更擅长于单词预测并不能让他们接近这个目标。换句话说，你可以驳斥ChatGPT这样的AI程序具有灵魂或是像外星人入侵这类观念。

伊万诺娃和马霍瓦尔德认为需要不同的训练方式来促进AI的更进一步发展——例如针对逻辑或是社会推理的方法，而非单词预测。ChatGPT可能已经在该方向上跨出了一步，它不仅是阅读大量文本，还包含了人类反馈，监督者（用户）可以评论是什么构成了好或坏的回答。但由于缺乏ChatGPT的训练细节，尚不明确人类输入的目标是什么，程序显然认为1000同时大于和小于1062。（OpenAI在2023.2.2发布了对ChatGPT的更新，据说提高了它的“数学能力”，但据报告，它仍在努力解决基本的文字问题。）

– Paweł Jońca –

而应该注意的是，有人认为大语言模型在语言方面并不如伊万诺娃和马霍瓦尔德写的那样优秀，它们不过是被美化了的自动填充器，其缺陷和能力一样大。认知科学家和著名的人工智能研究人员盖瑞·马尔库斯表示“语言不仅仅是句法，它还和语义相关。这不仅仅是因为人工智能聊天机器人不懂数学或如何煮鸡蛋，它们也难以理解一个句子是如何从其各部分的结构中衍生出含义的。”

例如，想象三个排成一排的塑料球：绿色球、蓝色球、蓝色球，有人让你抓“第二个蓝色球”，你能够理解他们指的是序列中的最后一个球，但一个聊天机器人可能会将指令理解为指的是第二个球，而它恰好也是蓝色的。马尔库斯说“大语言模型擅长语言的说法是被夸大的。”但是对伊万诺娃而言，像蓝球这样的例子需要的并不只是编译单词，还需要设想一个场景，因此“这并非关于语言本身，而是语言使用。”

– Shahbaz Ali Khan –

无论它们的语言使用多么令人叹服，像ChatGPT这类程序仅通过书籍和维基百科输入数据，关于它们实际上 “理解”了多少这个世界，仍然存在着一场有益的辩论*。伊利诺伊大学厄巴纳-香槟分校的计算语言学家罗克珊娜·吉鲁（Roxana Girju）认为“意义不是给出的。意义是在我们的互动和讨论中商定的，不止是和其他人，还有和这个世界的互动。这是我们在参与语言活动的过程中所达到的目标。”如果这是正确的，那么构建一个真正智能的机器将需要一种不同的结合语言和思想的方式，不只是分层不同的算法，还需要设计一个程序，例如同时学习语言和如何处理社会关系。

*译者注https://arxiv.org/abs/2208.02957

伊万诺娃和马霍瓦尔德并没有彻底否认语言是人类智慧缩影的观点，他们将其复杂化了。人类之所以“擅长”语言，是因为我们将思想与表达结合在了一起。一个能够熟练掌握语言的规则并运用的计算机，必然是智能的；然而另一方面，正是狭隘地模仿人类语言限制了其发展。但在我们用我们的有机体大脑更好的理解硅基大脑前，我们需要新的观点和新的单词来理解语言本身的意义。

后记

阿朔：看到这篇文章后，我的第一反应是《我是谁，或什么》中收录的一篇文章——《马克3型兽的灵魂》，文章描述了机械动物，主人公启动了它之后，它便开始在地板上搜寻，在插座面前停下，伸出一对插头试着插进了电源，并发出了和猫一样的呼噜声——就像在进食。主人公的朋友在用锤子打伤它之后，它流出了红色的液体，并发出了轻柔的哭声，给了那位朋友很大的冲击。

这只机械动物没有任何的语言能力，也没有很高的“智力”，但却让人难以对它下杀手。所以对我来说，认同一个个体，是取决于它的语言能力吗？亦或是身体内的蛋白质？或许重要的是它能否向我传达“意义”，我能否将自我投射于它，马克3型兽虽然简单，却明确的传达了生存的欲望，仿佛是它意识到了自身的处境。

在ChatGPT刚面世时，我便开始思考：“这是我想要的强人工智能吗？”我想，至少暂时，答案是否定的。

Qiumsky：在ChatGPT能说出“语法完美的句子”背后，（至少）有两点需要大家明确：第一，句子的内在结构应该呈现出树状的层级，而不是表面所显现出的线性结构；第二，单词之间的组合并不依靠概率，而是存在一些其他的决定性因素。在更深入探讨ChatGPT如何反映“言说与思考之差”之前，如何让ChatGPT真正地理解语言，同样值得我们去思考。

作者：MATTEO WONG | 译者：阿朔 | 审校：Qiumsky | 排版：骐迹 | 封面：Carmela Montanero 原文：https://www.theatlantic.com/technology/archive/2023/01/chatgpt-ai-language-human-computer-grammar-logic/672902/