机器学习 – 神经现实

诺贝尔奖授予AI领域，传统研究方法要消亡了吗？

神经现实 — Wed, 09 Oct 2024 08:31:00 +0000

2024年诺贝尔化学奖一半授予大卫·贝克（David Baker），表彰他“在计算蛋白设计方面的贡献”；另一半由德米斯·哈萨比斯（Demis Hassabis）和约翰·M·朱珀（John M. Jumper）共同获得，以表彰他们“在蛋白结构预测方面的贡献”。贝克成功完成了几乎不可能的任务，构建了全新的蛋白质类型。哈萨比斯和朱珀则开发了一个人工智能模型，解决了一个存在50年的难题：预测蛋白质的复杂结构。当科学界最高奖项授予AI预测蛋白结构，随着机器学习方法越来越多应用在研究中，这是否意味着传统理论即将消亡？

据传，被一个苹果砸在头上之后，艾萨克·牛顿发现了他的第二定律——那个关于万有引力的定律。经过大量实验和数据分析，他意识到力、质量和加速度之间存在着根本性的关系。因此，他提出了一个理论来描述这种关系，即F=ma公式，并且可以用其来预测苹果之外的其它物体的行为。事实证明，他的理论是正确的（至少对于我们这些后人来说已经足够精确）。

牛顿的这种提出理论的方式和当今科学的发展方式截然不同。Facebook的机器学习工具能够比任何心理学家都更准确地预测你的偏好；DeepMind所开发的程序AlphaFold能够根据蛋白质所含的氨基酸，对蛋白质结构进行截至目前为止最准确的预测。然而，这两个系统都对它们的工作原理缄默不言，它们无法告诉我们：为什么你更喜欢这个或那个信息；为什么这个序列会生成那样的结构。

你无法掀开幕布来窥视其中的机制。这些系统没有提供任何解释，无法提供一套能说明如何将这个变成那个的规则。简而言之，它们没有理论支持。它们能工作，并且做得很好，如此而已。我们每天都在见证Facebook的预测程序对社会的影响。许多人相信AlphaFold将改变现代医学[3]*。

在牛顿到马克·扎克伯格之间的某处，理论退居了二线。在2008年时，时任《连线》杂志的主编克里斯·安德森（Chris Anderson）就预言了它的消亡。他认为，我们已经积累了如此多的数据，并且相比于人类，计算机发现数据间关系的能力已经强得多，这就暴露出：我们所提出的理论不过是对现实的过度简化。古老的科学研究方法——假设、预测、检验——很快将被扔进历史的垃圾箱。我们将不再寻找事物的原因，而是满足于其中的相关性。

事后看来，我们可以说安德森所看到的是真实的（他并不是唯一一个这样认为的人）。大量数据向我们展示出的这种复杂性无法被传统意义上的理论所阐述。德国图宾根马克斯普朗克生物控制论研究所所长、计算神经科学家彼得·达扬（Peter Dayan）说：“我们的能力已经滞后了，无法写出那些会有助于描述的理论，甚至不知道它们会是什么样。”

《科学》杂志的总编辑霍尔顿·索普在《蛋白质，无处不在的蛋白质》一文中写道：“这是一个重大的突破，其原因有二：它解决了这个在待办事项清单上待了50年的科学问题。就像费马大定理或引力波一样，科学家们一直在努力解决它。其次，这个技术很大程度上改变了这个领域，就像基因编辑工具CRISPR和冷冻电镜技术一样，将会极大地加速科学发现。无论如何，这都是一个双重意义上的重要年度突破。”

克里斯·安德森在《理论的终结》一文中指出：“（随着人们从百字节到千字节，再到兆字节甚至太字节，）大量数据的诞生，以及处理这些数字的统计工具，为我们提供了一种了解世界的全新方式。相关性取代了因果性，即使没有连贯的模型、统一的理论或任何机械解释，科学也能取得进步。没有理由坚持我们的旧方式了。是时候问一问：科学可以从谷歌那里学到什么？”

理论拒绝消亡的三个原因

但安德森对理论终结的预测似乎为时过早——或者他的论文本身可能过于简单化了。尽管Facebook和AlphaFold这样的无理论（theory-free）预测引擎取得了成功，但理论拒绝消亡的原因仍有很多。这些成功启发了我们去追问：获取知识的最佳方式是什么？科学从何而来？

理论拒绝消亡的第一个原因是，我们已经意识到，人工智能，尤其是被称为神经网络的机器学习方法，由于它们无需接受任何的学习指导只是从数据中完成学习，本身是容易出错的。例如，谷歌搜索引擎和亚马逊招聘工具会记录下偏见*。

第二个理由是，人类对没有理论的科学深感不安。我们不喜欢处理黑匣子——我们想知道为什么。

第三个理由是，目前可能仍然有很多传统类型的理论——即人类可以理解的理论——可以有效地解释很多尚未被发现的现象。

*译者注：《卫报》在2016年的一篇名为《谷歌如何以右翼偏见传递虚假信息》中指出：“谷歌的搜索算法及其自动完成功能优先考虑那些宣称气候变化是骗局、同性恋是罪恶、桑迪胡克大规模枪击事件从未发生过的网站。”《路透社》在2018年的名为《亚马逊废弃了对女性有偏见的秘密人工智能招聘工具》中提到：由于该智能招聘工具是从近10年提交给公司的简历中来学习，而男性在科技领域中占有主导地位，因此它在评估时自动地对“女性”这个词语进行了惩罚。

更准确的预测

所以，理论还没有灭亡，但它正在改变——或许已经面目全非。普林斯顿大学心理学家汤姆·格里菲斯（Tom Griffiths）说：“那些当你拥有大量数据时讲得通的理论，与那些在少量数据下有道理的理论，看起来是完全不同的。”

格里菲斯一直在使用神经网络来帮助改进他所在的领域，即人类决策领域的现有理论。在1970年代，经济学家丹尼尔·卡尼曼（Daniel Kahneman）和阿莫斯·特沃斯基（Amos Tversky）提出了一种目前十分流行的前景理论（prospective theory，后来为卡尼曼赢得了一座诺贝尔奖），它解释了人们在涉及经济风险时如何做出决策，其核心观点是人们的决策并非总是理性的。

然而，在2021年6月的《科学》杂志上[8]，格里菲斯的小组描述了他们在一个庞大的决策数据集上训练神经网络的过程，该数据集包含人们在一万个风险选择场景中做出的决策。他们用该网络来预测人们的进一步决策行为，并与前景理论的预测做了比较。他们发现，虽然前景理论预测得很好，但神经网络在该理论失败（即预测失败）之处，显示出了它的价值。

格里菲斯说，这些反例信息量很大，因为它们揭示了现实生活中存在的更多复杂性。例如，正如前景理论所描述的那样，人们会不断地根据传入的信息权衡其概率。但是，当大脑要计算的相互竞争的概率太多的时候，他们可能会转向不同的策略——例如，以经验法则为指导——股票经纪人的经验法则可能与青少年比特币交易员的经验法则不同，因为它们来自不同的经验。

“简单地说，我们是在使用机器学习系统，来识别那些我们看到的东西与我们的理论不一致的情况。”格里菲斯说。数据集越大，人工智能所学习到不一致情况就越多。其最终结果不是传统意义上的理论，即关于人们如何做出决定的精确主张，而是一组受某些约束的主张。描述它的一种方式是“如果……则……”这样的分叉树。这很难用数学来描述，更不用说用语言描述了。

普林斯顿心理学家的发现仍然勉强能算作可解释的，是现有前景理论的扩展。但随着它们揭示出越来越多的复杂性，它们会变得越来越不可解释——其发展过程的逻辑顶点就是Facebook或AlphaFold所体现的无理论预测引擎。

一些科学家对此感到满意，甚至渴望这样做。语音识别软件先驱弗雷德里克·耶利内克（Frederick Jelinek）说：“每次我解雇一名语言学家时，语音识别器的性能就会提高。”他的意思是理论阻碍了进步——而那时不过是20世纪80年代。

或者以蛋白质结构为例。蛋白质的功能很大程度上取决于其结构，因此，如果想要设计一种药物来阻断或增强某种蛋白质的作用，则需要了解它的结构。AlphaFold在实验结构数据上进行了训练（数据是通过X射线晶体学等技术推导出来的）。目前，它的预测对于有实验数据的蛋白质而言比没有实验数据的蛋白质更可靠。剑桥附近的EMBL欧洲生物信息学研究所（EMBL-EBI）前主任珍妮·特桑顿（Janet Thornton）说，它的可靠性还一直在提高，缺乏理论并不会阻止药物设计师使用它。“AlphaFold所做的也是一种科学发现，它只会加深我们对生命和治疗的理解。”

然而其他人显然对科学的发展方向不太满意。例如，批评者指出，神经网络可能会产生虚假的相关性，尤其是在它们训练的数据集很小的情况下。所有数据集都是有偏见的，因为科学家们收集数据的方式并不是均匀或中立的，而是始终基于某些假设或假定的。这些假设对谷歌和亚马逊的人工智能造成了破坏性影响。正如埃克塞特大学的科学哲学家萨碧娜·莱奥内利（Sabina Leonelli）所描述的：“我们使用的数据环境非常扭曲。”

虽然这些问题确实存在，但达扬并不认为它们是不可克服的。他指出，人类也会产生偏见，并且与人工智能的偏见截然不同。“人类偏见以既难被发现，也难被纠正的方式存在。”实际上，如果一个理论产生的预测不如人工智能可靠，那么很难说机器是两者中更为偏颇的那一个。

可解释性

新的科学面临的一个更艰难的障碍可能是我们人类解释世界的需要——即能够用因果关系来描述它。在2019年，西雅图华盛顿大学的神经科学家宾尼·布鲁顿（Bingni Brunton）和迈克尔·贝耶勒（Michael Beyeler）写道，这种对可解释性的需求，可能阻碍了科学家们对大脑产生新的洞见——只能从大型数据集中涌现的洞见。但他们也对此表示体谅。他们写道，如果要将这些洞见转化为药物和设备等有用的东西，“这些计算模型所输出的洞见必须能够向临床医生、终端用户以及行业解释，并得到这些群体的信任。”

如今，“可解释的人工智能”已成为热门话题，它旨在弥补可解释性的鸿沟。然而，这一鸿沟或许只会越来越大，我们可能会面临权衡取舍：我们愿意为可解释性放弃多少可预测性？

AI科学家苏米特·曹帕拉（Sumit Chopra）在纽约大学研究如何将机器学习应用于医疗保健中。他给出了一个磁共振图像的例子。要生成这样的图像通常需要大量原始数据，因此也需要较长的扫描时间。但如果你的目的只是准确地进行检测，例如检测癌症，这样的图像其实是没必要的。你可以通过训练一个AI，来确定只需要原始数据中的哪一小部分就足以产生准确的诊断。这种方法已经得到了验证，而曹帕拉的团队也已经这样做了*。然而放射科医师和患者显然依旧更相信图像本身，“我们人类对自己靠眼睛就可以理解的二维图像更感到舒服。”

*译者注：该团队在2021神经信息处理系统大会(NeurIPS)发表了《通过学习以加速核磁共振筛查》（Learning to Learning to Accelerate MR Screenings）论文，提出了一种直接从扫描仪采集的原始测量值推断临床相关变量的方法AcceleRated MRScreener（ARMS），在数据采集过程中实现20倍的加速，从而使该技术更便于临床筛查。

通则与直觉

对后理论科学的最后一个反对意见是，可能存在着有用的旧式理论——即从离散例子中提取出的通则——仍然有待发现，并且只有人类才能做到这一点，因为它需要我们的直觉。换句话说，它需要一种通过直觉将一些个例的属性归结为相关的一般规则的能力。我们认为牛顿是天才的原因之一在于，为了提出他的第二定律，他必须忽略一些数据。他必须想象物体不受空气阻力的干扰的情况，即在真空中下落。

在2021年的《自然》杂志上，波鸿鲁尔大学的数学家克里斯蒂安·斯顿普（Christian Stump）将这一直觉步骤称为“创作过程的核心”。然而，他写这篇文章的目的则是表明，人工智能首次完成了这一过程。DeepMind建立了一个机器学习程序，该程序促使数学家在纽结理论（knots）中得获得新的洞见——新的通则。

结语

如今，科学过程的每一个阶段几乎都留下了人工智能的足迹。我们越将它纳入我们对知识的追求，它就越会改变这种追求。我们必须学会和它共处，但我们可以向自己保证的一件事是：我们仍然在提出问题。正如巴勃罗·毕加索在20世纪60年代所说，“计算机是无用的。他们只能给你答案。”

翻译：Lu

校对：Sixin

编辑：杨银烛

原文：Are we witnessing the dawn of post-theory science?

Ep.1 – 自上而下的问题最困难也最有趣

神经漫游 — Mon, 28 Oct 2019 15:06:35 +0000

「神经漫游」意在漫游神经与认知科学之领域，揭示认知表象与内里之趣味，由此连接业余与大众之智慧。

本期内容

当上海的深夜，普林斯顿的正午与圣地亚哥的早晨通过数字信号相拼接，我们讨论了：深度学习还需要我们知道什么？为什么抑郁症这么难着手治疗？人的认知与大脑究竟是怎么运作的？认知科学如此多层面的研究颗粒度带来麻烦了吗？

我们强烈推荐你使用泛用型播客客户端收听我们的节目（如iOS系统中，苹果自带播客、Pocket Casts、Overcast、Castro或安卓系统中的AntennaPod）因为这是第一时间听到我们的节目并得到每期完整背景资料的最佳方法。搜索「神经漫游」，你也可以在网易云音乐、喜马拉雅、荔枝FM、哔哩哔哩和Spotify找到我们。

本期主播

汉那：UCSD 认知科学本科在读。心灵哲学 / 语言认知 / 科技人文 / 后人类。写字，摄影，嗜咖啡。游荡者。书呆子。野心家。

杨闰哲：普林斯顿大学计算机系与神经科学研究所在读博士，本科毕业于交大ACM班，研究兴趣主要包括人工智能与计算神经。个人主页：https://runzhe-yang.science

崔雯雯（Veina）：上海交通大学医学院基础医学博士在读，目前主要研究离子通道结构与功能。对精神疾病的关注源于抑郁症经历，可以说，抑郁症在一定程度上重塑了我的生活，从理解问题的视角，对自我的认识，以及到科研工作方向的选择等方方面面。现在，在神经科学方面，我最大的心愿是能尽自己所能去发现抑郁症及其他精神疾病发生的生理基础，或者说情绪如何实现在生理层面对我们机体的影响，当然，生理与心理的交互这是一个巨大的议题，我愿成为这个议题发展路上的一块砖。

本期纲要

[00:20] 一个博士在国内，一个博士在美国，一个本科生在美国
[03:00] 「连接组计划」：用计算机方法纳米级重构大脑？
[07:15] 深度学习的隐喻：像飞机和炼金术的存在
[13:35] 一个理论：表示复杂事物，认知比我们想的更”偷懒“
认知里的低秩假设与互联网推荐算法
[22:35] 玛丽莲梦露与祖母细胞
人工智能模仿人，人的认知研究借鉴计算
[27:07] 像拆主机读电路板那样，“打开”脑壳
[33:30] 在美国读博士是什么体验
[39:30] 隔“行”如隔山：我们能多大程度跨层级地研究认知？
[47:35] 我们到今天依然无法确定抑郁症产生的机制
有意思的肠脑：为什么抑郁症患者大多是老胃病
[57:25] 认知科学的尴尬现状
[01:04:50] 研究认知的「3 levels」：计算，表征与算法，与应用
[01:10:07] 困难的问题解决既需要自上而下，也需要自下而上
（末尾有彩蛋 Aftershow。）

机器翻译的肤浅面

Douglas Hofstadter — Tue, 20 Feb 2018 16:59:15 +0000

某个周日，在我们每周一次的莎莎舞会上（salsa sessions），我的朋友弗兰克带了一个丹麦朋友来。我知道弗兰克的丹麦语讲得很好，因为他的母亲是丹麦人，他小时候曾在丹麦生活过。而他带来的那个朋友，跟所有斯堪的纳维亚人一样，能讲一口流利的英语。然而，令我惊讶的是，在晚上闲聊的过程中，他们居然习惯性地用“谷歌翻译”交换信息。弗兰克用英文写下文字，然后用“谷歌翻译”转译成丹麦语；而他的朋友则用丹麦语写下文字，然后用“谷歌翻译”转译成英语。这太奇怪了！为什么会讲对方语言的两个聪明人要用这种方式沟通呢？我对机器翻译的体验总是让我对它不够信任。但这两个朋友显然没有我的那种疑虑。实际上，很多受过良好教育的人对于机器翻译都抱有相当大的热情，很少对它产生质疑。这让我颇感困惑。

作为一个语言爱好者和翻译热爱者，作为一个认知科学家和一个人类精妙心智的终身敬畏者，几十年来我一直在关注机器翻译的进展。当我最初在1970年代对它产生兴趣时，我读过一封信，是数学家、机器翻译早期倡议者沃伦·韦弗（Warren Weaver）于1947年写给控制论专家诺伯特·维纳（Norbert Wiener）的。在信中，韦弗写了一句很有意思的话，今天仍为众人所熟知：

当我阅读用俄罗斯语写的文章时，我会对自己说，“这篇文章实际上是用英语写的，只不过被编码成了一些奇怪的符号。现在，我要把这些符号解码回来。”

几年后，他表达了不同的看法：“没有一个理性的人会认为，机器翻译能够做到‘信、雅、达’。普希金不需要为此感到担忧。” 哈！我曾用了我人生中整整一年的时间，将亚历山大·普希金的著名诗体小说《叶甫盖尼·奥涅金》翻译成我的母语（也即是，把这一伟大的俄罗斯文学作品重新翻译成英文诗体小说），这真是一段令我难忘的经历。我发现维纳的新观点揭示了语言朴素的本质，更接近于语言的真相。尽管如此，他在1947年提出的“翻译即解码”的观点还是成为了机器翻译领域的一种信仰。

从那以后，“翻译机器”逐渐有了发展。直到最近，对所谓“深度神经网络”的使用，让有些观察家（参见纪德·刘易斯-克劳斯（Gideon Lewis-Kraus）在《纽约时报杂志》上发表的《The Great AI Awakening》，以及雷恩·格林（Lane Greene）在《经济学人》上发表的《Machine Translation: Beyond Babel》）宣称，人类译者将成为濒危物种。照此发展下去，用不了几年，人类译者要做的事情就不是创造新的文本了，而是对文本进行修修补补和质量控制。

果真如此的话，这将对我的精神生活造成巨大的冲击。虽然我完全理解人们对机器翻译的痴迷，但我肯定属于最不希望人类译者被无情的机器所取代的那类人。事实上，机器翻译令我感到恐惧和厌恶。在我看来，翻译是一种难以置信的精妙艺术，它需要译者有丰富的人生阅历和创造性的想象力。如果真有那么一天，人类译者成了历史的遗迹，我对人类心智的敬畏就会受到动摇，这种动摇会让我陷入可怕的困扰和无尽的悲伤之中。

每当我读到文章宣称，人类译者作为一个群体将很快向新技术的快刀利剑俯首称臣时，我总有一种想要亲自检验这种判断的冲动，这一方面是因为，我感到技术替代的魔魇可能近在眼前；另一方面是因为，我由衷希望自己能够确证，危险并非迫在眉睫；最后，出于我一贯的信念，我想要挑战那些夸大其词的人工智能威胁论。

人工神经网络并不是一项新奇的技术。最近，在谷歌内部被称为“谷歌大脑”（Google Brain）的部门采用了这项技术，同时，又用“深度学习”增强了它的能力。我阅读了相关文献，了解了被称为革命性翻译机器的软件机理，然后，我决定亲自测试最新版本的“谷歌翻译”。它真的是一个颠覆者吗，就像“深蓝”和“AlphaGo”之于象棋和围棋那样？

我发现，虽然“谷歌翻译”的老版本可以处理多种语言，但新的深度学习版本目前只能处理9种语言。（最新情况是，它可以处理96种了。）其中，我只打算测试英语、法语、德语和中文。

在展现测试结果之前，我应当指出，“深度”这一形容词的含义是模糊不清的。当人们听说谷歌买了一家名叫DeepMind的公司，其产品使用了用“深度学习”技术增强的“深度神经网络”时，下意识中会将“深度”一词理解为“深刻”，进而理解为“强大”、“颖悟”、“聪明”。然而，这里的“深度”仅仅是指这样一个事实：新的神经网络比老的神经网络拥有更多的层次，比如说，前者有12层，后者只有2、3层。那么，这种层级数量的差异是否意味着，神经网络必然会更聪明呢？并非如此，这不过是语义上的误解。

“谷歌翻译”的宣传声势浩大，但我对它却持有谨慎态度。尽管对它并无好感，但我也意识到它的确带来了一些惊喜。它对地球上的每个人都是免费的，能够将差不多100种语言转译成任何一种其他语言。这真是一件了不起的成就。如果我可以骄傲地称自己是“三种全会”（pi-lingual）的话（如果有人问我“你会说几种语言”，我会很愉快地回答，大概会3种语言），那么“谷歌翻译”得有多骄傲啊，毕竟，它可以把自己称为“百种全会”（bai-lingual）（“百”在中文里是指数字“100”）。对于只会3种语言的人来讲，会100种语言简直难以想象。并且，如果我将一张语言A的文字复制粘贴，放进“谷歌翻译”，不消几秒钟，它就能被翻译成语言B。在数种语言之间自由转换，这种效果在任何地方任何屏幕上都能实现。

“谷歌翻译”和相关技术的实用性是毋庸置疑的，总体而言也是很好的工具。但它在技术方法上还是极度欠缺一种东西，一言以蔽之：理解力。机器翻译绝对做不到理解语言。相反，它的方法只是试图去“解码”——而不去考虑究竟什么是理解和意义。那么，是否不需要理解就能做好翻译呢？某种事物——人类或机器——能在完全不理解语言的情况下拿出高品质的翻译作品吗？为了回答这个问题，现在我要谈及我所做过的几个实验。

▪ ▪ ▪ ▪

我的实验最先是从小处着手的。我使用了下面这段简短的话，人类的心智能够对它产生清晰的画面感：

In their house, everything comes in pairs. There’s his car and her car, his towels and her towels, and his library and hers.

在他们的房间里，每样东西都是成对出现的。有他的车，就有她的车；有他的毛巾，就有她的毛巾；有他的书房，就有她的书房。

这段话翻起来似乎是很容易的，然而在法语中（以及在其他拉丁语系中），“他”和“她”这样的性别词汇不是由事物的所有者来界定的，而是由事物本身来界定的。于是，“谷歌翻译”呈现给我们的结果就是：

Dans leur maison, tout vient en paires. Il y a sa voiture et sa voiture, ses serviettes et ses serviettes, sa bibliothèque et les siennes.

在他们的房间里，每样东西都是成对出现的。有他的车，就有他的车；有她的毛巾，就有她的毛巾；有他的书房，就有他们。

这样的结果在我预料之中。它没能意识到，我的这段话描述的是一对夫妻，强调了丈夫（他）拥有的每一样东西，他的妻子（她）也拥有。例如，深度学习引擎用了“sa”（他的）这个词来表示“他的车”和“她的车”，因此，你无法知道车主的性别。类似地，它还用了无性别的复数词“ses”来表示“他的毛巾”和“她的毛巾”。至于最后提到的两个书房（他的和她的），它则干脆省掉了“hers”中的“s”，认为“s”在这里表示复数，意指“他们”（“les siennes”）。可以说，在翻成法文的时候，“谷歌翻译”完全领会错了意思。然而，每一个人类读者都能正确理解这段话的言外之意。

接下来，我自己把这段话翻成了法文，正确表达了全部意思。以下是我的法文版本：

Chez eux, ils ont tout en double. Il y a sa voiture à elle et sa voiture à lui, ses serviettes à elle et ses serviettes à lui, sa bibliothèque à elle et sa bibliothèque à lui.4]

“sa voiture à elle”表示“她的车”，而“sa voiture à lui”只能被理解为“他的车”。这时，我猜想“谷歌翻译”应该很容易把我的法文版本准确翻回到英文，但我完全想错了。下面是它呈现给我的结果：

At home, they have everything in double. There is his own car and his own car, his own towels and his own towels, his own library and his own library.

在家里，他们的每样东西都有两个。有他自己的车和他自己的车，他自己的毛巾和他自己的毛巾，他自己的书房和他自己的书房。

这都什么鬼啊？！即便输入的语句专门强调了物主的性别，翻译机器还是忽略了这一点，把所有性别都翻成了男性。为什么它会丢掉如此重要的信息呢？

我们人类都知道，什么是夫妻、房屋、个人物品、骄傲、竞争、嫉妒、隐私，以及很多其他似乎难以理解的怪癖，比如，结了婚的夫妻，各自的毛巾也要分别刺上“他的”和“她的”字样。而“谷歌翻译”却不明就里，或者准确地说，它暂时还不明就里。它只熟悉由字母所组成的字符串，只知道以超快的速度处理一段段文字，而不知道如何思考、想象、记忆和理解这些文字。它甚至不知道文字指涉了事物。我可以毫不犹豫地说，理论上讲，计算机程序本可以理解语言的用途，可以拥有思想、记忆和经验，可以应用它们。然而，“谷歌翻译”却不是为了这些目的而设计的，设计人员甚至根本没有这样的野心。

好吧，我对它的这些糟糕表现窃喜不已，并感到一丝宽慰，毕竟，人类译者还不会很快被机器所取代。但我还是认为，我应该更深入地了解这部机器，毕竟，一口水，不解渴（one swallow does not thirst quench）。

事实上，“one swallow does not thirst quench”（也意指“一燕不成夏”（one swallow does not a summer make））这句话是我生造的，我忍不住想要试试，“谷歌翻译”会怎么翻呢？反馈给我的结果如下：“Une hirondelle n’aspire pas la soif.”这是一个符合语法的法文句子，但它的意思很费解。首先，它提到了一种鸟（“une hirondelle”——一种燕子），然后，它又说这种鸟不能吸气，或者不能吮吸（“n’aspire pas”），最终的意思就是说，这种既不吸气又不吮吸的东西口渴了（la soif）。显然，“谷歌翻译”没有理解我的意思，它只是生成了一堆胡言乱语。“Il sortait simplement avec un tas de taureau.”“He just went out with a pile of bulls.”（他只是说了一堆胡话。）“Il vient de sortir avec un tas de taureaux.”要么我的法语水平有限，要么“谷歌翻译”生成的文字就是伪法语。

▪ ▪ ▪ ▪

现在，让我们从法语的“油锅”跳到德语的“火坑”。最近，我迷上了奥地利数学家卡尔·西格蒙德（Karl Sigmund）写的《Sie nannten sich der Wiener Kreis》（人们把他们称为“维也纳学派”）一书。它讲述了维也纳的一群理想主义知识分子在1920年代和1930年代的故事，这群人对20世纪的哲学和科学产生了巨大影响。我选择了书中的一小段文字来考验“谷歌翻译”。我将先呈现德语原文，然后给出我自己的翻译版本，最后给出“谷歌翻译”的版本。（顺便提一句，有两个母语是德语的人核对了我的翻译，包括卡尔·西格蒙德，因此，我认为你大可相信我的翻译是准确的。）

西格蒙德：

Nach dem verlorenen Krieg sahen es viele deutschnationale Professoren, inzwischen die Mehrheit in der Fakultät, gewissermaßen als ihre Pflicht an, die Hochschulen vor den “Ungeraden” zu bewahren; am schutzlosesten waren junge Wissenschaftler vor ihrer Habilitation. Und Wissenschaftlerinnen kamen sowieso nicht in frage; über wenig war man sich einiger.

侯世达：

After the defeat, many professors with Pan-Germanistic leanings, who by that time constituted the majority of the faculty, considered it pretty much their duty to protect the institutions of higher learning from “undesirables.” The most likely to be dismissed were young scholars who had not yet earned the right to teach university classes. As for female scholars, well, they had no place in the system at all; nothing was clearer than that.

战败之后，泛德国主义在当时的教职员工中是主流倾向，很多持有这种倾向的教授认为，自己完全有责任让高等教育机构免受“政治上不受欢迎的人”的影响。最有可能被开除的是青年学者，他们还没有获得在大学授课的教职。对于女性学者而言，她们在大学里更是没有立足之地，这是再明显不过的事实了。

谷歌翻译：

After the lost war, many German-National professors, meanwhile the majority in the faculty, saw themselves as their duty to keep the universities from the “odd”; Young scientists were most vulnerable before their habilitation. And scientists did not question anyway; There were few of them.

战败之后，很多德国籍的教授，同时也是教职员工中的多数派，认为自己有责任让大学避免“奇数”；在获得资格之前，青年科学家是最容易受到影响的。总之，科学家没有产生质疑，几乎没有了。

“谷歌翻译”呈现的都是英文词汇（然而，不清楚是什么原因，有两个大写字母没用对地方）。除此之外，似乎还过得去。然而，很快你就会发现不对劲了，越往下读，问题越大。

首先，我注意到了“odd”这个词。它对应了德文中的“die ‘ungeraden’”，意思是“政治上不受欢迎的人”。然而，“谷歌翻译”有理由——出于非常简单的统计学上的理由——选择“odd”这个词。也即是说，在其上百种语言的数据库中，“ungerade”这个词总是被译作“奇数”（odd）。尽管机器本身并不知道为什么会这么翻，但我可以告诉你原因何在。这是因为“ungerade”的意思——字面意思是“不平的”或“不均匀的”——几乎总是意指“不能被2除尽”。而我的翻译版本有意选择了“undesirables”一词，从而使得对“Ungeraden”一词的翻译与统计概率无关，而是来自于我对语境的理解——来自于我注意到文字中没有被清晰表达出来的含义，而且“ungerade”的这种含义绝不可能在我自己的德语词典中找到。

让我们再来看看“Habilitation”这个德语词汇，它意指大学的教职，相当于终身教授。英文里也有同样词根的词“habilitation”，不过它很少被使用，自然也不会让人联想到终身教授或者类似的事物。所以，我需要简单解释而不只是引用这个含义模糊的词。机器翻译不可能真正理解以英文为母语的读者，“谷歌翻译”当然也做不到这一点，因为它不能模仿读者的知识。

不过，最后两句话才真正表明了，为什么理解对于翻译而言至关重要。德语名词“Wissenschaftler”由15个字母组成，意思是“科学家”或“学者”。（我选择了后者，因为在文中的语境下，它意指一般意义上的知识分子，而“谷歌翻译”则没能理解这一细微之处。）另一个与此相关的词“Wissenschaftlerin”由17个字母组成，我们可以在最后一句话中看到其复数形式“Wissenschaftlerinnen”，它是一个指代了性别的德语名词。单数名词在语法上指代男性，意指男性学者，复数名词指代女性，只适用于女性学者。我自己的翻译版本用了“女性学者”（female scholar）来理解这层意思。而“谷歌翻译”并没有理解增加了“in”这个后缀的阴性词是最后这句话的核心意义所在。由于它没能意识到“女性”这层意思，就只能再次使用“科学家”这个词，因此没有理解整句话的意思。就像前面的法语例子一样，“谷歌翻译”完全不理解，这段德文的中心意思是要比较男性学者和女性学者的不同境况。

除开这个错误，最后一句话的余下部分也是翻得一塌糊涂。先看前半部分。“总之，科学家没有产生质疑”（scientists did not question anyway）是对“对于女性学者而言，她们在大学里更是没有立足之地”（Wissenschaftlerinnen kamen sowieso nicht in frage）的正确翻译吗？显然，它没能呈现出原文的意思——甚至完全挨不上边。它只是随意地将德语词汇翻成了英语词汇。这样的结果可以被贴上“翻译”的标签吗？

这个句子的后半部分同样是错译的。最后6个德语词汇的字面意思是，“没有更多的共识了”，或者更直白一点，“这就是人们达成的最大共识了”。然而，“谷歌翻译”却将这句意思很明确的话翻成了“几乎没有了”。作为人类的我们可能会问“几乎没有什么了？”但翻译机器是不会关心这个问题的。“谷歌翻译”对于语境完全不理解，因此它甚至不能回答看上去很简单的问题。翻译引擎不能想象数量的大小或者事物的数量。它只是把数字翻出来，并没有意识到这些数字象征了某些事物。

▪ ▪ ▪ ▪

人类有着丰富的人生阅历，也能赋予语言以意义，因此很难察觉到“谷歌翻译”呈现在屏幕上的文字是漏洞百出的。人们几乎会不假思索地认为，一款能如此流畅地翻译语言的软件一定能够理解文字的含义。这种典型的幻觉与人工智能有关，被称为“伊莉莎效应”（ELIZA effect），它迷幻了人们的双眼，让人们误以为机器可以理解英语。时光回到1960年代，研究人员设计了一个被称为“伊莉莎”的虚假的语言机器人，并把它假扮成了一个精神治疗师。“伊莉莎”让每一个与它打过交道的人产生了一种奇怪的感觉：它能够深刻理解人们心灵深处的感受。

几十年来，颇有见识的人们——甚至一些人工智能的研究人员——也陷入了“伊莉莎效应”。为了确保我的读者避开这一陷阱，让我从前面的段落中引用一些词组——也即是，“‘谷歌翻译’没有理解能力”，“它不能意识到”，“‘谷歌翻译’没有最起码的想法”。然而悖论之处在于，这些词组一直在说“谷歌翻译”欠缺理解力，而这同时又意味着，它至少在有些时候应该具备理解一个单词、一个词组或一句话的含义或所指事物的能力。但事实并非如此。“谷歌翻译”绕开或回避了对语言的理解。

对我而言，“翻译”这个词散发着神秘而振奋的光芒。它代表了一种深刻的人类艺术形式，能够优雅地将用语言A表达的清晰思想转化成用语言B表达的清晰思想。而这种转化的桥梁不仅仅要确保清晰性，还要呈现出原作者的品味、癖好和写作风格。当我在做翻译的时候，我首先会仔细阅读原文，尽可能准确理解文中的内容，让它们在我脑海中来回酝酿。这不是说让原文中的词句来回酝酿，而是让原文中的思想激荡起其他相关的思想，从而在我脑海中创造出与这些场景相关的美妙光环。不消说，这些光环大多是无意识的。只有当这种光环在我脑海中被成功激发出来时，我才会试图去用另一种语言将它表达出来——让它“喷薄而出”。我希望能用语言B将那种光环表达出来。

简而言之，我并不是简单地将语言A中的单词和词组转化成语言B中的单词和词组，而是要在无意识中将图像、场景、思想呈现出来，发掘出我自己的人生经历（或者读过的书籍、看过的电影、朋友的教诲），只有当这些非语言的、想象的、体验的、心灵的“光环”被感受到的时候——只有当晦暗不明的意义泡沫漂浮在我脑海中时——我才会开始用另一种语言来书写词汇和语句，然后，修改，修改，再修改。这一通过理解语言来实现的过程似乎显得过于笨拙。事实上，跟“谷歌翻译”2、3秒就能翻出一个页面的速度相比，情况的确如此——但这正是严肃的人类译者应该做的事情。每当我听到那个令人亢奋的术语“深度心智”（deep mind）时，我所想到的正是上述场景。

▪ ▪ ▪ ▪

现在，我要转向对中文翻译的测试，这对深度学习软件的挑战比前两种欧洲语言要大得多。我的测试材料来自令人温暖的回忆录《我们仨》，作者是中国剧作家和翻译家杨绛，她刚去世没几年，享年104岁。该书讲述了她、她的丈夫钱钟书（也是一个小说家和翻译家）和她女儿跌宕起伏的人生。这本书的文字并不晦涩，但中文用语很规范。我选择了其中一小段，让“谷歌翻译”来完成。以下是翻译结果和我自己的翻译（已经过母语为中文的人的审校）：

杨绛：

钟书到清华工作一年后，调任毛选翻译委员会的工作，住在城里，周末回校。他仍兼管研究生。

毛选翻译委员会的领导是徐永煐同志。介绍钟书做这份工作的是清华同学乔冠华同志。

事定之日，晚饭后，有一位旧友特雇黄包车从城里赶来祝贺。客去后，钟书惶恐地对我说：

他以为我要做“南书房行走”了。这件事不是好做的，不求有功，但求无过。

侯世达：

After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao. He lived in the city, but each weekend he would return to school. He also was still supervising his graduate students.

The leader of the translation committee of Mao’s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua.

On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu. After our guest had left, Zhongshu turned to me uneasily and said:

“He thought I was going to become a ‘South Study special aide.’ This kind of work is not easy. You can’t hope for glory; all you can hope for is to do it without errors.”

谷歌翻译：

After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends. He is still a graduate student.

The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian. Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades.

On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate. Guest to go, the book of fear in the book said to me:

He thought I had to do “South study walking.” This is not a good thing to do, not for meritorious service, but for nothing.

我将简要指出一些谬误之处。首先，“谷歌翻译”完全没有提到“钟书”这个名字，而它在原文中出现过3次。翻译机器首先用了代词“他”，然后又用了“这本书”（the book），接着又说“惶恐的书在书中”（the book of fear in the book）。你就去猜是什么意思吧！

第二处谬误是，第一段文字说得很清楚，钟书仍然兼管研究生，而“谷歌翻译”却把钟书翻成了研究生。

第三处谬误是关于“毛选翻译委员会”，毛泽东主席的“东”字被省掉了。

第四处谬误是，“永煐”这个名字被译成了“Yongjian”。

第五处谬误是，“客去后”被翻成了“客要走”。

第六处谬误是，最后一句话完全不知所云。

好吧，这六处错误已经能让“谷歌翻译”够喝一壶的了，不过我们完全可以不用在意这些错误。现在，我将集中探讨一个令人费解的词组——最后一段话中由5个单词组成的、用引号标注的词组（“南书房行走”）。如果逐字翻译，这个词组可以被译作“south book room go walk”，但这种大杂烩显然是难以理解的，尤其是考虑到文中的语境，它肯定是一个名词。“谷歌翻译”给出的结果是“South study walking”，但仍然词不达意。

我得承认，刚开始我也不知道这个中文词组是什么意思。尽管从字面上看它的意思似乎是，在某栋建筑的南边学习的时候移动自己的脚步。我知道，这种理解肯定是错的，不符合语境。为了翻译它，我不得不去了解我并不太熟悉的中国文化。我该寻求谁的帮助呢？谷歌啊！（但不是“谷歌翻译”。）我将这几个中文单词连同引号输入谷歌搜索框，然后让引擎自己去搜索。很快，一堆中文网页跳了出来，我痛苦地在前两个网页呈现的中文语句中搜寻，想要搞明白这个词组究竟是什么意思。

我发现，这个词要追溯到清朝（1644-1911），专指辅助皇帝的知识分子，他们的责任是帮助皇帝（在皇宫的南书房）起草漂亮的官方文件。“行走”这个词实际上意指“辅助”。因此，根据谷歌搜索提供的信息，我把这个词组翻译成了“South Study special aide”。

显然，“谷歌翻译”没能像我一样好好利用谷歌搜索，这真是太糟糕不过了，不是吗？尽管“谷歌翻译”能在瞬间翻出这个词组，但它不能理解网页里的中文内容。我把我查看的中文网页信息输入“谷歌翻译”，它很快就呈现了如下结果：

“South study walking” is not an official position, before the Qing era this is just a “messenger,” generally by the then imperial intellectuals Hanlin to serve as. South study in the Hanlin officials in the “select chencai only goods and excellent” into the value, called “South study walking.” Because of the close to the emperor, the emperor’s decision to have a certain influence. Yongzheng later set up “military aircraft,” the Minister of the military machine, full-time, although the study is still Hanlin into the value, but has no participation in government affairs. Scholars in the Qing Dynasty into the value of the South study proud. Many scholars and scholars in the early Qing Dynasty into the south through the study.

这难道不是英文翻译吗？我们当然都知道，这段话是由英文单词组成的（至少绝大部分是如此），但这是否意味着它是一篇英语文章呢？在我看来，上面这段翻译不知所云，因此它不能算是英语文章，只是由英文单词拼凑而成的大杂烩——随机的词汇拼盘，毫无逻辑的乱炖。

为了满足你的好奇心，我自己对这段文字做了翻译（花了我好几个小时）：

The nan-shufang-xingzou (“South Study special aide”) was not an official position, but in the early Qing Dynasty it was a special role generally filled by whoever was the emperor’s current intellectual academician. The group of academicians who worked in the imperial palace’s south study would choose, among themselves, someone of great talent and good character to serve as ghostwriter for the emperor, and always to be at the emperor’s beck and call; that is why this role was called “South Study special aide.” The South Study aide, being so close to the emperor, was clearly in a position to influence the latter’s policy decisions. However, after Emperor Yongzheng established an official military ministry with a minister and various lower positions, the South Study aide, despite still being in the service of the emperor, no longer played a major role in governmental decision-making. Nonetheless, Qing Dynasty scholars were eager for the glory of working in the emperor’s south study, and during the early part of that dynasty, quite a few famous scholars served the emperor as South Study special aides.

有些读者可能会怀疑，我是为了贬损“谷歌翻译”才有意选取那些难翻的文字的，而实际上“谷歌翻译”在大多数情况下的表现要好得多。这听起来有些道理，但事实上却并非如此。我从自己最近读的任意一本书中随机选取一段文字让它翻译，都会出现各种各样的错误，包括出现前面所提到的不知所云和无法理解的词组。

当然，我承认，“谷歌翻译”有时会翻出一些看上去还不赖的句子（尽管与原文的意思仍有偏差或者完全误解了原文）。一两段翻得不错的完整语句可能会让人产生幻觉：“谷歌翻译”知道自己在做什么，能够理解它所“阅读”的文字。在这种情况下，它似乎给人留下了深刻的印象——它几乎能达到人类的水平！这样的赞美当然要归功于它的发明者和他们艰苦的工作。但与此同时，不要忘了，“谷歌翻译”是如何翻译前面那两段中文内容的，以及更前面的法语和德语段落的。要理解它为什么是失败的项目，人们需要牢记“伊莉莎效应”。百种语言引擎并没有在阅读任何东西——至少不是人类意义上“阅读”。它只是在机械处理文字。它所处理的符号与我们对这个世界的体验无关。它没有记忆可供提取，它能够快速处理文字，但这些文字对它而言没有图像、没有理解、没有意义。

▪ ▪ ▪ ▪

一个朋友问我，“谷歌翻译”的局限是否只是大数据资源不足造成的。他认为，如果你能大幅增加数据资源，比如，数百万或数十亿个数据库，最终它就能满足你所有的翻译需求，并且还能翻得很完美。但我不这么认为。拥有更多的“大数据”不会让你更接近于获得理解力，因为理解力涉及到拥有思想，缺乏思想是今天机器学习面临的最根本的问题。因此，我敢说，更大的数据库——甚至巨大的数据库——也不能解决这个问题。

自然，这又引出了另一个问题：“谷歌翻译”对神经网络——一种试图模拟大脑的技术——的使用能让机器对语言产生理解吗？初看起来，似乎是可行的。但“谷歌翻译”对语言的处理仍然没能超越单词和词组这样的初级层面。在庞大数据库中，所有类型的统计数据都可以被用于神经网络，但这些统计数据只是用某些词语去联接另一些词语，而不是去联接思想。它没有试图创造一种内部结构，这种结构可以被视作思想、图像、记忆、体验。这些缥缈的心智内容仍然难以用算法来创生，因此，作为一种替代品，谷歌使用了成熟而具有效率的语词聚类统计算法。然而，这种技术的效果无法等同于思想，而思想是人们在阅读、理解、创造、修改、评判作品的过程中产生的。

尽管我的看法是偏负面的，但人们对于“谷歌翻译”提供的服务还是给予了很高评价：它虽然不能很准确地把语言A翻成语言B，但的确可以在交流过程中发挥应急作用。只要被翻成语言B的文字大体上可以被理解，很多人就会对它十分满意。如果人们能明白一段外语的“基本意思”，他们就会觉得很开心。然而，在我看来，这显然不是“翻译”这个词的本义，但对有些人来说，“谷歌翻译”无疑是一个伟大的产品，它所做的工作就是翻译。好吧，我明白这些人的需求，也理解他们的那种开心。对他们而言，这的确是一种幸运。

最近，我看到有技术狂热分子制作了柱状图，号称可以比较人工翻译和机器翻译的“质量”，这些图形表明，最新版本的翻译引擎已经很接近人工翻译水平了。但是，在我看来，这是一种对无法量化的事物进行量化的伪科学，或者，你也可以认为，是一群技术呆子试图将无形的、微妙的、艺术的事物进行量化。在我眼里，今天的“谷歌翻译”，其水准既有优秀的一面，也有搞笑的一面，而我是无法把我对它的感受进行量化的。回想一下前面提到的第一个翻译例子吧，里面涉及到“他的”和“她的”物品，没有理解能力的翻译机器几乎把这些物品都翻对了。尽管取得了这样小小的成功，但它还是没能理解整段话的意思。在这种情况下，人们应该如何量化它的工作质量呢？用看上去很科学的图表去证明翻译质量，不过是对科学方法的滥用而已。

让我回到人类译者的悲观图景：他们很快将被机器超越和淘汰，逐渐变得无所事事，从而成为翻译质量的检验者和文字的修补者。这种看法充其量只适用于平庸的译者。一个严肃艺术家的工作绝不是从对低俗破烂作品的修修补补开始的，这些破烂不可能被打造成高雅艺术。艺术不是这个样子，而翻译无疑是一门艺术。

在我多年的写作生涯中，我一直坚持认为，人类的大脑是一部机器——非常复杂的机器——我完全反对有些人的说法，说机器天然就不可能理解意义。甚至有一派哲学家声称，计算机绝不可能“理解语义”，因为它们是由“错误的材料”（硅）组成的。在我看来，这种观点是草率的胡说八道。我不想在这里深入讨论这个问题，但我也不想让读者对我留下这样一种印象：我相信计算机永远不可能拥有智力和理解力。如果我的这篇文章传递了这样一种意思，那是因为我提到的技术没有触及到人类智力的核心之处，前面所举的那些例子很清晰地表明了机器翻译的局限性。

在我看来，没有根本的理由认为，原则上机器不会在某一天学会思考、创造、搞怪、怀旧、兴奋、恐惧、高兴、沉默、期盼。进而言之，机器可以真正学会在不同语言之间进行翻译。没有根本的理由认为，机器不会在某一天成功翻译笑话、双关语、剧本、小说、诗歌，当然，还有像本文这样的文章。但是，所有这一切只有在机器拥有了类似人类的思想、情绪和体验的基础上才能实现，而这绝非近在咫尺的事情。实际上，我相信我们还有相当长的路要走。至少，这是一个一辈子对人类心智之深邃充满敬畏的人所热切希望的。

如果有一天翻译机器能翻出用诗一般的英文写出的文艺小说，并准确呈现出其中的押韵、赋格、节律、智慧、悲伤和声韵，那么我知道，是时候摘下我的帽子，向它致敬了。

翻译：王培；编辑：EON

The Shallowness of Google Translate

The program uses state-of-the-art AI techniques, but simple tests show that it’s a long way from real understanding.

机器学习 – 神经现实

诺贝尔奖授予AI领域，传统研究方法要消亡了吗？

理论拒绝消亡的三个原因

更准确的预测

可解释性

通则与直觉

Ep.1 – 自上而下的问题最困难也最有趣

本期内容

本期主播

本期纲要

延伸阅读

/杨提到的概念和人/

/杨的个人研究与导师/

/汉那提到的概念和其他名词/

/汉那提到的虚构与非虚构作品/

/Veina 提到的医学药品与语汇/

/本期提到的神经现实文章/

机器翻译的肤浅面

翻译：王培；编辑：EON

The Shallowness of Google Translate