购物车里没有产品

人文

机器学习的兴起，是否意味着传统研究方法的消亡？

机器学习算法的出现，是否意味着经典的“假设-预测-验证”的科学研究方法正在走向灭亡？

作者神经现实2022年6月10日783

后理论时代

据传，被一个苹果砸在头上之后，艾萨克·牛顿发现了他的第二定律——那个关于万有引力的定律。经过大量实验和数据分析，他意识到力、质量和加速度之间存在着根本性的关系。因此，他提出了一个理论来描述这种关系，即F=ma公式，并且可以用其来预测苹果之外的其它物体的行为。事实证明，他的理论是正确的（至少对于我们这些后人来说已经足够精确）。

牛顿的这种提出理论的方式和当今科学的发展方式截然不同。Facebook的机器学习工具能够比任何心理学家都更准确地预测你的偏好^[1]；DeepMind所开发的程序AlphaFold能够根据蛋白质所含的氨基酸，对蛋白质结构进行截至目前为止最准确的预测^[2]。然而，这两个系统都对它们的工作原理缄默不言，它们无法告诉我们：为什么你更喜欢这个或那个信息；为什么这个序列会生成那样的结构。

你无法掀开幕布来窥视其中的机制。这些系统没有提供任何解释，无法提供一套能说明如何将这个变成那个的规则。简而言之，它们没有理论支持。它们能工作，并且做得很好，如此而已。我们每天都在见证Facebook的预测程序对社会的影响。AlphaFold的影响虽然尚未显现，但许多人相信它将改变现代医学^[3]*。

在牛顿到马克·扎克伯格之间的某处，理论退居了二线。在2008年时，时任《连线》杂志（Wired magazine）的主编克里斯·安德森（Chris Anderson）就预言了它的消亡^[4]**。他认为，我们已经积累了如此多的数据，并且相比于人类，计算机发现数据间关系的能力已经强得多，这就暴露出：我们所提出的理论不过是对现实的过度简化。古老的科学研究方法——假设、预测、检验——很快将被扔进历史的垃圾箱。我们将不再寻找事物的原因，而是满足于其中的相关性。

事后看来，我们可以说安德森所看到的是真实的（他并不是唯一一个这样认为的人）。大量数据向我们展示出的这种复杂性无法被传统意义上的理论所阐述。德国图宾根马克斯普朗克（Max Planck Institute）生物控制论研究所所长、计算神经科学家彼得·达扬（Peter Dayan）说：“我们的能力已经滞后了，无法写出那些会有助于描述的理论，甚至不知道它们会是什么样。”

*译者注：* https://www.science.org/doi/10.1126/science.abn5795 《科学》杂志的总编辑霍尔顿·索普在《蛋白质，无处不在的蛋白质》一文中写道：“这是一个重大的突破，其原因有二：它解决了这个在待办事项清单上待了50年的科学问题。就像费马大定理或引力波一样，科学家们一直在努力解决它。其次，这个技术很大程度上改变了这个领域，就像基因编辑工具CRISPR和冷冻电镜技术一样，将会极大地加速科学发现。无论如何，这都是一个双重意义上的重要年度突破。”** https://www.wired.com/2008/06/pb-theory/ 克里斯·安德森在《理论的终结》一文中指出：“（随着人们从百字节到千字节，再到兆字节甚至太字节，）大量数据的诞生，以及处理这些数字的统计工具，为我们提供了一种了解世界的全新方式。相关性取代了因果性，即使没有连贯的模型、统一的理论或任何机械解释，科学也能取得进步。没有理由坚持我们的旧方式了。是时候问一问：科学可以从谷歌那里学到什么？”

– Björn Öberg –

理论拒绝消亡的三个原因

但安德森对理论终结的预测似乎为时过早——或者他的论文本身可能过于简单化了。尽管Facebook^[5]和AlphaFold这样的无理论（theory-free）预测引擎取得了成功，但理论拒绝消亡的原因仍有很多。这些成功启发了我们去追问：获取知识的最佳方式是什么？科学从何而来？

理论拒绝消亡的第一个原因是，我们已经意识到，人工智能，尤其是被称为神经网络的机器学习方法，由于它们无需接受任何的学习指导只是从数据中完成学习，本身是容易出错的。例如，谷歌搜索引擎^[6]和亚马逊^[7]招聘工具会记录下偏见*。

第二个理由是，人类对没有理论的科学深感不安。我们不喜欢处理黑匣子——我们想知道为什么。

第三个理由是，目前可能仍然有很多传统类型的理论——即人类可以理解的理论——可以有效地解释很多尚未被发现的现象。

*译者注：《卫报》在2016年的一篇名为《谷歌如何以右翼偏见传递虚假信息》中指出：“谷歌的搜索算法及其自动完成功能优先考虑那些宣称气候变化是骗局、同性恋是罪恶、桑迪胡克大规模枪击事件从未发生过的网站。”《路透社》在2018年的名为《亚马逊废弃了对女性有偏见的秘密人工智能招聘工具》中提到：由于该智能招聘工具是从近10年提交给公司的简历中来学习，而男性在科技领域中占有主导地位，因此它在评估时自动地对“女性”这个词语进行了惩罚。

– Bernstein & Andriulli –

更准确的预测

所以，理论还没有灭亡，但它正在改变——或许已经面目全非。普林斯顿大学心理学家汤姆·格里菲斯（Tom Griffiths）说：“那些当你拥有大量数据时讲得通的理论，与那些在少量数据下有道理的理论，看起来是完全不同的。”

格里菲斯一直在使用神经网络来帮助改进他所在的领域，即人类决策领域的现有理论。在1970年代，经济学家丹尼尔·卡尼曼（Daniel Kahneman）和阿莫斯·特沃斯基（Amos Tversky）提出了一种目前十分流行的前景理论（prospective theory，后来为卡尼曼赢得了一座诺贝尔奖），它解释了人们在涉及经济风险时如何做出决策，其核心观点是人们的决策并非总是理性的。

然而，在去年6月的《科学》杂志上^[8]，格里菲斯的小组描述了他们在一个庞大的决策数据集上训练神经网络的过程，该数据集包含人们在一万个风险选择场景中做出的决策。他们用该网络来预测人们的进一步决策行为，并与前景理论的预测做了比较。他们发现，虽然前景理论预测得很好，但神经网络在该理论失败（即预测失败）之处，显示出了它的价值。

格里菲斯说，这些反例信息量很大，因为它们揭示了现实生活中存在的更多复杂性。例如，正如前景理论所描述的那样，人们会不断地根据传入的信息权衡其概率。但是，当大脑要计算的相互竞争的概率太多的时候，他们可能会转向不同的策略——例如，以经验法则为指导——股票经纪人的经验法则可能与青少年比特币交易员的经验法则不同，因为它们来自不同的经验^[9]。

“简单地说，我们是在使用机器学习系统，来识别那些我们看到的东西与我们的理论不一致的情况。”格里菲斯说。数据集越大，人工智能所学习到不一致情况就越多。其最终结果不是传统意义上的理论，即关于人们如何做出决定的精确主张，而是一组受某些约束的主张。描述它的一种方式是“如果……则……”这样的分叉树。这很难用数学来描述，更不用说用语言描述了。

普林斯顿心理学家的发现仍然勉强能算作可解释的，是现有前景理论的扩展。但随着它们揭示出越来越多的复杂性，它们会变得越来越不可解释——其发展过程的逻辑顶点就是Facebook或AlphaFold所体现的无理论预测引擎。

一些科学家对此感到满意，甚至渴望这样做。语音识别软件先驱弗雷德里克·耶利内克（Frederick Jelinek）说：“每次我解雇一名语言学家时，语音识别器的性能就会提高。”他的意思是理论阻碍了进步——而那时不过是20世纪80年代。

或者以蛋白质结构为例。蛋白质的功能很大程度上取决于其结构，因此，如果想要设计一种药物来阻断或增强某种蛋白质的作用，则需要了解它的结构。AlphaFold在实验结构数据上进行了训练（数据是通过X射线晶体学等技术推导出来的）。目前，它的预测对于有实验数据的蛋白质而言比没有实验数据的蛋白质更可靠。剑桥附近的EMBL欧洲生物信息学研究所（EMBL-EBI）前主任珍妮·特桑顿（Janet Thornton）说，它的可靠性还一直在提高，缺乏理论并不会阻止药物设计师使用它。“AlphaFold所做的也是一种科学发现，它只会加深我们对生命和治疗的理解。”

然而其他人显然对科学的发展方向不太满意。例如，批评者指出，神经网络可能会产生虚假的相关性，尤其是在它们训练的数据集很小的情况下。所有数据集都是有偏见的，因为科学家们收集数据的方式并不是均匀或中立的，而是始终基于某些假设或假定的。这些假设对谷歌和亚马逊的人工智能造成了破坏性影响。正如埃克塞特大学的科学哲学家萨碧娜·莱奥内利（Sabina Leonelli）所描述的：“我们使用的数据环境非常扭曲。”

虽然这些问题确实存在，但达扬并不认为它们是不可克服的。他指出，人类也会产生偏见，并且与人工智能的偏见截然不同。“人类偏见以既难被发现，也难被纠正的方式存在。”实际上，如果一个理论产生的预测不如人工智能可靠，那么很难说机器是两者中更为偏颇的那一个。– Ileana Soon –

可解释性

新的科学面临的一个更艰难的障碍可能是我们人类解释世界的需要——即能够用因果关系来描述它。在2019年，西雅图华盛顿大学的神经科学家宾尼·布鲁顿（Bingni Brunton）和迈克尔·贝耶勒（Michael Beyeler）写道^[10]，这种对可解释性的需求，可能阻碍了科学家们对大脑产生新的洞见——只能从大型数据集中涌现的洞见。但他们也对此表示体谅。他们写道，如果要将这些洞见转化为药物和设备等有用的东西，“这些计算模型所输出的洞见必须能够向临床医生、终端用户以及行业解释，并得到这些群体的信任。”

如今，“可解释的人工智能”（Explainable AI）已成为热门话题，它旨在弥补可解释性的鸿沟。然而，这一鸿沟或许只会越来越大，我们可能会面临权衡取舍：我们愿意为可解释性放弃多少可预测性？

AI科学家苏米特·曹帕拉（Sumit Chopra）在纽约大学研究如何将机器学习应用于医疗保健中。他给出了一个磁共振（MRI）图像的例子。要生成这样的图像通常需要大量原始数据，因此也需要较长的扫描时间。但如果你的目的只是准确地进行检测，例如检测癌症，这样的图像其实是没必要的。你可以通过训练一个AI，来确定只需要原始数据中的哪一小部分就足以产生准确的诊断。这种方法已经得到了验证，而曹帕拉的团队也已经这样做了^[11]*。然而放射科医师和患者显然依旧更相信图像本身，“我们人类对自己靠眼睛就可以理解的二维图像更感到舒服。”

*译者注：该团队在2021神经信息处理系统大会(NeurIPS)发表了《通过学习以加速核磁共振筛查》（Learning to Learning to Accelerate MR Screenings）论文，提出了一种直接从扫描仪采集的原始测量值推断临床相关变量的方法AcceleRated MRScreener（ARMS），在数据采集过程中实现20倍的加速，从而使该技术更便于临床筛查。

– Vasava Studio –

通则与直觉

对后理论科学的最后一个反对意见是，可能存在着有用的旧式理论——即从离散例子中提取出的通则——仍然有待发现，并且只有人类才能做到这一点，因为它需要我们的直觉。换句话说，它需要一种通过直觉将一些个例的属性归结为相关的一般规则的能力。我们认为牛顿是天才的原因之一在于，为了提出他的第二定律，他必须忽略一些数据。他必须想象物体不受空气阻力的干扰的情况，即在真空中下落。

上个月，在《自然》杂志上，德国波鸿鲁尔大学（Ruhr University Bochum）的数学家克里斯蒂安·斯顿普（Christian Stump）将这一直觉步骤称为“创作过程的核心”^[12]。然而，他写这篇文章的目的则是表明，人工智能首次完成了这一过程。DeepMind建立了一个机器学习程序，该程序促使数学家在纽结理论（knots）中得获得新的洞见——新的通则。

结语

在2022年，科学过程的每一个阶段几乎都留下了人工智能的足迹。我们越将它纳入我们对知识的追求，它就越会改变这种追求。我们必须学会和它共处，但我们可以向自己保证的一件事是：我们仍然在提出问题。正如巴勃罗·毕加索在20世纪60年代所说，“计算机是无用的。他们只能给你答案。”

参考文献

1.https://www.theguardian.com/books/2021/nov/29/the-big-idea-should-we-worry-about-artificial-intelligence

2.https://www.theguardian.com/technology/2021/jul/22/ai-firm-deepmind-puts-database-building-blocks-life-human-protein-structure-free-online

3.https://www.science.org/doi/10.1126/science.abn5795

4.https://www.wired.com/2008/06/pb-theory/

5.https://www.theguardian.com/technology/facebook

6.https://www.theguardian.com/technology/2016/dec/16/google-autocomplete-rightwing-bias-algorithm-political-propaganda

7.https://www.reuters.com/article/us-amazon-com-jobs-automation-insight-idUSKCN1MK08G

8.https://www.science.org/doi/10.1126/science.abe2629

9.https://www.theguardian.com/technology/bitcoin

10.https://www.sciencedirect.com/science/article/pii/S0959438818302502

11.https://neurips.cc/Conferences/2021/ScheduleMultitrack?event=36833

12.https://www.nature.com/articles/d41586-021-03512-4

作者：Laura Spinney | 翻译：Lu

校对：Sixin | 编辑：杨银烛

封面：Ileana Soon | 排版：光影

原文：

Are we witnessing the dawn of post-theory science?
Does the advent of machine learning mean the classic methodology of hypothesise, predict and test has had its day?