AI也有偏见，我们该如何信任它们？

如果AI革命不可避免，至少一个可被解释的系统能够更好地融入崭新的算法社会契约。

作者amecolli2020年5月11日846

1970年，爱德华·肖特利夫（Edward H. Shortliffe）在斯坦福大学的实验室里开始着手编写一个Lisp程序。这个名为MYCIN的系统通过一系列的是非问题帮助医生判断病人是否患有遗传性血液疾病，并根据病人体重建议抗生素用量。作为历史上最早的专家系统之一，MYCIN的正确率仅为65%，相较血液科医师80%的正确率相去甚远，而且由于程序过于庞大，最终也没有投入使用。

2019年，150名受试者来到UCLA的VCLA中心，观看Baxter机器人打开附有安全锁的药瓶。随后，Baxter向其中一些受试者解释了自己是如何打开药瓶的，剩下的人没有得到任何解释。最后，实验者向所有人提问：你在多大程度上相信这个机器人会开药瓶？

在过去的半个世纪里，机器的计算与储存能力突飞猛进，我们可以轻松地在计算机上运行像MYCIN一样相对简单的系统，甚至可以训练深度神经网络、支持向量机（Support Vector Machine）等更加复杂的模型达到接近专业医生的诊断水平，或是让机器人完成相对复杂的精细动作。

但是，AI系统的性能提升也带来了新的问题：如果这些系统进入我们的生活，你会信任它们作出的决定吗？

为何要解释AI？

AI如日中天，我们为什么要停下来思考怎么解释它？

2016年5月，ProPublica发布了一篇名为《机器偏见》的调查报告，聚焦一个名为COMPAS的AI系统。COMPAS被广泛应用于美国司法量刑。它基于已有的犯罪记录，尝试预测被告被再次逮捕的概率，得出一个1到10分之间的分数——分数越高，它建议的量刑越重，以期更有效地惩治潜在的再犯。

ProPublica分析了18000多人的COMPAS分数和犯罪记录，发现黑人与白人的分数分布明显不同——在犯罪历史、再逮捕记录、年龄、性别都相同的条件下，黑人被告得到更高COMPAS分数的概率高于白人被告45%。另外，有48%在两年内被再次逮捕的白人被告的COMPAS分数被低估，几乎是黑人被告的两倍。因为数据来自具有结构性不公的环境（既有司法系统倾向于区别对待不同人种），COMPAS的（草率）决定也受此影响。然而，由于COMPAS是一个黑箱系统，法官只能看到分数，对内部的决策机制一无所知，导致他们无法有效评估系统的建议。另一篇调查报告更是指出，COMPAS的准确率相当于几乎没有刑事司法专业知识的人。

无独有偶，2015年，有用户发现谷歌的图像识别系统将自己的黑人朋友标记为“大猩猩”，在推特上引起轩然大波。直到2018年，谷歌仍然没有完全修复这一漏洞，只是将灵长类的标签从系统中移除，并称“图像识别技术还不成熟”。同样是2015年，纽约西奈山医院用70万病人的数据训练了一个名为“深度病人”的深度神经网络，用以辅助医疗诊断。“深度病人”对精神分裂症的预测出乎意料地准确，但没有医生知道为什么，自然也无法应用于自己的临床诊断；当它被用于分析医院以外的X光片时，系统正确率莫名出现了大幅下降。

“数据不会说谎。”但这绝不意味着我们不需要仔细审视它们，或是给予基于数据之上的AI系统无条件的信任。肖特利夫的MYCIN系统本质上是一个决策树，属于“透明”的模型——我们可以画出从数据输入开始完整的决策过程，从而评估MYCIN的决定。深度神经网络的性能远远优于决策树，但它是一个“黑箱”——我们几乎不可能确切地知道它在算什么。性能与可解释性似乎此消彼长。

对一位只追求正确率和性能的算法工程师来说，黑箱AI未必不受待见：一个能够准确预测95%的事件的黑箱系统，肯定比另一个正确率只有65%、更透明的系统好。可是，当工程师需要调整系统内部“零件”的时候（比如修复谷歌图像识别系统），黑箱会让这项任务无比艰难：到底是哪一步出错了？是用于训练的数据有问题，还是模型本身的性能不足，或是损失函数（loss function）有待改进？置身黑箱之外的工程师很难一针见血地指出病灶。

我们中的大多数人也许极少有机会成为工程师、法官、医生，但这不妨碍黑箱AI对我们的生活造成影响。与我们的一厢情愿相反，不够透明的AI系统非但没有比人类更客观、公正、精确，反而加深了既存的偏见和不公正，对数字民主和基本人权构成威胁，而对这些系统的控制、介入和审计也更为困难。当我们无法解读AI作出的决策，对它未来的预期不过是纸上谈兵，信任也无从谈起。

可解释AI（Explainable AI，即XAI）想要解决的正是这类问题。XAI认为，通过解释AI系统的决策过程，人类能够更好地理解它的机制、优缺点、潜在影响等特性，从而更有效地预测系统的行为，达到逐步建立信任关系的效果。如果AI革命不可避免，至少一个可被解释的系统能够更好地融入崭新的算法社会契约——例如伊亚德·拉万（Iyad Rahwan）提出的社会回环（Society-in-the-loop）——与人类共生存，而不必成为敌对的关系。

我需要一个解释

可解释AI终究是为人服务的（好比高阶编程语言是为了人类设计的，否则机器之间的“交流”大可以用机器编码之类人类无法轻易读写的“语言”）。所以“解释性”也是相对人而言的。关于黑箱AI系统，什么样的解释才是好的解释？心理学家和哲学家早就开始分头研究，但各执一词。

解释常常需要阐述特定的因果关系或因果模式，例如“我不吃杏仁，因为我对坚果过敏”。这样的解释非常贴切（没有转移话题），直接明了（不存在循环论证），逻辑严密。有的现象却很难用通俗的因果关系解释——请试着回答，“我掷了一次骰子，为什么朝上的一面是3？”当然，你可以引用物理法则来解释掷骰子的具体过程，但我可能一头雾水。为了避免这样的尴尬，你也许会提及相关的（非因果的）概念，比如“随机性”，或是用类比等手法让你的解释更容易被听众接受（比如上一段的第一句话）。一般而言，因果关系在解释中占据不可动摇的地位，但不是唯一的手段。

既然解释本身可以有各种形式，为了筛选出最好的可解释AI，我们为什么不直接问：你理解这个系统在做什么吗？相关的心理学研究也的确使用了类似的方法来推断人们是否能够通过描述性解释理解某一概念。它们发现，客观上，当受试者对某一概念有更好的理解时，他们能通过主观的直觉感觉到自己的认知进步，好比“茅塞顿开”。

然而，耶鲁大学的列昂尼德·罗森布里特（Leonid Rozenblit）和弗兰克·凯尔（Frank Keil）提出的“解释深度的错觉”（Illusion of Explanatory Depth）仿佛当头一棒。罗森布里特和凯尔让受试者首先评价自己对某一工具（比如拉链）的理解，然后详细地解释这个工具的工作机制，并再次评价自己的对它的理解。他们发现，相比一开始，试图解释后的受试者对自己理解的评价明显下滑，仿佛突然意识到自己其实一知半解。这就是“解释深度的错觉”。这种错觉影响着所有人（包括小孩子），并且只作用于解释性的知识。完全相反的情况也不少见：人们会自称不理解一个动力系统，却能熟练地使用它。

另一方面，规范（normative）解释在哲学（尤其是科学哲学）中发扬光大。规范解释有意忽略个人因素，比如认知能力，而是关注“应有”的理解。因此，规范理解可以被视为一种基准，用来分析哪些信息应当被包含在解释里，以及受众会有何种程度的理解。更进一步地说，好的（规范）解释应当从理解的目的出发，基于受众与黑箱AI的关系给出不同的解释。显然，修补系统漏洞的工程师和审核系统公正性的法官所需的理解是不同的。我们可以合理假设前者具有足够的技术知识背景，也许将计算模型可视化就提供了足够好的解释。后者需要的是更抽象的文字解释，比如“其他条件不变，COMPAS系统预测黑人被告和白人被告被再次逮捕的概率不同。”两种都是好的（规范）解释，一旦互换却可能成为各自的鸡肋。

规范解释看似更加直截了当，但在实际应用中还没有确切实现或评估的共识。描述性解释似乎也不甚完美。时至今日，我们仍未整合描述性解释和规范解释，关于解释的研究和可解释AI还在齐头并进。

有了可解释的AI就万事大吉吗？

2017年开始，美国国防高级研究计划署（DARPA）投资了一系列XAI的项目，包括UCLA的VCLA中心的研究项目。2018年，ACM主办了第一届FAT*会议，关注AI系统的公正性、问责制和透明度。同年，AAAI与ACM共同举办第一届AIES（人工智能、伦理与社会）会议。谷歌、微软等科技公司也陆续参与XAI的研发。各界对于XAI的关注促成了许多“拆穿”黑箱AI的尝试，从DeepMind提出的机器心智理论（Machine Theory of Mind），到将黑箱神经网络转化为“透明”的布尔电路（Boolean circuit），再到LIME（Local Interpretable Model-Agnostic Explanation）等通过近似黑箱模型提取重要特征的方法。虽然XAI目前解释的对象主要是工程师等研发人员，但是在未来，我们将会看到更多面向大众的XAI，比如向你解释如何开药瓶的Baxter。

XAI并不是终点；它最多算一个起点，而我们还有许多亟待解决的问题。首先，对黑箱AI的解释可以被悄无声息地篡改，可以完全牛头不对马嘴，而且很难察觉。哈佛大学的希玛宾度·拉卡拉朱（Himabindu Lakkaraju）和她的学生们发现，只需在模型上动一些简单的手脚，就能让它滥用COMPAS数据集里的种族信息决定量刑，但一旦LIME来“视察”，它立刻摆出无辜的嘴脸，完全不露馅。这就意味着，即使有XAI为工具，我们对AI的信任也不应当盲目地依赖系统的可靠性和（表面上）信息的透明性，理智与批判性思考将格外重要。

其次，针对AI的条例的制定相对滞后于研发和应用。XAI的出现将会让这个问题更加复杂——由于黑箱AI难以捉摸，且只有少数人具备解读/修改的能力，研发机构不必过分担心自己的科研成果泄漏（除非算法模型被一锅端）。如果面向用户和公众的解释成为需求、甚至必须，既有的AI系统——无论透明与否——都有可能面临一系列的风险，包括知识产权（利用反向工程重建系统）和系统安全（恶意的对抗攻击）。信任与保密两者的张力之下，XAI应当提供的解释的具体内容尚无定论。

再者，偏见和不公不会因为解释本身而消失；恰恰相反，解释会暴露更多一直以来潜行在我们周围的伦理问题。ProPublica对COMPAS的调查使人不禁发出疑问：系统性的种族偏见究竟在何种程度上渗透了美国过去十年间的量刑？随着XAI的进步，一个个黑箱AI的庐山真面目逐渐显露在我们眼前，不难想象其中有像COMPAS一样的“帮凶”。我们能否通过公开讨论解决结构性问题、完善问责制，这将是对AI和人类社会共同的挑战。

参考文献

Choi, A., Shi, W., Shih, A., & Darwiche, A. (2019). Compiling Neural Networks into Tractable Boolean Circuits. AAAI Spring Symposium on Verification of Neural Networks (VNN), Stanford, CA.
Defense Advanced Research Projects Agency. (n.d.). Explainable Artificial Intelligence (XAI). Retrieved from https://www.darpa.mil/program/explainable-artificial-intelligence
Edmonds, M., Gao, F., Liu, H., Xie, X., Qi, S., Rothrock, B., Zhu, Y., Wu, Y. N, Hongjing, L., & Zhu, S. (2019). A tale of two explanations: Enhancing human trust by explaining robot behavior. Science Robotics, 4(37). https://doi.org/10.1126/scirobotics.aay4663
Keil, F. (2006). Explanation and understanding. Annual Review of Psychology, 57.
Larson, J., Angwin, J., Kirchner, L., & Mattu, S. (2019, March 9). How We Analyzed the COMPAS Recidivism Algorithm. Retrieved from https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm
Miotto, R., Li, L., Kidd, B. A., & Dudley J. T. (2016). Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records. Nature Scientific Reports, 6(1), 26094.
Rabinowitz, N.C., Perbet, F., Song, H.F., Zhang, C., Eslami, S.M., & Botvinick, M.M. (2018). Machine Theory of Mind. ArXiv, abs/1802.07740.
Rahwan, I. (2018). Society-in-the-loop: programming the algorithmic social contract. Ethics and Information Technology, 20(1), 5–14. https://doi.org/10.1007/s10676-017-9430-8
Rozenblit, L., & Keil, F. (2002). The misunderstood limits of folk science: an illusion of explanatory depth. Cognitive Science, 26(5), 521–562. https://doi.org/10.1207/s15516709cog2605_1
Slack, D., Hilgard, S., Jia, E., Singh, S., & Lakkaraju, H. (2020, Feb 3). Fooling LIME and SHAP: Adversarial Attacks on Post hoc Explanation Methods [Paper presentation]. AAAI/ACM Conference on AI, Ethics, and Society 2020, New York, NY. https://doi.org/10.1145/3375627.3375830
Yu, V. L., Fagan, L. M., Wraith, S. M., Clancey, W. J., Scott, A. C., Hannigan, J., Blum, R. L., Buchanan, B. G., & Cohen, S. N. Antimicrobial Selection by a Computer: A Blinded Evaluation by Infectious Diseases Experts (1979). JAMA, 242(12), 1279–1282. http://doi.org/10.1001/jama.1979.03300120033020
Yong, E. (2018, January 29). A Popular Algorithm Is No Better at Predicting Crimes Than Random People. Retrieved from https://www.theatlantic.com/technology/archive/2018/01/equivant-compas-algorithm/550646/