抗抑郁药真的有效吗？

抑郁症是一种非常复杂的疾病，没有扎实的证据表明抗抑郁药可以帮助患者改善症状。

作者Jacob Stegenga2019年8月17日295

抑郁症是一种非常复杂的疾病，没有扎实的证据表明抗抑郁药可以帮助患者改善症状。

今日推送两篇文章围绕”抗抑郁药是否对抑郁症患者有好处”“现行抑郁症治疗方案是否合理”等争议性问题，基于实证证据提出了截然相反的观点。希望读者配合另一篇文章《为抗抑郁药辩护》阅读本文；文章仅代表作者观点。如有诊断或用药方面的疑问，还请咨询医师。

悲伤与愧疚淹没了你。你太累了，以至于无法思考。你的快乐迷失在无形的痛苦中。你的头、背、腹部都在痛——真实的疼痛。你窒息在自己的灵魂沼泽中。这全部都是你的错。你毫无价值，不如干脆去死。

尽管人们的经历以及症状的严重程度各有不同，这就是抑郁症患者们的感受。这种可怕疾病的发生率大概是十分之一。为了治疗，数百万人在服用抗抑郁药物。不幸的是，我们现在有理由相信抗抑郁药是无效的。

要知道抗抑郁药是否有效，我们需要密切关注这些药物的最佳证据。学界已有许多抗抑郁药的临床研究，而且在过去十多年中也出现了很多涵盖了这些研究的荟萃分析（meta-analysis，一种将多个研究的数据汇集到一个单一的分析中的方法）。然而，这类研究背后有一个问题：专家们对这些研究的优缺点无法达成共识，至于这些研究可以得出怎样的结论，他们也没有统一答案。

在这个问题上，哲学可以帮忙。科学哲学是研究科学概念和方法的学科，它可以告诉我们科学证据如何解释世界。我目睹过抑郁症的黑暗，一些亲人和朋友与它斗争许久；我开始利用自己身为哲学家的专业技能分析抗抑郁药的证据。在深入挖掘抗抑郁药数据的生成、分析和发表之后，我得出的结论是：抗抑郁药几乎没有效果。2

抑郁症影响着许多人。就算你认为本文的论证令人信服，最终传达的信息可能会令你失望。如果你已服用抗抑郁药，你可能会决定停药，但我建议你谨慎决断。关于停用抗抑郁药会带来什么，可靠的证据很少；但已有的证据表明，停用抗抑郁药可导致戒断反应。此外，我们对于其他干预方式，例如谈话疗法和生活方式改变，也没有扎实的证据。

因此，患者在考虑改变药物或疗法时，应格外谨慎。在一篇短文中探讨一个复杂主题，必然需要牺牲深度。所以，如果想更全面地了解文中的论点，请参考我的书《医学虚无主义》（Medical Nihilism）。如果你患有抑郁症，你的医生应该已经对你的病情有足够的临床经验和深度认识。尽管大部分医生都高估了抗抑郁药的优点，而低估了其危害，你还是应该继续咨询他们，或许还可以让他们参考这篇文章。

关于抗抑郁药有效性的最佳证据，来自于随机试验（randomised trials）和这些试验的荟萃分析。这些研究中的绝大多数，都是由抗抑郁药制造商所资助和控制的，其中显然有利益冲突；这些试验通常只持续数周，远远短于大多数人服用抗抑郁药的时长；这些试验中的受试者是经过精心挑选的，通常不包括老年人、患有其他疾病或同时服用其他药物的患者；换言之，受试者中不包含经常使用抗抑郁药的人群，意味着这些试验结果不能推论到真正的病人身上；认为抗抑郁药有效的研究能发表，认为它们无效的研究则通常不能发表（这种普遍现象被称作“发表偏差”）。

举一个著名的例子：2012年英国制药公司葛兰素史克（GlaxoSmithKline）遭到刑事指控，他们承认向儿童推广使用抗抑郁药帕罗西汀（没有证据表明它对儿童有效）并误报试验数据。3

这种量表的问题在于，受试者实际抑郁程度的微小变化，可能导致得分的大幅变化。例如，有三个关于睡眠质量的问题，总共有6分，还有一个关于焦躁（fidgeting）的问题，总共有4分。因此，一种让人睡得更好而且减少焦躁动作的药物就可以将一个人的抑郁评分降低10分。

举一个现实生活中的例子：英国最近的临床指南要求药物在这个量表上降低的抑郁评分，平均只有3分。当一种尺度能够衡量我们想要衡量的东西时，我们说该尺度具有“建构效度”（construct validity）。抑郁症量表的一个普遍问题是缺乏建构效度，这会导致我们高估抗抑郁药的有效性。

每项针对抗抑郁药的试验都使用了量表，来衡量试验前后受试者抑郁的严重程度。这些量表存在严重缺陷，导致研究普遍高估抗抑郁药的有效性。汉密尔顿抑郁量表是一种常用的量表。这个量表有17个问题，每个问题都有几个选项，每个选项会得到各自特定的分数；将所有得分求和，就能得出抑郁症严重程度的总值，最高52分。

为了测试一种新的抗抑郁药，一个试验需要表明实验组中受试者的评分，比对照组中受试者的评分降低更多。该量表是由英国精神病学家马克斯·汉密尔顿（Max Hamilton）于1960年发明的，并从那时起沿用至今（下文中提到的抑郁症严重程度评分均来自于此量表）。

“安慰剂效应”指患者的病征改善仅仅源于他们接受了医疗服务，而不是由于药物的生化特性。它的原理在于：仅仅期望在接受医疗服务后自己会有所改善，本身就可以改善症状。有些疾病对安慰剂的反应比其他疾病更敏感，抑郁症便是所有疾病中对安慰剂效应最敏感的之一。

由于临床试验旨在发现药物实际的生化作用，所以试验中会包括接受安慰剂的对照组（有时对照组接受市场竞争者的药物），并且实验组或对照组的分配对于受试者来说是未知的（这有时被称为“盲法”）。为了估计药物的积极生化作用，临床试验要将实验组和对照组的测量结果进行比较。

当受试者准确猜测到自己处在哪个组，就发生了破盲（blind-breaking）。这可能是由于副作用的出现或缺失。例如，抗抑郁药的两个常见副作用是体重增加和性功能障碍。因此，如果一项新抗抑郁药试验中的受试者体重增加，并且难以达到性高潮，她可能会准确地猜测到她属于实验组。然后，这种猜测可以使她期待自己的症状会改善；于是，仅通过安慰剂效应，她的症状便能得到改善。

尚未有充分证据表明抗抑郁药试验中破盲有多频繁，但一些专家认为破盲是常见现象。（实际上，一个简单的改进就能让研究者了解试验中安慰剂效应的程度：只需要求受试者在试验结束时猜测他们所在的组别即可。这种改进并不常见，但其实在任何试验中都很容易做到。）

因为在抗抑郁药的试验中存在破盲，而抑郁症本身就对安慰剂效应非常敏感，一些著名研究者，如哈佛医学院的欧文·克什（Irving Kirsch）和丹麦北欧科克伦中心的彼得·哥彻（Peter Gøtzsche）就认为，这些试验中无论多小的症状改善都可能完全是安慰剂效应的结果。4

一旦研究者完成了一场抗抑郁药试验，他们就得想办法将试验中的数据转化为有意义的证据。这样做的最佳方法，是测量实验组和对照组抑郁症严重程度降低的分数；两组之间的差异就是所谓的“效应值”（effect size）。它能让现实生活中的病人粗略预估自己的抑郁症状会因药物改善多少。我会在下文中告诉你详尽试验得出的结果。不过，我们首先要明白，数据可能成为欺骗的武器。

研究人员有多种数据分析的方法，但其中一些方法得出的证据既不可靠，也毫无意义。一个例子来自2018年在《柳叶刀》（世界上最重要的医学期刊之一）上发表的关于抗抑郁药的荟萃分析。此文由牛津大学精神病学家安德瑞·齐普莱尼（Andrea Cipriani）及同事撰写，其中包括许多复杂的分析。但其中一个简单的统计数据引起了广泛讨论，那就是抗抑郁药的“比值比”（odds ratio）。

在这类研究中，“受益”通常被定义为“抑郁症严重程度下降超过一半”。比值比则是“实验组受益者的比值除以对照组受益者的比值”。结果显示的比值比约为1.5。从表面上看，这是一个非常坦诚的结果。但事实上，它给我们的信息很少。

我们可以用类比来理解这一点。假设我们正在测试一种减肥药。在实验组中的每100名受试者中，3名受试者减掉1公斤，97名受试者增加5公斤；在对照组中的每100名受试者中，2名减掉4公斤，98名受试者体重没有变化。这种药物对减肥有效吗？经过计算，我们知道这次试验中减肥的比值比为1.5，然而这个数字并没有告诉我们人们平均增加或减少的重量——实际上，这个数字完全掩盖了药物的真实效果。

虽然这是一个极端类比，但它能表明我们在解释荟萃分析时必须谨慎。然而不幸的是，许多领先的精神病学家都拥护这项研究，新闻头条则误导性地声称“药物确实有效”。从这些研究人员的辛勤工作到铺天盖地的新闻报道（民众最经常接触到此类信息的途径）这个曲折过程中，一个简单的数字变成了谎言。

如果分析得当，最佳的证据表明抗抑郁药没有临床益处。值得参照的荟萃分析，如上文所述，应该尝试从所有抗抑郁药试验中收集证据（包括尚未发表的抗抑郁药试验）。当然，我们不可能知道荟萃分析是否包括所有未发表的证据，因为发表偏差的特征就是欺骗，无论是无意还是有意的。然而，这些荟萃分析是通过寻找尽可能多的数据，来规避发表偏差的重要尝试。那么，这些分析到底发现了什么呢？

在囊括尽可能多数据的荟萃分析中，与接受安慰剂的受试者相比，接受抗抑郁药的受试者抑郁严重程度下降约2分。2分——请注意，如果受试者仅仅是停止了焦躁行为，抑郁评分就会下降4分。抗抑郁药的拥护者及批评者都早已知晓，并年复一年地重复了这些结果。破盲、安慰剂效应和发表偏差都能轻松解释这微不足道的2分。

上文提到：临床指南认为药物必须将受试者抑郁严重程度评分降低3分以上才算有效。因此，抗抑郁药并不达标。一些精神科医生认为这个标准太低了——他们认为，一种具有临床意义的抗抑郁药必须将抑郁评分降低至少7分（与安慰剂相比）。没有药物能做到这一点。5

简而言之，我们有充分的理由认为抗抑郁药对抑郁症患者没有临床意义上的好处。相反，我们知道这些药物有许多副作用，包括体重增加、性功能障碍、疲劳和失眠。一些研究表明，抗抑郁药与暴力、自杀、童年和青少年攻击行为以及女性精神暂时失常之间存在联系。

早期理论认为抑郁症是由5-羟色胺（serotonin）浓度过低导致的。由于被称为“选择性5-羟色胺再摄取抑制剂”（SSRIs）的抗抑郁药有助于提高5-羟色胺水平，人们普遍认为用SSRIs治疗抑郁症有坚实的理论基础。然而，现在大多数研究人员认为这是一种过度简化和误导性的理论。

5-羟色胺理论的主要“证据”之一是SSRIs可有效治疗抑郁症，其思路如下：前提一，SSRIs调节病态5-羟色胺浓度；前提二，SSRIs治疗抑郁症；结论：抑郁症是由病态的5-羟色胺浓度导致的。请注意：即使这种推理具有说服力，也不能为SSRIs有效提供依据，因为“SSRIs能治疗抑郁症”正是推理的一个前提。我们不能循环论证。而且，上文也已经质疑了前提二。

似乎还有一种理论反对抗抑郁药。一些批评者声称，许多患者被诊断出的“抑郁症”并非真正的疾病，而是正常生活问题的“医学化”——正常的痛楚、压力、焦虑或仅仅是郊区生活的寂寥都被纳入了医学的管辖范围。照这个说法，如果一个悲伤的病例被过度医学化，用药物治疗它也是不恰当的。

但是，我不认为这种对抗抑郁药的批评令人信服。这种批评隐含着关于“疾病”、“正常”的本质和医学管辖权的种种争议性前提。我们也借助外在帮助来治疗生活中的许多正常问题，例如用咖啡治疗晨起嗜睡，用酒精治疗羞怯，用药物治疗勃起功能障碍。简而言之，抑郁的病理生理学以及抑郁的医学化等方面的理论考量，并不能推导出关于抗抑郁药有效性的结论。

但另一方面，我们应该警惕那些将抑郁症归咎于某种化学物质缺乏的简单理论——正如大多数研究人员所认为的一样，抑郁症与坏血病（由维生素C缺乏导致）和1型糖尿病（由胰岛素缺乏导致）不同。我们可以用维生素C治疗坏血病，用胰岛素治疗1型糖尿病，但由于抑郁症是一种复杂的疾病，仅通过调控化学物质水平来成功治愈它是不可行的。

在本文中，我一直质疑抗抑郁药的试验证据。但虽然这些试验有诸多问题，它们还是我们研究抗抑郁药有效性的最佳方式。然而除此之外，我们还可以考虑另一种方式：真实患者的经验。你，或你的朋友和亲人，可能已服用抗抑郁药——这可能使你相信这些药对某些人有效。

关注病人对药物的反馈是良好医疗的必要条件，但这种反馈通常不能指导我们进行因果推断。在确定抗抑郁药是否有效时，第一人称报告是不可靠的。这其中至少有三个原因：首先，抑郁症症状的严重程度随时间波动，人们倾向于在症状较严重时寻求治疗。因此，在接受治疗后症状可能会改善，不一定是因为治疗有效，而可能仅仅是因为时间流逝，如同伤口逐渐愈合。

其次，抑郁症对安慰剂反应非常敏感。对照组中的大部分受试者，抑郁评分降低多达10到15分。安慰剂的效果是惊人的——例如，大的药片比小的药片对患者可以产生更大的影响。

再者，确认偏差（confirmation bias）是指人们倾向于注意到那些能证实他们期望的证据，而忽略降低他们的期望的证据。我们都有确认偏差：服用抗抑郁药后，人们往往更多注意到健康改善的迹象，而不是负面的迹象。

因此，如果你听说有人受益于抗抑郁药，这可能是由于疾病的严重程度在随着时间波动，被安慰剂效应混淆视听，并且被确认偏差夸大了效果。

这并不是在质疑患者反馈的真实性。他们的亲身经历是医学中最真实、最重要的现象，我们必须聆听。但是，当我们远离临床案例，坐在办公桌前用数据、科学和清醒的反思聆听时，我们听到了什么？安慰剂，而不是百忧解。

翻译：杜璇；审校：阿莫東森、有耳；编辑：小葵花

The evidence in favour of antidepressants is terribly flawed | Aeon Essays
Depression is a very complex disorder and we simply have no good evidence that antidepressants help sufferers to improve