当医学证据表明某些治疗实际无效时,为什么患者和医生仍会坚持使用它们?
首先,请听一个喜剧结尾的故事:主人公是一位公司高管,今年61岁的他身体非常健康,除了血压略高之外其他一切都好,并且还坚持锻炼身体。但是接下来发生的一件事却吓到了他:在一个寒冷的冬日,他像往常一样饭后散步,忽然一阵胸痛袭来,他急忙回到办公室坐下,而胸痛又在转瞬之间消失了。
那天夜里,他想了很多:中年男子,高血压,工作压力大,胸部不适。第二天,他去了当地的急诊室。医生告诉他,他并没有出现心梗,心电图也完全正常。一切征象都显示他患有稳定型心绞痛——血氧供应不足引起心肌缺血导致胸痛,这种情况通常是动脉部分阻塞所致。
心内科医生建议他立即做一个冠脉造影:将导管经动脉送到心脏,接着注射可以在X线下显影的造影剂,以此寻找梗阻的位置。医生建议,如果检查发现梗阻,就需要给他上支架,即把一个金属管子滑到冠状动脉里面撑开血管。
An Epidemic of Unnecessary Treatment
Long after research contradicts common medical practices, patients continue to demand them and physicians continue to deliver. The result is an epidemic of unnecessary and unhelpful treatments.
在急诊室等待的时候,他掏出手机搜索“冠心病的治疗”。他立即发现医学期刊上说,一线治疗方案应首选阿司匹林和降压药。出于慎重考虑,他向医生反映了自己搜索到的内容,而医生则显得不置可否,让他再“多做些功课”。没有得到满意的答复,他便拒绝接受冠脉造影检查,转而去看了家庭医生。
家庭医生向他推荐了另一种动脉造影术,这种造影不需要使用导管而是使用多重X射线显影。检查显示一支冠状动脉已经部分阻塞,尽管心脏目前能够正常泵血,但是通过该检查无法判断梗阻是否会引发更严重的后果。因此,家庭医生同样建议他做一个冠脉造影术,也许之后再植入支架。随后,他预约了心脏科医生做冠脉造影,但是当他尝试在检查前直接联系医生的时候,却被告知医生在那之前没空。当他看见圣路易斯华盛顿大学医学院的大卫L.布朗(David L. Brown)教授时,他说自己被先前的医生们说得倍感压力,想要更多的信息。他表示在接受植入支架之前,自己愿意尝试所有非侵入性治疗——严格规范饮食,哪怕辞掉紧张的工作。
这位高管能够想到要获取更多的信息已经证明他很聪明,同时,找到布朗医生则证明他运气非常好。布朗是RightCare联盟的一员,RightCare是一个介于专业医疗保健机构和社区医疗服务之间的联盟,联盟旨在扭转一种趋势:医疗费用的提高并没有带来更好的医疗服务。布朗提出,RightCare正在“努力恢复医疗系统的平衡,使得每一位病患都能得到应有的救治,而不过度治疗”。冠脉支架就是过度治疗的典型例证。2012年,布朗与他人合著了一篇论文,该论文审查了每一个比较植入支架与保守治疗的随机临床试验。布朗发现稳定型心绞痛患者植入支架没有对未来心梗的出现起到预防作用,对延长患者寿命也完全没有帮助。布朗总结道,没有心脏病发作的人不需要植入支架。(布朗还说,对于一些患者,支架可能会缓解部分患者的胸痛症状。)尽管如此,每年有成百上千名稳定型心绞痛患者接受支架治疗,其中,五十分之一的患者在接受治疗过程中会出现严重并发症,甚至死亡。
布朗向这位高管解释道,他的冠脉阻塞情况影射的是潜在的全身系统的疾病,而单纯的修复一条阻塞的血管并不会对整体情况的改善有任何帮助。人类的心血管系统可比厨房的水槽要复杂多了。听从医嘱,他开始服用药物并且改善饮食。三个月后,他的胆固醇水平明显改善了,并且成功减掉了15磅,而胸痛则再也没有出现过。
为什么已经被研究证明无效或禁忌的治疗方法却被如此广泛使用?
现在,请听一个悲剧结尾的故事:在帮助那位公司高管后不久,布朗和他的同事们会诊了一位来自密苏里州小镇的患者。他今年51岁,已经从霍奇金淋巴瘤成功康复,但是他的肺部由于放疗和六个周期的化疗而逐渐布满瘢痕组织。 他正在自己的身体里窒息而死。 该名男子被转移到布朗工作的巴恩斯犹太医院接受肺移植。 但当男子抵达圣路易斯时,移植小组发现没有办法给他做手术。
四个月前,该患者因为呼吸困难到另一家医院就诊。在医院里,尽管他的病史现实接受过会引起瘢痕形成的淋巴瘤相关治疗,接诊的心脏科医生依旧考虑他的呼吸困难可能是由于冠脉堵塞造成的。和当时给高管提供的意见一样,医生建议他做一个冠脉造影。但是,和那位高管不同的是,这位患者像多数病人一样服从了医嘱,接受了检查。结果显示有一支冠状动脉部分阻塞。因此,在没有证据支持呼吸困难是由冠脉阻塞造成的情况下,医生依旧给他装了支架。实际上,患者的呼吸困难是由于肺部瘢痕组织引起的。 随后,根据标准手术流程,这位患者开始服用抗凝药,确保放置支架的地方不会形成血栓。但是那些抗凝药会对手术带来致命影响,即大幅增加移植手术过程中出血致死的风险。手术因此必须推迟进行。
与此同时,他的肺间质逐渐布满瘢痕,就像流动的熔岩逐渐冷却,最终硬化变成一块毫无生气的石头。他成功地从晚期淋巴瘤中幸存下来,但到头来却被困在医院——等待,到死都在等待停掉那为了完全没有必要的支架而不得不服用的抗凝药。
上面的故事中,两位主人公的共同点是都不需要植入支架。在探索精神和一部智能手机的帮助下,其中一个人幸存下来。然而,更值得关注的是:为什么已经被研究证明无效或禁忌的治疗方法却被如此广泛使用?
当你去看医生,你可能认为你接受的治疗是循证支持的。当然了,如果你吃的药,做的手术都无效的话就不会被如此普遍地使用了,不是吗?
····
众所周知,现代医学取得了许多令人惊叹的成就——先进的成像技术使得精密手术、常规器官移植变得可能,成熟的护理方法使得早产儿能够健康成长,当然还有疗效显著的化疗手段。患者接受已经被研究证明无效甚至危险的治疗方案也已不足为奇。有时候,医生就是没有跟上科学的脚步。而另外一些时候呢,医生明知道患者无需接受治疗却依旧为患者提供治疗——仅仅为了钱,或者甚至只是因为患者慕名而来,主动要求医生治疗。一些治疗方法是否真的有效还未得到证实就已经在临床实践了。还有些疗法,最初得到证据支持,然后被更完善的研究证据推翻,却依然作为医疗标准维持数年或数十年。
即使你服用的药物在数以千计的患者身上被证明有效,也未必会对你有效。好消息是,它至少不会有害。一些最常见的药物对于大多数服用它们的患者来说其实无益无害。
在科学毋庸置疑地证明某些主流医学实践无效之后,医学界大概需要十年时间才会停止参考这些实践标准。
2013年,十几位来自全美各州的医生进行了一项研究,他们重新审查了过去十年里(2001-2010年)刊登在《新英格兰医学杂志》(New England Journal of Medicine, 以下简称NEJM)上的所有检验现行临床实践的文章,共363篇。从使用抗生素治疗莱姆病(无效)到使用胶原海绵预防结直肠术后感染(引发更多感染)。《梅奥诊所学报》(Mayo Clinic Proceedings)刊登了这项研究结果:146篇文献显示现行临床实践标准要么完全无益,要么甚至不如它取代的既往临床实践标准;138篇文献支持现行临床实践;其余79篇则无法给出确定信息。(事实上,作者的结论引起了许多不满。)一些颇有争议的临床实践可能影响着数百万人的日常生活:糖尿病患者使用强效降压药物组合将血压控制在较低水平被证明弊大于利,这种治疗方法与使用常规降压药,将血压维持在略高水平相比较,对预防心脏病发作或死亡无任何优势。其他一些不太常见的临床实践(例如采用基因检测手段确定一种常用的抗凝药是否适用于某一患者)遇到的证明无效的证据尽管越来越多,在临床上却越来越受欢迎。这里举几个违反我们直觉的例子:做心肺复苏的时候,联合口对口呼吸并不比单独胸部按压更有效(急救指南里心肺复苏是口对口呼吸加上胸部按压,每十五次按压,呼吸两次);医生往往嘱咐乳腺癌幸存者不要用水肿的胳膊负重,实际上,适当负重有助于水肿的缓解。
2012年,澳大利亚政府卫生与老龄化部进行了一项与上文类似的研究,旨在减少不必要的医疗措施。该研究回顾了过去十年的临床实践文献,并从中拣出156例或不安全或无效的案例。不止如此,一个最新的回顾报告调查了48项不同的研究,涉及到13000名临床医生,观察医生如何看待疾病筛查。调查发现他们倾向于低估筛查存在的危害和高估可能带来的收益; 《美国家庭医生》(American Family Physician)的一篇社论提到,最近这些研究的一大特点就是它们与传统医疗观点在很大程度上相悖。
近期内,这种状况不太可能改变。《21世纪治愈法案》(The 21st Century Cures Act)是罕见的两党法案,它由超过1400名游说者推动,并于12月份签署生效。这一法案降低了药物的新用途、医疗器械营销与批准的证明标准。此外,就在上个月,特朗普总统谴责了美国食品与药品管理局(Food and Drug Administration, FDA)拒绝向临终患者提供药物的做法。他承诺削减FDA当前的规范数量:“我们要大刀阔斧的减……减80%也有可能。”为此,FDA局长热门候选人之一、技术投资者吉姆·奥尼尔(Jim O’Neill)公开提议,药物在显示出效果前应当被批准。奥尼尔认为,“就让人们自己承担用药的风险吧。”
所以,尽管美国人可以期待更多的药物和设备迅速得到使用,但也应该预期到基于薄弱证据的治疗所带来的问题将加剧。在最近的一项统计资料中,两名约翰·霍普金斯大学的医生研究人员指出,新的《21世纪治愈法案》将使“FDA批准”变得远不如从前可靠。1962年,国会提升了药物批准的证据标准。这一举措之前,有成千上万的婴儿伴随着四肢畸形出生,他们的母亲均在孕期服用过睡眠辅助药物“反应停”。已退役的海军少将史蒂文·加尔森(Steven Galson)曾在乔治·W·布什和巴拉克·奥巴马两任总统治下担任美国卫生总署代理署长,他说1962年建立的加强审批程序是FDA对“健康最大的贡献”。在此之前,“许多上市药物并没有标签所示的效果。”
在创新与监管之间取得适当的平衡极其困难。但是药物一经使用,即使面对相反的证据,它们也会继续存在。2007年,以揭露低质量医学科学研究而成名的斯坦福大学医学研究员,统计学家约翰·约安尼季斯(John Ioannidis)在一项发表于《美国医学协会杂志》(Journal of the American Medical Association)的研究中提到,在科学毋庸置疑地证明某些主流医学实践无效之后,医学界大概需要十年时间才会停止参考这些实践标准。
美国肿瘤学家、《梅奥诊所学报》的论文作者之一瓦内·普拉萨德(Vinay Prasad)指出,医学界会很快采纳证据不足的医疗实践,但是当有力的证据粉碎之前的结果时,摒弃它们的过程则会变得缓慢。作为一名青年医生,他的一次经历让他决心消灭无效的治疗措施。那时,他还是一名住院医师,其所在的团队需要照顾一位患有稳定胸痛的女性患者。这位患者接受了支架手术,术中并发脑梗,导致了脑损伤。目前在俄勒冈健康与科学大学的普拉萨德在谈及此事时,仍然心有余悸。芝加哥大学的教授,亚当·西弗(Adam Cifu)医生有着类似的经历。西弗花了几年时间说服新近绝经的患者为了心脏健康进行激素治疗,在2000年左右每年就有9000多万份该处方。结果一个精心设计的实验表明,该疗法对心脏并无益处,甚至有可能损害心脏。他说:“我不得不向那些患者撤回之前的所有决定。但是当你的患者说‘我觉得你说得没错’,事情就真的棘手了。”西弗和普拉萨德在2015年合著了一本书:《终结医疗反转》(Ending Medical Reversal),他们呼吁提升采纳新医学标准的证据门槛。在谈及重复初步科研成果的过程以确保其可靠性时,普拉萨德表示:“我们的文化鼓励新发现,其可重复性却被抛诸脑后。”
克利夫兰诊所的心血管内科主任史蒂文·尼森(Steven Nissen)指出,至少支架滥用的情形有所改善。作为美国心脏病学会(ACC)的前任主席,他帮助建立了确定病情稳定患者接受支架植入的指南。(梅奥诊所的心脏病专家戴维·霍尔姆斯(David Holmes)同样是前ACC主席,他和尼森指出,服药出现不良反应以及严重影响生活质量的持续胸痛的案例中,即使症状的短期减缓也会证明支架的作用。)多亏了这些指南,不必要的支架植入的出现频率在2010年至2014年显著降低。尽管如此,在一项针对全美1600多家医院的最新评估中,有半数病情稳定的患者接受的支架植入,要么不是很有必要,要么干脆完全没有必要。“情形虽然有所改善,但还有进步的空间。”尼森认为,消除财务刺激也可以帮助改变行为。“我们这里十几位心脏内科医生,他们做不做支架手术都领同样的薪水。我认为这发挥了作用,并将不必要的治疗措施维持在很低的水平。”
两年前,三位彭博社的记者报道称,纽约市西奈山医院计划通过“预约急诊”的形式为患者提供支架手术,因为保险更有可能报销急诊手术的费用。(对于心脏病发作的患者来说,支架能够救命。)西奈山医院的导管室每年都会发布报告,吹嘘医院进行了多少例支架植入,以及附上患者的感激之词,在报告中有一位77岁的患者奈利·罗德里格斯(Nelly Rodriguez)这样写道:“(我的医生)安抚我说,只要我听医生的话,好好吃饭,不抽烟,我血管里的那些支架就会老老实实的,我也会健健康康的。”绝大多数案例中,即便把“不抽烟”和“健健康康的”中间那部分全部剔除,这句话也依然正确。
人体更像是圣经中的《约伯记》,而非家庭里的水管:人们并没有发明它,它非常复杂,而人们对健康的因果关系普遍知之甚少。
当然,付薪水让任何行业的人做错事时,再让他们作出正确的举动就很难了。这背后的原因不仅仅是市场反常。在圣路易斯一个下雪的清晨,布朗在巴恩斯犹太医院向大约80位医生发表了关于大查房的演讲。演讲伊始,他展示了接受他治疗的那位公司高管的治疗结果。接着,他出示了几千位患者的数据,这些数据来源于随机对照支架植入手术和非侵入性治疗。数据表明,支架对病情稳定的患者没有益处。布朗询问在场的医生是否仍然会把同那位高管相同诊断结果的患者送去接受心脏导管手术,继而上支架。至少有一半的医生表示仍会继续,其中有些人还有些不好意思。布朗对在场各位的诚实回应表示很惊讶。一位与会者告诉他,“好吧,我们明白自己在干什么。”但,这是为什么呢?
2007年,COURAGE临床试验表明,支架并没有预防病情稳定的患者突发心脏病或死亡。在这项开创性的研究之后,加州大学旧金山分校的3位医生协同几位心内科医生组织了一场90分钟的专题小组讨论来回答这一问题。他们虚构了一位患者,该患者至少有一条冠状动脉狭窄,但是他没有相关症状,接下来询问在场医生,是否会给他推荐做支架手术。几乎每一位心内科医生,其中包括收入不与检查和操作挂钩的医生,都给出了相同的答案:他们清楚数据不支持手术介入,但仍会建议患者进行支架植入。各个小组主要围绕以下四个主题来合理化他们的临床行为:
[vc_row][vc_column][vc_cta h2=””](1)心内科医生们回顾了暴毙患者的病情,这其中包括公众皆知的慢跑王吉姆·菲克斯(Jim Fixx)的案例,他们担心如果患者不做支架手术继而病逝,自己将后悔不已。这项研究的作者总结称,心内科医生受到了“可得性启发”的影响。“可得性启发”是诺贝尔奖得主、心理学家阿莫斯·特维斯基(Amos Tversky)和丹尼尔·卡尼曼(Daniel Kahneman)创造的术语,指人类在本能上倾向于通过容易回忆的、显著的例子作出决策,即使这个例子无关紧要,抑或极其罕见。
(2)心内科医生相信支架可以缓解患者的焦虑。
(3)医生认为,如果患者接受了支架然后病逝,那么他们可以在官司中得到更好地辩护。其中一位医生说道:“在加州,如果患者在两年内出事了,(没有进行医疗干预的)医生会被成功起诉。”
(4)还有一个更普遍存在的问题:尽管有数据支持,心内科医生仍无法想象支架并没有起到效果:堵了就放支架,理所当然。[/vc_cta][vc_column_text]20世纪80年代末,有证据表明,与非侵入性治疗相比,强行撑开血管的效果更差,而且更加危险。心内科医生埃里克·托普(Eric Topol)为此提出“目视狭窄反射”(oculostenotic reflex)的说法,Oculo在拉丁语中是“眼睛”的意思,而stenotic则在希腊语中表“狭窄”,意同“狭窄的动脉”。其含义是:如果你看到阻塞,便会反射式地清理阻塞。托普描述道,“对于一些主张侵入性治疗的心内科医生而言,支架似乎是不可抗拒的诱惑。只要他们看到狭窄的动脉,便不假思索地将支架植入患者体内。数千名患者的随机试验证据则被忽视。”科学家称支架植入为“生物赞同”(bio-plausible),即直觉认为它应该起作用。人体更像是圣经中的《约伯记》,而非家庭里的水管:人们并没有发明它,它非常复杂,而人们对健康的因果关系普遍知之甚少
····
很有可能,你或你的家人已经接受了看似“生物赞同”实则无效的医疗措施。
根据美国疾控中心的数据,约三分之一的美国成年人患有高血压。血压用来衡量血液在流动时对血管壁的压力。血压越高,你的心脏承担的压力就越大。高血压的人罹患心脏病(在全国排第一位的健康杀手)和中风(位列第三)的风险将大大增加。
因此,不难理解詹姆斯·布莱克爵士(Sir James Black)在上世纪60年代因发现β-受体阻滞剂而获得诺贝尔奖。β-受体阻滞剂能够减慢心率,并降低血压。诺贝尔委员会褒奖道:“(该发现)是自200年前发现洋地黄以来,心脏病药物领域的最大突破。”阿替洛尔表现出显著的降血压作用之后,于1981年获得FDA的批准,成为第一例获批的β-受体阻滞剂。阿替洛尔开始成为标准的治疗药物,以及作为同其他血压药物比较的对照药物。
1997年,一家瑞典医院对9000余名高血压患者进行了随机对照试验,对照组使用阿替洛尔,试验组则使用阿替洛尔竞争对手的降压药(该药物设计初衷是稳定降压持续至少四年)。与对照组相比,试验组的死亡率(204:234)和中风率(232:309)均更低。但该研究还发现,两种药降下去的血压值完全一样,那么为什么广受追捧的阿替洛尔没有挽救更多人?这个不同寻常的结果促成了随后的研究。通过比较阿替洛尔和糖丸发现,阿替洛尔并未预防心脏病发作,也没有延长生命,它只是降低了血压。2004年的一项临床试验通过分析针对24000名患者的8个随机对照试验得出结论:与不使用任何治疗手段相比,阿替洛尔并不能减少心脏病发作,也不能阻止死亡;服用阿替洛尔的患者在临终前的血压值仅仅是看着健康而已。
路易斯维尔的心脏电生理专家约翰·曼德罗拉(John Mandrola)积极倡导健康的生活方式,他表示:“没错,我们能够改变一两个血压值,但这不意味着患者真的受益了。当患者服用了药物后看到血压变了,就会认为自己的健康状况得到了改善。在这样的情形下,再让患者改善生活方式就很难了。”
β-受体阻滞剂的整体情况很复杂。例如,一些β-受体阻滞剂能够明显降低心力衰竭患者中风和心脏病发作的风险。但是由Cochrane Collaboration(独立国际研究组织,他们试图综合最佳可行研究)发表的一篇关于β-受体阻滞剂的最新综述却称,“在与安慰剂对比后,不推荐将β-受体阻滞剂作为治疗高血压的一线药物,因为其对中风的预防作用很小,而且也不能明显降低死亡率和冠心病的发作率。”
研究人员们在《柳叶刀》杂志上撰文质疑将阿替洛尔作为药物的比较标准,并补充道,“与其他疗法相比,接受阿替洛尔治疗的患者出现中风的案例更多。”即便如此,一项发表在《美国医学协会杂志》的2012年的研究指出,目前为止,已经开具了3380多万份阿替洛尔处方药,其零售费用总计超过2.6亿美元。是有一些证据表明,阿替洛尔可能会降低年轻患者中风的风险,但同时也有证据表明它会增加老年患者中风的风险,而该药的主要消费群体则正是这些老年人。
根据ProPublica的医疗保险处方数据库,阿替洛尔在2014年被列为260万多位医保受益人的处方,在3362例处方药当中排名第31位。加州威斯敏斯特的家庭医生黄征(Chinh Huynh,音译),在2014年为65岁以上的患者开具了1100份阿替洛尔处方,因此成为全美最高产的处方医师。就此事联系他的时候,他回复:“阿替洛尔是常见的高血压药,不是只有我在开这药。”当被问及随机对照试验已经表明阿替洛尔无效,而他怎么还继续频繁地开处方时,他说:“我读了很多医学杂志,但我并没有看到这些试验。”
他补充道“这药我的病人用着都挺好的”,并且请记者把相关文献传真给他。
华盛顿大学的心内科医生布朗认为,医生们一旦完成住院医训练,“这就变成一份工作了,医生就会顾着挣钱,不太关注这一领域的发展。所以说,真正重大的改变必须是可以世代相继的。”
····
一家专门为医疗业提供信息和技术服务的公司QuintilesIMS汇集的数据显示,阿替洛尔的处方在过去的五年里平均每年下降了三百万。按照这个速度,阿替洛尔在20年内便会停止销售,因为高质量的临床试验已经表明它完全无效。
就像心血管系统并不是一个简单的厨房水池,肌肉骨骼系统也不是一个模型玩具。事物的因果关系并不总是一目了然。
就拿膝盖来说,它是所有关节中最让人头疼的。有一种治疗方法叫做经关节镜半月板部分切除术(以下简称APM),每年累积进行大约五十万次,总消费大约40亿美金。半月板是一种给膝盖提供保护和稳定作用的半月形的纤维软骨,会随着年龄的增长老化撕裂,而并非由急性创伤引起。APM通过清理破碎的半月板碎片并把软骨削回半月状来缓解半月板撕裂造成的疼痛。这可不是什么非主流手术,这是近几年来北半球最常见的手术之一。然而越来越多的证据表明APM对常见的关节疼痛并没有作用。
这就像是膝关节版的目视狭窄反射:患者因为膝盖痛看医生,做了MRI显示半月板撕裂,很自然地,患者想让医生修复它,外科医生看到撕裂的半月板也想动刀子,然后送去做物理治疗。患者的膝盖痛确实好转了,但不一定是因为手术。
为什么即使当最有力的证据否定了一项常见的手术,还是无法带来什么改变呢?
一项2013年在美国七家医院的45位患者中进行的研究显示,物理疗法加上APM 手术和单独的物理疗法的作用相同。另一项在两家公立医院和两家物理疗法诊所进行的研究也发现了相同的结果。
一项在芬兰五家骨科诊所进行的研究对APM手术和“假手术”进行了比较。在这项研究中,医生把关节疼痛患者带进手术室,给他们开刀,假装进行修复手术,然后缝合伤口。患者和他们的医生都不知道哪些患者接受了真正的手术。一年之后,两个实验组的患者没有任何区别,接受了假手术的患者和真手术的患者状态一样好。只有一点——长远来看,真手术会增加膝关节炎的风险。同时,APM手术虽然安全,但是非常昂贵,而且手术加上物理疗法比单独物理疗法有着更高的副作用风险。
50岁以上的成年人如果去做膝关节MRI,其中至少有三分之一的人的结果会显示有不同程度半月板撕裂。这其中三分之二的人永远都不会出现任何症状。(那些说自己膝盖痛的有可能是因为膝关节炎引起的症状,而不是半月板撕裂。)如果不做MRI,他们永远不会知道自己半月板有撕裂;但是一旦做了MRI,他们很可能会去为一个自己没有的问题做一个没有用的手术。
有安慰剂对照的临床手术试验无疑很难实践。那么问题来了:为什么即使当最有力的证据否定了一项常见的手术,还是无法带来什么改变呢?
其中一个原因是,这些研究并没有证明这项手术是无用的,它们只是在一大群不太可能会从这项手术中受益的人身上进行。就像我们人类一样,半月板撕裂的分型分度也是种类繁多,即使是大数据研究也无法涵括所有的差异。有非常令人信服的证据显示手术在一部分患者身上是有作用的。“我认为对于那些伴有持续剧痛和行动障碍,但是并非由关节炎引起疼痛的患者来说,这个手术极其有效。”匹茨堡著名的骨外科医生约翰·克里斯多夫拉蒂(John Christoforetti)说到,“但对于那些普遍缺乏运动的美国人来说,他们的问题是慢性关节疼痛,并没有伴随关节活动障碍。他们大多数人的MRI都显示有不同程度半月板撕裂,而手术不应该作为他们的首选治疗手段。”
尽管如此,这项适应症本来很少的手术还是常常被滥用。而病人自己对此也有责任。根据外科医生的经验,很多病人会主动提出,甚至要求医生给自己做这项手术。如果被拒绝他们就会去其他诊所,直到遇到同意给他做手术的医生。克里斯多夫拉蒂回忆说他遇到过一个长途跋涉专门来他这里看病,但是“完全不适合做这项手术”的患者。尽管昂贵的手术费对他来说很诱人,他还是如实告诉患者及其丈夫这项手术对她来说并没有效果。“她走的时候面带微笑,” 克里斯多夫拉蒂说,“但是就在他们登记离开时,我的手机上收到了一条提示:她的丈夫在网站上给了我们差评,并留言说我是个非常不近人情的医生,他连他的狗都不会送到我这里来做手术。他们在网上看了一些资料,并且坚信自己需要这个手术而且我就是应该给她做这个手术的人。”
那么外科医生都怎么做呢?“大部分同行都会说‘给自己省点心,他们要做就给他们做呗。即使你给病人做了手术我们也不会鄙视你。你的银行账户更不会不高兴,所以就给他们做这个手术吧。’” 克里斯多夫拉蒂说。
····
随机安慰剂对照试验是循证医学的金标准,但并非所有的RCT(Randomized clinical trials)都是平等的。即使在这个金标准下,出于好意的试验操作有时也会混淆研究结果,目前研究癌症药物效果而广泛使用的“交叉试验”尤其如此。
在癌症研究中,交叉试验指的是如果一开始对照组中接受安慰剂治疗的患者在试验的过程中病情恶化,他们会被给予试验药物。因此,他们不再是真正的对照组。交叉试验的好处是允许更多的重症患者得到试验药物; 缺点是这样的研究可能会掩盖被检药物的实际功效。
2010年,基于一项交叉试验的结果,普罗文奇(Provenge)成为FDA批准的第一批癌症疫苗。癌症疫苗是免疫治疗的一种形式,通过药物刺激患者自身的免疫系统去攻击癌细胞。众所周知转移癌的治疗非常困难,而陆续开发过的其他癌症疫苗也是屡屡失败,因此当FDA通过普罗文奇的时候,人们抱着极大的希望和热情。一份科学论文把它誉为“带我们步入新世界的大门”。然而,普罗文奇根本没有阻止肿瘤生长,也很难知道它是否真的有效。
普罗文奇的批准基于“IMPACT研究”——一项最初为了检查普罗文奇是否能抑制前列腺癌恶化的随机安慰剂对照试验。结果表明它并不能。在实验的第三个半月,接受了普罗文奇的患者和接受安慰剂的患者的癌症进展程度相似。尽管如此,接受了普罗文奇的患者的中位存活时间比使用安慰剂患者的多四个月。然而,根据IMPACT试验的研究方式,很难判断普罗文奇是否真的能延长患者的生命。
由于普罗文奇没有阻止肿瘤生长,许多一开始接受普罗文奇的患者后来也服用了多西他赛——一种治疗晚期前列腺癌的化疗药物。另一方面,安慰剂组患者的癌症也在恶化,于是在延误了治疗时机之后,研究人员对这些患者进行了“交叉试验”——提供给他们普罗文奇。他们的癌症仍在继续恶化,再一次延误治疗之后,他们中的许多人也开始服用多西他赛。最终,安慰剂组服用了多西他赛的患者比普罗文奇组的要少一些,使用时间也要迟一些。这么说来普罗文奇可能有效,但是谁都无法给出肯定的答案,我们不知道试验组患者相对较长的存活时间是因为他们服用普罗文奇早一些,还是因为对照组服用多西他赛的时间迟一些。
普罗文奇获得批准后的一年,联邦政府的医疗保健研究和质量机构(Agency for Healthcare Research and Quality,以下简称AHRQ)发布了一份“技术评估”报告,其中提供了有关普罗文奇功效的所有证据。报告指出,有“适度”证据表明,普罗文奇有效,但同时也指出在这开创性临床试验初期获得普罗文奇的许多患者也更早接受了化疗,同时接受了更多的化疗。该报告的结论是,普罗文奇“只有在患者同时接受大量化疗的情况下”才有效。换句话说,目前尚不清楚试验中哪种作用该归功于普罗文奇,哪些又属于化疗。
“选择服用多西他赛的人是由于他们的疾病当时在急剧恶化,所以其实试验的随机性已经被打破了。”AHRQ技术评估计划主任爱丽丝·柏林纳(Elise Berliner)说。倡导更高标准的预批准证据的肿瘤学家普拉萨德更不客气:“就算试验品是辣条,你也会得到类似的效果——你先给其中一组患者辣条,等他们的癌症恶化时再给他们真正的药物。“
其实更深刻的问题并不是普罗文奇本身,而是他们获得FDA批准的方式。FDA许可通过的很多治疗方案,实际上基于并不能证明它们真正有效的临床试验。 “这是临床试验普遍存在的问题,”柏林纳说,“药物一旦被批准就很难再进行随机对照试验。”根据《美国医学协会肿瘤学杂志》(Journal of the American Medical Association Oncology)的一篇新文章,即使癌症药物在试验中有显著效果,它们在现实应用中也往往无效或者效果甚微。也许因为试验中的被试无法代表普通患者。柏林纳希望扩大和改进以大量真实病人作为额外信息来源的注册登记册。她说:“我已经在这里做这些报告做了十五年,现在这种情况让我越来越沮丧了。”
理想情况下,表明一项治疗方案有效的数据和表明其无效的数据受到的关注度应该和它们的科学严谨程度相关,在最早的探索阶段也应如此。但是学术期刊,科学家和媒体都倾向于那些夺人眼球,宣称找到了新的有效治疗方案的研究。
2012年,来自加州大学洛杉矶分校的一组科学家在全世界被引用次数最多的期刊——NEJM上面发表了一篇文章。该研究显示,通过对帕金森患者大脑中植入的电极进行脑深部刺激,可以显著提高他们的空间记忆力。这份研究仅包含了7位被试,显而易见样本数很小,毕竟大脑里面已经植入电极的人也就那么多。《纽约时报》、《华尔街日报》以及生命科学网(LiveScience)分别以“研究探索使用电击刺激改善记忆”、“颠覆记忆力的大脑研究”、“我的车停哪儿了——脑部治疗有望增强空间记忆力”为题报道了这份研究。NEJM同期刊登了一篇社论,提到“这是一份基于小样本,尚且需要重复验证的初步研究,”不过值得注意的是,文中紧接着点到“看得出该研究经过精心设计。”
考虑到该研究可能造成的影响,来自哥伦比亚大学的生物医学工程学教授,乔舒亚·雅各布(Joshua Jacobs)带领了一只国际化团队尝试使用大样本复制原始研究结果。雅克布教授提到:“如果真的起作用了,这将成为帮助大家的重要工具。”为了保证统计结果更加可靠,该团队用数年时间测试了49位被试。然而结果却令这些科学家目瞪口呆:他们的研究显示脑深部刺激实际上损害了空间记忆力。结果自然令人失望,然而他们也受到了鼓舞,因为他们发现脑深部刺激会在某种程度上影响记忆力,这个发现离搞明白如何使用该技术更近了一步,于是他们认为有必要将研究结果提交给NEJM。科学本该如此,众所周知的是,阴性结果不能被顺利发表就是误导信息存在的主要原因之一。
一个不靠谱的科研发现越少受到公众质疑,那它就越有可能化为深入人心的常识。
复制研究结果在去年成为科学界的香饽饽,究其原因,是大家日渐认识到其实绝大多数知名度很高的科研结果都未能被科学家们成功复制。十年前,斯坦福大学的约安尼季斯发表了一篇文章,警告科学界“大部分已发表的研究都是错误的”(2012年,他参与合著了一篇文章,其中提到你冰箱里几乎所有的东西都已被科学证实同时能防癌及致癌。当然除了培根,毋庸置疑,它只会致癌。)约安尼季斯的先见之明使他的文章陆续被其他科研文献引用,仅在2016年就达800多次。这里想说的就是当前科学界对重复实验结果存在的问题史无前例的敏感,因此,当雅各布和该研究的其他共同作者得知NEJM拒绝刊登他们成果的第一反应是困惑。
一位拒绝发表该文章的同行评审员(同行评审都是匿名进行)留下的反馈意见提到:“这篇文章要是说找到了一组能够增强记忆的电刺激数据就有趣多了。” 换言之:这篇文章如果像原始研究一样,报道的是阳性而不是阴性结果就好了。(去年春天,独立媒体ProPublica对NEJM这种不愿发表对之前研究结果产生质疑的文章的行为进行了猛烈抨击。)另外一位同行评审员提到重复实验中绝大多数被试脑部放置的电极位置和原始实验不同。于是雅各布和其他作者又重新分析了那些脑部电极位置与原实验完全一致的被试数据,然而这并没有改变实验结果。其中三位作者回信给NEJM,指出评审员回复中的错误,他们收到一个简短的回信,提到拒绝发表该文章“并不是基于你们回信中提到的那位评审员的意见”,而是杂志收到的文章太多了,已经超出他们发表文章的上限。这是大实话,特别是对这种影响力巨大的杂志而言。不过在神经科学领域颇具影响力的杂志《神经元》(Neuron)很快接受了他们的研究成果并在2017年1月予以发表。(相比原始研究,雅各布的科研成果并没有引起太多关注,或者说完全没有得到关注,仅《华尔街日报》一家媒体进行了报道。)
文章刊登在《神经元》的同一周,哥伦比亚大学组织了为期一天的讨论会,主题为重复科研结果存在的问题。美国国家科学院主席和美国研究诚实办公室主任分别发表了演讲,NEJM的主编杰佛利·德拉任(Jeffrey Drazen)也位列讲席。雅各布则坐在听众席。
在最后的问答环节,雅各布走到布置在听众席的麦克风前,他向德拉任问道,科研期刊是否应该有发表针对重要研究的高水平重复试验的责任。他公开了NEJM拒绝刊登他的团队研究成果的情况。德拉任拒绝讨论雅各布的文章,但是他说“作为编辑,我们无能为力”,并且进一步提到,用他的原话就是,“‘原告方’(指尝试重复实验的科研人员)应该和原始研究作者共同担起探寻真相的责任,我们不是在找出谁对谁错,我们的目的是确定我们需要知道什么。答案就是,促进人类健康,就这么简单。”
雅各布并不认为答案“就这么简单”,他反倒觉得荒唐。在一个讨论透明度和重复结果的会议上,德拉任似乎在说,作为传播信息的主要媒介以及验证科研结果重复性的重要平台,一份期刊的能力有限,而“原告”需要和所谓的“被告”一起去理清楚。有多少医生、科学家、患者代言人和科普作家就是通过NEJM这类一流期刊实时跟进前沿发展的,一个不靠谱的科研发现越少受到公众质疑,那它就越有可能化为深入人心的常识。
····
当然,无数的医疗创新在改善并且拯救生命,但是据美国国家卫生统计中心(National Center for Health Statistics)2017年1月的报道,即使科学家们在向医疗前沿不断推进(同时推进的当然还有医疗费用),美国人的预期寿命还是有些许降低。
不过,还是有某个领域在强有力地、实实在在地提高人类预期寿命,这就是持续创新的公共卫生系统。
可以将医疗系统比作红酒:价格和质量有时候并不成正比。回看历史上所有的里程碑事件,即便像是脊髓灰质炎疫苗的问世,这类现代医学史上最大的壮举——对人类健康的影响,尚不及改善卫生状况和食物保鲜的新技术带来的改变。由于吸烟和不健康的生活习惯而引发的肺癌是目前死亡率最高的癌症,而在20世纪初期,几乎没有美国人会因为肺癌而离世。所幸的是,公众压力在不断遏制吸烟行为,而肺癌死亡率也自90年代的高峰开始急剧下降。因为肺癌和吸烟率紧密相关,所以因肺癌而离世的人应该继续减少,但是有一个20年的滞后期,即肺癌死亡率会在吸烟率下降后20年开始下降。
诚然,医疗领域的创新功不可没,只不过更多的是公共卫生系统在大社会层面引领改变。大多数人不相信这一事实而已。
最常见的影响美国公众健康的疾病大多由不良生活习惯引起:吸烟、营养摄入不均、缺乏锻炼等等。2016年11月,一组来自麻省总医院(Massachusetts General Hospital)的科学家将1987年到2008年间的四个不同健康研究的数万组数据合并加以分析。他们发现,简单且中等程度的生活习惯改变就能够显著降低心脏病风险。心脏病是目前美国人的头号健康杀手,每四位因病离世的患者中,心脏病就要占一席。确定有高家族风险因素的人群只要做到以下四点中的三点就能将患病风险减半:不抽烟(即便有吸烟史),不肥胖(尽管可能超重),一周锻炼一次,多吃天然食物(水果、蔬菜、全麦类食品),少吃加工过的食品。哪怕仅满足其中两条也能明显降低风险。同年八月,国际癌症研究机构发布的一项报告总结道目前发现肥胖和一系列癌症相关,包括甲状腺癌、卵巢癌、肝癌和大肠癌。
与此同时,患者,甚至医生自己有时候都不确定一般治疗方法的有效程度,或者说不确定如何去准确的衡量、表达这类“程度”。格雷厄姆·沃克(Graham Walker)是旧金山的一位急诊科医生,他和其他几位医生志愿者共同维护一家叫做“NNT”的网站,网站目的是帮助医生和患者了解药物的效果有多好,或者很多时候,有多没用。“NNT”是“需要治疗的病例数”(number needed to treat),展开一下就是为得到一例有利结果,即一位患者从药物或者手术中受益,需要多少患者接受治疗。几乎所有的主流媒体,都会用“相对风险降低”来报道某种药的效果。为了帮助理解,我们这里虚构一个疾病——霍格沃兹病——举例解释NNT。某天你听到收音机里面说有种药能够降低20%的霍格沃兹病死亡率,听着还不错对吗?不过,那句话的意思用白话描述是1000个罹患霍格沃兹病的人里面有10人会不幸离世,我们给每个人都吃这个药,结果呢?8个人会死去。于是,每五百个服用该药物的患者当中,有一位可以受益,躲过霍格沃兹病造成的死亡。因此,这例当中需要治疗的病例数就是500,这样听着还行。不过假设该药的“发生一例不良反应所需治疗的病例数”(number needed to harm,NNH)是20,并且不良反应还很严重,那意思就是每一个受益的患者背后有25个患者受到严重不良反应的影响。突然之间,这利弊得失就显的不那么明朗了。
现在我们考虑一个真实存在并且大家耳熟能详的药物:阿司匹林。对于为预防初次心脏病发作而每日服用阿司匹林的老年女性来讲,它的NNT和NNH大约分别是872和436。意思是假设1000位老年女性连续十年,每日服用阿司匹林,那其中有11位可以真正避免心脏病发作的出现;同时,两倍于受益人群的女性将会经历一次严重的胃肠道出血——如果她们没有服用阿司匹林就不会出现这种情况。和绝大多数药一样,阿司匹林并不能给大多数服用它的人群带来明显的好处或坏处。这条规律基本上适用于你药箱里的所有药物:无益无害。艾伦·苏沙(Aron Sousa)是一位内科医生,也是密歇根州立大学医学院的高级副院长,他提到“绝大多数人纠结于医学就是一个概率的科学”,至于那些常见的衡量标准,相对风险,他的看法是“太乱了,不仅药物公司用这些概念,医生也用。他们希望这可以让自己的工作显得更有效,并且他们真心认为患者需要吃这个药,同时相对风险看起来比NNT要更引人注目。相对风险其实就是换个法子去说谎。”
即便是临床已经证明非常有效的药物,如果从NNT这个角度看,都显得不是那么振奋人心。15位鼻窦感染的患者使用抗生素,其中只有1人的症状会加快缓解,而在8位患者中有1位会出现各种副反应。一个针对老年人使用助睡眠药物的元分析发现,每13位使用安眠药(比如唑匹旦)的老年人中,1人的睡眠情况得到改善,平均每晚的睡眠时间增加了25分钟,同时有6人出现至少一种副反应,其中最严重的是增加了遭遇车祸的风险。
“目前存在一种认知失调,或者说是’职业抑郁’,”沃克说道。“你自己会认为‘我的天,我可是医生,这些药都能帮到大家,我要全部开给他们。’不过我差不多都认命了,特别是在急诊医学领域。如果我们真的想对大范围的人群产生影响,我们就应该更强调饮食,强调运动和生活习惯的改变。说实话,在审慎地研究这些统计数据之前,我一直很难真正接受这一理念。”
公卫领域的历史学家知道过去两个世纪对预期寿命提高影响最大的措施起源于改善卫生、食品保鲜、检疫隔离等领域的创新。从1880年到1920年,在被称作“第一次公共卫生革命”期间,全民寿命得到显著延长,而这远远早于抗生素或现代手术的应用。
90年代,美国癌症协会董事会宣布了一项国家挑战,即从1990年的癌症患病高峰起,降低癌症发病率。值得鼓励的是,全美因各种癌症死亡的人数自那时候起在不断减少。美国人依旧有很多方式可以将癌症死亡率降回到30年代的水平。诚然,医疗领域的创新功不可没,只不过更多的是公共卫生系统在大社会层面引领改变。大多数人不相信这一事实而已。
2014年,杨百翰大学的两位科研人员进行了一场针对美国人的问卷调查。统计发现,一般成年人将自十九世纪中叶后期开始逐渐增加的预期寿命的80%归功于现代医学。“公众群体基本上高估了现代医学对增加预期寿命起的作用,”他们写道,“而大部分人并不了解公共卫生及改善的社会状况起到至关重要的作用。这种看法可能会阻碍公卫系统获得拨款支持,同时可能造成作为金融界分支的医疗系统得到过多拨款,并且会对为控制医疗开支而做出的努力构成阻碍。”
这份诉求不是空穴来风。但是考虑一下最近在众议院通过并得到广泛赞誉,投入达63亿美元的《21世纪治愈法案》。又有谁能跟一个自制定出来就是从某种程度上鼓励癌症研究的法案去争论呢?——有,还不少。打头炮的是美国家庭医师协会和美国公共卫生协会的高层,他们争论的点是新法案将会从公共卫生领域移走35亿美元,为研究新医疗技术、新药物的科研提供资金,这其中就包括前副总统乔·拜登的“癌症登月计划”。新法案会将原用于疫苗开发及戒烟运动的拨款移走,而这些都是已知可以预防疾病,并且进一步合理开发,也许终将能够终结疾病的项目。新法案同时允许FDA根据观察研究结果,甚至仅根据药品公司提交的“综述审查阶段”的数据就许可通过药物新的适用范围。普拉萨德热衷于公众评论,并以言辞犀利著称于推特,他发推提到“不喜欢这项新法案的人,要么是研究药品核准程序的,要么是研究药品安全的,要么就是没有收药商钱的。”
也许那只是社交网络一贯的夸大其词罢了。医学研究,追根求源,就是对知识的不断探求;最初发现的康庄大道突然变成死巷是医学研究过程的特点,而不是缺陷。希望新的法案能够真正意义的加快着实长期有效的新治疗方式的问世。不过现在我们至少搞清楚了现代医学给我们的一点教训:无效的治疗方式其实也“着实长期”存在着。
评论