你怎么知道科学证据是强是弱
世界上有大量的证据和研究,有些好,有些差。你怎么知道该相信什么?这一小节的目的是指导你解决那些会影响你理解科学发现的棘手问题。
其中一个主要的问题是,科学术语的含义往往不同于日常用语。这些术语可能会偷偷溜进媒体的报道中。即便是很简单的词,比如理论、显著性和控制,在科学领域也有完全不同的意思。
另一个问题是没有所谓的完美研究。实验可能会受到如何设计、如何分析、甚至如何被科学期刊评论等问题的困扰。
阅读下面的8个关键技巧,你将更自信地评估科学和医学研究的结果。
知道假设与理论之间的区别
科学家和非科学家经常以天壤之别的方式使用这两个词。让我们来拆解它们。
假设
在科学中,假设是一种被提出的解释,可以通过进一步的实验和观察得到验证。这是一个有待证实的想法,需要收集更多的数据来证明或证伪它。
提出假设通常被认为是科学方法的第一步。很多外行经常在这里使用“理论”这个词,但科学家们并不是这么用的。
理论
在科学中,理论是一种被广泛接受的观点,有一些严格数据的支撑。当科学家们提到“进化论”或“相对论”时,他们并不是在说这只是一个未经证实的疯狂想法。这两个理论都得到了大量数据、观察和实验的支持。
当然,现有的科学理论以后可能会被修改或被证伪,如果有足够的数据可以证明这一点的话。但是,理论一开始被广泛接受是因为它们得到了大量证据的支持。
注意选择偏差
假如一个心理学家可以对世界上的每个人进行一次单独的测试,那将会得出一些很有说服力的结论。但这是不切实际的。因此,科学家们退而求其次:他们选择一个较小的群体进行研究。
然而,他们总是必须对他们抽选的特定群体保持谨慎。研究可能会受到选择偏差的影响,即对研究对象的选择没有达到随机的标准,因此研究结果在某种程度上会具有偏向性。
选择偏差可以通过多种方式发生。也许某些类型的人更有可能想要参与研究——或者有足够的决心不放弃一个持续时间更长的实验研究。
举例来说,在一项为期一年的减肥药物研究,其中一半的参与者在研究结束前就退出了。那些继续留在研究中的参与者可能都减肥了,但是考虑那些退出研究的人也很重要。也许那些人在研究过程中没有看到任何进展。所以,报告中100%的成功率实际上很有可能是50%。
另一个需要考虑的问题是,参与者是否具有代表性,能够反映论文或文章所讨论的群体的特征。
这就是为什么来自全国代表性样本的民意调查数据(比如,皮尤和盖洛普所做的调查),以比在互联网上对任何人开放的非正式民意调查更能提供关于全国民意的信息,即使有更多的人参与了后者。
心理学研究的另一个常见问题是,它们倾向于招收美国本科生,因为在大学校园里很容易招到这些学生。但是,本科生并不一定代表普通美国人。
同样,在美国或欧洲进行的研究多是针对来自“WEIRD”国家(即西方化、受教育程度高、工业化、富裕和民主国家)的人,可能并不适用于来自其他文化背景的人。若是你想要了解更多信息,请阅读贝瑟尼·布鲁克希尔(Bethany Brookshire)发表在Slate杂志上的关于心理学“WEIED”问题的精彩文章。
不要混淆相关性和因果关系
通常,科学家们会发现两个不同的变量是相互关联的——例如,随着时间的推移,它们都在一起增加。这表明它们可能是相关的,但这并不一定意味着其中一个变量是导致另一个变量发生变化的原因。也许这只是巧合。或许是第三个变量导致了这两个变量发生变化。通常需要进一步的测试才能揭示两者的明确关系。
随着时间的推移,科学家们会掌握大量相关的证据,同时系统地排除其他可能的原因,这就可能会让科学家们得到更有说服力的结论,即某些变量是其他变量的原因。但是,证明因果关系的最好方法是实施一个精密控制的实验。
举个例子:一项研究发现,医生在下午开抗生素的次数更多。也就是说,开抗生素处方与一天的时刻之间存在关联。研究者猜测有一种叫作“决策疲劳”的现象,即人们在做了太多的决定后感到疲劳,这就是医生在下午更有可能开抗生素的原因。但是还有其他可能的原因,比如,医生在下午时体内糖分过少(葡萄糖疲劳),或者是全身疲劳。
为了查明“决策疲劳”是否是其原因,他们需要设计一个实验。在这个实验中,他们随机地让一些医生比其他医生做出更多的决策。为了尽可能地控制实验条件,那些做较少决定的医生将不得不完成一些其他会导致精神疲劳的任务。
控制实验条件意味着什么?在科学领域,控制组或对照组是指用来比较的一组研究对象。医学研究中的对照组通常接受安慰剂条件——一种假的药物、设备或程序。
例如,许多身体症状会自行改善(或恶化)。如果你没有一个对照组,你可能会认为,你发明了一种有效治疗普通感冒的方法。但事实是,普通感冒在一两周内就会自然而然地好起来。
奇怪的相关性也是值得当心的。如果一种相关性看起来很奇特,或者好得不可思议,那么它背后可能没有什么有意义的东西。泰勒·维根(Tyler Vigen)从真实数据中创造了一系列他称之为“假相关”的东西,比如,人均奶酪消费量与被床单缠住而死亡的人数之间有相关关系。
人们喜欢引用的一个有趣的相关关系是全球海盗数量的减少与全球气温的上升。然而,海盗数量的减少极不可能是气温升高的原因,气温升高也不可能是削减海盗数量的原因,也不可能是某种潜在的原因同时影响了两者。这两者有相关关系,但是这种相关关系没有意义。
寻找黄金标准:双盲、安慰剂-对照组、随机测试
最可靠的研究,尤其是临床试验,通常被认为是随机的、有安慰剂-对照组的、双盲的研究。
如果你正在看临床试验、心理学研究或者动物研究,它并不符合上述要求,而且没有一个很好的理由表明它可以不遵循上述要求,那么你就可以质疑研究结果。
让我们来解析这些术语。
1)随机:
这是指将研究对象随机分为实验组和对照组。这一点很重要,因为如果研究对象有选择的机会,他们可能会因为一些意想不到的因素而更倾向于选择其中某一组。
举个例子,假如那些更乐观的人更愿意尝试一种治疗焦虑的新药,而不是用于比较的已有药物。再假如,乐观能让广泛性焦虑症患者在药物治疗中表现出更好的治疗效果。研究人员最终可能会认为是药物缓解了患者的症状,而实际上是患者的乐观天性让他们表现得更好。
如果研究人员决定让某个研究对象进入某一组,同样的问题也会出现。这就是为什么随机分配是最好的分配原则。
2)安慰剂-对照组:
严格控制的研究需要有一个合适的对照组,也叫控制组。在医学研究中,一个对照组通常会得到安慰剂——一种假的干预措施,如糖丸。这是为了区分药物的实际作用和参与者的心理预期作用。(安慰剂效应之强大令人惊讶——强到常常可以缓解疼痛和其他健康问题。据史蒂夫·希尔伯曼(Steve Silberman)在《连线》(Wired)杂志上的对安慰剂的深度报道,近几十年来,安慰剂效应一直在增强。
一个好的安慰剂组应该尽可能地与实验组相似。举个例子,如果你在测试一种较大的红色药丸,那么在理想情况下,你应该给安慰剂组一种同样较大的红色药丸,这种药丸在各个方面都与实验组的药物一致,但是不含药物。(是的,即使是一片药丸的颜色和大小也会产生安慰剂效应。)有些研究甚至做了假手术,包括麻醉、切口、缝线等工作。
3)双盲:
如果参与者不知道自己是在实验组还是对照组,那么这项研究就是“盲”的。例如,你不希望有人知道她服用的是真正的药物还是假药,因为她对药效的期望可能会改变研究的结果。
如果研究人员与参与者都不知道他们正在进行何种治疗,那么这项研究就是“双盲”的。你不希望护士知道她给参与者的药是真药还是假药,因为她的行为中的细微差别会影响病人,进而影响结果。
理解“显著性”
在日常语言中,“显著”的意思是某事是突出的或显眼的。但是一项被认为具有“统计显著性”的科学发现不一定符合上述两种情况中的任何一种。科学家们通常认为,如果一种叫作“p值”的特殊统计工具可以检测到这种显著效应,那么这个研究结果就具有统计学意义。
取多大的p值是任意的,在不同的科学领域也会有所不同。通常被认为具有“统计显著性”的临界值是0.05的p值。
p值并不是研究中唯一的关键数字,记住这一点尤为重要。例如,治疗某种疾病的方法在统计学上有显著的效果,可以将存活率从43%提高到44%。这是一个微小的改变,可能对未来如何治疗这种疾病并没有多大意义。
事实上,有些人认为科学论文应该完全废除p值[7],取而代之的是清晰地显示效应量和效果的范围,这两者都是极其重要的。
另一个危险是:如果你一次又一次重复相同的研究,或者对相同的数据进行大量不同的统计分析,你可能最终会得到你想要的结果,但是这种结果纯粹是偶然的。然后,你只公布那些看起来有意义的结果,这很可能会让公众从你的研究中得出误导性的结论。此外,查尔斯·塞费(Charles Seife)在《科学美国人》(Scientific American)上对各种各样的p值陷阱进行了很好的概述。
注意利益冲突
利益冲突有多种形式。如今,科学和医学出版业最关心的是财务问题。
例如,某个研究者获得了一家公司的资助,该公司能从其研究成果中获得利润。或者,这个研究者可能与公司有关系,比如担任董事会成员或无薪顾问,因此他有可能在未来从研究中获得经济回报。
例如,某家食品公司的理事会想要推广某种食品,然后资助一项关于该食品的健康益处的研究,却忽视该食品的害处。另一种情况是,研究者接受制药公司的差旅费去参加某个会议,并研究该公司的药物或其竞争公司的药物。
最近的一项分析发现,在顶级医学期刊中,7%到32%的随机试验完全由医疗行业的机构提供资金。这只是那些拥有全部直接资金的研究。据推测,任何形式的利益冲突所占的比例都非常之高。
一种解决办法可能是禁止这种利益冲突。但是许多期刊选择了不同的披露要求,比如《科学》(Science)杂志要求提交论文的人披露“任何可能引发研究偏差的从属关系、资金来源或金融控股”。(研究者实际填写的表格更为详细。)
然后,编辑决定在发表论文时应该公开哪些信息。无论谁读了这篇论文,都可以得出自己的结论,即这些信息是否有意或无意地影响了数据。
如果有什么信息需要披露的话,那就要看期刊的要求了(在某些情况下,还要看研究者的雇主的要求)。许多期刊在其网站上发布关于利益冲突的政策。如果你仔细研究一篇论文,你也会发现其中隐含的一些信息。
知道同行评议并不完美
同行评议是一种审查系统,在这个系统中,几位独立的专家评审提交给期刊的论文。一般来说,如果论文没有经过同行评议,这个期刊的质量就不高。
通常情况下,评审员是由期刊选择的,并且是匿名的,以便让评审尽可能公正。这些评审员可以建议修改文章,增加新的实验,甚至建议期刊拒绝这篇论文。然后,论文的作者通常会查看这些评论,并在觉得有必要修改时将它们合并到修订后的论文中。
但是,评审员并没有被要求尽其所能地确保结果是绝对正确的。(这需要花费太多的时间,而且不切实际。一篇论文有时要花好几年才能完成所有的修改。)例如,评审员不会被要求自己尝试做实验,通常也不会查看原始数据或重新分析数据。
他们确实会查看论文初稿,看看实验设计是否合理,数据是否支持论文的结论,以及这些发现是否值得发表。
所以说,同行评议通常是有益的,但并不完美。在论文中的研究结论得到重复验证之前,科学的过程实际上还没有完成。这是在论文发表之后发生的事情(如果有人重复进行研究的话),而不是在发表之前。
此外,有时论文会被撤回。这很罕见,但确实也会发生。伊凡·奥兰斯基(Ivan Oransky)和亚当·马库斯(Adam Marcus)的博客“撤稿观察”(Retraction Watch)非常棒,你可以在这里听到最大规模、最重要、最戏剧性的撤稿事件。(这种事件可以是相当戏剧化的。例如,2014年,声学领域的《振动与控制期刊》(Journal of Vibration and Control)就一次性撤回了60篇论文。)
常规的同行评议过程中也有一些奇怪的例外,包括《美国国家科学院院刊》(Proceedings of the National Academy of Sciences,PNAS),该杂志允许其极具声望的学术机构的成员每年为自己的多达四篇的论文选择评审员。彼得·艾德豪斯(Peter Aldhous)在《自然》(Nature)上讲述了一个关于这个有争议的过程的好故事。(PNAS也通过更传统的同行评议系统接收许多论文。)
意识到并不是所有的期刊都是好的
某篇论文发表在期刊上并不意味着它是一个很棒的研究。期刊和论文的质量参差不齐,从很好到很平庸无聊,再到彻头彻尾的弄虚作假。甚至一流的期刊有时也会发表有缺陷的研究。
评估科学期刊影响力的最常用的指标是影响因子(IF)。影响因子本质上是一种受欢迎程度。它计算了一个期刊的论文在其他论文中被引用的次数,相对于这个期刊自身的论文发表数。
论文被引用的次数越多,这个期刊对人们的研究工作的影响就越大。(具体来说,IF是根据汤森路透期刊引文报告数据库中的引文计算出来的。)
如何找到期刊的影响因子?如果你是一个很好的图书馆的会员,你可以订阅一份每年都会发表的期刊引文报告分析。如果你不是这样的会员,许多期刊和期刊出版商将自豪地在它们的网站上列出它们的评级。只要搜索“影响因子”即可。一些最著名的期刊,比如《科学》、《自然》和《美国医学会杂志》(JAMA),它们的影响因子最低接近30,最高可达35。(《新英格兰医学杂志》(New England Journal of Medicine)在20世纪50年代拥有令人震惊的影响因子。)
影响因子是有争议的。它是一种方便的工具,但它不是看待事物的唯一方式。
一些科学领域自然会比其他领域有更多的引用次数,但这并不一定意味着前者真的更好或更有影响力。至少有一项研究发现,影响因子与专家意见并无紧密的关联。
另一件需要当心的事情是有些期刊是剥削性的,以盈利为目的,它们会发表几乎任何论文(而且没有同行评议)。最近有几个人想挖猛料,他们提交一些有缺陷的或逻辑不连贯的论文,引起了这些期刊的兴趣。
还有一点需要知悉,即一项研究是否发表在适合它的主题的期刊上。有时,垃圾的科学研究最终会出现在同行评议的期刊上,尤其是在其专业领域之外的期刊上。在这种情况下,它的审稿人和编辑可能不太能够准确地评估论文的质量。
萨拉·费希特(Sarah Fecht)讲过一个好故事,一项低劣的研究被发表在《大众机械》(Popular Mechanics)上——然后,这项研究被媒体报道,仿佛它是很好的研究一样。