购物车里没有产品

人文心理学

超越可重复性危机，我们需要更强大的心理学

作者神经现实2022年7月9日917

现在人们普遍认为，心理学领域的许多实验结果——甚至是这一学科的基石——都难以复现：这个问题被称作可重复性危机。

心理学界的对策是重新审视其专业的激励机制，对不谨慎的研究加以惩罚。同时，心理学界也调查并修改了研究实践和政策：如我们用来从数据中得出结论的形式化框架，渗透到研究中的可疑实践方法，以及由具有误导性的出版模式导致的，严重的文件抽屉问题*。

*译者注

文件抽屉问题（file-drawer problem），反映的是发表偏倚（publication bias），即发表研究过于强调阳性结果（如心理学中p<0.05），大量阴性结果或小样本研究难以发表，这些不显著的研究结果仿佛抽屉中的文件，不见天日。

目前，为了纠正这些问题，一些改革正在进行。研究者们已经开始提倡使用其它统计方法。比如，本杰明（Benjamin）等人提倡从数据中得出更加保守的结论；西蒙斯（Simmons）等人推荐剔除存疑的研究实践；诺赛克（Nosek）等人建议投身开放科学（Open Science）。

期刊编辑们也不甘落后，他们对编辑政策和过程进行了改进。例如，《加拿大实验心理学杂志》（Canadian Journal of Experimental Psychology）引入了开放科学徽章（Open Science Badges）以激励作者对数据和方法提供完整的报告，将注册研究设立为一种投稿类别，还将论文初稿的提交与PsyArXiv（心理学论文预印本和开放科学实践的学科库）整合。

在我们看来，心理学对可重复性危机已经采取了一种严肃的立场，承认问题、承担责任，并制定补救改进措施。基于心理学作出的回应，我们乐观地认为，心理学最终会变得更加强大可靠。然而，我们对心理学是否能通过对研究实践的改进，避免可重复性危机，还是持怀疑态度的。

理论危机

纽厄尔（Newell）在1973年发表了评论“你不可能赢大自然20次”*。他指出：“心理学，就其当前的运作风格来说，是研究现象的学科。”研究者经常把他们的研究问题框定在巨大的二元对立之中，这很难通过一份实验报告解决。他接着说，通过行为分类、以及用不精确且过于简化的错误二分法来构建研究问题，如果继续通过这样的方式进行科学研究，将会使得心理学在30年的时间里（即2003年）变得杂乱无序、笨拙不堪。

*译者注

20问游戏是一个问答游戏，至少有两个玩家才能开始玩。其中，一个玩家需要想着一个东西，比如一种食物、一个动物或者一个人，但不能告诉任何人它是什么。其他玩家可以对该玩家进行提问，以猜出这个秘密的东西到底是什么，比如“这个东西能吃吗？”，“这个东西是猫咪吗？”，但保守秘密的玩家只能回答“是”或者“否”。如果最终没有人猜出这是什么，则胜利属于保守秘密的玩家。（ps 在动画《辉夜大小姐想让我告白~天才们的恋爱头脑战~》第一季第三集中辉夜和会长玩的问答游戏就是20问游戏）在本文的语境下，大自然就是保守秘密的玩家，而科学家们则是需要通过不断拷问大自然以猜出秘密的玩家。

为了代替上述策略，他建议心理学重新专注于发展一种强大的、精确的学科理论共识，将实证记录与一系列逻辑连贯的心理学原则联系在一起。他认为，这样的转变将使得心理学的成果从一堆关系松散的行为事实转变为一种富有成效且可被验证的行为解释。尽管纽厄尔的警告被人熟知，但心理学迟迟没有采纳他的建议。我们可以想象一下，如果纽厄尔还在世，能够对可重复性危机评论一二，他可能会说出诸如“我早就跟你们说过了”这样的话。

纽厄尔的论文在可重复性危机爆发之际被再度提起。例如，奥伯劳（Oberauer）和莱万多斯基（Lewandowsky）认为，尽管对可重复性危机的讨论和解决都集中在不断变化的研究实践上，但问题的根源在于：对修辞理论的接受，以及心理学对理论与实验之间薄弱且间接的逻辑联系存在令人不安的容忍，他们将这个问题称为理论危机。基于他们的评判，他们建议心理学重新投身于开发和应用严格的形式理论，促进理论与实验之间形成强大且直接的逻辑联系。

在很多方面，奥伯劳和莱万多斯基的提议与当前改革研究实践的努力是相互呼应的。然而，他们的提议将倡议的范围扩大到对理论和数据的改革。作为期刊编辑，我们同意他们的观点。为了避免提前透露本文的结论，在此我们没有提供神奇高明的方法或非常不同的视角，我们的想法与其他人在相关议题上的说法是一致的。但是，我们的贡献在于揭示当前的危机，为下一步的建议提供支持，特别是从编辑和审稿人的角度。

两大传统

我们接收到的大多数论文投稿都扎根于修辞理论，奥伯劳和莱万多斯基称之为发现导向的研究。在这种框架中，研究者会先展现一则语言表述的前提，然后用一项叙事性的实验论证该前提的可行性。举个例子，一位研究者可能会提出，提出一个概念（如怀疑）将影响人们的行为。基于这一前提，他们可能会提出，在房间加点鱼腥味会使人们表现出怀疑——因为“有什么东西闻起来像鱼一样/令人怀疑”（something smells fishy）*(Lee & Schwarz, 2012)。如果人们表现得和预期一样，实验数据便会被解读为支持前提的证据。然而，如果前提并不是实验结果的真实原因，那么实验结果也不能得出相应结论。此外，实验也是一种创造性的、自由的发明，也因此可以被设计成由研究人员操纵结果的项目。所以，尽管修辞研究对于实验发现很重要，使用创造性的、开放性的叙事实验会导致虚假的肯定结论（false positive）(Oberauer & Lewandowsky, 2019)。

*译者注

fishy在英语中又有“可疑”的意思，“something smell fishy”常用来表达一种社会性的怀疑。该实验通过对比鱼油、臭屁和水的气味，来研究隐喻的具身影响。

我们收到的一小部分论文投稿扎根于形式理论，奥伯劳和莱万多斯基称之为理论驱动的研究。在这种框架下，一位研究者会先呈现一项形式理论，之后对由该理论计算出的具体预测进行检验。事实上，正如亚尔科尼（Yarkoni）和韦斯特福尔（Westfall）曾指出的，预测能够与解释进行区分，具有一些统计学和实用主义的优势。如以记忆的SIMPLE模型为例，如果某人假定，在多维度心理空间中，情景记忆所处的维度反映的是与提取点之间的时间距离，某客体的可提取程度和它与记忆中其他所有客体混淆程度的总和成反比，并且，客体在时间维度上的混淆程度可根据回忆时客体的时间距离比值得出，那么，人们的回忆应该遵循特定的预测模式。如果人们的行为与预测一致（通过数据拟合来衡量），数据会被解读为支持理论，更关键的是，如果人们的行为与预测相反，那么数据会被解读为反对理论的证据。基于这种想法的实验通常没有什么创造性，想一想也不会令人激动。但是，它们与理论之间具有强大且直接的联系，直接说明了理论的有效性和精确性，且这些实验能被重复。

寻找出路

说到这儿，有人可能会猜测，我们会认为心理学应该放弃修辞式的、发现驱动的研究，转向形式化的、理论驱动的研究，从而将心理学遭受可重复性危机的风险降至最低。然而，前述的两类框架对于一门重要且严谨的行为科学来说都很重要，因此，问题不在于我们如何将修辞研究从学科方法中剔除，而在于如何以一种减轻可重复性危机，但又能保持实验发现与科学严谨之间的平衡的方式，平衡对于修辞式和形式化研究的投入。

理论驱动的研究

如果心理学是一门理论驱动的科学，可重复性危机可能更像是对可重复性的忧虑。在那个世界中，理论会被形式化地规定，审稿人可以客观地评估理论，实验将对理论的必要预测进行检验，理论评估将通过比较对实验数据的定量拟合的方式进行，实验记录将形成一个相互关联、相辅相成的、条理清晰的网络。在这样一种定义良好、透明精确的世界中，很难想象我们会遭遇可重复性危机。所以，为什么我们不抛弃带有风险的发现导向方法，转而投身于形式化的研究项目呢？

理论驱动的研究在设计上是保守的，因此缺乏惊艳亮眼的成果。在一些例子中，定义良好的理论促使令人惊讶的观点与实验发现出现。例如，雷斯科拉（Rescorla）和瓦格纳（Wagner）发明了联结学习（associative learning）模型，用于解释阻碍现象（blocking）*中的线索竞争（cue-competition），但该模型之后推动了新的实验现象出现(Miller, Barnet, & Grahame, 1995)。然而，理论驱动研究对于精确度和一致性的关注，而非对发明和发现的关注，会限制实验的广度，因而限制实验发现。尽管如此，心理科学采纳理论驱动的研究方法依旧具有意义重大的好处。

*译者注

在建立经典条件反射联结的过程中，第一个条件刺激与非条件刺激的联结会阻碍第二个条件刺激建立联结。例如，在第一阶段的训练中，先让小鼠训练习得了声音（条件刺激1）与电击（非条件刺激）之间的联结。在第二阶段的训练中，每次声音出现时还会出现闪光（条件刺激2）。在测试阶段，声音单独出现小鼠依然会表现出恐惧反应，但闪光出现则不会引发恐惧反应，这说明，声音阻碍了闪光与电击建立联结。这一现象可以使用R-W模型解释，第一阶段的学习已经使得条件刺激1的联结强度达到最大值，第二阶段继续学习也无法继续增大联结强度。

累计式的实验记录

心理学应该致力于发展和检验基于共识的形式化理论。我们可以通过这些理论共识找出成熟的科学分支。这些理论记录了集体智慧，通常以一个方程式系统组织了一种累积的、交互的实验记录。例如，物理学拥有明确的主导理论，用于组织实验工作，推导和检验越来越具体和精确的预测。因为实验者从共同的理论出发，来自不同实验室的实验数据汇聚在一个有共识的、交互的、累积的实验记录中，支持了科学进步，这也是心理学应该追求的。与之相反，心理学子弹发射式的行为调查方法产生了令人印象深刻但却混乱的实验记录，一个实验室产出的数据极少与其他实验室交叉，或推动其他实验室的结果出现。

在本期特刊的背景下，与我们的论文相关的内容是，心理学松散的、理论混乱的结构使得审稿人和编辑难以判断实验报告的结论。相反，编辑和审稿人只能通过方法和统计是否足够严密来评估每一份实验报告。这一情形有着严重和奇怪的后果。举个例子，我们一直在发布“科学证据”，表明人类具有潜在的超能力（比如预知能力；Bem, 2011）。如果心理学想要避免可重复性危机，那么，关键在于，我们要致力于要求清晰且形式化的科学理论，不仅要设想可能性，还要坚持一种标准，即对行为的产生机制提供形式化的、精确的解释。

主动改正

理论共识是可重复性危机的一种天然预防剂。一个从重要的理论共识出发的集体研究项目也会形成一种快速的核查反馈系统，能对识别和纠正错误的发现进行平衡。当一项实验结果与集体智慧出现差异时，相应的集体努力就会启动，证实或纠正这些谜团（实验室的研究者参与到其它实验室的工作中）。一旦集体能对新的事实进行确认，它就会成为集体智慧的一部分，理论共识就会被修正或抛弃。然而，如果新的事实被否定，它将从集体智慧中被移除，研究工作将会继续。

相反，当新的事实与集体智慧矛盾时，心理学理论混乱的状态使得审稿人和编辑难以察觉。因此，在审稿时难以发现误报，一旦被发表，在很长一段时间内，这些虚假结论依然难以被察觉。所以，尽管对研究实践的改革正在帮助心理学解决可重复性危机，如果我们不致力于强理论，重复性危机将依然存在。

总的来说，无论我们的数据和研究实践可以做到多么透明，直到心理学发展出正式的理论共识并形成集体智慧之前，我们的重复性危机将一直存在（Szollosi et al., 2020）。我们认为，心理学应该致力于发展合作的、理论驱动的研究，提倡合作的、累积的研究记录，自然地建立一个核查平衡机制，对新发现进行评估和验证。理论整合是很重要的，正如沃特金斯（Watkins）在1984年首次提到的，心理学家倾向于反感使用他人的理论，将其比作“其他人的牙刷——那个人自己用是可以的…”但不适合“…除此之外的我们其他人”。类似地，2008年，米歇尔（Mischel，2008）也写到了关于终身教职和职业生涯制度的激励机制，这些机制鼓励研究人员彰显自己，但这个规定可能与发展一门保守和累积的科学背道而驰。克服牙刷问题、完成学科整合，可能会包括研究训练中重视建立理论、理论领域进行合作而非区分、跨越子学科的交流（比如 Gigerenzer, 2010）、职业生涯激励的转变，以及编辑和审稿人对发展、检验正式理论共识的鼓励。

发现导向的研究

实验发现对于健康的、有活力的科学而言很重要。然而，发现伴随着风险，因为本质上讲，发现会挑战内省，反对已有知识，有可能产生害处。例如，艾森克（Eysenck）曾声称改变人格可以预防癌症，这是站不住脚的，如今臭名昭著（见Eysenck, 1991; Grossarth-Maticek & Eysenck, 1991; Pelosi, 2019）。

对研究和发表实践的持续改革已经有助于审稿人和编辑更好地察觉并纠正发现导向的研究中的误报。然而，决定一项研究发现是否只是一场错觉的困难始终存在，尤其是在缺乏强有力的理论对实验数据的可行性进行评估的情况下：即使这些观察数据令人激动，但同时难以理解。所以，我们作为编辑和审稿人如何才能把工作做得更好呢？

汇聚性证据

对于修辞式的结论，编辑和审稿人应该要求趋于一致的证据。前文中提到，李和施瓦茨（Lee & Schwarz, 2012）推测，启动（prime）一个概念将影响人的行为。为了验证这一假设，他们报告了研究证据，在测试房间内引入一股“鱼腥（fishy）”味能够引起人们的怀疑。然而，他们的修辞性假设并不能得出他们这一叙事性实验的结论。因此，他们的证据可以体现可行性，但不能证实假设(这与沃森通过2-4-6找规律任务之中的确认偏误揭示了同样的道理）。不过，这一假设也是重要的，值得探究。所以，研究者应该如何检验一项无法经反事实检验的修辞假设呢？

如果研究者报道了一系列的叙事性实验，这些实验都是在相同的前提假设下提出的，但在步骤和情景上有所不同，作为编辑，我们会更容易相信这样的实验。实验证据的规模越大，就越难怀疑任何具体证据反映的只是方法论的特殊性，而不是确定性的现象。理想情况下，每一项新的检验应该对原始假设的变式进行检验，以排除其他可能解释。如果总的结论是通过加权不同变式与其错误率（如a= 0.05，除以不同方法检验的次数，详见Benjamin et al., 2018）得出的，那我们会更加欢迎。

总的来说，修辞式的假设难以直接检验，但也不应该劝阻研究者开展研究，相反，在缺少直接检验的情况下，审稿人和编辑应该通过一系列的间接检验来确保假设的可靠性，即要求研究者给出强有力的、谨慎检验过且趋于一致的实验证据。

对溯因结论进行演绎证明

对于溯因结论（abductive conclusions），编辑和审稿人应该要求演绎证明（deductive confirmation）。修辞研究中的结论通常依靠于溯因推理，该过程通过对已有的观察数据寻找一种连贯合理的解释，从而将数据延伸至理论。尽管溯因推理（从结果出发，推测出事件发生的原因，详见Kerr，1998对于HARKing*的讨论）在科学中作用重大（见Tukey 1977年对探索性数据分析的讨论），如果抛开演绎推理（从清晰且能证实的假设导向精确的结论，详见Tukey，1980对于探索性和验证性数据分析合作的讨论**）而独立使用，则会伴随着风险。

*译者注

*HARKing，Hypothesizing After the Results are Known，在已知结果后提出假设，并将之展现为仿佛是先提出了假设再得到了结果。八九十年代出现了提倡事后假设的风潮，如Bem（1987）：There are two possible articles you can write: (1) the article you planned to write when you designed your study or (2) the article that makes the most sense now that you have seen the results. They are rarely the same, and the correct answer is (2) … the best journal articles are informed by the actual empirical findings from the opening sentence. 此处Kerr所说的HARKing指的是为了让结果看上去最为合理的论文写作方式，详见Kerr, N. L. (1998). HARKing: Hypothesizing After the Results are Known. Personality and Social Psychology Review, 2(3), 196–217. https://doi.org/10.1207/s15327957pspr0203_4对于HARKing的具体探讨。

**对于探索性和验证性数据分析，Tukey的观点是两种分析方式都是需要教授给学生的，对于科学问题我们应该站在更广阔的视角去思考，而不是局限于从问题到答案的狭窄范式之中。假如要进行验证性数据分析，我们需要的是小心与谨慎，采取随机化实验，避免多样性。而探索性数据分析应被视为一种态度、一种有用的技术，且应该先于验证性数据分析被教授。

作为编辑，我们已经观察到溯因推理和演绎推理的混淆，这令人担忧。当我们要求作者重新开展实验，将他们的溯因推理（即由数据得出理论）转变为演绎推理（即由理论得出数据），我们遭遇了阻碍，他们的理由是：“如果数据支持溯因推理得到的理论，那么相应的演绎理论也会预测数据出现。”

正如逻辑学家所了解的，溯因推理和演绎推理是不同的，得出的结论也不相同。就上面提到的问题来说，基于数据D得出理论T的概率p(T|D)不一定和基于理论T得到数据D的概率p(D|T)相等。因此，如果没有被要求的话，应当鼓励将溯因推理转变为演绎推理，哪怕只是通过直接的重复实验。

总的来说，研究实践的改变使得审稿人和编辑们更加轻松了，能够更好地察觉到发现导向的研究中的误报。不过，即使是那些从修辞理论得出实验发现的研究者们也能帮助审稿人做得更好。在缺乏一个强有力的、要求特定实验检验（不仅是检验可行性）的理论的情况下，作者可以从一系列的实验中提出汇聚性的证据，可能没有一项实验是修辞假设直接得出的，但所有的汇聚性结果都是由相同的修辞假设驱动的。其次，审稿人和编辑应该鼓励作者，通过将事后溯因推理转变为先验演绎推理，来进行追踪研究。

发表问题

我们已经论证了，采用集体性理论驱动的研究方法、精进对由发现驱动的研究的评估，能够帮助编辑和审稿人在应对可重复性危机方面做得更好。然而，编辑们正承受着额外的压力：它们虽然与科学无关，却也会加剧可重复性危机。

正如纽厄尔的七十年代那样，编辑们会因为出版了那些能吸引下载、引用和录用的发现而受到嘉奖，也会因为出版了那些虽然可靠，却未能满足读者想象的科学研究而受到惩罚。与纽厄尔的年代不同，这些奖惩机制现在已经受到了监控，并作为影响因子和替代指标*被发布。如果一名编辑不关心这些数字指标（如设计编辑政策来增大数字），他们收到的投稿会变少，这些投稿的影响也就更少。尽管我们还没有计算过，期刊版面上枯燥但可靠vs振奋人心但有风险的研究报告倾斜的比例如何，但编辑们知道，把期刊版面留给令人兴奋的发现，而非可靠的、渐进的科学，会是一笔“好生意”。

*译者注

替代指标，即通过社交媒体的注意评估科学价值。

幸运的是，可重复性危机已经对激励系统进行了重组，《心理科学》（Psychological Science）的历史为这些变化提供了一则案例。

《心理科学》是心理学学科最富盛名的期刊之一。早期，它的声誉是基于发布令人兴奋的发现，激发了人们的热情，并获得了相应的下载、引用和出版。然而，关于重复性危机的重要声明破坏了这场盛宴(Open Science Collaboration, 2015)。

作为回应，该期刊的编辑们在期刊编辑政策上发起了庄严而勇敢的巨变。2014年，艾希（Eich）要求作者们报告充足的统计效力（statistical power）和效应量（effective size）以取代p值，并补充元分析（meta-anlysis）。艾希也引入了开放科学徽章以激励和奖励那些报告了完整详细的实验、数据和分析内容的作者。琳赛（Lindsay）在艾希的基础上进行了拓展，引入了预注册的直接重复（Preregistered Direct Replications），并鼓励在实验相关时进行预注册。这种努力（以及琳赛为推广更有力的出版模式进行的巡回演讲）是良好编辑管理的典范，也因此，《心理科学》重获威望。

就我们估计，琳赛是做这项工作的合适人选。然而，是可重复性危机带来的问题为改进的发表模式提供了施展空间。编辑们曾因刊发了有风险的发现而被奖励、因刊发可靠的发现而被惩罚，可重复性危机重新激励了编辑们，奖励刊发可靠的、渐进式的科学，更重要的是，惩罚刊发有风险的发现。

由《心理科学》发起的积极改变如今越来越多地反映在整个出版领域（比如Jamieson et al., 2019; Pexman, 2017）。但是，影响因子和替代指标依然影响并扭曲着幕后的发表模式，无论是显性的还是隐性的。然而，进行改变将继续付出代价。在最后一篇社论中，琳赛（2019）承认，给期刊引入更加严谨的发表实践和政策与《心理科学》投稿的减少是相关的。这一形势表明，为了改进我们的发表模式可能需要后续的努力，以重新规划那些构成科学发表实践的、被扭曲的职业及专业激励系统。所以，作为审稿人、编辑和专业管理人员，我们该如何阻止这些影响发生呢？

克制你的热情。一般来说，相较于报告了保守的、无创意的理论检验的投稿，审稿人对于报告了新颖的、令人兴奋的发现的投稿更加热情。这种不平衡影响了编辑的决策，最终，将实验发现置身于重复性问题中。审稿人和编辑应该多加注意，平衡自己的热情。令人激动的发现和以及实验上没有创新但是对理论的有价值的检验都应被重视，不应厚此薄彼。

用善意杀死自己。审稿人对收到追加实验的要求时的失望之情特别感同身受。并且，基于过去的经验，我们推测，同情会让审稿人在修改稿中提出建议，而不是要求增加实验来验证结论。在《加拿大实验心理学杂志》上，尽管我们鼓励抱着善意批评，一个更重要的目标是确保结论是合理的，发布的实验是可以重复的。通过清楚直接地说明，为了解决不确定性和担忧需要添加的任何额外实验，审稿人能够帮助编辑解决可重复性危机。他们也能通过更自由地提出有助于澄清结论的额外实验，在那些结论成为长期公开的实验论文的一部分之前，让编辑负责决定审稿人建议的实验是否有必要。

单一的实验报告。任何事情都有可能发生一次，因此，单一的实验报告会让编辑紧张。尽管如此，在我们的期刊上单一的实验报告还是太常见了。通过明确地说明在无额外实验的情况下单一的实验是否能够得出特定结论，审稿人可以帮助编辑应对单一的实验论文的相关风险。在数据只是展示假设成立、但不能推出假设成立时，审稿人的这份帮助对于编辑尤为珍贵。

专业激励。科学是一种崇高的追求，通过合乎逻辑的审视和追问，进入真理的深处。每位科学家都将自己的生命奉献于此。然而，出版还是出局，这一现实带来了压力，会刺激科学家发表能快速获得工作、职位、晋升和基金的结果（见 Pennycook & Thompson, 2018)）。自然而然地，速度与准确性的权衡会滋长误报和其它类型错误的出现。

尽管我们不清楚审稿人和编辑如何才能改变出版还是出局的文化，从而减轻可重复性危机的一些压力，但学术激励系统需要被重新考虑与设计，在数据和结论形成实验论文之前，给予研究者必要的时间来确保他们的数据和结论经得起审查和重复。为了实现这一目标，塑造当前的激励系统的力量必须重新平衡对准确性和速度的偏好，以此鼓励严谨性和客观性，而非产出和指标，这非常重要。正如可重复性危机所表明的那样，更多的数据不一定是更好的数据。

虽然重新设计激励系统的责任落在了专业机构和组织身上，牺牲了一定的专业和科学激励。但编辑可以通过以奖励实验发现的相同方式奖励理论发展，也能为重新设计激励系统贡献力量。

总论

可重复性危机是我们这个时代的决定性时刻。最初的反应是徒劳的：恼怒、否认、失望以及大量的转向、指责和寻找替罪羊。然而，随着形势的转变，我们转向了一条有效的路径，确定并寻找解决我们问题的方法。早期的应对专注于研究实践的改变，以及发表模式背后激励系统的重新平衡；近期，我们开始重新考虑理论的特性，理论在催生可重复性危机中扮演的角色，以及在寻找解决方法的过程中如何改进理论。通过讨论如何将这些忧虑与审稿过程相结合，我们将它们放进了具体的情境中。

立足于已有的，与正在实施的努力之上，我们是乐观的：这些努力会让心理学变得更强大。我们的一部分乐观来源于历史。在60年代，心理学解决了实验者效应*的尴尬(Rosenthal, 1966)，在70年代，我们面对了抽屉效应(Rosenthal, 1973)，在80和90年代，我们重启了对用于科学决策的统计框架的质疑(Cohen, 1994; Nickerson, 2000)。长远来看，重复性危机是我们不断进行自我评估和改进的历史中崭新但始终如一的部分。也许我们太乐观了，但我们认为最近的困境最终能带来良好的结果。

*译者注

实验者效应，又称罗森塔尔效应、实验者期待效应，在以人为受试者的实验中，实验者的行为、表情等可能会不知不觉地影响实验的结果，他们预期实验出现什么样的结果，实验最后就表现出什么样的结果，可通过如双盲实验的方式加以规避。

然而，我们也同意奥伯劳和莱万多斯基的论断。改革研究实践是不够的，我们也必须注意到理论危机。为了超越前文提到的“牙刷问题”，进而在探究与提炼主流理论共识这一目标的指引下，开始追寻合作的、交互式的科学，心理学需要暂停一下，来思考应该尝试发展怎样的理论，然后从共识的框架再次出发。这将涉及到跨越整个学科的合作承诺。我们的讨论将从如何开展实验、分析数据，拓展到如何表达理论，以及建立协作的、成熟的、累积的实验记录，使得不同的实验室能够通力合作，而不是单打独斗。

在实验方法领域的努力证明我们的提议并不是幻想。以记忆研究为例，该领域有许多清晰的形式化记忆理论，可以解释大量实验任务和操纵的数据，MINERVA2就是这样一种理论(Hintzman, 1986, 1988)。

通俗来说，MINERVA2是一种理论框架，清楚阐述了记忆的表征、存储和提取。该模型的一大核心假设是，每次体验会在记忆中由一条独特的痕迹表征。另一大核心假设是，记忆提取具有探针特异性（probe-specific）、由相似性驱动（similarity-driven）、且并排进行。因为提取是由相似性驱动的，探针会提取相似的记忆痕迹，这便是该模型完成再认（recognition）的过程。因为探针会从记忆中提取完整的痕迹，并且完整的痕迹记录了所有相关的事件，所以探针也会提取与其同时发生的、在过去的事件，这就是该模型模拟线索性回忆（cued-recall）、预测和分类的过程。

严格来说，MINERVA2是一种用线性代数表示的记忆计算模型。其中，记忆痕迹是数据框架（即向量），记忆是一个矩阵，提取是一种矩阵运算，而决策是基于提取的信息使用矩阵运算得出的。该模型能够预测一系列现象中的行为，包括再认、频率判断、线索性回忆、分类、功能学习、判断决策、具身认知和语义记忆等。重要的是，若干研究组在一系列问题和现象上对该模型的预测进行了检验，支持了我们想要表达的观点。

独立来看，该模型的任何一项应用都代表一项较小的进步，然而，集体累积形成的结果远超各部分之和。其次，该理论的预测是可以被检验的，即使该理论还没有被用于探究某一特定领域，但它也已经有可能给出相应的预测。或者，如果该理论没能预测某领域的数据，它也能给出框架，用于检验需要哪些额外的假设或操作来将理论延伸到该领域。当然，MINERVA2不是唯一一个被用于组织集体研究项目的模型框架，但是，它为正式的、理论驱动的研究提供了一项很积极的案例。

在应用方面，ManyLabs*和ManyBabies**项目表明，集体性的重复实验是可以被组织起来的。它们也展示了组织的方式，并证明了集体和合作的研究战略是可以有效的。在理论领域，类似的倡议似乎是一个极好的目标。或许，编纂一套模型，并为测试理论提供一个合作的数据库，用以合并和分类候选结果，这将引领心理学开始在一些心理过程的结构上达成一定的共识。

*译者注

*https://www.manylabs.org

**https://manybabies.github.io

当然，很难预测我们的理论共识可能是怎么样的，同时，基于我们学科的多样性特点，得出一个大一统理论也不太可能。例如，加拿大心理学协会有32个分支，要说一项理论能够预测所有这些分支检验过的行为，那是不太可能的，至少是非常难以想象的。然而，心理学不同的分支应该努力寻找到最佳的候选理论，脚踏实地地探究、检验这些理论。如果没有集体的努力，对于心理和行为的问题我们将不太可能得出集体的解决方案。

最后，我们会讨论与纽厄尔（1973）对心理研究和理论的批判有关的内容。在他这篇如今已十分著名的论文中，他提到他心中有两种声音：

“半个我半哀伤半困惑……也许，我们应该合作完成比现在更大的实验研究。前一部分我给出的积极建议正是对如何进行的倡议，它们都有足够的细节和范围来让推理网络收紧，将我们的实验研究紧紧相连。这是我认为对于心理学会有好处的做法。或者，也许我们都应该单纯地继续一起和大自然玩那个20问游戏，也许这样大家都好，就像另一半的我确信的那样，当我们到1992年（我自己选择的退休日期）时，我们能够在弄清心灵的基本结构上有所进展。”

就像纽厄尔所说，我们心中也有两种声音。一种满怀希望，另一种保持怀疑。我们相信，努力搭建的一个共有的理论框架将对心理学有益，有助于解决重复性危机。然而，纽厄尔47年前的呼喊并没有发挥它本应有的强大影响力，所以，也许我们只是过度乐观。不过，我们仍然抱有希望，让人们重拾对于纽厄尔观点的记忆，将使纽厄尔的思想再次焕发生机，如此，在30年的时间里，我们最终将朝弄清楚心灵的基本结构更进一步。

作者：Randall K. Jamieson & Penny Pexman

译者：Xhaiden | 校对：eggriel | 排版：光影

编辑：杨银烛 | 封面：Stuart McReath