科学家首次开发出能通过解码大脑fMRI数据重构出连贯语言的方法。脑机接口为失语或者无法打字的人群提供了辅助技术,而这项新发现满足了改良这项技术的需求。
9月23日,bioRxiv上刊登的一篇预印论文*中,美国德克萨斯州大学奥斯汀分校的团队详细介绍了一种“解码器”(算法)。它可以通过“读取”被试在功能性磁共振成像(fMRI)扫描期间所听所想到的词语。虽然此前也有其他科学团队基于脑植入物传出的信号完成过语言或者图像的重构,但通过这种新型解码器,科学家们首次在无创的情况下也能达到相同目的。
*译者注
预印论文,指未经同行评审、没有正式发表在科学期刊上的文章。
Tang, Jerry, et al. “Semantic reconstruction of continuous language from non-invasive brain recordings.” bioRxiv (2022).
Semantic reconstruction of continuous language from non-invasive brain recordings
A brain-computer interface that decodes continuous language from non-invasive recordings would have many scientific and practical applications. Currently, however, decoders that reconstruct continuous language use invasive recordings from surgically implanted electrodes[1][1]-[3][2], while decoders that use non-invasive recordings can only identify stimuli from among a small set of letters, words, or phrases[4][3]-[7][4].
德州大学奥斯汀分校的神经科学家、该论文的合著者亚历山大·休斯(Alexander Huth)说道:“如果你去问二十年前的神经科学家们能不能这样解码大脑活动,他们绝对会笑掉大牙的!”
日本京都大学的神经科学家神谷之康(Yukiyasu Kamitani)虽然并未参与实验,但他在给《科学家》(The Scientist)发来的邮件里写道,这种非侵入式解码器能产生可以让人理解的语言序列,这让他感到“非常兴奋”。他说:“这一研究……为(脑机接口)的应用打下了坚实的基础。”
事实上,fMRI产出数据的速度比人类思维的速度要慢很多,因此fMRI并不是很适用于这种研究。大脑活动往往伴随着脑内血流量的变化*,fMRI的原理就是通过检测这些血流的变化成像、对大脑活动作近似,而非直接探测神经元活动。但是相对于发生于毫秒之间的神经元放电,以秒为单位的血流量变化还是较慢。对此,休斯表示能在该研究中使用fMRI的原因在于,他们的实验系统并非逐字解码大脑中的语言,而是辨别句子或者想法这些更高层次结构的意义。
*译者注
血液会流向大脑里更为活跃的区域以供氧。
休斯和同事们在训练算法时用到了三名被试的fMRI大脑数据。被试者均在20到30岁之间,其中有一名女性以及两名男性。在实验过程中,三名被试收听了播客和广播故事,总计16小时。他们听到的内容包括“飞蛾电台”(The Moth Radio Hour)、TED演讲以及约翰·格林(John Green)的《人类史回顾》(The Anthropocene Reviewed)。休斯说,让被试收听不同种类的媒体对于提升算法的准确性和广适性,是很有必要的。他提到,虽然他的研究中被试样本很小,但他们在实验中收集的fMRI数据和其他用fMRI收集数据的实验数量相当。
解码器通过学习被试长达16个小时的fMRI数据,对于fMRI数据的走向做出了一系列预测。据休斯所说,解码器运用“猜测”的能力,是它翻译与训练所用音频内容无关想法的关键。然后,解码器会将“猜测”出来的fMRI数据走向与实际fMRI数据进行对比,与实际最相符的预测决定了解码器最终产生的语词。
研究人员对解码器的产出与被试者感知到的刺激之间的相似性打分,以此判断解码器是否成功。此外,研究人员还给没有比对过fMRI数据的解码器生成的语言打分。接下来,他们对比了这两项得分,并对二者的差别做统计学上的显著性测试。
结果显示,该算法通过猜测-比对的程序最终从fMRI数据中生成了一个完整的故事。对此,休斯评价道,算法还原的内容与录音中实际讲述的故事已经“相差无几”了。不过,解码器也有自己的不足之处。比如它不太擅长解析人称指代,还经常搞混第一人称和第三人称。休斯说,解码器“可以相对准确地知道发生了什么事,但它不太清楚是谁在做这件事。”
并未参与研究的普林斯顿神经科学研究中心研究员以及讲师山姆·纳斯塔瑟(Sam Nastase)认为将fMRI应用于解码大脑“令人兴奋不已”,因为用fMRI提取数据的过程通常又缓慢杂音又多。纳斯塔瑟还说道:“从这篇论文看来,只要我们拥有一个足够智能的模型就可以从fMRI数据中得出数量可观的信息。”
非侵入式fMRI在解码器中的应用有褒有贬。好处在于它比侵入式方法更容易应用于现实世界,而缺点则在于fMRI高昂的费用以及复杂的使用方法。不过,也许我们可以用同样是非侵入式、但更轻便且时间分辨率更高的脑磁图(Magnetoencephalography)技术来支撑类似的解码器,让失语人群有机会与他人沟通交流。
休斯认为,解码器最令人兴奋的成就在于它对大脑运作的洞察力。比如,我们可以从解码器的解析中看出大脑的哪些部分负责建立语义。通过使用解码器记录特定脑区,像前额叶皮层或者顶叶-颞叶皮层,休斯的科学团队能够确定各个区域对应的语义信息。休斯的团队就是这样发现了前额叶皮层和顶叶-颞叶皮层对解码器表征了相同信息的。不管解码器使用来自其中哪一个区域的测量数据都能够很好地完成解析。
休斯还补充道,最令人惊喜的是虽然训练解码器使用的是被试在听取口头语言时的数据,但它却可以重构非语义类别的刺激信号。举例来说,在经过训练后,解码器算法成功重构出了被试在看默剧、或想象自己讲故事的场景时的信息。休斯对此评价道:“这些内容可以被解码器重构出来就证明它们(在大脑中的表征)之间是存在某些共性的。这为我们提供了一个非常新颖的角度。”
神谷和纳斯塔瑟对休斯实验室还未经同行评审的结论提出了这样的疑惑:“解码器在处理潜在含义与处理文本或语音的过程有何不同?”由于休斯实验室的解码器解析的是语义,而非逐个词语,我们难以衡量它成功与否。用纳斯塔瑟的话来说,这是因为有很多种语词的组合都能算作是“好”的输出。“不过他们引入的问题很有意思。”纳斯塔瑟说。
休斯承认,对于一部分人来说,能有效“读心”的技术听起来有些让人毛骨悚然。不过他的团队对研究的现实意义进行了深入的思考。而且考虑到精神隐私的保护问题,他们还研究了解码器是否会在被试不愿意合作的情况下解析信息。在部分实验中,研究人员要求被试者在听取音频时进行其他心理活动来分散自己的注意,比如数数、命名和想象动物、以及在脑子里编一个跟音频内容不一样的故事。最后他们发现,想象动物是最能够降低解码准确率的操作。
从信息隐私的角度来看,用一个人的大脑数据训练出来的解码器是无法被应用到另一个人身上的,用休斯的话说,这“基本上没有提供任何可用的信息。”也就是说,我们只能解析出大量参与了解码器训练的人的想法。
对于纳斯塔瑟而言,研究人员特意关注了是否有精神隐私受到保护的证据是令人赞许的。他说:“如果不做精神隐私相关的实验测试,他们完全可以早六个月就发表这篇论文。”不过,纳斯塔瑟并没有完全被研究者提供的隐私保护相关证据说服,因为未来这个方向的其他研究很可能会突破他们设置的精神隐私保护的权宜之计。纳斯塔瑟补充道:“这关乎到我们是否将科技带来的益处看得比这些潜在(道德)陷阱更重要。”
作者:Grace van Deelen
译者:Blue Froid l 校对:M.W.
编辑:M.W. l 排版:Anneliese l 封面:Behance
原文:https://www.the-scientist.com/news-opinion/researchers-report-decoding-thoughts-from-fmri-data-70661