近年来,机器学习技术加速和创新了包括神经科学在内的众多领域的研究。通过识别实验数据中的模式,这些模型可以预测与特定体验或感觉刺激处理相关的神经过程。
CNRS和艾克斯-马赛大学和马斯特里赫特大学的研究人员最近试图使用计算模型来预测人脑如何将声音转化为周围环境中正在发生的事情的语义表示。他们发表在《自然神经科学》上的论文表明,一些基于深度神经网络(DNN)的模型可能更擅长从神经成像和实验数据中预测神经过程。
“我们的主要兴趣是对自然声音如何在大脑中被感知和表示进行数值预测,并使用计算模型来理解我们如何将听到的声音信号转换为听觉环境中物体和事件的语义表示,”进行这项研究的研究人员之一布鲁诺·佐丹奴(Bruno Giordano)说, “医疗快讯”说。“这方面的一大障碍不是缺乏计算模型 - 新模型定期发布 - 而是缺乏对它们解释行为或神经成像数据的能力的系统比较。
佐丹奴和他的同事最近工作的主要目标是系统地比较不同计算模型在预测自然声音的神经表征方面的性能。在他们的实验中,该团队评估了三类计算模型,即声学,语义和声音到事件的DNN。
佐丹奴解释说:“我们开始讨论在 COVID 大流行的头几个月对计算模型进行系统比较的必要性。“经过几次远程头脑风暴会议,我们意识到我们已经有了回答问题所需的数据:2009年收集的行为数据集,其中有20名加拿大参与者,他们估计了一组80种自然声音的感知差异,以及2016年收集的五名荷兰参与者的fMRI数据集,他们在我们记录他们的fMRI反应时听到了不同的288种自然声音。
因此,研究人员无需在实验室中收集新数据,就开始使用先前实验中收集的数据测试他们选择的三种计算建模方法的性能。具体来说,他们将呈现给人类参与者的声音刺激映射到不同的计算模型上,然后测量他们可以预测参与者对刺激的反应以及大脑中发生的事情的程度。
“我们对谷歌最近开发的声音到事件DNN在多大程度上优于竞争的声学和语义模型感到震惊,”佐丹奴说。“他们很好地预测了我们的行为和功能磁共振成像数据,通过将声音映射到DNN上,我们可以从荷兰参与者的2009年fMRI反应中预测2016年加拿大参与者的行为,即使他们听到的声音完全不同。
佐丹奴和他的同事发现,基于DNN的模型大大超过了基于声学的计算方法和通过将声音放在不同类别(例如,声音,街道声音等)来表征大脑对声音的反应的技术。与这些更传统的计算方法相比,DNN 可以更准确地预测神经活动和参与者行为。
根据他们的观察和基于DNN的模型产生的输出,研究人员还假设人类大脑理解自然声音的方式类似于它处理单词的方式。虽然单词的含义是通过处理单个字母、表型和音节来推断的,但是,声音的含义可以通过组合一组不同的基本单元来提取。
“我们现在正在努力收集新的神经影像学数据,以测试我们的研究提出的关于这些基本单位可能是什么的特定假设,”Elia Formisano补充道。“我们还在努力训练新颖的、更像'大脑'的神经网络,用于自然声音处理。例如,我们的合著者Michele Esposito开发了一个神经网络,可以学习口头声音描述符(语义嵌入)的数字表示,而不是声音事件类别。该网络将在2023年国际声学,语音和信号处理会议(ICASSP)上展示,在预测自然声音感知方面优于Google的网络。