麻省理工開發(fā)計算機模型 模擬人腦對聲音方位判斷
人類的大腦經(jīng)過精細的調(diào)整,不僅能識別特定的聲音,而且還能確定聲音來自哪個方向。通過比較到達右耳和左耳的聲音差異,大腦可以估計出狗叫、消防車呼嘯或汽車駛來的位置。麻省理工學院的神經(jīng)科學家們現(xiàn)在已經(jīng)開發(fā)了一個計算機模型,它也可以執(zhí)行這一復雜的任務。該模型由幾個卷積神經(jīng)網(wǎng)絡組成,不僅能像人類一樣完成任務,而且還能以人類的方式進行判斷。
這個模型可以在現(xiàn)實世界中實際定位聲音,而當研究人員把這個模型當作人類的實驗參與者,并模擬過去對人類進行的實驗時,研究人員一次又一次地發(fā)現(xiàn),這個模型再現(xiàn)了在人類身上看到的結果。這項新研究的發(fā)現(xiàn)還表明,人類感知位置的能力是適應我們環(huán)境具體挑戰(zhàn)的。 該論文于2022年1月27日發(fā)表在《自然-人類行為》上。
當我們聽到火車鳴笛等聲音時,聲波到達我們左右耳朵的時間和強度略有不同,這取決于聲音來自哪個方向。中腦的一部分專門用來比較這些微小的差異,以幫助估計聲音來自哪個方向,這項任務也被稱為定位。在現(xiàn)實世界的條件下,這項任務變得明顯更加困難,環(huán)境會產(chǎn)生回聲,同時會聽到許多聲音。
科學家們長期以來一直在尋求建立計算機模型,以執(zhí)行與大腦用來定位聲音的那種計算方法。這些模型有時在沒有背景噪音的理想化環(huán)境中能很好地工作,但在有噪音和回聲的真實世界環(huán)境中卻從未成功。為了開發(fā)一個更復雜的定位模型,麻省理工學院的團隊轉向了卷積神經(jīng)網(wǎng)絡。這種計算機建模已被廣泛用于人類視覺系統(tǒng)建模。為了訓練這些模型,研究人員創(chuàng)建了一個虛擬世界,他們可以在其中控制房間的大小和房間墻壁的反射特性。所有輸入模型的聲音都來自于這些虛擬房間中的某個地方。這套400多個訓練聲音包括人類的聲音、動物的聲音、機器的聲音,如汽車引擎,以及自然的聲音,如雷聲。
卷積神經(jīng)網(wǎng)絡可以設計成許多不同的架構,所以為了幫助他們找到對定位最有效的網(wǎng)絡,麻省理工學院的團隊使用了一臺超級計算機,讓他們訓練和測試大約1500個不同的模型。這一搜索確定了10個似乎最適合定位的模型,研究人員進一步訓練了這些模型,并將其用于所有后續(xù)研究。研究人員還確保該模型從人類耳朵提供的相同信息開始。外耳,即耳廓,有許多褶皺可以反射聲音,改變進入耳朵的頻率,而這些反射會根據(jù)聲音的來源而變化。研究人員通過在每個聲音進入計算機模型之前通過一個專門的數(shù)學函數(shù)來模擬這種效果。
訓練完模型后,研究人員在真實世界的環(huán)境中對它們進行了測試。他們將一個耳朵上有麥克風的人體模型放在一個實際的房間里,播放來自不同方向的聲音,然后將這些錄音輸入模型。當被要求對這些聲音進行定位時,這些模型的表現(xiàn)與人類非常相似。盡管模型是在虛擬世界中訓練的,但當我們評估它時,它可以在現(xiàn)實世界中定位聲音。
2022-02-11 17:03:22
2022-02-11 16:05:49
2022-02-11 16:03:05
2022-02-11 15:50:51
2022-02-11 15:43:57
相關新聞