亞洲健康互聯
優化產業的推手,生醫商機的GPS!

首頁產業資訊醫材報導醫材產業數據集橋接人類視覺與機器學習

數據集橋接人類視覺與機器學習

來源 : 亞洲健康互聯海外中心
update : 2019/05/10
數據集中提供的功能數據示例。單個參與者(CSI1)(a)平均BOLD信號和(b)單次運行的BOLD信號的標準偏差。圖片來源:科學數據

神經科學家和電腦視覺科學家說,一個前所未有的新數據集 - 包括四名志願者的腦部掃描,每名志願者各掃了5000張圖像 - 將幫助研究人員更好地了解大腦如何處理圖像。

卡內基梅隆大學和福特漢姆大學的研究人員56日在《科學數據 》雜誌上報告說,採用這種規模的功能性磁振造影 ( Functional Magnetic Resonance ImagingfMRI )掃描提出了獨特的挑戰。

每位志願者參加了20個或更多小時的MRI掃描,挑戰了他們的毅力和實驗者在掃描會話中協調的能力。在如此多的會話中運行相同個體的極端設計決定,對於解開與個體圖像相關聯的神經反應是必要的。

由此產生的數據集《BOLD5000》讓認知神經科學家,更好地利用極大改進的人工視覺系統的深度學習模型。最初受到人類視覺系統架構的啟發,深入學習可以透過追求人類視覺如何工作的新見解,以及透過對人類視覺的研究,更好地反映現代電腦視覺方法來進一步改進。為此,《BOLD5000》測量了觀察從兩個流行的電腦視覺數據集中獲取的圖像所產生的神經活動:ImageNetCOCO

該論文共同作者,CMU 心理學系主任暨Kavčić-Moura認知和腦科學教授Michael J. Tarr說:「腦科學和電腦科學交織在一起意味著科學發現可以向兩個方向發展, 未來使用BOLD5000數據集的視力研究,應該有助於神經科學家更好地理解人類大腦中的知識組織。隨著我們對視覺識別的神經基礎的了解越來越多,我們也將更好地為人工視覺的進步做出貢獻。

主要作者,CMU 機器人研究所專門研究電腦視覺的Nadine Chang博士表示,電腦視覺科學家正在尋求神經科學來幫助在快速發展的人工視覺領域進行創新,這加強了這項研究的雙向性。

Chang說,電腦視覺科學家和視覺神經科學家基本上有著相同的最終目標:了解如何處理和解釋視覺資訊。

「從一開始,提高電腦視覺是《BOLD5000》的重要組成部分,」高級作者Elissa Aminoff,當時是CMU心理學系的博士後研究員,現在是Fordham的心理學助理教授,他與共同作者,機器人研究所副教授Abhinav Gupta一起發起了這項研究方向。

連接生物和電腦視覺所面臨的挑戰之一是,大多數人類神經影像學研究包括非常少的刺激圖像 - 通常為100或更少 - 這些圖像通常被簡化為僅針對中性背景描繪單個物體。相較之下,《BOLD5000》包含5000多個真實世界的複雜場景圖像、單個對象和交互對象。

該小組認為《BOLD5000》只是利用現代電腦視覺模型研究生物視覺的第一步。

「坦率地說,BOLD5000數據集仍然太小,」Tarr說,「這表明合理的fMRI數據集需要至少50,000個刺激圖像和更多志願者才能取得進展,因為深層神經網絡已經分析視覺圖像在數百萬張圖像上進行訓練。為此,研究團隊希望他們能夠生成5,000個腦部掃描的數據集,這將為人類視覺和電腦視覺科學家之間的更大合作努力鋪平道路。

到目前為止,該領域的反應是積極的。公開的《BOLD5000》數據集已經下載了2500多次。