從視覺信息編解碼的角度出發(fā),建立人類視覺神經(jīng)信息與外界視覺刺激之間的映射模型,探索大腦視覺信息處理的過程,有望利用機(jī)器智能實(shí)現(xiàn)對人類視覺感知功能的模擬,從而提升計(jì)算機(jī)處理視覺信息的能力。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究的一個(gè)新的領(lǐng)域,通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)大量樣本的內(nèi)在規(guī)律和層次表征,其在計(jì)算機(jī)視覺、語音識別、自然語言處理等多個(gè)領(lǐng)域都取得了巨大的進(jìn)步。最早的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)受到了生物神經(jīng)系統(tǒng)的啟發(fā),深度神經(jīng)網(wǎng)絡(luò)的層次化結(jié)構(gòu)借鑒了人腦中前饋視覺表征的層次化結(jié)構(gòu)。多項(xiàng)功能性磁共振成像(fMRI)研究表明,深度神經(jīng)網(wǎng)絡(luò)在視覺信息處理方面與人類大腦的視覺處理過程具有相似的表現(xiàn)。然而,深度學(xué)習(xí)是否類腦?目前并沒有統(tǒng)一的結(jié)論。在此,我們將從視覺信息編解碼的角度來探討深度學(xué)習(xí)的類腦機(jī)制。
大腦是人體最為神秘且復(fù)雜的部分,我們的思想和記憶都寄放在其中。也許你會認(rèn)為思想是無形無實(shí)且無法預(yù)測的,但實(shí)際上我們的思想就隱藏在這復(fù)雜的大腦活動(dòng)信號之中。伴隨著成像設(shè)備的進(jìn)步以及人類對大腦認(rèn)識的日益加深,人類將有望解讀大腦信號,將大腦中的想法轉(zhuǎn)化成自動(dòng)化設(shè)備的驅(qū)動(dòng)力。
近年來,認(rèn)知心理學(xué)和認(rèn)知神經(jīng)科學(xué)不斷發(fā)展,腦電圖(EEG)、fMRI以及腦磁圖(MEG)等大腦成像技術(shù)先后問世,使得采用科學(xué)手段對大腦活動(dòng)進(jìn)行解讀成為可能。研究人員通過采集不同時(shí)空尺度的大腦活動(dòng)信號,利用數(shù)學(xué)模型建立這些信號與大腦感知及認(rèn)知狀態(tài)間的映射關(guān)系,實(shí)現(xiàn)對人類的認(rèn)知進(jìn)行辨識或重構(gòu)的目的。以視覺認(rèn)知為例,目前已經(jīng)有很多視覺信息編解碼的實(shí)驗(yàn),涵蓋了從初級視覺特征(方向、對比度、顏色)、中級視覺特征(輪廓、深度信息)到高級視覺特征(語義、類別)的識別或重構(gòu)。
這些技術(shù)都說明,“讀腦術(shù)”已經(jīng)不再是一個(gè)遙不可及的幻想,視覺信息編解碼的出現(xiàn)使“讀腦術(shù)”的實(shí)現(xiàn)成為可能。
那么,視覺信息編碼和解碼又是一個(gè)怎樣的過程?比如,針對一個(gè)刺激(是stimulus),大腦會有一個(gè)響應(yīng)(response),建立從刺激到響應(yīng)的映射關(guān)系就是一個(gè)編碼過程,當(dāng)提供一個(gè)新的刺激時(shí),就能夠據(jù)此映射關(guān)系預(yù)測大腦的響應(yīng)。反之,如果已知大腦響應(yīng),去推測受到什么樣的刺激,這就是一個(gè)解碼過程。解碼過程可以看作是編碼過程的逆過程。
如果建立了一個(gè)好的編碼模型,可以通過模型求逆得到解碼模型。當(dāng)模型不能夠求逆時(shí),可以通過最大后驗(yàn)估計(jì)(maximum a posteriori estimation,MAP)或者貝葉斯估計(jì)(bayesian estimation,BE)來推出解碼模型。因此,編碼是一個(gè)非常重要的步驟。
視覺信息編解碼以視覺認(rèn)知理論為基礎(chǔ),通過采集人眼接受不同圖像刺激時(shí)大腦響應(yīng)的時(shí)空數(shù)據(jù)來建立并訓(xùn)練數(shù)學(xué)模型,可以預(yù)測人眼看到新的圖像時(shí)的大腦響應(yīng),或者根據(jù)采集到的大腦響應(yīng)來識別、重構(gòu)人眼所看到的圖像。視覺信息編解碼為探究大腦的認(rèn)知機(jī)理提供了一個(gè)強(qiáng)有力的工具。借助視覺信息編解碼,研究人員可以通過實(shí)驗(yàn)來發(fā)現(xiàn)不同的視覺處理區(qū)域?qū)σ曈X對象的何種特征進(jìn)行編碼以及如何進(jìn)行編碼。這些研究結(jié)果不但可以增進(jìn)我們對大腦的認(rèn)識,還可以促進(jìn)類腦智能的發(fā)展。
基于深度多視圖生成式模型的視覺信息編解碼框架
視覺信息解碼是通過fMRI技術(shù)來識別或重構(gòu)人眼所看到的視覺刺激,被廣泛應(yīng)用于視覺認(rèn)知研究。目前,fMRI采集到的是大腦體素的血氧水平依賴(BOLD)信號。BOLD信號的信噪比低,且具有很強(qiáng)的時(shí)域非平穩(wěn)特性。每次對大腦的掃描可以得到數(shù)十萬個(gè)體素的BOLD時(shí)間序列。如何對高維度、高噪聲、高動(dòng)態(tài)變化的大腦信號進(jìn)行有效特征的提取至關(guān)重要,也是實(shí)現(xiàn)視覺信息解碼的關(guān)鍵問題?;诖竽X信號的視覺信息解碼按照解碼難度和層次的不同可以分為分類、識別和重構(gòu)。視覺信息的解碼分類比較簡單,即根據(jù)大腦信號預(yù)測人眼看到圖像的種類。
視覺信息的解碼識別根據(jù)大腦信號從數(shù)據(jù)庫中識別出人眼看到的圖像。2008年3月5日,美國加利福尼亞大學(xué)伯克利分校的神經(jīng)學(xué)專家杰克·格蘭特(Jack Gallant)在國際期刊《自然》(Nature)上首次利用fMRI技術(shù)“讀”出了人眼看到的圖像。其原理很簡單,格蘭特選擇2名受試者,在第一階段,2名受試者觀看1 750張圖片,包括動(dòng)物、建筑、食物、室外風(fēng)景、室內(nèi)景物、人造物體等。研究人員利用fMRI技術(shù)監(jiān)測2名受試者大腦視覺皮層的活動(dòng)?;讷@得的數(shù)據(jù),研究人員在機(jī)器上創(chuàng)建了一個(gè)數(shù)學(xué)模型來分析大腦對不同視覺特征的反應(yīng)。在第二階段,2名受試者觀看了任意挑選的120張新圖片,同時(shí)fMRI技術(shù)繼續(xù)記錄他們的大腦信號。通過數(shù)學(xué)模型的分析,機(jī)器分別預(yù)測對了2名受試者看到的110張和86張圖片,預(yù)測準(zhǔn)確率達(dá)到92%和72%。當(dāng)受試者看到的圖片數(shù)量增加到1 000張時(shí),機(jī)器預(yù)測準(zhǔn)確率有所下降,但對其中1人的預(yù)測準(zhǔn)確率仍能達(dá)到82%。然而,這還不是真正意義上的圖像重建,只是根據(jù)給定的大腦信號進(jìn)行圖像辨識。視覺信息的解碼重建是根據(jù)獲得的大腦活動(dòng)信號,通過數(shù)學(xué)模型,恢復(fù)出受試者所看到的圖像,這是大腦解碼研究中難度最大、最具挑戰(zhàn)性的一個(gè)問題。首先,人們對神經(jīng)編碼的理解還十分有限,這導(dǎo)致我們的建模未必能抓住fMRI數(shù)據(jù)最本質(zhì)的特征。其次,數(shù)據(jù)采集技術(shù)具有一定的信息局限性。由于不同技術(shù)對數(shù)據(jù)采集的精度和對神經(jīng)系統(tǒng)的損傷程度不同,人們獲取時(shí)空數(shù)據(jù)就會非常有限。最后,在有限精度下,兩幅圖像對應(yīng)的fMRI數(shù)據(jù)可能相差不大,根據(jù)某個(gè)fMRI模式,人們并不能很快地反推出哪幅圖像是最初的刺激圖像。
目前,基于簡單的視覺信息編碼模型而進(jìn)行的解碼研究只適合于初級視覺皮層,對于高級視覺皮層及視覺區(qū)域之間的相關(guān)性研究還不是很理想。為了有效利用來自高級腦區(qū)及腦區(qū)間的深層次信息,我們需要一個(gè)復(fù)雜的層次化建模的工具。
深度學(xué)習(xí)是指利用基于深度神經(jīng)網(wǎng)絡(luò)的各種算法來解決圖像、文本等各領(lǐng)域?qū)嶋H問題的研究。因此,我們可以將深度學(xué)習(xí)作為視覺信息編碼所需的層次化建模的工具。然而,人們對深度學(xué)習(xí)內(nèi)在理論的研究還不夠全面,深度學(xué)習(xí)常常被當(dāng)作“黑盒子”來使用?;谥暗难芯?,我們首次提出了基于深度多視圖生成式模型(deep generative multi-view model,DGMM)的視覺信息編解碼研究:假定大腦信號和外部刺激是由同一隱含變量生成的,通過學(xué)習(xí)一個(gè)多視圖變分自動(dòng)編碼器可以建立外部刺激到腦信號的雙向映射關(guān)系,有效地建立大腦信號和外部刺激之間的關(guān)系。
基于深度多視圖生成式模型的視覺信息編解碼以一種科學(xué)合理的方式建立了視覺圖像和大腦響應(yīng)之間的關(guān)系,將視覺圖像重建問題轉(zhuǎn)化成多視圖隱含變量模型中缺失視圖的貝葉斯推斷問題。受層次化、卷積神經(jīng)網(wǎng)絡(luò)從下至上及從上到下等人腦視覺信息處理機(jī)制的啟發(fā),該研究采用了深度神經(jīng)網(wǎng)絡(luò)從視覺圖像中逐層提取視覺特征和概念,提高了模型的表達(dá)能力和可解釋性。受視覺區(qū)域的體素感受野和視覺信息的稀疏表達(dá)準(zhǔn)則的啟發(fā),該研究采用了稀疏貝葉斯學(xué)習(xí)從大量體素中自動(dòng)篩選對視覺信息解碼貢獻(xiàn)較大的體素,提高了模型的穩(wěn)定性和泛化能力。深度多視圖生成式模型的視覺信息編解碼充分利用了體素之間的相關(guān)性信息,有效地抑制了體素噪聲的干擾,增強(qiáng)了算法的魯棒性。得益于貝葉斯方法的優(yōu)點(diǎn),深度多視圖生成式模型的視覺信息編解碼能夠更方便、更靈活地融合先驗(yàn)知識,提升預(yù)測性能。大量的實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了深度多視圖生成式模型的視覺信息編解碼的優(yōu)越性,為大腦信號解碼問題提供了一個(gè)行之有效的通用框架——允許從不同角度對其進(jìn)行擴(kuò)展以適應(yīng)不同的任務(wù),具有很強(qiáng)的擴(kuò)展性。該研究不僅為探究大腦的視覺信息處理機(jī)制提供了一個(gè)強(qiáng)有力的工具,而且為腦-機(jī)接口(brain-computer interface,BCI)的發(fā)展提供了技術(shù)支持,將對類腦智能的發(fā)展起到一定的促進(jìn)作用。
此外,我們還研究了深度特征在大腦皮層上的表達(dá),但現(xiàn)有的研究仍存在一定的局限性。例如,自然圖像刺激的fMRI樣本量很少,因此,只能在數(shù)字、字母、符號上有較好的重建效果,對自然圖像的重建效果還有待研究。目前采用的是靜態(tài)編解碼,下一步將采用動(dòng)態(tài)編解碼。例如,利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)、長短時(shí)記憶(long short term memory,LSTM)模型等進(jìn)行輔助。此外,我們認(rèn)為解決編解碼問題的方法可以借鑒機(jī)器翻譯中的對偶學(xué)習(xí)思想。例如,將變分自動(dòng)編碼器(variational auto-encoder,VAE)和生成式對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)進(jìn)行結(jié)合。
綜上所述,我們提出了一個(gè)基于深度多視圖生成式模型的視覺圖像重建框架,該框架具有很好的擴(kuò)展性,它可以挖掘不同模式之間的共同表征并建立兩者之間的關(guān)系,使得理解大腦活動(dòng)信號成為可能。
基于深度多視圖生成式模型的視覺信息編解碼以一種科學(xué)合理的方式建立了視覺圖像和大腦響應(yīng)之間的關(guān)系,將視覺圖像重建問題轉(zhuǎn)化成多視圖隱含變量模型中缺失視圖的貝葉斯推斷問題。