王 婷,何松澤,楊 川
(成都信息工程大學(xué) 計(jì)算機(jī)學(xué)院,四川 成都 610225)
腦科學(xué)是繼基因工程之后的最前沿的學(xué)科之一,也是最難以攻克的領(lǐng)域之一。其主要研究?jī)?nèi)容是加深人類(lèi)對(duì)大腦的理解,達(dá)到“認(rèn)識(shí)腦、保護(hù)腦和創(chuàng)造腦”的目標(biāo)。隨著科學(xué)技術(shù)的進(jìn)展,目前腦科學(xué)研究呈現(xiàn)出多學(xué)科交叉,多技術(shù)應(yīng)用的局面[1]。而將知識(shí)圖譜的相關(guān)方法應(yīng)用到對(duì)腦科學(xué)領(lǐng)域文獻(xiàn)知識(shí)的集成、分析與挖掘任務(wù)上,會(huì)對(duì)目前的研究成果有著更加清晰的認(rèn)識(shí),也會(huì)為潛在的研究方向提供一定的指引,甚至是為病理診斷提供依據(jù)[2]。因此,將知識(shí)圖譜相關(guān)方法應(yīng)用到腦科學(xué)領(lǐng)域有著深刻的學(xué)術(shù)研究?jī)r(jià)值,也存在著廣泛的應(yīng)用空間。
知識(shí)圖譜從本質(zhì)上講是一種描述實(shí)體關(guān)系的語(yǔ)義網(wǎng)絡(luò),其能夠組織、管理和挖掘文本信息。知識(shí)圖譜的出現(xiàn)也為腦科學(xué)領(lǐng)域匯聚出當(dāng)前主要領(lǐng)域研究方向與方法。郭文斌等人[3]繪制腦認(rèn)知知識(shí)圖譜,指出中國(guó)腦認(rèn)知研究領(lǐng)域和研究主線(xiàn)。韋潔瑤等人[4]構(gòu)建出與腦連接機(jī)制論文相關(guān)的知識(shí)圖譜,指出美國(guó)是腦認(rèn)知科學(xué)的主導(dǎo)研究力量,研究重點(diǎn)落在白質(zhì)、額葉皮層與神經(jīng)性疾病的關(guān)系。王堯等人[5]利用Citespace構(gòu)建知識(shí)圖譜了解了近10年全球腦科學(xué)研究現(xiàn)狀,指出目前研究熱點(diǎn)和趨勢(shì)呈現(xiàn)多學(xué)科交叉的特點(diǎn)。由此,知識(shí)圖譜幫助研究人員從文獻(xiàn)中提取腦科學(xué)領(lǐng)域的信息,幫助他們分析與融合已有知識(shí)。以自然語(yǔ)言處理方法來(lái)研究腦科學(xué)文獻(xiàn)多數(shù)落在知識(shí)抽取上,對(duì)知識(shí)融合和知識(shí)推理的相關(guān)方法研究?jī)?nèi)容則較少。這可能是由于兩方面的原因:第一,目前多需要為科研人員提供搜索服務(wù)。第二,目前國(guó)外主要是從圖像、模型入手去抽取相關(guān)信息,而并非僅從文本數(shù)據(jù)中抽取相關(guān)信息,大規(guī)模地構(gòu)建知識(shí)圖譜。目前已經(jīng)有腦科學(xué)相關(guān)的知識(shí)圖譜應(yīng)用出現(xiàn)。國(guó)內(nèi)的有中國(guó)科學(xué)院自動(dòng)化研究所類(lèi)腦智能研究中心所實(shí)現(xiàn)的腦科學(xué)知識(shí)圖譜,國(guó)外的有歐盟人腦計(jì)劃(Human Brain Project)的EBRAINS Knowledge Graph[6](https://kg.ebrains.eu/)。它們的主要作用都是利用知識(shí)圖譜提供數(shù)據(jù)整合、分享和搜索服務(wù)。現(xiàn)階段腦科學(xué)的知識(shí)圖譜為研究人員提供了數(shù)據(jù)集與相關(guān)分析工具,并且也完整地向研究人員展示如何從文獻(xiàn)中抽取實(shí)體關(guān)系進(jìn)行圖譜的構(gòu)建,也為他們提供了縱觀(guān)全局的能力。然而,現(xiàn)階段腦科學(xué)領(lǐng)域的知識(shí)圖譜也存在著一些不足,主要表現(xiàn)在以下幾個(gè)方面:一、未能更好地利用知識(shí)圖譜對(duì)數(shù)據(jù)進(jìn)行推理挖掘,重點(diǎn)都是落腳于提供搜索與管理服務(wù);二、在平臺(tái)的構(gòu)建上,存在著平臺(tái)缺乏良好維護(hù)的問(wèn)題;三、在認(rèn)知功能腦知識(shí)圖譜上,大多都是與腦灰質(zhì)相關(guān),未能聯(lián)系到腦白質(zhì),忽略了腦白質(zhì)所處的作用。
該文對(duì)腦科學(xué)領(lǐng)域的構(gòu)建知識(shí)圖譜的主要方法進(jìn)行了總結(jié),并指出可以?xún)?yōu)化的方向,其次對(duì)于已有的相關(guān)應(yīng)用或者工具進(jìn)行了簡(jiǎn)要的介紹,并對(duì)未來(lái)方向進(jìn)行了展望。
腦知識(shí)圖譜構(gòu)建與常規(guī)的文本知識(shí)圖譜構(gòu)建過(guò)程類(lèi)似,本節(jié)主要圍繞著知識(shí)抽取、知識(shí)融合以及知識(shí)推理這三個(gè)部分進(jìn)行,主要內(nèi)容概要視圖如圖1所示。
知識(shí)抽取是指通過(guò)一些自動(dòng)化或者半自動(dòng)化的技術(shù)抽取出可用的知識(shí)單元。具體針對(duì)腦科學(xué)領(lǐng)域,主要是對(duì)文獻(xiàn)中腦區(qū)相關(guān)實(shí)體、認(rèn)知功能相關(guān)實(shí)體、實(shí)驗(yàn)數(shù)據(jù)以及與某疾病相關(guān)的臨床報(bào)告中的特征進(jìn)行實(shí)體抽取,對(duì)與腦區(qū)有關(guān)的關(guān)系進(jìn)行關(guān)系抽取,如腦區(qū)與腦區(qū)之間的關(guān)系、腦區(qū)與基因之間的關(guān)系等。
1.1.1 實(shí)體抽取
實(shí)體抽取又稱(chēng)作命名實(shí)體識(shí)別,是指從數(shù)據(jù)語(yǔ)料里抽取出命名實(shí)體。目前腦神經(jīng)科學(xué)領(lǐng)域用到的實(shí)體抽取方法主要包括基于規(guī)則的實(shí)體抽取、基于機(jī)器學(xué)習(xí)的實(shí)體抽取和基于深度學(xué)習(xí)的實(shí)體抽取。一般來(lái)說(shuō),在腦科學(xué)領(lǐng)域,主要抽取的實(shí)體類(lèi)別分為四類(lèi):腦區(qū)相關(guān)實(shí)體、認(rèn)知功能相關(guān)實(shí)體、實(shí)驗(yàn)數(shù)據(jù)以及臨床報(bào)告中與疾病相關(guān)的特征?;谝?guī)則的實(shí)體抽取,是指預(yù)先將非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行分詞,然后再按照實(shí)體類(lèi)型等特征預(yù)先進(jìn)行標(biāo)記,構(gòu)建出一個(gè)特征詞典等新的語(yǔ)料輸入后使用構(gòu)建好的詞典進(jìn)行標(biāo)記,再利用正則表達(dá)式進(jìn)行匹配抽取出所需要的實(shí)體。Matthew等人[7]將文獻(xiàn)中的實(shí)體進(jìn)行注釋?zhuān)缓笤儆谜齽t表達(dá)式匹配抽取出相應(yīng)實(shí)體。Nariman等人[8]通過(guò)檢索給定的術(shù)語(yǔ),抽取出與腦出血有關(guān)的實(shí)體特征,再進(jìn)行進(jìn)一步的研究。研究人員[9]利用RENER方法匹配出與癲癇和腦電極位置的特征,該方法主要利用正則表達(dá)并結(jié)合一些其他規(guī)則來(lái)提高召回率。
由于基于規(guī)則的實(shí)體抽取遷移泛化能力較弱,學(xué)者們開(kāi)始考慮運(yùn)用機(jī)器學(xué)習(xí)的方式對(duì)實(shí)體進(jìn)行抽取,即基于機(jī)器學(xué)習(xí)的實(shí)體抽取。Abacha等人[10]利用條件隨機(jī)場(chǎng)構(gòu)建分類(lèi)器,定義了多種命名實(shí)體類(lèi)別,該研究隨機(jī)抽取文獻(xiàn)摘要進(jìn)行標(biāo)注,選取單詞的構(gòu)詞、詞性等語(yǔ)義特征作為特征進(jìn)行訓(xùn)練。Riedel等人[11]基于多個(gè)語(yǔ)料庫(kù)特征和分類(lèi)器識(shí)別出與認(rèn)知實(shí)驗(yàn)相關(guān)的各種實(shí)體。Senders等人[12]使用自己所開(kāi)發(fā)的回歸模型從MRI報(bào)告中提取與膠質(zhì)母細(xì)胞瘤相關(guān)的顯著特征。
基于深度學(xué)習(xí)的命名實(shí)體識(shí)別,相比于機(jī)器學(xué)習(xí)的一大特點(diǎn)是它能自動(dòng)提取特征。Matthew等人[7]利用條件隨機(jī)場(chǎng)和雙向長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行詞向量的構(gòu)建和模型的訓(xùn)練。Sheng等人[13]設(shè)計(jì)了一種基于BiLSTM-CNN的多類(lèi)別實(shí)體識(shí)別方法,能夠有效地識(shí)別與大腦相關(guān)的實(shí)體。對(duì)于腦科學(xué)的實(shí)體抽取,主要是從神經(jīng)影像學(xué)的相關(guān)文獻(xiàn)和病歷報(bào)告里進(jìn)行相關(guān)實(shí)體的抽取,文獻(xiàn)[14]表明近幾年對(duì)于從神經(jīng)影像學(xué)文獻(xiàn)中提取相關(guān)知識(shí)得到了廣泛的關(guān)注。目前對(duì)于腦科學(xué)領(lǐng)域的實(shí)體抽取,相關(guān)的已有的先進(jìn)方法還未引用到這上面來(lái),諸如在其他生物領(lǐng)域已經(jīng)在使用了的方法:BioBERT[15]、Bio-ELECTRA[16]等以及在命名實(shí)體識(shí)別領(lǐng)域里能夠取得較好結(jié)果的方法[17-19]。
1.1.2 關(guān)系抽取
關(guān)系抽取的目的是抽取出兩個(gè)實(shí)體之間的語(yǔ)義關(guān)系。一般分為兩種,一種是以管道方式進(jìn)行抽取,另一種是以實(shí)體關(guān)系進(jìn)行聯(lián)合抽取。在腦科學(xué)領(lǐng)域,以管道式的抽取方法為主,主要抽取的是與腦區(qū)相關(guān)的關(guān)系,即腦區(qū)與腦區(qū)之間的關(guān)系、腦區(qū)與基因之間的關(guān)系等。以管道的方式進(jìn)行抽取是指按順序先抽取實(shí)體再抽取關(guān)系。Richardet等人[20]從大量的腦科學(xué)文獻(xiàn)中提取實(shí)體及實(shí)體關(guān)系,其先使用三種不同的命名實(shí)體方法進(jìn)行識(shí)別,接著再以三種不同的方式進(jìn)行關(guān)系提取。Erinc等人[21]為了識(shí)別大腦其他區(qū)域與丘腦室旁核相關(guān)的關(guān)系,提出了一種基于詞典與依存關(guān)系的方法來(lái)進(jìn)行關(guān)系抽取。Sharama等人[22]提出一種ConnExt-BioBERT方法,依據(jù)管道方式將自然語(yǔ)言處理中預(yù)訓(xùn)練模型應(yīng)用到腦區(qū)關(guān)系抽取上取得了較好效果。Liu等人[23]提出了一種新穎的遠(yuǎn)程監(jiān)督模型來(lái)提取腦區(qū)與基因之間的基因表達(dá)關(guān)系,他們先對(duì)所需要的句子進(jìn)行腦區(qū)和基因的標(biāo)記,再提取出實(shí)體對(duì)進(jìn)行分組,然后構(gòu)建特征再進(jìn)行模型的訓(xùn)練,最后提取實(shí)體關(guān)系。
1.1.3 知識(shí)抽取總結(jié)
對(duì)比腦科學(xué)領(lǐng)域中實(shí)體抽取方法和關(guān)系抽取方法,相關(guān)先進(jìn)方法在關(guān)系抽取上使用的較多,而在實(shí)體抽取上使用的較少。其原因主要在于,進(jìn)行關(guān)系抽取的時(shí)候往往會(huì)先進(jìn)行實(shí)體抽取,這變相地將相關(guān)先進(jìn)方法應(yīng)用到實(shí)體抽取上。其次在于,關(guān)系抽取相比于單個(gè)的實(shí)體抽取難度更大,而實(shí)體抽取往往是很多任務(wù)的第一步,研究人員很容易將相關(guān)先進(jìn)方法運(yùn)用到更復(fù)雜的問(wèn)題上去得到更好的結(jié)果。單獨(dú)針對(duì)關(guān)系抽取而言,主要運(yùn)用管道式的方法,即先抽取實(shí)體,再抽取關(guān)系,這樣容易造成誤差累積和實(shí)體重疊問(wèn)題,應(yīng)當(dāng)著重關(guān)注實(shí)體關(guān)系聯(lián)合抽取的方法,這樣可能會(huì)在腦區(qū)關(guān)系抽取上有進(jìn)一步的提高。
知識(shí)融合建立在前續(xù)步驟知識(shí)抽取的基礎(chǔ)上,其目的是將抽取于不同的知識(shí)庫(kù)(或文獻(xiàn))的同一實(shí)體或概念的描述信息進(jìn)行融合。該文所述腦科學(xué)知識(shí)融合方法將圍繞著指代消解和實(shí)體消歧兩個(gè)主要問(wèn)題進(jìn)行闡述。
1.2.1 指代消解
指代分為兩類(lèi)[24],一種是共指,指的是當(dāng)多個(gè)名稱(chēng)對(duì)應(yīng)同一實(shí)體的時(shí)候,將這些名稱(chēng)對(duì)應(yīng)到正確的規(guī)范的實(shí)體上,也就是解決異名同物問(wèn)題,不依賴(lài)于上下文信息。另一種為回指,指的是文中代詞或名詞依賴(lài)于上下文信息。具體針對(duì)于腦科學(xué)領(lǐng)域,Halil等人[25]提出了一種基于語(yǔ)義規(guī)則的方法來(lái)進(jìn)行回指消解以提升關(guān)系抽取的效果,其主要算法分兩步,第一步是識(shí)別與標(biāo)記回指指代,第二步檢查這些回指,并嘗試將它們鏈接到先行詞上,算法所用到的核心語(yǔ)義信息都是由SemRep[26]自然語(yǔ)言處理工具提供。Choi等人[27]利用生物共指語(yǔ)料庫(kù)開(kāi)發(fā)了一種基于規(guī)則的共指消解系統(tǒng),算法主要思想是先識(shí)別出所有實(shí)體和代詞,再根據(jù)一系列的語(yǔ)義規(guī)則對(duì)每個(gè)代詞所指向的實(shí)體進(jìn)行排序,排序高的即為代詞所對(duì)應(yīng)的對(duì)象,它能夠?qū)ι镝t(yī)學(xué)實(shí)體進(jìn)行識(shí)別和共指消解。文獻(xiàn)[20]則在命名實(shí)體識(shí)別之后進(jìn)行標(biāo)準(zhǔn)化,主要利用了英文構(gòu)詞法特點(diǎn)來(lái)進(jìn)行指代消解。
1.2.2 實(shí)體消歧
實(shí)體消歧是指一個(gè)句子里實(shí)體很有可能有多個(gè)意思,在不同的上下文環(huán)境中其意思不一樣,也就是同名異物問(wèn)題。實(shí)體消歧技術(shù)主要可分為兩種,一種是實(shí)體聚類(lèi)消歧,一種是實(shí)體鏈接消歧。而具體針對(duì)腦科學(xué)領(lǐng)域,實(shí)體鏈接消歧是較為常用的方法,它是指將文獻(xiàn)里的指稱(chēng)項(xiàng)鏈接到外部的知識(shí)庫(kù)中給定的正確的詞條,能夠清楚內(nèi)在的意思,從而達(dá)到消歧的效果。Zeng等人[28]創(chuàng)建了大規(guī)模的腦科學(xué)相關(guān)的語(yǔ)義知識(shí)庫(kù),在實(shí)體消歧的過(guò)程中,用到了一種基于語(yǔ)義知識(shí)消歧方法[29],通過(guò)檢索各種語(yǔ)義關(guān)系對(duì)文檔進(jìn)行相似度分析,從而實(shí)現(xiàn)實(shí)體消歧。Wang等人[30]提出一種概率的方法進(jìn)行大腦相關(guān)實(shí)體消歧。其方法主要是用到了實(shí)體的流行度以及實(shí)體上下文知識(shí)特征,將這兩種主要特征用概率的方法計(jì)算出來(lái),再進(jìn)行加權(quán)相加得到一個(gè)總體概率。
1.2.3 知識(shí)融合總結(jié)
根據(jù)已找到有關(guān)實(shí)體消歧以及指代消解的相關(guān)方法在腦科學(xué)領(lǐng)域應(yīng)用情況來(lái)看,大多數(shù)方法都是基于規(guī)則或者基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。且根據(jù)文獻(xiàn)[2,20]來(lái)看,當(dāng)大規(guī)模地抽取實(shí)體關(guān)系時(shí),研究人員對(duì)于實(shí)體消歧所采取的方法要么是按照一定規(guī)則對(duì)實(shí)體進(jìn)行消歧,要么就是對(duì)數(shù)據(jù)預(yù)先進(jìn)行處理使得一個(gè)句子里只包含兩個(gè)固定腦區(qū)或是做出某種限定使得只考慮句子內(nèi)的關(guān)系,這些方法的應(yīng)用可能對(duì)結(jié)果不會(huì)產(chǎn)生太大影響,但過(guò)程較為繁瑣。如果能重點(diǎn)對(duì)知識(shí)融合的方法進(jìn)行研究并能夠應(yīng)用到腦科學(xué)領(lǐng)域上面來(lái),應(yīng)該在一定程度上會(huì)提高腦科學(xué)知識(shí)圖譜的構(gòu)建周期。
知識(shí)推理是指從已知的事實(shí)出發(fā),通過(guò)已掌握的知識(shí),找出其中蘊(yùn)含的新知識(shí),或者說(shuō)歸納出的新的事實(shí)。在對(duì)腦科學(xué)領(lǐng)域文獻(xiàn)進(jìn)行挖掘推理時(shí),主要關(guān)注的是基于規(guī)則的傳統(tǒng)推理與基于深度學(xué)習(xí)的知識(shí)推理。
1.3.1 基于規(guī)則的傳統(tǒng)推理
基于規(guī)則的傳統(tǒng)知識(shí)推理,是指在知識(shí)圖譜上使用一些規(guī)則或者利用統(tǒng)計(jì)特征進(jìn)行推理。Zhu等人[31]提出一種無(wú)模型的方法,僅根據(jù)知識(shí)圖譜本身來(lái)驗(yàn)證關(guān)系進(jìn)行關(guān)系推斷,并用聚類(lèi)系數(shù)在腦知識(shí)圖譜中找到相關(guān)主題。Liang等人[32]提出了一種推理重用的方法構(gòu)建了大腦區(qū)域-孤獨(dú)癥的本體,以此本體出發(fā),利用相關(guān)規(guī)則對(duì)此本體進(jìn)行擴(kuò)展從而發(fā)現(xiàn)隱藏關(guān)系。文獻(xiàn)[2]則先利用屬性推理對(duì)實(shí)體層次進(jìn)行了劃分、再用語(yǔ)義上的邏輯進(jìn)推理,挖掘潛在的實(shí)體關(guān)系。文獻(xiàn)[33]中使用關(guān)聯(lián)分析的方法,對(duì)精神疾病與大腦的結(jié)構(gòu)的相關(guān)文獻(xiàn)進(jìn)行分析,研究哪些腦結(jié)構(gòu)在精神疾病中占主導(dǎo)地位。
1.3.2 基于神經(jīng)網(wǎng)絡(luò)的知識(shí)推理
基于神經(jīng)網(wǎng)絡(luò)的知識(shí)推理,主要是使用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力與泛化能力,對(duì)三元組里的元素進(jìn)行推理或?qū)χR(shí)圖譜路徑里的元素進(jìn)行預(yù)測(cè)。Zhu[34]利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練了一個(gè)針對(duì)三元閉包的神經(jīng)網(wǎng)絡(luò)模型,其中關(guān)系頻率代表關(guān)系可信度,利用這種模型能夠捕獲到大腦區(qū)域關(guān)系強(qiáng)度所暗含的關(guān)系鏈接。Nian等人[35]利用Node2vec方法從與神經(jīng)退行性疾病相關(guān)文獻(xiàn)中挖掘食物與該疾病的潛在關(guān)系。
1.3.3 知識(shí)推理總結(jié)
目前腦科學(xué)領(lǐng)域所采用的方法主要為基于規(guī)則和基于神經(jīng)網(wǎng)絡(luò)的方法。對(duì)比兩種方法,基于規(guī)則的方法雖然對(duì)研究人員專(zhuān)業(yè)要求較高,但在后期對(duì)知識(shí)圖譜擴(kuò)充的時(shí)候不需要進(jìn)行模型訓(xùn)練,按照現(xiàn)有的規(guī)則進(jìn)行推理挖掘。而基于神經(jīng)網(wǎng)絡(luò)的知識(shí)推理,則在后期知識(shí)圖譜擴(kuò)充的時(shí)候可能需要對(duì)推理模型進(jìn)行重新訓(xùn)練,加大了后期的工作量。并且觀(guān)察文獻(xiàn)[2,32-33]發(fā)表年份,近年基于規(guī)則的方法依然被研究人員所采用,說(shuō)明基于規(guī)則的方法仍然具有實(shí)用價(jià)值亦或者是對(duì)該問(wèn)題關(guān)注度不高。
從整體知識(shí)圖譜的相關(guān)方法在腦科學(xué)應(yīng)用上不難發(fā)現(xiàn),研究人員目前著重關(guān)注的問(wèn)題在于實(shí)體關(guān)系抽取,并且相對(duì)其他兩個(gè)任務(wù),文獻(xiàn)[22]表明研究人員已經(jīng)將相關(guān)較為先進(jìn)的方法應(yīng)用到處理該問(wèn)題上。主要原因在于,實(shí)體關(guān)系抽取是構(gòu)建整個(gè)腦科學(xué)知識(shí)圖譜中最為基礎(chǔ)也最為重要的任務(wù),該任務(wù)也會(huì)對(duì)下游任務(wù)的效果產(chǎn)生重要影響。不過(guò)隨著研究深入,知識(shí)抽取的方法日趨完善,研究人員著重關(guān)注問(wèn)題會(huì)慢慢向知識(shí)融合與知識(shí)推理上轉(zhuǎn)移。目前主要存在問(wèn)題如下:
(1)獲取數(shù)據(jù)集的難度大,很少有公開(kāi)處理好的數(shù)據(jù)集。研究人員在研究某個(gè)問(wèn)題的時(shí)候,都需要自己去下載文獻(xiàn)摘要,自己去預(yù)處理數(shù)據(jù),這樣使得在對(duì)某一方法進(jìn)行評(píng)估時(shí),難以獲得較為公正的評(píng)價(jià)結(jié)果。
(2)方法需要更新。部分方法還有待更新,即使在實(shí)體關(guān)系抽取任務(wù)上,雖然采用了較為先進(jìn)的方法,但該方法仍然存在著誤差累積的問(wèn)題。
(3)文獻(xiàn)[7,10]表明腦科學(xué)文本實(shí)體類(lèi)別多。需要對(duì)標(biāo)記方法進(jìn)行深入設(shè)計(jì),良好的標(biāo)記方式會(huì)對(duì)模型帶來(lái)效果提升。
Linked Brain Data是中國(guó)科學(xué)院自動(dòng)化研究所類(lèi)腦智能研究中心實(shí)現(xiàn)的腦科學(xué)知識(shí)圖譜。它提供了大腦與神經(jīng)科學(xué)的相關(guān)服務(wù)。LinkedBrain Data的知識(shí)是從結(jié)構(gòu)化和非結(jié)構(gòu)化的不同數(shù)據(jù)源里抽取,需要對(duì)其不同源數(shù)據(jù)進(jìn)行合并。為此相關(guān)研究人員使用了文獻(xiàn)[29]中所提出的一種基于語(yǔ)義的實(shí)體鏈接消歧算法并借鑒CASIA-KB[36]中從多數(shù)據(jù)源構(gòu)建知識(shí)庫(kù)的相關(guān)方法。在構(gòu)建過(guò)程中,首先對(duì)于不同資源都有同一術(shù)語(yǔ)的情況考慮直接映射到一起,其次對(duì)于具有相同意思但形式不同的詞匯將其重定向到相關(guān)知識(shí)庫(kù)中。最后對(duì)于有歧義的詞匯,使用上述提到的實(shí)體消歧算法進(jìn)行實(shí)體鏈接消歧。作為國(guó)內(nèi)腦科學(xué)相關(guān)的知識(shí)庫(kù),Linked Brain Data實(shí)時(shí)性好,具有知識(shí)推理功能。缺點(diǎn)是平臺(tái)構(gòu)建完整性不好,有些模塊無(wú)法使用,對(duì)平臺(tái)的維護(hù)不夠,部分跳轉(zhuǎn)網(wǎng)頁(yè)鏈接失效,在腦認(rèn)知功能關(guān)聯(lián)圖部分,主要目標(biāo)還是與腦灰質(zhì)相關(guān),忽略了腦白質(zhì)與腦灰質(zhì)之間的聯(lián)系。
InterLex是以NeuroLex為基礎(chǔ)所構(gòu)建的一個(gè)項(xiàng)目,包含所有現(xiàn)有的神經(jīng)詞匯,并且得到了神經(jīng)科學(xué)信息框架(Nuroscience Information Frame)[37]等項(xiàng)目的支持,是一種動(dòng)態(tài)的詞典。NeuroLex[38]是利用Semantic MediaWiki所創(chuàng)建的。在Semantic MediaWiki中的頁(yè)面可以被標(biāo)記出來(lái)并且以結(jié)構(gòu)化的方式去揭示知識(shí),即通俗上來(lái)講Semantic MediaWiki可以將維基百科的頁(yè)面變成“數(shù)據(jù)庫(kù)”。NeuroLex最初的一些條目主要來(lái)自于神經(jīng)科學(xué)信息框架標(biāo)準(zhǔn)本體庫(kù)[39]。
目前NeuroLex已經(jīng)過(guò)渡到InterLex上,并且已經(jīng)處于公開(kāi)測(cè)試階段。InterLex正在構(gòu)建一種方式能幫助生物學(xué)家交流他們的數(shù)據(jù),使得相關(guān)信息系統(tǒng)能夠更容易找到信息并且提供更加強(qiáng)大的集成數(shù)據(jù)的手段,其缺點(diǎn)是沒(méi)有有效結(jié)合文獻(xiàn)中的相關(guān)語(yǔ)句,用戶(hù)無(wú)法及時(shí)深入了解。
KonwledgeSpace是歐盟腦計(jì)劃的一個(gè)成果,它是基于社區(qū)化的一種百科全書(shū),能將大腦相關(guān)術(shù)語(yǔ)概念鏈接到數(shù)據(jù)、模型和文獻(xiàn),并且它為用戶(hù)提供了來(lái)自15個(gè)不同神經(jīng)科學(xué)數(shù)據(jù)源(如艾倫腦科學(xué)研究所和人類(lèi)大腦項(xiàng)目)的數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限。KnowledgeSpace是由神經(jīng)科學(xué)信息框架本體進(jìn)行驅(qū)動(dòng)的,它擁有神經(jīng)科學(xué)領(lǐng)域的術(shù)語(yǔ)與概念,可以為命名實(shí)體識(shí)別提供輔助作用。它能夠根據(jù)術(shù)語(yǔ)查詢(xún)到該術(shù)語(yǔ)相關(guān)的文獻(xiàn)以及概念,方便研究人員的相關(guān)查詢(xún)與檢索,該工具交互性良好,平臺(tái)維護(hù)較好。在所查概念旁引用許多相關(guān)開(kāi)放的相關(guān)數(shù)據(jù),為研究人員進(jìn)一步查詢(xún)數(shù)據(jù)提供了幫助。缺點(diǎn)在于對(duì)所搜索出來(lái)的文獻(xiàn)只進(jìn)行了單純的羅列。
EBRAINS Knowledge Graph的前身是歐盟的HBP Knowledge Graph (人類(lèi)腦計(jì)劃知識(shí)圖譜)[40-41],其目標(biāo)在于幫助研究人員搜索和共享數(shù)據(jù)。它也存儲(chǔ)了來(lái)自很多不同源的數(shù)據(jù),能夠支持更廣泛的數(shù)據(jù)再利用和復(fù)雜的計(jì)算研究。EBRAINS Knowledge Graph由Blue Brain Nexus和EBRAINS所設(shè)計(jì)的擴(kuò)展組成。Blue Brain Nexus是洛桑聯(lián)邦理工學(xué)院所開(kāi)發(fā)的一款開(kāi)源知識(shí)圖譜工具,用來(lái)組織和管理相關(guān)實(shí)驗(yàn)數(shù)據(jù)。EBRAINS Knowledge Graph繼承了HBP Knowledge的相關(guān)屬性,其不單是從文本中提取數(shù)據(jù),還從實(shí)驗(yàn)圖片中提取所需要的數(shù)據(jù),豐富了相關(guān)知識(shí)儲(chǔ)備。但對(duì)于知識(shí)推理方面的功能還有待進(jìn)一步提升。
Textpresso For Neuroscience[42]是一個(gè)關(guān)于神經(jīng)科學(xué)文獻(xiàn)挖掘工具,允許通過(guò)使用關(guān)鍵字和語(yǔ)義相關(guān)類(lèi)別進(jìn)行復(fù)雜的查詢(xún)。它提供對(duì)文獻(xiàn)中所有詞語(yǔ)搜索的功能,并且引入了語(yǔ)義類(lèi)別,能夠更精準(zhǔn)地在相關(guān)范圍內(nèi)搜索到文獻(xiàn)數(shù)據(jù),它還能查詢(xún)出包含所包含相關(guān)詞匯的句子,對(duì)于研究人員進(jìn)行相關(guān)文獻(xiàn)的參考提供了更高的準(zhǔn)確性。Textpresso的主要數(shù)據(jù)來(lái)源于PubMed的摘要、全文以及期刊等信息。Textpresso的優(yōu)點(diǎn)在于其搜索是以句子為單位的,即要求在一個(gè)句子中滿(mǎn)足所有的查詢(xún)項(xiàng),并且結(jié)合了多種選項(xiàng)進(jìn)行搜索能夠提高搜索的精準(zhǔn)度。不過(guò)其缺點(diǎn)在于精準(zhǔn)度的提高,會(huì)降低其發(fā)散能力,即不能以一個(gè)關(guān)鍵字為中心發(fā)散到與其相關(guān)的知識(shí)上。本節(jié)簡(jiǎn)要總結(jié)如表1所示。
表1 相關(guān)應(yīng)用與工具總結(jié)
現(xiàn)階段國(guó)內(nèi)外呈現(xiàn)出兩種不同的研究方向趨勢(shì),國(guó)內(nèi)以中國(guó)科學(xué)院自動(dòng)化研究所類(lèi)腦智能研究中心所實(shí)現(xiàn)的腦科學(xué)知識(shí)圖譜Linked Brain Data為代表,主要通過(guò)文獻(xiàn)文本來(lái)構(gòu)建知識(shí)圖譜,從而分析神經(jīng)科學(xué)數(shù)據(jù)。國(guó)外以歐盟的“人腦計(jì)劃”[43-44]的EBRAINS Knowledge Graph為代表,主要以實(shí)驗(yàn)數(shù)據(jù)以及模型等來(lái)構(gòu)建,目的是為研究人員提供相關(guān)實(shí)驗(yàn)數(shù)據(jù)及可用的工具。對(duì)比國(guó)內(nèi)外,國(guó)內(nèi)神經(jīng)科學(xué)知識(shí)圖譜具有實(shí)時(shí)性好、可擴(kuò)展性好等優(yōu)點(diǎn)。但也有缺陷,國(guó)內(nèi)的知識(shí)圖譜沒(méi)有將文獻(xiàn)中的相關(guān)知識(shí)挖掘完全,比較注重實(shí)體與實(shí)體之間的關(guān)系,不太注重文獻(xiàn)中相關(guān)實(shí)驗(yàn)數(shù)據(jù)以及相關(guān)方法。如果能將方法數(shù)據(jù)作為屬性融入到知識(shí)圖譜中,能夠更好地服務(wù)于研究人員,通過(guò)查詢(xún)這個(gè)知識(shí)圖譜,研究人員就能知曉所使用的實(shí)驗(yàn)數(shù)據(jù)以及方法。
其次,國(guó)內(nèi)的認(rèn)知功能圖譜并不是很完整,沒(méi)有將腦白質(zhì)相關(guān)知識(shí)包含進(jìn)去,主要還是集中在腦灰質(zhì)相關(guān)部分。將腦白質(zhì)相關(guān)知識(shí)融入到腦灰質(zhì)的知識(shí)圖譜中,能夠構(gòu)建出更加完整的腦知識(shí)圖譜,這會(huì)讓研究人員更充分地挖掘其中的知識(shí),提高對(duì)認(rèn)知功能的理解。
而對(duì)于國(guó)外的知識(shí)圖譜而言,他們?yōu)檠芯咳藛T主要提供了相關(guān)數(shù)據(jù)集、模型項(xiàng)目等。優(yōu)點(diǎn)是為研究人員提供了豐富的數(shù)據(jù)集與模型,缺點(diǎn)是排序選項(xiàng)較少,遇到較多的資源時(shí),研究人員翻閱會(huì)比較耗時(shí)。
綜合而言,現(xiàn)階段在腦科學(xué)領(lǐng)域知識(shí)圖譜的應(yīng)用主要是以搜索挖掘知識(shí)與管理知識(shí)兩大方向前進(jìn),其次便是神經(jīng)科學(xué)領(lǐng)域的術(shù)語(yǔ)搜索系統(tǒng)用于輔助構(gòu)建腦科學(xué)知識(shí)圖譜。
近年來(lái),大量的機(jī)器學(xué)習(xí)方式、深度學(xué)習(xí)方式運(yùn)用到上面研究神經(jīng)科學(xué)文獻(xiàn)來(lái),挖掘出了一些潛在研究方向與知識(shí)之間的潛在關(guān)系。在未來(lái)還可以通過(guò)以下幾個(gè)方面對(duì)腦科學(xué)知識(shí)圖譜展開(kāi)深入研究:
(1)以多模態(tài)的角度構(gòu)建知識(shí)圖譜。從非文本數(shù)據(jù)和文本數(shù)據(jù)中提取所要的數(shù)據(jù),構(gòu)建出多模態(tài)的腦科學(xué)知識(shí)圖譜,豐富知識(shí)圖譜內(nèi)容,使其更加全面將是一個(gè)主要的研究方向。
(2)利用遷移學(xué)習(xí)。在腦科學(xué)知識(shí)圖譜構(gòu)建上,因其針對(duì)于一個(gè)特定的領(lǐng)域,可以針對(duì)于該領(lǐng)域訓(xùn)練出更加有效的大規(guī)模預(yù)訓(xùn)練模型,將訓(xùn)練好的模型遷移到后續(xù)不同文本挖掘任務(wù)中,使其達(dá)到更優(yōu)的效果。
(3)將神經(jīng)成像數(shù)據(jù)對(duì)齊到文本數(shù)據(jù)上。將神經(jīng)成像數(shù)據(jù)對(duì)齊到文本數(shù)據(jù)上,將有助于研究人員發(fā)現(xiàn)相關(guān)問(wèn)題,也有利于多模態(tài)的知識(shí)圖譜構(gòu)建。
(4)利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行推理。圖神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),剛好可以對(duì)應(yīng)于知識(shí)圖譜的結(jié)構(gòu),以圖神經(jīng)網(wǎng)絡(luò)去研究該問(wèn)題,會(huì)是一個(gè)主要研究方向。
(5)腦科學(xué)知識(shí)圖譜的應(yīng)用拓展。目前的腦科學(xué)知識(shí)圖譜,主要在于為科研人員提供知識(shí)管理,搜索挖掘?qū)嶓w關(guān)系上。將腦科學(xué)知識(shí)圖譜應(yīng)用拓展到相關(guān)服務(wù)行業(yè),將會(huì)是腦科學(xué)知識(shí)圖譜應(yīng)用的一個(gè)方向。