張春香,王 駿,2+,張嘉旭,鄧趙紅,潘 祥,王士同
1.江南大學(xué)數(shù)字媒體學(xué)院,江蘇無錫214122
2.上海大學(xué)通信與信息工程學(xué)院,上海200444
自閉癥譜系障礙(autism spectrum disorder,ASD)是一種在兒童發(fā)育早期就出現(xiàn)并且持續(xù)終身的精神障礙,主要臨床特征表現(xiàn)為不同程度的溝通困難、社會(huì)障礙以及重復(fù)性行為等[1]。該疾病給個(gè)人、家庭和社會(huì)帶來了巨大困擾,已然成為需要迫切關(guān)注的公共健康問題。靜息態(tài)功能磁共振成像(resting-state functional magnetic resonance imaging,rs-fMRI)技術(shù)能夠在無創(chuàng)傷、無輻射條件下,通過檢測(cè)血氧水平獲得高分辨率圖像來體現(xiàn)大腦活動(dòng)的異常,逐漸成為ASD等腦部疾病研究的重要手段之一。
借助靜息態(tài)功能磁共振成像技術(shù),研究人員發(fā)現(xiàn),自閉癥的形成與大腦的形態(tài)結(jié)構(gòu)變化密切相關(guān)[2-4]。與正常個(gè)體相比,自閉癥患者腦功能連接方面存在著不同腦區(qū)之間近距離連接過度、遠(yuǎn)距離連接不足等問題[5-6],這些連接異??梢杂脕韼椭鷧^(qū)分自閉癥患者和正常人,也從側(cè)面反映了自閉癥病情的復(fù)雜性。
個(gè)體癥狀表現(xiàn)多樣、發(fā)病原因復(fù)雜、難以確認(rèn)醫(yī)學(xué)成因等因素導(dǎo)致自閉癥的診斷過程存在著較多的不確定性。針對(duì)這種不確定性,構(gòu)建一個(gè)基于靜息態(tài)功能磁共振成像的自閉癥輔助診斷模型具有重要意義。TSK模糊系統(tǒng)[7]是一種高效的模糊推理系統(tǒng),對(duì)解決不確定性問題具有很好的針對(duì)性。其核心思想是通過對(duì)訓(xùn)練數(shù)據(jù)的輸入/輸出集合進(jìn)行劃分來提取“if-then”模糊規(guī)則,在此基礎(chǔ)上進(jìn)行模糊規(guī)則后件參數(shù)的學(xué)習(xí)來挖掘輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的映射關(guān)系。由于良好的非線性逼近能力,TSK模糊系統(tǒng)已被廣泛應(yīng)用于多種預(yù)測(cè)任務(wù)。文獻(xiàn)[8]通過挖掘不同任務(wù)間隱藏的相關(guān)信息,提出了多任務(wù)TSK模糊系統(tǒng)模型;文獻(xiàn)[9]提出了一種基于核心集的MEB(minimal-enclosing-ball)近似技術(shù)的STSK模糊訓(xùn)練算法,在一定程度上提高了大數(shù)據(jù)集的分類性能;文獻(xiàn)[10]則將TSK模糊系統(tǒng)和遷移學(xué)習(xí)機(jī)制結(jié)合,提出了一種適用于數(shù)據(jù)不充分場(chǎng)景下的不確定性預(yù)測(cè)方法。雖然這些預(yù)測(cè)方法在解決各自的問題上都取得了較好的效果,但是它們面向的都是低維數(shù)據(jù)場(chǎng)景,對(duì)于自閉癥醫(yī)學(xué)影像診斷中更加復(fù)雜的高維數(shù)據(jù)場(chǎng)景,TSK模糊推理系統(tǒng)的研究仍然存在著很大的挑戰(zhàn)。
已有的面向自閉癥輔助診斷算法中,如文獻(xiàn)[11]分別從灰質(zhì)圖像和白質(zhì)圖像中挑選具有識(shí)別力的特征向量,構(gòu)建SVM(support vector machine)模型進(jìn)行ASD預(yù)測(cè);文獻(xiàn)[12]則基于皮層厚度等形態(tài)特征分別提取不同空間尺度的大腦形態(tài)信息,并利用SVM對(duì)提取特征進(jìn)行分類,以找出能夠?qū)崿F(xiàn)最佳分類效果的特征;文獻(xiàn)[13]中引入流形正則化框架,提取rsfMRI特征數(shù)據(jù)的非線性低維嵌入表示,并利用SVM分類方法構(gòu)建模型。這些方法都更加注重于從原本的高維數(shù)據(jù)中提取重要特征,卻忽視了構(gòu)造分類器的過程中融合特征之間關(guān)聯(lián)信息的重要性。
綜合考慮以上兩方面的因素,本文以自閉癥輔助診斷的不確定性為出發(fā)點(diǎn),將腦區(qū)之間的功能連接作為特征,提出了一種新型的聯(lián)合組稀疏TSK模糊系統(tǒng)建模方法。該方法基于TSK模糊系統(tǒng)理論框架,結(jié)合特征之間的關(guān)聯(lián)信息學(xué)習(xí)新的權(quán)重系數(shù),進(jìn)而使用一種全新的方式來構(gòu)造不同模糊規(guī)則后件參數(shù)之間的聯(lián)合組稀疏正則化項(xiàng),引導(dǎo)規(guī)則內(nèi)特征和規(guī)則間特征的聯(lián)合選擇,從而降低自閉癥診斷過程中的不確定性。
本文的診斷方法框架如圖1所示,整個(gè)建模流程包括數(shù)據(jù)采集與預(yù)處理、特征提取和構(gòu)建診斷模型三部分。
Fig.1 Framework for ASD diagnosis method圖1 面向ASD診斷方法框架圖
每個(gè)實(shí)驗(yàn)對(duì)象的rs-fMRI數(shù)據(jù)使用DPARSF(data processing assistant for resting-state fMRI)[11]工具進(jìn)行處理。處理步驟主要包括:(1)去除圖像序列前10個(gè)時(shí)間點(diǎn)的數(shù)據(jù);(2)時(shí)間層校正和頭部運(yùn)動(dòng)校正;(3)使用T1加權(quán)圖像分割并歸一化到MNI152(Montreal Neurological Institute 152)標(biāo)準(zhǔn)空間中;(4)使用AAL(anatomical automatic labeling)模板將大腦劃分成116個(gè)腦區(qū),每個(gè)區(qū)域重新采樣3 mm×3 mm×3 mm的體素;(5)使用半高全寬高斯核進(jìn)行空間平滑處理;(6)應(yīng)用帶通濾波(0.01~0.10 Hz)去除噪聲;(7)去線性漂移并進(jìn)行全局信號(hào)校正去干擾變量;(8)計(jì)算每個(gè)腦區(qū)的平均時(shí)間序列。
針對(duì)預(yù)處理后的rs-fMRI數(shù)據(jù),執(zhí)行以下步驟:
(1)計(jì)算每個(gè)樣本中各腦區(qū)之間的Pearson相關(guān)系數(shù),得到功能連接矩陣,該矩陣表示腦區(qū)之間的線性相關(guān)程度,具有對(duì)稱性;
(2)將所有功能連接矩陣的上三角陣展開并按行排列,去除全0和全1列,得樣本特征矩陣;
(3)將樣本特征矩陣劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
針對(duì)訓(xùn)練集,執(zhí)行以下特征提取步驟:
計(jì)算所有樣本中每列特征向量與標(biāo)簽之間的相關(guān)系數(shù)并降序排列,保留相關(guān)系數(shù)最大的P個(gè)特征組成新的訓(xùn)練集X(trn)∈?N×P,并記錄相應(yīng)的列索引。
針對(duì)驗(yàn)證集和測(cè)試集,執(zhí)行以下特征提取步驟:
根據(jù)訓(xùn)練集特征提取過程中得到的列索引提取驗(yàn)證集和測(cè)試集的特征,組成新的驗(yàn)證集X(val)和測(cè)試集X(tst)。
TSK模糊系統(tǒng)以“if-then”的形式定義模糊規(guī)則,給定任意輸入向量x=(x1x2…xP)T∈?P,則TSK模糊系統(tǒng)的第r條模糊規(guī)則如下:
式(1)中,Arp表示在第r條模糊規(guī)則下,輸入向量x的第p維特征所對(duì)應(yīng)的模糊子集,wrp表示后件參數(shù),∧表示模糊合取操作,r=1,2,…,R,p=1,2,…,P。本文采用高斯隸屬度函數(shù)表示模糊規(guī)則的模糊集Arp(xp):
式(2)中,crp和σrp分別表示高斯隸屬度函數(shù)的均值和方差,可由聚類算法或其他劃分方法得出。本文采用FCM(fuzzy C-means)聚類算法進(jìn)行數(shù)據(jù)集的模糊劃分,可得crp和σrp:
TSK模糊系統(tǒng)具有如圖2所示的分組結(jié)構(gòu)[14]。對(duì)于訓(xùn)練集X(trn)∈?N×P在第r條模糊規(guī)則下對(duì)應(yīng)的子字典φr,采用以下線性模型[15]預(yù)測(cè)第r條規(guī)則對(duì)應(yīng)的輸出變量:
Fig.2 Group structure of TSK fuzzy system圖2 TSK模糊系統(tǒng)分組結(jié)構(gòu)
Fig.3 Consequent parameters wr of all fuzzy rules圖3 模糊規(guī)則下各后件參數(shù)wr
模型可以通過交替計(jì)算式(15)和式(17)進(jìn)行優(yōu)化,迭代K次后得到的w(K)即式(13)的近似解。
本文構(gòu)造的特征關(guān)聯(lián)誘導(dǎo)聯(lián)合組稀疏TSK模糊系統(tǒng)建模方法JGSL-TSK(joint-group-sparse-learning Takagi-Sugeno-Kang)對(duì)應(yīng)的算法描述如下:
算法1特征關(guān)聯(lián)誘導(dǎo)聯(lián)合組稀疏TSK模糊系統(tǒng)(JGSL-TSK)
步驟1提取TSK模糊規(guī)則前件。
步驟1.1使用FCM聚類算法對(duì)訓(xùn)練集D進(jìn)行模糊劃分;
步驟1.2根據(jù)式(3)、式(4)計(jì)算高斯隸屬度函數(shù)的均值crp和方差σrp,p=0,1,…,P,r=1,2,…,R;
步驟1.3根據(jù)式(2)確定隸屬度函數(shù)的值;
步驟1.4根據(jù)式(6)、式(7)生成Φ=(φ1,φ2,…,φR)。
步驟2規(guī)則間聯(lián)合組稀疏學(xué)習(xí)。
步驟2.1初始化w(0)=1,并根據(jù)式(16)初始化vrp(0),p=0,1,…,P,r=1,2,…,R;
步驟2.2根據(jù)式(17)更新vrp(k),p=0,1,…,P,r=1,2,…,R,根據(jù)式(15)更新w(k),k=1,2,…,K;
步驟2.3返回w(K)。
本文采用來自ABIDE(autism brain imaging data exchange)數(shù)據(jù)庫(kù)(http://preprocessed-connectomes-project.org/abide/download.html)NYU(New York University Langone Medical Center)、UCLA(University of California,Los Angeles)和UM(University of Michigan)三個(gè)影像中心的數(shù)據(jù),表1為實(shí)驗(yàn)數(shù)據(jù)的對(duì)象信息,圖4為某個(gè)ASD患者的靜息態(tài)功能磁共振軸位影像。
Table 1 Object information of NYU,UCLA,UM image centers表1 NYU、UCLA和UM影像中心對(duì)象信息
評(píng)價(jià)算法診斷疾病有效性的常用指標(biāo)為敏感度SEN(sensitivity)和特異性SPE(specificity),SEN越高,漏診率越低,確診病人的可能性越大;SPE越高,誤診率越低,分辨正常人的能力越高。但是當(dāng)算法中的診斷閾值發(fā)生變化時(shí),敏感度SEN和特異性SPE將分別朝著不同的方向變化。因此,單純使用某個(gè)閾值點(diǎn)上的SEN和SPE指標(biāo)評(píng)價(jià)各類算法的診斷性能是不合理且不全面的。ROC(receiver operating characteristic)曲線作為被廣泛應(yīng)用于臨床診斷的一種統(tǒng)計(jì)方法,以假陽率為橫坐標(biāo),真陽率為縱坐標(biāo),同時(shí)考慮了敏感性SEN和特異性SPE[19]。從本質(zhì)上講,ROC曲線分析反映的是隨著診斷閾值改變而動(dòng)態(tài)變化的敏感性、特異性曲線,能夠更加全面、準(zhǔn)確地評(píng)價(jià)算法對(duì)于疾病診斷的準(zhǔn)確性。ROC曲線下的面積越大,AUC(area under the curve)值越大,所對(duì)應(yīng)的算法的診斷性能越好。
因此,本文使用AUC和ROC曲線來度量各類算法的分類性能,其中敏感度SEN和特異性SPE定義如下:
Fig.4 Axial slice of rs-fMRI in autistic patient圖4 某個(gè)自閉癥患者的靜息態(tài)功能磁共振軸位影像
式(18)、式(19)中,TP(true positive)、FN(false negative)、FP(false positive)和TN(true negative)分別表示真正例、假反例、假正例和真反例。將本文提出的算法與以下算法進(jìn)行比較,表2總結(jié)了實(shí)驗(yàn)中所涉及的算法以及對(duì)應(yīng)的算法描述。
Table 2 Descriptions of various methods表2 各類算法描述
為了客觀地比較各算法,嚴(yán)格控制其他因素對(duì)實(shí)驗(yàn)結(jié)果的影響,考慮以下實(shí)驗(yàn)設(shè)置:(1)按照7∶2∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。在訓(xùn)練集上訓(xùn)練模型,在驗(yàn)證集上進(jìn)行網(wǎng)格參數(shù)尋優(yōu),在測(cè)試集上評(píng)估分類性能,重復(fù)該過程20次,將20次實(shí)驗(yàn)結(jié)果繪制成ROC曲線作為評(píng)價(jià)指標(biāo)。(2)對(duì)驗(yàn)證集和測(cè)試集進(jìn)行網(wǎng)格參數(shù)尋優(yōu)時(shí),各算法的參數(shù)設(shè)置如表3所示。(3)對(duì)驗(yàn)證集和測(cè)試集進(jìn)行性能評(píng)估時(shí),采用閾值為0.5的sigmoid函數(shù)實(shí)現(xiàn)分類,即:大于等于0.5時(shí)為正例,小于0.5時(shí)為負(fù)例。(4)針對(duì)線性分類的LASSO[20](least absolute shrinkage and selection operator)方法,本文使用Matlab自帶的LASSO函數(shù)直接進(jìn)行分類預(yù)測(cè);基于TSK模糊系統(tǒng)的非線性分類方法JGSL-TSK、L2-TSKFS[9](L2-norm Takagi-Sugeno-Kang fuzzy system)、TSFS-SVM[21](Takagi-Sugeno-Kang fuzzy system support vector machine)和UFFM-M2SVC[13](unsupervised-fuzzy-feature-learningmethod multimodal support vector classification)均采用對(duì)數(shù)據(jù)集進(jìn)行模糊映射后再進(jìn)行分類預(yù)測(cè)的方法。其中TSFS-SVM方法借助SVMLIB工具包完成分類任務(wù)。(5)為了保證所有數(shù)據(jù)集在TSK模糊映射過程中共享模糊規(guī)則前件參數(shù),本文只對(duì)訓(xùn)練集進(jìn)行模糊劃分,驗(yàn)證集和測(cè)試集使用與訓(xùn)練集相同的高斯隸屬度函數(shù)的均值crp和方差σrp即可。
Table 3 Detailed setting of parameters in various methods表3 各算法中參數(shù)詳細(xì)設(shè)置
圖5和表4顯示了本文方法與對(duì)比方法在NYU、UCLA、UM這三個(gè)影像中心上的ROC曲線及對(duì)應(yīng)的AUC值。
實(shí)驗(yàn)結(jié)果表明,本文提出的聯(lián)合組稀疏非線性模糊分類方法JGSL-TSK能夠有效改進(jìn)分類模型在輔助診斷自閉癥上的性能。首先,相比于線性LASSO分類方法,引入了TSK模糊系統(tǒng)的非線性分類方法JGSL-TSK、L2-TSKFS、TSFS-SVM和UFFM-M2SVC的ROC曲線和AUC值要優(yōu)于LASSO(0.588 6,0.563 7,0.563 0),這說明了模糊推理系統(tǒng)針對(duì)解決不確定性問題具有更好的非線性逼近能力。
其次,本文提出的JGSL-TSK方法在NYU、UCLA和UM影像中心的AUC值同樣優(yōu)于L2-TSKFS方法的AUC值(0.643 6,0.596 4,0.636 3),分析原因在于,L2-TSKFS方法雖然是基于TSK的非線性模糊分類方法,由于采用基于核心集的快速M(fèi)EB逼近算法訓(xùn)練模型,因此方法更加適用于低維的大樣本數(shù)據(jù)集。對(duì)于自閉癥診斷這種高維小樣本數(shù)據(jù),L2-TSKFS方法在三個(gè)影像中心的診斷性能均不如本文方法。
Fig.5 ROC curves of various methods on different imaging centers圖5 各類方法在不同影像中心上的分類ROC曲線圖
Table 4 AUC of various methods on NYU,UCLA and UM image centers表4 各類方法在NYU、UCLA和UM影像中心上的AUC值
另外,TSFS-SVM和UFFM-M2SVC均為基于TSK模糊系統(tǒng)使用SVM模型的分類方法,盡管UFFM-M2SVC方法引入流形正則化框架并進(jìn)行了進(jìn)一步的模糊特征學(xué)習(xí),但這兩種方法均采用經(jīng)典的SVM分類器,沒有結(jié)合特征之間的關(guān)聯(lián)信息,構(gòu)造新型分類模型。與之相比,本文方法在進(jìn)行特征提取的基礎(chǔ)上,不僅通過稀疏化精度矩陣提取規(guī)則內(nèi)特征之間的相關(guān)信息,而且在構(gòu)造分類模型的過程中,引入L2,1正則化項(xiàng)實(shí)現(xiàn)規(guī)則間的特征選擇,從而有效地降低噪聲影響,更好地利用特征間的關(guān)聯(lián)信息,提高自閉癥的診斷性能。
為了進(jìn)一步研究本文JGSL-TSK方法的收斂性,同樣選取NYU、UCLA、UM三個(gè)影像中心的數(shù)據(jù)進(jìn)行收斂性實(shí)驗(yàn),其目標(biāo)函數(shù)變化如圖6所示。三個(gè)影像中心的收斂曲線顯示,本文方法收斂速度較快,在迭代5~10次左右目標(biāo)函數(shù)值便趨于穩(wěn)定,說明本文方法在自閉癥輔助診斷過程中具有較好的實(shí)用性,能夠真正達(dá)到有效輔助的目的?;谝陨蠈?shí)驗(yàn)分析,本文方法中將迭代次數(shù)K值設(shè)為10。
為了展示具有鑒別意義的關(guān)聯(lián)特征信息,找出最有利于輔助ASD疾病診斷的大腦區(qū)域,本文根據(jù)實(shí)驗(yàn)結(jié)果挑選出30對(duì)最具鑒別力的區(qū)域間功能特征:首先,在影像中心NYU、UCLA和UM中,分別計(jì)算每個(gè)特征在后件參數(shù)w(K)中所占權(quán)重大?。蝗缓?,對(duì)三個(gè)影像中心的特征所占權(quán)重求和并降序排列,保留權(quán)重最大的30個(gè)特征;最后,根據(jù)原始rs-fMRI數(shù)據(jù)與樣本特征矩陣B之間的關(guān)系,逆推得到30個(gè)特征對(duì)應(yīng)的30對(duì)功能特征以及60個(gè)功能腦區(qū)域。表5即為挑選出的30對(duì)最具鑒別力的區(qū)域間關(guān)聯(lián)特征,括號(hào)中的數(shù)字表示該腦區(qū)在AAL模板中的索引。圖7進(jìn)一步給出了有鑒別意義的功能連接[22]。其中,左右腦分別用綠色和紅色表示,左、右腦內(nèi)部的連接使用藍(lán)線繪制,左、右腦之間的連接使用黑線繪制;線條的粗細(xì)表示腦區(qū)對(duì)在診斷過程中所占權(quán)重大小。
Fig.6 Convergence curve of JGSL-TSK algorithm圖6 JGSL-TSK方法的收斂曲線
Table 5 Top 30 pairs of most discriminative interregional correlation features表5 前30對(duì)最具鑒別力的區(qū)域間關(guān)聯(lián)特征
Fig.7 The most discriminative functional connection圖7 最具鑒別力的功能連接
面向自閉癥的輔助診斷,本文提出了一種特征關(guān)聯(lián)引導(dǎo)的聯(lián)合組稀疏非線性模糊分類方法。該方法在不同模糊規(guī)則后件參數(shù)間引入聯(lián)合組稀疏正則化項(xiàng),引導(dǎo)規(guī)則內(nèi)和規(guī)則間特征的聯(lián)合選擇,并結(jié)合特征之間的關(guān)聯(lián)信息學(xué)習(xí)新的權(quán)重系數(shù)。該方法不僅充分利用TSK模糊系統(tǒng)的非線性逼近能力,通過引入聯(lián)合組稀疏正則化項(xiàng)提高ASD的輔助診斷能力,而且能夠挖掘有利于ASD疾病診斷的功能連接。由于TSK模糊系統(tǒng)是一種顯式映射,因此本文提出的JGSL-TSK方法具有良好的可解釋性;在真實(shí)的ASD數(shù)據(jù)集上的實(shí)驗(yàn)效果也證明了本文方法的分類有效性。今后的工作將致力于研究TSK模糊系統(tǒng)在多中心場(chǎng)景的應(yīng)用。