謝忠翔, 武杰
上海理工大學(xué) 醫(yī)療器械與食品學(xué)院(上海, 200093)
作為一種病因復(fù)雜的遺傳疾病, 精神分裂癥是由多種遺傳因素和環(huán)境效應(yīng)相互作用的結(jié)果[1-3], 同時(shí)其患病率在所有精神疾病中高居榜首。患者的臨床表現(xiàn)往往有不同的癥狀, 有許多障礙, 如感知、 思維、 情緒和行為, 以及心理活動(dòng)的不一致, 不僅不同患者的臨床表現(xiàn)差異很大, 而且同一患者在不同時(shí)期可能表現(xiàn)出不同的癥狀。作為一種病因復(fù)雜、 臨床表現(xiàn)多樣、 影響范圍廣泛的慢性致殘性疾病, 全球約有1%的人口患有精神分裂癥, 它對(duì)患者、 家庭和社會(huì)構(gòu)成巨大危害。
自從精神分裂癥作為一種精神疾病在100多年前被研究以來(lái), 研究者們一直試圖揭示其病因、 病理并尋求有效的治療方法。傳統(tǒng)的對(duì)精神分裂癥的研究大多是在單一模態(tài)(功能磁共振成像、 結(jié)構(gòu)磁功能成像等)下進(jìn)行的, 每一種成像方式都只提供了有限的大腦信息。但是, 這樣采集到的數(shù)據(jù)通常是分開(kāi)分析的, 單獨(dú)分析無(wú)法利用不同模態(tài)的交叉信息來(lái)得出更有效的結(jié)論。近年來(lái), 影響遺傳學(xué)通過(guò)聯(lián)合分析腦影像數(shù)據(jù)和基因型信息, 幫助確定候選基因在大腦功能水平上的功能, 已經(jīng)逐漸成為研究腦功能與基因相關(guān)性的一個(gè)有效的方法[4]。
影像遺傳學(xué)(Imaging Genetics)作為一門新興的交叉學(xué)科, 是神經(jīng)影像學(xué)與遺傳學(xué)的結(jié)合。近年來(lái)發(fā)展迅速, 廣泛應(yīng)用于神經(jīng)精神疾病(精神分裂癥、 抑郁癥、 阿爾茲海默癥)和腫瘤(肝細(xì)胞癌、 非小細(xì)胞肺癌、 胰腺癌、 膠質(zhì)瘤、 乳腺癌)等領(lǐng)域。其運(yùn)用神經(jīng)成像技術(shù)將腦功能或結(jié)構(gòu)作為表型來(lái)評(píng)價(jià)基因?qū)€(gè)人的影響, 來(lái)研究大腦功能或結(jié)構(gòu)與遺傳的關(guān)系, 可以揭示精神疾病的發(fā)病機(jī)制, 為疾病的預(yù)測(cè)和診斷提供了更準(zhǔn)確的方法。大多數(shù)影像遺傳學(xué)研究中, 研究人員都使用單核苷酸多態(tài)性(SNP)作為關(guān)聯(lián)分析的基因型數(shù)據(jù), 因?yàn)镾NP是由基因水平中的單個(gè)核苷酸變異引起的DNA序列多態(tài)性, 在某種程度上, 它反映了個(gè)體的遺傳特性。而在表型數(shù)據(jù)的獲取中, 研究者大多采用臨床上廣泛使用的磁共振成像(MRI)腦影像數(shù)據(jù)進(jìn)行分析。
近年來(lái)影像遺傳學(xué)迅猛發(fā)展, 影像學(xué)研究者和遺傳學(xué)家在獲得諸多結(jié)果的同時(shí), 也面臨著一大挑戰(zhàn): 如何正確分析收集到的數(shù)據(jù)?因?yàn)樯窠?jīng)成像和遺傳學(xué)往往都會(huì)產(chǎn)生大量的數(shù)據(jù)。針對(duì)不同的情況, 需要實(shí)施不同的策略、 處理方法和驗(yàn)證方法等等。
對(duì)于一些多基因遺傳疾病, 患者的腦功能或腦結(jié)構(gòu)往往異于正常人, 多模態(tài)數(shù)據(jù)分析難度較大, 例如: (1)多個(gè)基因控制同一腦功能或腦結(jié)構(gòu); (2)風(fēng)險(xiǎn)基因之間的上位效應(yīng); (3)某單一基因影響多個(gè)腦功能或腦區(qū)域等等??紤]到影像遺傳學(xué)中多基因或多位點(diǎn)聯(lián)合效應(yīng)的關(guān)聯(lián)問(wèn)題, 以及影像和基因數(shù)據(jù)變量的高維特性, 單變量分析方法已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足, 因此, 研究人員大多使用多變量方法來(lái)研究多個(gè)遺傳變異與多個(gè)腦表型的關(guān)聯(lián)。研究精神分裂癥疾病的影像遺傳學(xué)特征的常用多變量方法[5]主要有: 多模態(tài)典型相關(guān)分析(Multimodal Canonical Correlation Analysis, mCCA)、 聯(lián)合獨(dú)立成分分析(Joint Independent Component Analysis, jICA)、 并行獨(dú)立成分分分析(Parallel Independent Component Analysis, PICA)、 基于稀疏表示變量選擇(Sparse Representation based Variable Selection, SRVS)。各方法特點(diǎn)總結(jié)如表1所示。
表1 多變量方法特點(diǎn)總結(jié)Tab.1 Summary of characteristics of multivariable methods
mCCA允許fMRI和SNP數(shù)據(jù)集有不同混矩陣, 并被用于找到變換的坐標(biāo)系, 該坐標(biāo)系最大化兩個(gè)數(shù)據(jù)集之間的協(xié)變[6]。該方法將每個(gè)數(shù)據(jù)集分解為一組成分(例如fMRI的空間區(qū)域)及其相應(yīng)的典型變量(Canonical Variates, CVs), 如圖1所示。CVs對(duì)于不同的受試者具有不同的激活水平, 并且如果它們?cè)谑茉囌咧g相似地調(diào)節(jié)則相關(guān)聯(lián)。在分解之后, CVs只在同一個(gè)索引上互相關(guān)聯(lián), 并且它們對(duì)應(yīng)的相關(guān)值被稱為典型相關(guān)系數(shù)(CCCs)。
與限制兩個(gè)(或更多)特征共享相同混合矩陣的jICA相比, mCCA具有靈活性, 因?yàn)樗试S兩個(gè)特征之間的相同或不同級(jí)別的連接, 但相關(guān)的源映射在空間上可能不是稀疏的(這方面比不上SRVS方法), 特別是當(dāng)CCC不夠明顯時(shí)[7]。
圖1 mCCA概念圖Fig.1 The conceptual diagram of mCCA
聯(lián)合獨(dú)立成分分析(jICA)是一種功能磁共振分析方法, 它假設(shè)fMRI和SNP數(shù)據(jù)集共享同一個(gè)混矩陣, 并且最大程度地實(shí)現(xiàn)成分之間的獨(dú)立性[8]。這是一種簡(jiǎn)單且有效的方法, 能夠在水平連接的特征上進(jìn)行獨(dú)立成分分析, 適用于研究不同類型數(shù)據(jù)之間的相同的調(diào)制。Joint ICA對(duì)許多成對(duì)的特征(數(shù)據(jù)類型)組合或者3路特征組合都是可行的[9-10], 如功能磁共振成像(fMRI)、 腦電圖(EEG)、 結(jié)構(gòu)磁共振成像(sMRI)和彌散張量成像(DTI), 如圖2所示。
圖2 Joint ICA概念圖Fig.2 The conceptual diagram of Joint ICA
并行獨(dú)立成分分析(PICA)可以同時(shí)處理fMRI和SNP數(shù)據(jù)集, 能夠揭示每種數(shù)據(jù)類型的獨(dú)立成分, 并評(píng)估這些成分之間的相關(guān)性。PICA需要同時(shí)解決三個(gè)問(wèn)題, 其中兩項(xiàng)涉及到fMRI和SNP數(shù)據(jù)集成分之間的獨(dú)立性最大化, 第三項(xiàng)是確定這兩數(shù)據(jù)集獨(dú)立成分之間的相關(guān)性。PICA方法是基于Infomax算法的, 它利用互熵的最大化來(lái)最大限度地實(shí)現(xiàn)成分間的獨(dú)立性[11], 而對(duì)于fMRI和SNP獨(dú)立成分之間的相關(guān)性, 則是通過(guò)增加一個(gè)相關(guān)性平方最大化的約束項(xiàng)來(lái)確定的, 如圖3所示。
圖3 PICA理論框架Fig.3 Theoretical framework of PICA
約束項(xiàng)是兩種數(shù)據(jù)類型之間的橋梁, 它是PICA的本質(zhì)[12], 不同于兩個(gè)完全獨(dú)立的ICA優(yōu)化,約束的適當(dāng)優(yōu)化在收斂和避免過(guò)擬合中起著關(guān)鍵的作用。有很多可能的原因會(huì)導(dǎo)致過(guò)擬合, 包括數(shù)據(jù)維度和噪聲, 但需要調(diào)整的重要參數(shù)只有兩種數(shù)據(jù)類型各自的熵的學(xué)習(xí)速率以及表示不同數(shù)據(jù)類型之間相互關(guān)系的關(guān)聯(lián)項(xiàng)的學(xué)習(xí)速率。采用兩種策略來(lái)進(jìn)行約束優(yōu)化: (1)動(dòng)態(tài)強(qiáng)制連接; (2)自適應(yīng)學(xué)習(xí)速率。
基于稀疏表示變量選擇(SRVS)[13]是將傳統(tǒng)線性回歸模型擴(kuò)展到兩類數(shù)據(jù)集(fMRI和SNP數(shù)據(jù)集)的集成分析:
(1)
為了在獲得具有少量非零項(xiàng)的稀疏向量δ(對(duì)應(yīng)于少量的X測(cè)量值)的情況下, 對(duì)表型Y進(jìn)行最佳逼近, 使用了許多行之有效的方法來(lái)解決Lp最小化問(wèn)題。例如, 對(duì)于P=1時(shí), 可以用同倫算法來(lái)解決;P=0時(shí)可用正交匹配追蹤算法[14]; 0≤P≤1時(shí)可用MFCOUSS算法。該算法近似求解公式(1)給出的回歸問(wèn)題, 并選取稀疏向量δ中非零項(xiàng)所對(duì)應(yīng)測(cè)量矩陣X中的列作為所要提取的fMRI和SNP特征。
因?yàn)榫穹至寻Y是一種遺傳病, 患者不僅在基因水平上存在差異, 腦功能和結(jié)構(gòu)同樣受到影響。因此, 一些研究人員研究了精神分裂癥, 為篩選出具有意義的少量精神分裂癥相關(guān)SNP和影像特征, 采用PICA和SRVS方法對(duì)受試者的fMRI數(shù)據(jù)和SNP數(shù)據(jù)進(jìn)行處理。研究中采用的數(shù)據(jù)由Mind Clinical Imaging Consortium(MCIC)收集而來(lái), 所選取數(shù)據(jù)符合《美國(guó)精神障礙診斷與統(tǒng)計(jì)手冊(cè)》第4版(DISM-IV)精神分裂癥診斷標(biāo)準(zhǔn)[15]。
研究人員用PICA方法處理結(jié)果如圖4所示。
圖4 與SNP相關(guān)的fMRI腦區(qū)Fig.4 Brain regions of fMRI associated with SNP
結(jié)合腦AAL模型, 我們可以從圖4中發(fā)現(xiàn): 該fMRI成分最大的部分位于楔前葉, 第2個(gè)區(qū)域是舌回, 第3個(gè)區(qū)域是楔葉。相關(guān)SNP成分主要在以下編碼基因中: 芳香族L-胺基酸類脫羧基酶基因(AADC), α-2A腎上腺素能受體基因(ADRA2A), α-7煙堿乙酰膽堿能受體基因(CHRNA7), DISC1, SCARB1, GNAO1, APOC3, CHRM3。
對(duì)于SRVS方法, 研究者通過(guò)交叉驗(yàn)證, 選出特征性篩選結(jié)果較好時(shí)的參數(shù), 在L1范數(shù)下, 權(quán)重因子α1∶α2=0.5∶0.5時(shí), 提取到的fMRI特征如表2所示。
表2 L1范數(shù)下提取的影像學(xué)特征Tab.2 Imaging features extracted under L1 norm
在表2中, 僅顯示了提取出的體素占所屬腦區(qū)總體素百分比前十的腦區(qū)。這里有一點(diǎn)需要注意的是, 不能簡(jiǎn)單地從百分比的大小來(lái)判定某一腦區(qū)與精神分裂癥相關(guān)性的大小, 只能表示該腦區(qū)受精神分裂癥的影響程度更大。比如, 頂下緣角回(左)13.97%大于中央前回(右)8.72%, 不能說(shuō)中央前回腦區(qū)與精神分裂癥的相關(guān)性就不如頂下緣角回腦區(qū)的, 只能從一定程度上說(shuō)明頂下緣角回腦區(qū)受精神分裂癥的影響程度要大于中央前回腦區(qū)的。其中, 中央前回、 枕上回、 頂下緣角回和角回與精神分裂癥相關(guān)[16-17]。內(nèi)側(cè)和旁扣帶腦回、 后扣帶回則是與記憶、 行為與情感有關(guān), 這與SZ在臨床上顯示的情感和行為等方面的障礙相一致。
將該條件下篩選出的SNP特征與之前學(xué)術(shù)界公認(rèn)的精神分裂癥的45個(gè)易感基因進(jìn)行對(duì)比, 發(fā)現(xiàn)有DAOA、 RELN、 HTR2A[18]和GABRB2屬于這45個(gè)易感基因, 如表3所示。
表3 L1范數(shù)下提取的SNP特征Tab.3 SNP features extracted under L1 norm
作為影像學(xué)和遺傳學(xué)聯(lián)合而形成的一個(gè)悄然興起的分支學(xué)科, 影像遺傳學(xué)從影像學(xué)角度來(lái)研究遺傳因素對(duì)不同個(gè)體所產(chǎn)生的影響, 臨床上主要用于對(duì)神經(jīng)精神疾病和腫瘤的輔助診斷和有效治療。PICA、 SRVS等多變量方法通過(guò)充分發(fā)掘和利用基因與影像等生物標(biāo)記數(shù)據(jù)內(nèi)在的結(jié)構(gòu)信息, 能夠分析易感基因與大腦結(jié)構(gòu)或者功能的相關(guān)性, 更好地揭示腦認(rèn)知行為或者相關(guān)疾病的產(chǎn)生機(jī)制。本文回顧了有關(guān)精神分裂癥疾病的影像遺傳學(xué)方法研究, 對(duì)mCCA、 jICA、 PICA和SRVS等方法的原理和特點(diǎn)做了介紹, 同時(shí)闡述了有關(guān)精神分裂癥影像遺傳學(xué)特征的最新進(jìn)展。
綜上所述, 影像遺傳學(xué)的研究對(duì)于理解大腦活動(dòng)和疾病方面能夠提供很大的幫助, 特別是對(duì)于某些遺傳性疾病。從最新的研究中我們能夠看到, PICA和SRVS等多變量分析方法能夠有助于找到精神分裂癥相關(guān)腦功能區(qū)和易感基因, 有助于精神分裂癥的輔助診斷和有效治療。當(dāng)然, 在影像遺傳學(xué)研究中, 根據(jù)分析的優(yōu)先級(jí)選擇合適的多變量方法而也是非常重要的, 這樣可以更好地闡明多模態(tài)之間的關(guān)系。
生物醫(yī)學(xué)工程學(xué)進(jìn)展2020年1期