陳炯環(huán),鮑勝利*,王嘯飛,李若凡
融合卷積與自注意力機制的基因型填補算法
陳炯環(huán)1,2,鮑勝利1,2*,王嘯飛1,2,李若凡1,2
(1.中國科學院 成都計算機應用研究所,成都 610213; 2.中國科學院大學,北京 100049)( ? 通信作者電子郵箱baoshengli@casit.com.cn)
基因型填補可以通過填補估算出在基因測序數(shù)據(jù)中未覆蓋的樣本區(qū)域彌補因技術限制導致的缺失,但現(xiàn)有的基于深度學習的填補方法不能有效捕捉到全序列位點間的連鎖關系,造成整體填補準確率低、批量序列填補準確率分散等問題。針對這些問題提出一種融合卷積與自注意力機制的填補方法——FCSA,使用兩種融合模塊構(gòu)成編解碼器組建網(wǎng)絡模型。編碼器融合模塊使用自注意力層得到全序列位點間的關聯(lián)度,將該關聯(lián)度融合到全局位點后再通過卷積層提取局部特征;解碼器融合模塊使用卷積對編碼后的低維向量進行局部特征重建,應用自注意力層對全序列建模并融合。使用多物種的動物基因數(shù)據(jù)進行模型訓練,并在Dog、Pig和Chicken數(shù)據(jù)集上進行比較驗證,結(jié)果表明,與SCDA(Sparse Convolutional Denoising Autoencoders)、AGIC(Autoencoder Genome Imputation and Compression)和U-net相比,F(xiàn)CSA在10%、20%和30%缺失率下的平均填補準確率均取得了最高值,且批量序列填補準確率的分散程度較?。幌趯嶒灥慕Y(jié)果也表明,這兩種融合模塊的設計能夠有效提升基因型填補的準確率。
基因型填補;卷積;自注意力;融合模塊;全序列建模
全基因組關聯(lián)分析(Genome-Wide Association Study, GWAS)能在全基因組范圍內(nèi)分析與識別出單核苷酸多態(tài)性(Single Nucleotide Polymorphism, SNP),并找出與疾病相關的位點[1]。進行GWAS這類下游任務需要使用位點覆蓋率較高的基因數(shù)據(jù),因此保證測序數(shù)據(jù)的覆蓋率是一個重要因素。測序數(shù)據(jù)中未覆蓋到區(qū)域的基因型未知,稱這些區(qū)域的位點為缺失位點。因此,對包含缺失位點的非全測序數(shù)據(jù)進行基因型填補(genotype imputation)是一項重要的任務。
基因型填補是根據(jù)已觀察到的基因型計算推斷未進行基因分型的等位基因的預測方法[2]?;蛐蛿?shù)據(jù)中的缺失很常見,導致這種缺失的因素很多,例如低檢出率、Hardy?Weinberg平衡的偏離以及大量的低頻位點變異[3],除遺傳性丟失外,僅因技術問題導致的檢測性缺失就有多種。此外,隨著基因芯片以及測序技術的發(fā)展,諸多商業(yè)化廠商針對動植物開發(fā)出不同的基因芯片,與全測序技術相比,使用基因芯片能極大地控制成本。現(xiàn)有基因芯片的測序能力涵蓋低、中、高密度,以奶牛為例,主要使用中密度基因芯片,而高密度芯片測序及全測序技術由于價格昂貴不具有大規(guī)模使用的現(xiàn)實意義。應用基因型填補可以將較低密度芯片數(shù)據(jù)填充至較高密度甚至全測序數(shù)據(jù),在不增加成本的情況下保證下游全基因組關聯(lián)分析等任務的準確性[4-5],因此,有必要實現(xiàn)一種高效且準確的基因型填補方法。
基因型填補能夠有效填補缺失位點的依據(jù)是基因之間存在連鎖不平衡(Linkage Disequilibrium, LD),即幾個位點在表達的過程中并非獨立進行,某個位點的表達與它所在區(qū)域的位點密切相關,原因是基因序列中一定區(qū)域內(nèi)的兩個位點之間的等位基因在多代遺傳中會出現(xiàn)非隨機組合的現(xiàn)象,也正是因為存在這種關聯(lián)關系,才可以去學習與捕獲強弱關系從而進行填補[6]。現(xiàn)有的基因型填補技術有兩種:一種方法是依靠許多樣本的基因組參考面板,這些樣本通常包含相同或相似的物種背景,通過計算并尋找現(xiàn)有面板數(shù)據(jù)中基因型之間的連鎖關聯(lián)性,從而對缺失基因進行填補。填補的方法主要包括基于隱馬爾可夫模型(Hidden Markov Model, HMM)以及蒙特卡洛馬爾可夫鏈(Markov Chain Monte Carlo, MCMC)等統(tǒng)計學的模型,與之對應的商用軟件有IMPUTE系列[7]、MACH[8]、fastPHASE[9]等,它們各具優(yōu)缺點,文獻[10]中對此進行了詳細介紹與總結(jié)。盡管傳統(tǒng)方法能夠完成這項任務,但由于HMM和MCMC模型本身的參數(shù)量不多,導致在面對海量基因樣本時不能有效擬合,參數(shù)的迭代學習也導致填補時間較長,并且這類模型依賴參考面板,具有較強的獨立性假設,很難挖掘出距離較長位點間的連鎖關系,因此迫切需要一款針對大樣本數(shù)據(jù)的填補準確率高且用時較短的方法模型[11]。另一種填補方法是在填補時不依靠基因組參考面板,而是通過模型對大量基因參數(shù)進行擬合,學習總體樣本中基因的總特征,再根據(jù)具體特征對缺失部分進行擬合,這就要求模型具有較強的泛化能力。本文提出的應用深度學習的填補方法就是基于無參考面板的思路進行研究。
近年來,深度學習的突破推動了人工智能的再次發(fā)展,它的諸多模型方法可以起到強特征提取器的作用,能夠很好地捕獲基因位點之間的連鎖關系。目前,將深度學習相關模型方法應用于基因型填補這一任務仍屬于開創(chuàng)性工作,市面上還沒有一款成熟的基于深度學習的填補工具。因此,本文提出一種融合卷積與自注意力機制的基因型填補方法FCSA(Fusing Convolution and Self-Attention),采用開源的動物測序數(shù)據(jù)作為支撐,將測序數(shù)據(jù)按照不同的比例隨機缺失,構(gòu)造缺失樣本與非缺失樣本并進行自監(jiān)督學習,從而對序列進行建模。FCSA的模型中提出了兩種融合模塊:編碼器融合模塊與解碼器融合模塊,并通過這兩種融合模塊構(gòu)建編解碼器。其中,編碼器融合模塊能夠通過多頭自注意力(Multi-head Self-Attention, MSA)機制計算全序列的關聯(lián)關系,融合到序列后再通過卷積層進行局部特征提取,使用該融合模塊層編碼,最終得到缺失基因序列的嵌入編碼表示;解碼器融合模塊先提取低維編碼的局部特征,再進行全序列的特征計算與融合,從而對編碼后的缺失基因型進行更完整的特征重建。本文主要工作如下:
1)提出一種基于深度神經(jīng)網(wǎng)絡的無參考面板基因型填補方法FCSA,并通過實驗驗證該方法能夠填補低密度測序,且填補準確率較現(xiàn)有基于無參考面板的深度學習方法均有提升。
2)對Transformer模塊提出四點改進,設計了兩種融合卷積與注意力機制的模塊(編碼器融合模塊與解碼器融合模塊)構(gòu)建模型,使用這兩種模塊構(gòu)建的編解碼器能夠兼顧序列的全局與局部特征,更合理地進行特征提取與重建,有效捕捉不同距離位點之間的連鎖關系。
3)驗證模型在多物種基因數(shù)據(jù)上的填補能力,說明了該模型具有較強的魯棒性,并通過消融實驗驗證了使用融合模塊及模塊中融合方式的有效性。
目前,將深度學習應用于生物基因?qū)用娴墓ぷ鬏^少,用于填補的相關工作仍處在一個探索的狀態(tài),SCDA(Sparse Convolutional Denoising Autoencoders)[12]使用了一種基于去噪自動編碼器的填補方法,該方法使用一維卷積神經(jīng)網(wǎng)絡構(gòu)建自動編碼器,并證實了該方法在填補正確率上優(yōu)于無參考面板的統(tǒng)計學模型;但卷積網(wǎng)絡在層數(shù)較少的情況下難以對離散數(shù)據(jù)的全局特征進行有效的融合與建模,當缺失率較高時,模型的去噪能力略顯不足。
受人工神經(jīng)網(wǎng)絡的啟發(fā),AGIC(Autoencoder Genome Imputation and Compression)[13]使用一種自動編碼器的填補方法,模型采用6層前饋神經(jīng)網(wǎng)絡搭建自動編碼器;但由于模型規(guī)模不大,參數(shù)量較少,輸入網(wǎng)絡的編碼數(shù)據(jù)僅28 b,一次能填補的位點僅為個位數(shù),填補效率極低。
近些年來,生成對抗網(wǎng)絡在基因數(shù)據(jù)生成領域取得了不錯的效果[14],但是,直接使用隨機噪聲生成該缺失樣本的非缺失對象并不現(xiàn)實。與基因生成的思路相似,使用帶有一定比例的缺失數(shù)據(jù)與完整的基因型數(shù)據(jù)聯(lián)合訓練生成器與判別器,以達到將帶有缺失位點數(shù)據(jù)生成至完整數(shù)據(jù)的效果。但是該網(wǎng)絡方法難以訓練,甚至生成的序列與真實數(shù)據(jù)結(jié)構(gòu)性差異較大。
基于圖像重建的思想,文獻[15]中提出了一種基于U?net的基因型填補方法,采用全卷積網(wǎng)絡和自動編碼器還原數(shù)據(jù)的分布,將缺失的基因型數(shù)據(jù)通過編碼器進行卷積和池化,再由解碼器將編碼后數(shù)據(jù)插值成目標尺寸,解碼過程中融合相應編碼層中的特征,完成對原始數(shù)據(jù)的重構(gòu)工作。但是基因數(shù)據(jù)是離散型數(shù)據(jù),相鄰基因型存在的連鎖關系與圖像中連續(xù)像素點的關系并不同,難以通過圖像重建的方式來捕獲基因型關聯(lián),因此在正確率上也存在一定的欠缺。
本文提出的FCSA模型包括編碼器與解碼器:編碼器負責對輸入的缺失基因型數(shù)據(jù)進行全局序列的關聯(lián)性計算、局部關鍵特征的提取和融合,從而捕獲序列之間的連鎖關系;解碼器用于編碼后的特征數(shù)據(jù)重建與恢復,以此完成原始數(shù)據(jù)的重建工作。在編碼器與解碼器中都使用了融合卷積與自注意力機制的融合模塊,這分別發(fā)揮了卷積神經(jīng)網(wǎng)絡強特征提取器以及自注意力機制對長距離數(shù)據(jù)建模的優(yōu)勢。
FCSA工作流程如圖1所示:處理并讀取用于基因填補的數(shù)據(jù),在此過程中劃分訓練集、驗證集、測試集;設置缺失比例并生成缺失位點索引矩陣,根據(jù)索引進行掩碼。在輸入模型前設置序列長度并劃分數(shù)據(jù),在設置批量大小后輸入模型進行訓練,最后通過計算訓練損失、驗證集損失、準確率、驗證集準確率對模型進行評估并得到最優(yōu)化模型。
針對數(shù)據(jù)格式對問題進行定義,定義參考面板一共包含個位點,模型一次能處理的序列長度為個位點,那么參考面板中包含的批量總數(shù)如下:
在訓練集中,完整的序列數(shù)據(jù)可以表示為:
那么對應的模型輸入的缺失樣本可以表示為:
對樣本進行編碼后,假設每個位點數(shù)據(jù)對應的維度大小為,則每次流經(jīng)模型的位點序列可以表示為:
圖1 FCSA工作流程
自動編碼器(AutoEncoder, AE)是一個無監(jiān)督的神經(jīng)網(wǎng)絡基礎模型,旨在通過學習編碼特征建模原始的數(shù)據(jù)表示,借助AE的思想,F(xiàn)CSA模型整體采用編解碼器的網(wǎng)絡結(jié)構(gòu),如圖2所示,模型包括一個編碼器、一個解碼器。其中,編碼器負責對輸入的帶有缺失的基因型數(shù)據(jù)進行特征提取,通過這個過程,模型可以提取輸入數(shù)據(jù)的重要特征并表示到多個數(shù)據(jù)通道中去,得到一個壓縮后的多通道特征向量; 編碼器負責將特征提取后的元素進行重構(gòu)與重新映射,通過最小化損失函數(shù)優(yōu)化輸入數(shù)據(jù)的重構(gòu),從而達到填補的目的。
圖2 編解碼器結(jié)構(gòu)示意圖
每一個帶有缺失基因型數(shù)據(jù)流經(jīng)模型得到填補后的完整基因數(shù)據(jù)的表示過程為:
整個FCSA模型由編碼器與解碼器構(gòu)成,如圖3所示。編碼器的作用是對帶有缺失位點的序列進行特征提取,得到原始序列中關鍵的連鎖關系。在編碼器中使用了三個Encoder Block融合模塊,它們在結(jié)構(gòu)上略有差異。由于第一個模塊輸入序列的維度較低,故采用2層3頭自注意力,計算序列的全局關聯(lián)度與輸入序列各位點進行融合以突出關聯(lián)特征。融合后的序列信息輸入卷積網(wǎng)絡有利于局部特征的提取,卷積操作能夠在輸入數(shù)據(jù)中捕捉到局部特征并生成一個更高維的特征映射,最大池化能夠?qū)矸e后的非重疊子區(qū)域進行最大值過濾,過濾出具有突出特征的位點。第二和第三個模塊采用2層4頭自注意力機制。三個融合模塊中的卷積核的輸出數(shù)量分別為32、64、128。
圖3 FCSA的網(wǎng)絡結(jié)構(gòu)
解碼器的作用是對編碼器壓縮后的特征向量進行重建,采用兩個Decoder Block與一個卷積層。序列數(shù)據(jù)流經(jīng)融合模塊的一維卷積層后重構(gòu)局部信息并降低維度,這個過程保留了原始位點的位置關系,注意力層計算全序列相似度并融合到位點序列,上采樣層重構(gòu)序列的關鍵信息。最后一層卷積重構(gòu)序列維度至編碼器輸入的原始維度,并使用Softmax函數(shù)進行激活。解碼器中所涉及的卷積層中卷積核的輸出數(shù)量分別為64、32、3。
Transformer模型[16]目前已成為自然語言處理領域的主導模型,在處理較長序列時表現(xiàn)出了非常好的效果。自注意力機制是Transformer模型中基礎的構(gòu)建模塊,它能夠通過一定方式計算該序列中不同位置元素之間的相似度,將序列中的每個元素進行關聯(lián)性建模,從而得到較長序列的表示。
通過與相乘得到相似度得分,經(jīng)過Softmax處理后與進行加權(quán),得到最終輸出,整個過程可以表示為:
卷積神經(jīng)網(wǎng)絡的優(yōu)點是能夠較好地對局部信息進行提取并保留位置信息,整體建模就需要增加卷積的層數(shù),由于基因型數(shù)據(jù)是長序列,通過增加卷積層來擴大感受野的成本極高。注意力機制的優(yōu)點是它能考慮到全時序信息,能夠更有效地獲得全局視野,但需額外引入并學習位置信息。因此,為了發(fā)揮兩者的優(yōu)勢,對Transformer模塊進行改進并提出兩種融合模塊,具體改進如下:
1)將Transformer原始模塊中的前饋網(wǎng)絡替換成一維卷積操作,這能更好地捕捉或重建局部特征;由于卷積操作可以學習到位點間的位置信息,因此不再需要位置編碼?;蛐蛄兄谢蛐褪请x散的,定義離散空間中的卷積計算如下:
2)使用多層MSA網(wǎng)絡,每層之間進行殘差連接與層歸一化,并在最后一層結(jié)束后融合輸入序列,目的是增強局部關聯(lián)性較強的位點特征,表示如下:
3)解碼器融合模塊重建出的序列要保留原始序列的位置信息,且編碼后序列的整體感受野較小,因此在解碼器融合模塊中先采用一維卷積重建局部信息,再采用注意力層加強序列間的連鎖關系,表示為:
4)在模塊中融入特征維度壓縮與重建的能力,編碼器提取帶有缺失的序列關系并逐步降維,解碼器根據(jù)序列關系恢復至原始序列,因此在編解碼器的最后添加下采樣(Subsampling)與上采樣(Upsampling)操作并配合Dropout來防止過擬合。
本文構(gòu)建的Encoder Block與Decoder Block融合模塊結(jié)構(gòu)如圖4所示。
圖4 編碼器和解碼器融合模塊
在構(gòu)建FCSA整體結(jié)構(gòu)后,由于序列中的位點信息是離散的,為了更準確地重構(gòu)序列位點的對應編碼,選擇使用交叉熵損失函數(shù)來優(yōu)化完整基因型序列與缺失序列的差距,公式如下:
本文使用的基因參考面板全部來源于Animal-ImputeDB的公共開源數(shù)據(jù)庫[18],該數(shù)據(jù)庫包含了13個動物物種的高質(zhì)量基因組,致力于從各種研究和數(shù)據(jù)庫中收集非人類動物的基因型數(shù)據(jù)和全基因組重測序數(shù)據(jù)。
本文實驗采用的數(shù)據(jù)集為VCF格式的二倍體基因型數(shù)據(jù)。由于不同的物種數(shù)據(jù)具有不同的相關模式,位點模式的分散程度也會影響填補的準確率,為了消除數(shù)據(jù)對模型填補準確率的影響,本次實驗選取采用三個物種的測序數(shù)據(jù),分別為chr1_chicken、chr38_dog和chr4_pig。
在使用數(shù)據(jù)前首先要對VCF格式文件中的二倍體基因數(shù)據(jù)進行預處理,將0|0替換為0,1|0或0|1替換為1,將1|1替換為2,編碼后的數(shù)據(jù)變?yōu)榱艘粋€由0、1、2組成的矩陣。
本文模型采用自監(jiān)督的訓練方式,設置缺失比例,通過編寫腳本隨機創(chuàng)建缺失位點并記錄其索引,該腳本可以統(tǒng)計基因數(shù)據(jù)中的位點量,根據(jù)設置的缺失比例生成一個隨機數(shù)組,通過隨機數(shù)組可以將對應位置的基因型數(shù)據(jù)重置,從而達到設置位點隨機缺失的效果。
根據(jù)問題性質(zhì),輸入網(wǎng)絡模型前對處理后的矩陣進行獨熱編碼,將編碼后的數(shù)據(jù)進行劃分,訓練集、驗證集、測試集分別占70%、10%、20%。
本文對比實驗、消融實驗的訓練及驗證過程的服務器配置為:AMD EPYC 7302 CPU @2 GHz,NVIDIA GeForce RTX 3090 GPU;64 GB RAM;FCSA模型與對比實驗模型全部基于Tensorflow 2.5.0、CUDA 11.2和Python 3.8環(huán)境完成。
模型的batch size設置為64,采用Adam優(yōu)化器,學習率設置為0.000 1,每次輸入模型的序列包含1 024個位點,網(wǎng)絡的預測結(jié)果包含在經(jīng)過Softmax函數(shù)之后的預測向量中,取概率最高的位置所對應的類別作為預測類型。
本文使用平均填補準確率()與每個批次序列填補準確率的標準差()對模型結(jié)果進行評估。缺失位點的位置可以通過記錄缺失基因型矩陣位點確定,通過比較原始基因型數(shù)據(jù)與填補結(jié)果數(shù)據(jù)在缺失位置上是否保持一致來計算吻合率,所得到的結(jié)果稱為填補準確率,表示為:
為了驗證FCSA的填補性能與泛化能力,將它應用到三款開源動物的參考面板中,針對不同物種進行訓練后,分別在10%、20%、30%的缺失率下,在不同物種的測試集上進行驗證,計算所有批次序列的填補準確率的平均值,每個物種在不同缺失率下的與如表1所示。由表1可以看出,對于這三組數(shù)據(jù)集,F(xiàn)CSA對Dog數(shù)據(jù)集的擬合效果最好,在三種缺失率下的分別為93.69%、93.52%、93.41%。實驗結(jié)果表明,隨著缺失率的升高,F(xiàn)CSA依然具備較好的健壯性,依次僅下降0.17和0.11個百分點。但是Chicken與Pig兩個數(shù)據(jù)集上的卻低于Dog,而在整體較低的Chicken數(shù)據(jù)集中,F(xiàn)CSA在10%的缺失率下的依然到達了84.62%。不同物種基因平均填補準確率上的差異說明了物種間基因數(shù)據(jù)的復雜程度不同,也驗證了設計多組物種數(shù)據(jù)進行對比實驗的必要性。
表1 三個物種數(shù)據(jù)在不同缺失率下的平均填補準確率
3.4節(jié)的實驗結(jié)果顯示,F(xiàn)CSA在Dog數(shù)據(jù)集上表現(xiàn)較好,但在Chicken數(shù)據(jù)集上表現(xiàn)較差。為了驗證FCSA在基因型填補中的先進性,分別在Dog與Chicken數(shù)據(jù)集上設計對比實驗,并選取SCDA[12]、AGIC[13]、U?net[15]作為基線,實驗結(jié)果如表2所示。表2中Dog數(shù)據(jù)集的填補結(jié)果表明,F(xiàn)CSA在不同缺失率下的達到了四種模型中的最高值;SCDA與AGIC的相當,但是FCSA在每個批量序列填補準確率的分散程度略高于SCDA方法,而AGIC雖然較高,但是批次序列的填補準確率比較分散,較高;除此之外,U?net的與表現(xiàn)最差。由Chicken數(shù)據(jù)集的結(jié)果可以看出,不同方法對該數(shù)據(jù)集的整體低于Dog數(shù)據(jù)集,這表明不同物種位點間具有不同的相關模式,分散及異質(zhì)程度不同。本文FCSA方法在不同缺失率下的仍達到了四種模型中的最高值,批次序列填補準確率的分散程度也最低,這表明在復雜的連鎖關系中,兩種融合模塊能夠較充分地提取并融合局部與全序列信息,這是其余三種單模式填補方法所不具備的。
綜上可知,本文FCSA方法在平均填補準確率達到了最高水平,且批量序列填補準確率的分散程度較低;SCDA的平均填補準確率低于本文方法;AGIC的平均填補準確率僅次于本文方法,但是批量序列的填補準確率在兩組數(shù)據(jù)上都較為分散,導致部分序列填補準確率極高而部分序列填補準確率極低,這是模型建模序列長度太短所導致的;U-net方法在兩組數(shù)據(jù)集上均表現(xiàn)出了最差的效果,這說明將圖像重建的思想應用于基因型填補領域并不是最合適的。
表2 Dog和Chicken數(shù)據(jù)集上的對比實驗結(jié)果
消融實驗主要是探究兩種融合模塊的有效性。針對填補問題,引入了如下的對比實驗:FCSA-a表示兩融合模塊不采用注意力機制;FCSA-b表示編碼器融合模塊中先捕捉局部信息再整體建模并融合;FCSA-c表示解碼器融合模塊中先整體建模再重建局部信息并融合。
針對消融實驗的網(wǎng)絡模型,在連鎖關系不易捕捉的Chicken數(shù)據(jù)集上進行實驗,為了驗證FCSA在較大缺失率下的健壯性,僅測試缺失率為30%的情況,平均填補準確率與批量序列的填補準確率如表3、圖5所示。可以看出,僅僅在基于卷積的網(wǎng)絡模型中堆疊注意力機制對提高整個填補準確率作用不大,甚至效果會更差,這也反映了FCSA模型中編碼器融合模塊與解碼器融合模塊設計的合理性。這也說明本文模型設計的融合模塊有助于捕獲基因位點之間的關聯(lián)關系,能夠有效地對缺失位點進行填補。
表3 消融實驗結(jié)果
圖5 批量序列的平均填補準確率分布
現(xiàn)有的基于深度學習的基因型填補方法不能有效建模并計算長序列位點間的連鎖關系,造成了總體填補準確率低、批量序列填補準確率較分散的問題。因此,本文設計了一種融合卷積與自注意力機制的填補方法FCSA,改進原始Transformer模塊并提出兩種融合模塊來構(gòu)建網(wǎng)絡模型,兩種融合模塊能兼顧局部與全局位點的關聯(lián)模式,在不丟失位置信息的前提下對缺失序列進行特征提取與重建。通過對比實驗驗證了FCSA在相關模式不同的物種序列中均提高了填補準確率、降低了批量序列填補準確率的分散度,并通過消融實驗驗證了兩種融合模塊設計的有效性。進行多物種對比實驗時,意識到可以實現(xiàn)基于多物種數(shù)據(jù)的預訓練模型,但因硬件限制并沒有展開設計,今后可以在多物種基因數(shù)據(jù)的預訓練及模型蒸餾上開展進一步研究。
[1] International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome[J]. Nature, 2001, 409(6822): 860-921.
[2] LI Y, WILLER C, SANNA S, et al. Genotype imputation[J]. Annual Review of Genomics and Human Genetics, 2009, 10: 387-406.
[3] WIGGINTON J E, CUTLER D J, ABECASIS G R. A note on exact tests of Hardy-Weinberg equilibrium[J]. AJHG: The American Journal of Human Genetics, 2005, 76(5): 887-893.
[4] PEI Y F, LI J, ZHANG L, et al. Analyses and comparison of accuracy of different genotype imputation methods[J]. PLoS ONE, 2008, 3(10): No.e3551.
[5] ZHANG Z, DRUET T. Marker imputation with low-density marker panels in Dutch Holstein cattle[J]. Journal of Dairy Science, 2010, 93(11): 5487-5494.
[6] 李樂義,邵東東,丁向東,等.SNP芯片基因型填充至測序數(shù)據(jù)的策略[J].中國科技論文,2016,11(12):1431-1436. (LI L Y, SHAO D D, DING X D, et al. Research on genotype imputation from SNP chip data to whole-genome sequence data[J]. China Sciencepaper, 2016, 11(12): 1431-1436.)
[7] MARCHINI J, HOWIE B, MYERS S, et al. A new multipoint method for genome-wide association studies by imputation of genotypes[J]. Nature Genetics, 2007, 39(7): 906-913.
[8] HOWIE B N, DONNELLY P, MARCHINI J. A flexible and accurate genotype imputation method for the next generation of genome-wide association studies[J]. PLoS Genetics, 2009, 5(6): No.e1000529.
[9] LI Y, WILLER C J, DING J, et al. MaCH: using sequence and genotype data to estimate haplotypes and unobserved genotypes[J]. Genetic Epidemiology, 2010, 34(8): 816-834.
[10] SCHEET P, STEPHENS M. A fast and flexible statistical model for large-scale population genotype data: applications to inferring missing genotypes and haplotypic phase[J]. AJHG: The American Journal of Human Genetics, 2006, 78(4): 629-644.
[11] BROWNING B L, BROWNING S R. Genotype imputation with millions of reference samples[J]. AJHG: The American Journal of Human Genetics, 2016, 98(1): 116-126.
[12] CHEN J, SHI X. Sparse convolutional denoising autoencoders for genotype imputation[J]. Genes, 2019, 10(9): No.652.
[13] ISLAM T, KIM C H, IWATA H, et al. A deep learning method to impute missing values and compress genome-wide polymorphism data in rice[C]// Proceedings of the 14th International Joint Conference on Biomedical Engineering Systems and Technologies — Volume 3. Setúbal: SciTePress, 2021: 101-109.
[14] 曹一珉,蔡磊,高敬陽.基于生成對抗網(wǎng)絡的基因數(shù)據(jù)生成方法[J].計算機應用,2022,42(3):783-790. (CAO Y M, CAI L, GAO J Y. Gene data generation method based on generative adversarial network[J]. Journal of Computer Applications, 2022, 42(3): 783-790.)
[15] 殷力. 基于深度學習的基因型填充方法研究[D]. 北京:中國科學院大學, 2020: 30-40.(YIN L. Genotype imputation method based on deep learning[D]. Beijing: University of Chinese Academy of Sciences, 2020: 30-40.)
[16] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[17] BA J L, KIROS J R, HINTON G E. Layer normalization[EB/OL]. [2023-02-23].https://arxiv.org/pdf/1607.06450.pdf.
[18] YANG W, YANG Y, ZHAO C, et al. Animal-ImputeDB: a comprehensive database with multiple animal reference panels for genotype imputation[J]. Nucleic Acids Research, 2020, 48(D1): D659-D667.
Genotype imputation algorithm fusing convolution and self-attention mechanism
CHEN Jionghuan1,2, BAO Shengli1,2*, WANG Xiaofei1,2, LI Ruofan1,2
(1,,610213,;2,100049,)
Genotype imputation can compensate for the missing due to technical limitations by estimating the sample regions that are not covered in gene sequencing data with imputation, but the existing deep learning-based imputation methods cannot effectively capture the linkage among complete sequence loci, resulting in low overall imputation accuracy and high dispersion of batch sequence imputation accuracy. Therefore, FCSA (Fusing Convolution and Self-Attention), an imputation method that fuses convolution and self-attention mechanism, was proposed to address the above problems, and two fusion modules were used to form encoder and decoder to construct network model. In the encoder fusion module, a self-attention layer was used to obtain the correlation among complete sequence loci, and the local features were extracted through the convolutional layer after fusing the correlation to global loci. In the decoder fusion module, the local features of the encoded low-dimensional vector were reconstructed by convolution, and the complete sequence was modeled and fused by self-attention layer. The genetic data of multiple species of animals were used for model training, and the comparison and validation were carried out on Dog, Pig and Chicken datasets. The results show that compared to SCDA (Sparse Convolutional Denoising Autoencoders), AGIC (Autoencoder Genome Imputation and Compression) and U-net, FCSA achieves the highest average imputation accuracy at 10%, 20% and 30% missing rate. Ablation experimental results also show that the design of the two fusion modules is effective in improving the accuracy of genotype imputation.
genotype imputation; convolution; self-attention; fusion module; full sequence modeling
1001-9081(2023)11-3534-06
10.11772/j.issn.1001-9081.2022111756
2022?11?24;
2023?02?06;
中國科學院“西部青年學者”項目(RRJZ2021003)。
陳炯環(huán)(1998—),男,山東濰坊人,碩士研究生 ,主要研究方向:機器學習、大數(shù)據(jù)系統(tǒng)、大規(guī)模數(shù)據(jù)分析; 鮑勝利(1973—),男,安徽黃山人,研究員,博士,主要研究方向:軟件工程、大數(shù)據(jù)智能; 王嘯飛(1997—),男,湖南慈利人,碩士研究生,主要研究方向:機器學習、推薦算法; 李若凡(1997—),男,甘肅蘭州人,碩士研究生,主要研究方向:機器學習、時序預測。
TP391.1
A
2023?02?09。
This work is partially supported by “Western Young Scholars” Project of Chinese Academy of Sciences (RRJZ2021003).
CHEN Jionghuan, born in 1998, M. S. candidate. His research interests include machine learning, big data system, large-scale data analysis.
BAO Shengli, born in 1973, Ph. D., research fellow. His research interests include software engineering, big data intelligence.
WANG Xiaofei, born in 1997, M. S. candidate. His research interests include machine learning, recommendation algorithm.
LI Ruofan, born in 1997, M. S. candidate. His research interests include machine learning, time series forecasting.