• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進生成式對抗網(wǎng)絡(luò)的編碼DNA 分子識別

      2021-04-10 05:50:26隨學杰王慧鋒顏秉勇
      關(guān)鍵詞:孔道準確率卷積

      隨學杰, 王慧鋒, 顏秉勇

      (華東理工大學 1. 信息科學與工程學院;2. 化學與分子工程學院,上海 200237)

      作為最具前景的第3 代DNA 測序技術(shù),納米通道單分子檢測技術(shù)引起了廣大研究者的興趣[1-4]。該技術(shù)的基本原理是在嵌有納米孔的磷脂雙分子層兩側(cè)施加電壓,電解液中的離子在電場力驅(qū)動下穿過納米孔,產(chǎn)生微弱的開孔電流,當有DNA、RNA、氨基酸、金屬離子等分子穿過納米孔時,由于分子在納米孔道的占位改變了離子流量,將產(chǎn)生pA 級的阻斷電流信號[5-6]。通過對阻斷信號進行分析,可得到分子在溶液中的濃度、分子與孔的相互作用、分子類型、堿基序列等信息。傳統(tǒng)的數(shù)據(jù)分析方法是依據(jù)阻斷信號的時間和電流散點圖分布實現(xiàn)分子類別的識別,然而,由于低信噪比、DNA 鏈折疊和纏繞、分子類別間信號重疊等原因,導(dǎo)致傳統(tǒng)方法對分子的識別率較低[7]。為提高納米孔道信號的識別率,可通過改進實驗條件和儀器設(shè)備精度等方法提高納米孔測量的電流和時間分辨率,但這些方法通常會增加實驗的復(fù)雜度和難度,或達到難以突破的物理極限[8]。為提高納米孔道單分子檢測中對單個分子阻斷信號的識別精度,發(fā)展高效且智能的納米孔道數(shù)據(jù)分析識別方法具有重大意義[9-11]。

      在機器學習和深度學習領(lǐng)域,樣本不平衡是指在分類學習算法中,不同類別樣本的數(shù)據(jù)量相差懸殊,導(dǎo)致以總體準確率為目標的分類任務(wù)中過多地關(guān)注多數(shù)類,從而使少數(shù)類樣本的分類性能下降,模型準確性較差[12-14]。由于納米孔道對不同類型單分子信號的捕獲率存在著巨大差異,因此基于深度學習模型對納米孔道單分子信號進行分類訓(xùn)練時存在數(shù)據(jù)集不平衡的問題,進而影響模型對單個分子識別的準確率。Sui 等[15]針對單級阻斷事件提出了基于HMM-AdaBoost 的分類模型,對阻斷信號有重疊的AA3和GA3分子進行了識別,Aerolysin 納米孔道對AA3分子的捕獲率大于對GA3分子的捕獲率,導(dǎo)致訓(xùn)練集中兩種分子的數(shù)量比約為3∶1。Karolis 等[16]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的QuipuNet 模型,對編碼為“000”~“111”的8 種DNA 分子和有無蛋白質(zhì)綁定進行分類,訓(xùn)練集中編碼為“011”的分子與編碼為“100”的分子數(shù)量比為17∶1 等。從分類結(jié)果可以觀察到,少數(shù)類樣本的分類準確率均低于其他類別。多數(shù)基于機器學習和深度學習的分類任務(wù)研究表明,解決樣本不均衡問題,增加訓(xùn)練樣本數(shù)據(jù)量,可顯著提高模型的分類性能[17]。

      生成式對抗網(wǎng)絡(luò)是一種基于對抗策略的生成式模型,可生成與訓(xùn)練樣本分布相同的仿真樣本,在深度學習、圖像領(lǐng)域和序列數(shù)據(jù)等領(lǐng)域都受到廣泛關(guān)注[18-19]。本文通過改進深度卷積生成式對抗網(wǎng)絡(luò)(Deep Convolutional Generative Adversarial Networks,DCGAN)模型,研究類別不平衡的納米孔道單分子數(shù)據(jù)集,并實現(xiàn)數(shù)據(jù)集的擴充與分類。首先對數(shù)據(jù)進行預(yù)處理,并將所有分子的阻斷事件處理為相同長度;然后使用改進DCGAN 模型對少數(shù)類樣本數(shù)據(jù)集進行擴充,生成相應(yīng)分子的仿真阻斷信號;最后應(yīng)用QuipuNet 卷積神經(jīng)網(wǎng)絡(luò)對擴充前后的數(shù)據(jù)集進行分類。本文方法可顯著改善納米孔道對分子捕獲率不同所帶來的數(shù)據(jù)集不平衡問題,不僅可提高單個分子阻斷事件的識別準確率,同時對深度學習等人工智能算法應(yīng)用于納米孔道研究提供了新的數(shù)據(jù)處理方法。總流程圖如圖1 所示。

      1 數(shù)據(jù)集描述

      1.1 數(shù)據(jù)來源

      數(shù)據(jù)來源于文獻[18]的多通道蛋白質(zhì)檢測實驗。由32 個納米通道產(chǎn)生的58178個阻斷事件被存儲至HDF5 文件中,包含“000”~“111”8種編碼DNA分子的阻斷信息,每個分子被記錄了納米通道編號、編碼信息、有無蛋白質(zhì)綁定、表征阻斷信號的電流序列等信息。

      1.2 數(shù)據(jù)預(yù)處理

      采用閾值濾波[16]去除由于DNA 片段不完整、分子與孔道的非特異性相互作用而產(chǎn)生的異常阻斷信號,對數(shù)據(jù)集進行歸一化處理,從而消除納米孔道作用時間差異所引起的阻斷信號變化。由于卷積神經(jīng)網(wǎng)絡(luò)輸入信號維度固定,為使阻斷信號長度相同,采用如下處理方法:長度大于700 的阻斷信號,保留前700 個數(shù)據(jù)點;取樣本集中所有阻斷信號開孔電流的前50 個數(shù)據(jù)點,計算其均值為0.009 5,對長度小于700 的信號,用均值為0、標準差為0.0095的高斯白噪聲補齊至長度為700。

      2 結(jié)果與討論

      2.1 基于改進DCGAN 的數(shù)據(jù)集平衡

      Goodfellow 等[20]提出的生成式對抗網(wǎng)絡(luò)是一種基于博弈理論擴充數(shù)據(jù)集的方法,最初用于圖像的生成。生成式對抗網(wǎng)絡(luò)由生成器(Generator,G)和判別器(Discriminator,D)兩部分組成,其中生成器接收隨機噪聲用于學習和捕捉真實數(shù)據(jù)集的分布,并生成與之相似的新數(shù)據(jù)集;判別器的功能是一個二分類器,判斷數(shù)據(jù)是來自真實數(shù)據(jù)集還是由生成器生成的偽數(shù)據(jù)集。訓(xùn)練過程中,生成器的目標是盡量生成與真實數(shù)據(jù)相似的偽數(shù)據(jù),使判別器難以區(qū)分;而判別器的目標是盡量辨別出真實數(shù)據(jù)和偽數(shù)據(jù),最終達到納什平衡,即判別器無法判斷數(shù)據(jù)是否來自生成器。該模型繞過了求解似然函數(shù)的困難,可直接生成樣本,從而擬合訓(xùn)練數(shù)據(jù)的分布。

      圖1總流程圖Fig.1General flow diagram

      DCGAN 對原始生成式對抗網(wǎng)絡(luò)的改進[21]:(1)采用帶步長的卷積代替D 中的池化層;(2)在D 和G中加入批量標準化(Batch Normalization, BN)層,加快模型的收斂速度;(3)去除全連接層;(4)在G 中,除最后一層激活函數(shù)使用tanh,其余層的激活函數(shù)為ReLU;(5)在D 中,均使用LeakReLU 激活函數(shù),該激活函數(shù)可保證導(dǎo)數(shù)總是不為零,能減少靜默神經(jīng)元的出現(xiàn)。

      圖2生成器和判別器的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2Network structure of generator and discriminator

      本文以DCGAN 為基本框架,設(shè)計了適合納米孔道單分子數(shù)據(jù)分析的網(wǎng)絡(luò)模型結(jié)構(gòu)(如圖2 所示),包含生成器和判別器兩部分。G 的輸入為服從正態(tài)分布、長度為100 的特征向量,由4 層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成。其中,卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)為Conv1d+BN+ReLu,最后一層采用tanh 激活函數(shù),卷積核大小為3、3、3。D 的輸入為真實樣本 x 和G生成的偽樣本G( z ),主要由3 層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,特征圖大小按16、32、64 逐級遞增,相應(yīng)的卷積核為7、5、3,使用LeakRelu 激活函數(shù),最后經(jīng)過一個全連接層,由sigmod 函數(shù)判斷當前樣本為真實樣本(標簽為1),或為偽樣本(標簽為0)。tanh、ReLU 和LeakReLU 激活函數(shù)表達式如式(1)~式(3)所示。

      訓(xùn)練過程中,batch_size 設(shè)為64,初始學習率learning_rate=0.000 1, 采用Adam 優(yōu)化算法訓(xùn)練600次。因編碼DNA 分子的標簽已知,本文在目標函數(shù)中引入標簽信息,構(gòu)成條件約束,解決深度卷積對抗網(wǎng)絡(luò)訓(xùn)練太過自由的問題。目標函數(shù)用V(D,G)表示,如下式所示。

      其中:x 為真實樣本,z 為隨機噪聲,E 表示數(shù)據(jù)分布,D(x|y)為判別器D 判斷真實樣本是否真實的概率,D(G(z))為判別器D 判斷生成器G 生成的偽樣本是否真實的概率。為防止判別器過于強大而造成訓(xùn)練不平衡,使用標簽平滑,即當判斷為正樣本時,用0.95 代替1。以編碼為“100”的分子為例,圖3 示出了模型在不同的訓(xùn)練次數(shù)生成的阻斷事件。

      2.2 編碼DNA 分子的識別

      原始數(shù)據(jù)集中,編碼為“011”的分子在實驗中的捕獲率最高,對應(yīng)的阻斷事件最多;而編碼為“100”和“010”的分子捕獲率較低,僅占“011”數(shù)據(jù)集的8%和23%,造成數(shù)據(jù)集的類別不平衡。將各阻斷事件預(yù)處理后,使用上述改進DCGAN,對除“011”編碼之外的7種編碼DNA 分子的阻斷事件進行擴充。分別將原始數(shù)據(jù)集與平衡后的編碼DNA 載體數(shù)據(jù)集作為QuipuNet 的輸入,其中,兩次實驗的測試集大小相同。為驗證該網(wǎng)絡(luò)生成數(shù)據(jù)集的有效性,采用混淆矩陣以及平均準確率作為評價標準?;煜仃囀且灶A(yù)測標簽為橫坐標、真實標簽為縱坐標的交叉表,用以直觀展示各類別分類情況。平均準確率的計算公式如下:

      圖3編碼為“100”的DNA 分子的阻斷事件生成過程Fig.3Generation process for blockage event of barcode ‘100’

      其中:n 為類別數(shù);Ni為第i 類別中樣本的數(shù)量;Ti為第i 類別中預(yù)測正確的樣本數(shù)。QuipuNet 包含8層卷積網(wǎng)絡(luò),基本結(jié)構(gòu)為Conv1d+BN+ReLU,卷積核大小為{7,7,5,5,3,3},特征圖大小分別為{64,64,128,128,256,256},最后一層為softmax 分類器,進行8 分類。訓(xùn)練時,batch_size 設(shè)為32,使用Adam 優(yōu)化算法,初始學習率為0.001,損失函數(shù)選擇交叉熵損失函數(shù),表達式如下:

      將測試集送入訓(xùn)練好的QuipuNet 模型,得到的混淆矩陣如圖5 所示?;煜仃嚨臋M坐標為預(yù)測標簽,縱坐標為真實標簽,對角線即為各類別的分類準確率,顏色深淺代表數(shù)值的大小,混淆矩陣右邊為對應(yīng)的各類別訓(xùn)練數(shù)據(jù)的規(guī)模??梢姡褂酶倪MDCGAN 對數(shù)據(jù)集進行平衡后,少數(shù)類別的分類準確率具有明顯的提升。平衡前后編碼為“100”極少數(shù)類樣本的分類準確率由0.82 提升至0.96,編碼為“010”的分子的準確率由0.89 提升至0.93,由于二者在原始數(shù)據(jù)集中本身所占比例不同,識別準確率存在一定差異。此外,“110”和“001”等分子的識別準確率也有了一定幅度的提升。可見,在對數(shù)據(jù)集進行平衡后,少數(shù)類分子信號的識別準確率獲得了顯著提升,均達到0.93 及以上,總體平均準確率由0.92 提升至0.96,說明改進DCGAN 可用于生成阻斷事件以平衡數(shù)據(jù)集,從而提高混合分子中捕獲率低的分子的識別準確率。

      2.3 不同數(shù)據(jù)集平衡方法分類結(jié)果

      目前常用的數(shù)據(jù)集擴充方法有重采樣法和添加高斯噪聲等[22-23],為進一步驗證改進DCGAN 模型在納米孔道數(shù)據(jù)分析中的有效性,將兩種傳統(tǒng)擴充方法與改進DCGAN 模型進行對比。重采樣法對少數(shù)樣本進行有放回抽樣m 次,數(shù)據(jù)集的數(shù)量與圖5(b)中各類別訓(xùn)練數(shù)據(jù)集大小相等;噪聲法在抽樣得到的阻斷電流信號上添加白噪聲。分別將兩種數(shù)據(jù)集送入分類模型,經(jīng)不同擴充數(shù)據(jù)集訓(xùn)練后的QuipuNet模型對測試集的平均識別準確率如表1 所示??芍帽疚姆椒ǖ玫降钠胶鈹?shù)據(jù)集訓(xùn)練QuipuNet 后,測試集的分類準確率較高。重采樣法使數(shù)據(jù)集中含有較多重復(fù)樣本,尤其是數(shù)據(jù)傾斜較為嚴重的編碼為“100”分子的阻斷事件,使得模型產(chǎn)生過擬合,降低準確率。而噪聲法在一定程度上增加了數(shù)據(jù)的多樣性,但所加隨機噪聲的大小不易控制。對比結(jié)果表明,兩種傳統(tǒng)的數(shù)據(jù)集擴充方法不適用于納米孔道數(shù)據(jù)集的擴充,將大數(shù)據(jù)分析方法應(yīng)用到納米通道數(shù)據(jù)分析領(lǐng)域時,本文方法能在一定程度上解決納米通道對分子捕獲率不同而造成的數(shù)據(jù)集不平衡問題,提高分類準確率。

      圖4訓(xùn)練準確率變化圖Fig.4Diagram of training accuracy

      圖5模型在不同訓(xùn)練集下的測試數(shù)據(jù)的混淆矩陣Fig.5Confusion matrix of test data for model trained with different datasets

      表1不同數(shù)據(jù)擴充方法的分類結(jié)果Table1Classification results using different data augmentation methods

      3 結(jié) 論

      納米孔道單分子阻斷信號存在重疊或阻斷臺階不明顯的問題,使用傳統(tǒng)散點圖法較難進行區(qū)分,同時,由于納米孔對分子的捕獲率不同,致使不同分子阻斷事件數(shù)量不平衡,進而影響模型的準確率?;诰幋aDNA 分子的阻斷事件,本文將改進DCGAN用于少數(shù)類單分子信號樣本的擴充,避免類間不平衡問題。通過與原始數(shù)據(jù)集以及由重采樣法和噪聲法擴充的數(shù)據(jù)集相比,本文方法顯著提高了模型訓(xùn)練后對單分子的識別準確率。此外,本文的研究也展示了生成式對抗網(wǎng)絡(luò)擴充訓(xùn)練數(shù)據(jù)的方法在納米孔道單分子數(shù)據(jù)分析算法研究中的重要意義和作用,并可進一步用于基于納米孔道的復(fù)雜DNA 測序數(shù)據(jù)或基于多測量方法的納米孔道數(shù)據(jù)分析研究中。

      猜你喜歡
      孔道準確率卷積
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      基于ANSYS的液壓集成塊內(nèi)部孔道受力分析
      接觸壓力非均勻分布下彎曲孔道摩阻損失分析
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      高速公路車牌識別標識站準確率驗證法
      基于傅里葉域卷積表示的目標跟蹤算法
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      杭州市| 延津县| 榆中县| 右玉县| 搜索| 额尔古纳市| 兰考县| 阳新县| 买车| 云龙县| 武清区| 辽中县| 文水县| 河间市| 门头沟区| 孝感市| 江西省| 洞头县| 越西县| 揭阳市| 涟水县| 文水县| 宜阳县| 额尔古纳市| 永川市| 胶南市| 西盟| 景德镇市| 迁西县| 宝兴县| 汤原县| 湟源县| 雷山县| 肥西县| 泸西县| 甘南县| 惠水县| 东丽区| 满洲里市| 文昌市| 皮山县|