• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用雙樹復(fù)小波特征進(jìn)行蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)

      2022-02-24 12:36:30高翠芳魯海燕
      關(guān)鍵詞:雙樹特征向量紋理

      陳 璐,高翠芳,魯海燕

      江南大學(xué) 理學(xué)院,江蘇 無錫 214122

      蛋白質(zhì)是生物生命活動(dòng)的重要組成部分,主要由20種天然氨基酸組成,這些氨基酸不同的排列順序和個(gè)數(shù)使得蛋白質(zhì)具有多樣的二級(jí)結(jié)構(gòu),根據(jù)Levitt和Chothia提出的蛋白質(zhì)結(jié)構(gòu)分類,蛋白質(zhì)通常分為四種類別:All-α、All-β、α/β和α+β類,蛋白質(zhì)二級(jí)結(jié)構(gòu)分類對(duì)于更深入研究蛋白質(zhì)三級(jí)結(jié)構(gòu)和蛋白質(zhì)的功能與相互作用具有重要意義。然而,隨著基因組和蛋白質(zhì)科學(xué)的快速發(fā)展,蛋白質(zhì)結(jié)構(gòu)分類的實(shí)驗(yàn)注釋滯后于蛋白質(zhì)數(shù)據(jù)庫規(guī)模的急劇擴(kuò)大。因此,急需開發(fā)自動(dòng)確定和識(shí)別蛋白質(zhì)結(jié)構(gòu)類別的預(yù)測(cè)方法[1]。

      預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)通常有兩個(gè)步驟。首先,不同長度的蛋白質(zhì)序列通過特征提取可以用固定長度的特征向量來表示,再將特征向量輸入到某種分類算法進(jìn)行預(yù)測(cè)。對(duì)于蛋白質(zhì)序列特征提取研究,已經(jīng)有學(xué)者提出了數(shù)理統(tǒng)計(jì)方法和頻譜分析方法,如氨基酸組分特征[2]、偽氨基酸組成[3]、二肽及多肽組成[4-5]、多重進(jìn)化矩陣[6]、基因序列信息[7]以及不同特征的融合等。同時(shí)也產(chǎn)生了大量的預(yù)測(cè)算法,其中包括統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法,如最近鄰方法(KNN)[8]、隱馬爾可夫模型(HMM)[9]、貝葉斯網(wǎng)絡(luò)[10]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[11]和支持向量機(jī)(SVM)[12]等。

      總結(jié)前人的研究可以發(fā)現(xiàn),在將蛋白質(zhì)序列轉(zhuǎn)化為距離矩陣后,將其視作一種紋理圖像,使用灰度共生矩陣和灰度直方圖統(tǒng)計(jì)等方法提取其特征,輸入分類器分類結(jié)果不是很高,為了改善這一問題,本文引入小波變換提取距離矩陣中的特征。雙樹復(fù)小波變換源于解決傳統(tǒng)的二維離散實(shí)小波變換在圖像處理中存在的一些局限問題,在圖像處理領(lǐng)域取得了較好的使用效果[13-14]。雙樹復(fù)小波變換使用兩對(duì)濾波器組對(duì)圖像實(shí)現(xiàn)L級(jí)分解,用每個(gè)尺度下得到的6個(gè)方向子帶計(jì)算它們的能量與標(biāo)準(zhǔn)差,依此構(gòu)造特征向量。本文使用雙樹復(fù)小波變換完成對(duì)轉(zhuǎn)化后的蛋白質(zhì)距離矩陣的特征提取,后文中的實(shí)驗(yàn)證明此方法可以有效提高蛋白質(zhì)二級(jí)結(jié)構(gòu)的分類精度。

      1 材料與方法

      1.1 數(shù)據(jù)集

      本文使用兩個(gè)數(shù)據(jù)集,它們分別來自文獻(xiàn)[15]和文獻(xiàn)[16],兩個(gè)數(shù)據(jù)集中蛋白質(zhì)序列的Cα原子三維坐標(biāo)均來自PDB數(shù)據(jù)庫。在下載數(shù)據(jù)的過程中發(fā)現(xiàn),文獻(xiàn)中有些蛋白質(zhì)數(shù)據(jù)在PDB數(shù)據(jù)庫中不存在,故本文選取Cα原子三維數(shù)據(jù)完整的蛋白質(zhì)序列,最后得到第一個(gè)數(shù)據(jù)集總共包含197個(gè)蛋白質(zhì),其中48個(gè)All-α類、60個(gè)All-β、45個(gè)αβ類和44個(gè)α+β類,下文簡(jiǎn)稱數(shù)據(jù)集A,第二個(gè)數(shù)據(jù)集總共包含1 656個(gè)蛋白質(zhì),其中440個(gè)All-α類、437個(gè)All-β類、342個(gè)αβ類和437個(gè)α+β類,下文簡(jiǎn)稱數(shù)據(jù)集B。兩個(gè)數(shù)據(jù)集中所含各蛋白質(zhì)二級(jí)結(jié)構(gòu)數(shù)據(jù)如表1所示。

      表1 數(shù)據(jù)集Table 1 Data sets

      1.2 方法

      1.2.1 距離矩陣中的紋理信息

      建立預(yù)測(cè)方法的關(guān)鍵是提取蛋白質(zhì)序列特征,使用蛋白質(zhì)骨架描述其二級(jí)結(jié)構(gòu),也就是使用Cα原子的三維坐標(biāo),計(jì)算每條蛋白質(zhì)鏈上所有Cα原子兩兩之間的距離,構(gòu)成一個(gè)矩陣,這樣的矩陣包含了蛋白質(zhì)結(jié)構(gòu)除手性之外足夠的三維結(jié)構(gòu)信息[17],因此,可以提取蛋白質(zhì)距離矩陣的特征對(duì)蛋白質(zhì)三維結(jié)構(gòu)比較。

      設(shè)長度為L的蛋白質(zhì)序列P i為:

      其中,R1R2R3R4R5表示蛋白質(zhì)序列P i的第一到第五個(gè)氨基酸殘基,以此類推,R L表示蛋白質(zhì)序列P i的最后一個(gè)氨基酸殘基。則其骨架可定義為:

      圖1 不同蛋白質(zhì)二級(jí)結(jié)構(gòu)紋理圖Fig.1 Secondary structure texture map of different proteins

      紋理是圖像的重要信息和特征,利用圖像的紋理特征進(jìn)行分類是一種有效的方法。提取圖像紋理特征的方法有基于灰度直方圖、灰度共生矩陣以及基于小波變換等方法,但圖像的灰度直方圖只統(tǒng)計(jì)了圖像的一階信息,灰度共生矩陣只是從粗的粒度描述了紋理的特征,二維小波變換存在平移改變性和有限的方向選擇性等缺陷,Kingsbury提出的雙樹復(fù)小波變換[18]具有近似的平移不變性、良好的方向選擇性和有限的數(shù)據(jù)冗余等優(yōu)點(diǎn),能從不同的方向提取圖像的特征,豐富紋理信息。

      1.2.2 雙樹復(fù)小波特征

      二維雙樹復(fù)小波的定義為:

      其中,i為虛數(shù),i2=-1;ψh和ψg分別是正交或雙正交的實(shí)小波,且形成Hibert變換對(duì)。雙樹復(fù)小波變換可以通過離散小波變換DWT實(shí)現(xiàn),一個(gè)DWT產(chǎn)生實(shí)部,另一個(gè)DWT產(chǎn)生虛部。其分解過程如圖2所示。

      圖2 二維DT-CWT的分解過程Fig.2 Decomposition of two-dimensional DT-CWT

      由圖2可以看出,雙樹復(fù)小波變換實(shí)質(zhì)上就是使用兩組低通濾波器h0(n)、g0(n)和高通濾波器h1(n)、g1(n)分別對(duì)輸入的二維信號(hào)交替進(jìn)行行列間的變換,分解出2個(gè)低頻子帶和6個(gè)不同方向(-75°,-45°,-15°,15°,45°,75°)的高頻子帶。這樣將圖像分解后就可以從更多方向來分析它的紋理特征。小波分解的級(jí)數(shù)越高,其獲得圖像在多尺度上的細(xì)節(jié)特征就越多,但是若分解級(jí)數(shù)太高,不僅特征圖像的邊界效應(yīng)更明顯,影響分類精度,還會(huì)增加小波變換的計(jì)算量,故本文將距離矩陣進(jìn)行4級(jí)雙樹復(fù)小波分解,每個(gè)尺度下有6個(gè)方向子帶Wl,n(i,j),其中l(wèi)=1,2,3,4,n=1,2,3,4,5,6。對(duì)這6個(gè)子帶按照式(3)和式(4)計(jì)算能量E l,n與標(biāo)準(zhǔn)差σl,n[19]。

      其中,M×N是子帶圖像Wl,n(i,j)的大小,μl,n是Wl,n(i,j)的均值。使用標(biāo)準(zhǔn)偏差和能量特征的組合,得到如下48維特征向量:

      在將蛋白質(zhì)序列經(jīng)過上述步驟轉(zhuǎn)化后,不同長度的蛋白質(zhì)序列均可得到48維特征向量F。

      1.2.3 分類預(yù)測(cè)

      將兩個(gè)數(shù)據(jù)集中的蛋白質(zhì)按照上述方法提取特征,輸入KNN分類器,其中K取5,每次實(shí)驗(yàn)采取十重交叉驗(yàn)證,計(jì)算5次實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果,在計(jì)算兩個(gè)特征向量的距離時(shí),采用文獻(xiàn)[20]中的規(guī)范化的歐式距離度量方法。

      設(shè)F x、F y分別為兩個(gè)蛋白質(zhì)序列P i x和Piy所提取到的特征向量:

      因此可得兩蛋白質(zhì)間的距離為:

      其中

      其中,l,n分別是小波變換的尺度與方向數(shù),σ(E l,n)是E l,n在整個(gè)數(shù)據(jù)集上的標(biāo)準(zhǔn)差,σ(σl,n是)σl,n在整個(gè)數(shù)據(jù)集上的標(biāo)準(zhǔn)差。

      2 結(jié)果與討論

      2.1 檢驗(yàn)指標(biāo)

      為了檢驗(yàn)方法的預(yù)測(cè)性能,本文采用5個(gè)指標(biāo):敏感性(Sensitivity)、特異性(Specificity)、準(zhǔn)確率(Accuracy)、馬氏相關(guān)系數(shù)(Mathew’s correlation coefficient)和總體準(zhǔn)確率(Overall accuracies),這些指標(biāo)越高說明預(yù)測(cè)結(jié)果越好。它們定義分別如下[21]:

      其中,i表示蛋白質(zhì)的結(jié)構(gòu)類別,本文中i=4,表示全部是第i類的蛋白質(zhì)個(gè)數(shù),表示被分類模型錯(cuò)誤預(yù)測(cè)為其他類的第i類的蛋白質(zhì)個(gè)數(shù)。表示全部其他類的蛋白質(zhì)個(gè)數(shù)。表示被分類模型錯(cuò)誤預(yù)測(cè)為第i類的其他類蛋白質(zhì)個(gè)數(shù)。

      2.2 預(yù)測(cè)結(jié)果及對(duì)比分析

      按照上述雙樹復(fù)小波特征提取和KNN分類方法,在數(shù)據(jù)集A和數(shù)據(jù)集B這兩個(gè)數(shù)據(jù)上的預(yù)測(cè)結(jié)果如表2和表3所示。

      表2 數(shù)據(jù)集A性能預(yù)測(cè)Table 2 Data set A performance prediction%

      由表2和表3可見,當(dāng)使用雙樹復(fù)小波變換提取距離矩陣的紋理特征時(shí),在兩個(gè)數(shù)據(jù)集上的表現(xiàn)都很好,四個(gè)指標(biāo)結(jié)果大部分范圍在94%~100%,特別在數(shù)據(jù)集A的All-α和All-β這兩個(gè)結(jié)構(gòu)類別上,特異性(Specificity)達(dá)到了100%。這是因?yàn)殡p樹復(fù)小波變換使用了兩棵樹對(duì)圖像進(jìn)行變換,增強(qiáng)了紋理信息的表達(dá)。為了便于對(duì)比,本文還按照下述方法提取了距離矩陣的其他特征。(1)提取灰度直方圖統(tǒng)計(jì)特征[22],即計(jì)算圖像的均值、方差、對(duì)比度、三階中心矩、四階中心矩、均勻性和熵,得到7維特征向量。(2)提取灰度共生矩陣特征,即根據(jù)距離矩陣計(jì)算0°、45°和135°這3個(gè)方向的灰度共生矩陣,再計(jì)算每個(gè)方向上灰度共生矩陣的對(duì)比度、相關(guān)性、能量和均勻性這四種特征,最終得到12維特征向量。(3)提取小波能量特征,即用sym4小波包對(duì)距離矩陣進(jìn)行4級(jí)分解,計(jì)算相應(yīng)近似系數(shù)的能量百分?jǐn)?shù)Ea和相應(yīng)的水平細(xì)節(jié)系數(shù)Eh、垂直系數(shù)Ev、對(duì)角細(xì)節(jié)系數(shù)能量的百分?jǐn)?shù)Ed,這樣就得到13維特征向量。將上述特征向量分別輸入KNN分類器分類,KNN中K取值都為5。表4和表5列出了數(shù)據(jù)集A和B分別提取上述四種特征的KNN分類結(jié)果。

      表3 數(shù)據(jù)集B性能預(yù)測(cè)Table 3 Data set B performance prediction%

      表4 數(shù)據(jù)集A結(jié)果比較Table 4 Comparison of results of dataset A%

      表5 數(shù)據(jù)集B結(jié)果比較Table 5 Comparison of results of dataset B%

      由表4和表5可見,提取距離矩陣的雙樹復(fù)小波特征,在數(shù)據(jù)集A和數(shù)據(jù)集B上分類總體準(zhǔn)確率分別是89.33%和99.87%,比灰度直方圖統(tǒng)計(jì)特征和灰度共生矩陣特征都高出許多,對(duì)于每一個(gè)二級(jí)結(jié)構(gòu)分類,準(zhǔn)確率都有不同程度的提高。在部分結(jié)構(gòu)類別上,雙樹復(fù)小波特征比小波能量特征略低,但總體來說,本文方法更可靠些。

      為了證明本文提取特征的方法效果不依賴于分類算法,實(shí)驗(yàn)中還使用了SVM分類器分類,借助由臺(tái)灣大學(xué)林智仁教授開發(fā)設(shè)計(jì)的一個(gè)易于使用和快速有效的SVM軟件包LIBSVM,其中SVM中的主要參數(shù)(最佳懲罰參數(shù)c和核函數(shù)參數(shù)g)由網(wǎng)格搜索法得到,核函數(shù)選取RBF,每次實(shí)驗(yàn)采取十重交叉驗(yàn)證,計(jì)算五次實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果。不同特征提取方法使用LIBSVM分類總體準(zhǔn)確率如表6所示。

      表6 不同方法在兩個(gè)數(shù)據(jù)集上的結(jié)果比較Table 6 Comparison of results between different methods on two datasets %

      由表6可以看出,利用SVM分類器分類,相對(duì)于前面三種特征表示方法,雙樹復(fù)小波特征在數(shù)據(jù)集A上分別高出了7.15、5.72和4.84個(gè)百分點(diǎn),在數(shù)據(jù)集B上結(jié)果分別高出了3.51、1.69和0.53個(gè)百分點(diǎn)。為了更直觀地體現(xiàn)本文方法的有效性,本文將在數(shù)據(jù)集A和數(shù)據(jù)集B上使用不同方法提取特征的總體準(zhǔn)確率表示成圖3。

      從圖3(a)和(b)中可以看出,提取的灰度直方圖統(tǒng)計(jì)特征、灰度共生矩陣特征準(zhǔn)確率總體來說比提取小波變換特征低,這是因?yàn)榛叶戎狈綀D只是提取了圖像的一階統(tǒng)計(jì)信息,很難反映圖像像素的空間位置等相關(guān)信息?;叶裙采仃囍皇菑谋容^粗的粒度描述紋理的特征,缺少對(duì)圖像紋理的整體空間分布特征,而小波變換可以把圖像分解到多個(gè)頻帶中,且具有方向性,充分挖掘圖像的紋理和細(xì)節(jié)信息。使用雙樹復(fù)小波變換的準(zhǔn)確率比小波能量特征要高一些,這是因?yàn)樾〔ㄗ儞Q在處理圖像時(shí)有兩個(gè)主要的缺點(diǎn),即平移改變性和有限的方向選擇性,而雙樹復(fù)小波變換正好解決這兩個(gè)問題,能夠從不同方向提取圖像信息,豐富圖像的特征。

      3 結(jié)束語

      本文引入雙樹復(fù)小波變換提取蛋白質(zhì)的結(jié)構(gòu)特征,對(duì)于蛋白質(zhì)的距離矩陣的紋理信息,利用了雙樹復(fù)小波變換的近似的平移不變性、良好的方向選擇性和有限的數(shù)據(jù)冗余等優(yōu)點(diǎn),避免了傳統(tǒng)提取圖像的灰度共生矩陣缺少圖像紋理的整體空間分布特征的缺陷,以及離散二維小波變換在處理圖像時(shí)的局限性,使用KNN、SVM兩種分類器對(duì)提取到的特征向量進(jìn)行分類驗(yàn)證,預(yù)測(cè)結(jié)果較好,其中使用SVM在兩個(gè)數(shù)據(jù)集上的分類結(jié)果分別達(dá)到了98.50%和99.29%,蛋白質(zhì)序列還有許多其他特征提取方法,比如經(jīng)典的偽氨基酸組分方法,未來研究可以嘗試對(duì)傳統(tǒng)方法進(jìn)行改進(jìn),或者與本文方法結(jié)合運(yùn)用,以及將本文方法應(yīng)用于其他具有紋理特征的蛋白質(zhì)數(shù)據(jù)。

      猜你喜歡
      雙樹特征向量紋理
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      基于BM3D的復(fù)雜紋理區(qū)域圖像去噪
      軟件(2020年3期)2020-04-20 01:45:18
      一個(gè)村莊的紅色記憶
      使用紋理疊加添加藝術(shù)畫特效
      基于雙樹復(fù)小波的色譜重疊峰分解方法研究
      一類特殊矩陣特征向量的求法
      TEXTURE ON TEXTURE質(zhì)地上的紋理
      Coco薇(2017年8期)2017-08-03 15:23:38
      EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
      婆羅雙樹樣基因2干擾對(duì)宮頸癌HeLa細(xì)胞增殖和凋亡的影響
      惠来县| 河北省| 宁海县| 临澧县| 台州市| 南乐县| 嘉兴市| 商水县| 新河县| 瑞金市| 康定县| 山丹县| 武定县| 布尔津县| 简阳市| 太谷县| 郯城县| 华坪县| 扎鲁特旗| 宝兴县| 格尔木市| 汪清县| 惠安县| 扶沟县| 通江县| 淮安市| 山东省| 麻城市| 湖北省| 临湘市| 鹤峰县| 南阳市| 利辛县| 乌拉特中旗| 泊头市| 内丘县| 抚远县| 南和县| 太和县| 普陀区| 滦平县|