摘 要 運(yùn)用模糊聚類數(shù)學(xué)建模方法對(duì)DNA序列進(jìn)行分類。對(duì)T和G堿基在各DNA序列中所占的比例數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,放大兩類DNA序列的差異,采用模糊相似矩陣,模糊等價(jià)矩陣,λ截矩陣比較方法進(jìn)行DNA序列分類。
關(guān)鍵詞 模糊聚類分析;DNA分類;數(shù)學(xué)建模
中圖分類號(hào) O242 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1673-9671-(2012)052-0202-02
1 概述
2000年6月,人類基因組計(jì)劃中DNA全序列草圖完成。DNA序列由A、T、C、G4種堿基按一定規(guī)律排列而成。當(dāng)前生物信息學(xué)最重要的課題之一是研究由這4種堿基排列成的序列中蘊(yùn)藏的規(guī)律。目前在這項(xiàng)研究中最普通的思想是省略序列的某些細(xì)節(jié),突出特征,然后將其表示成適當(dāng)?shù)臄?shù)學(xué)對(duì)象。這種被稱為粗粒化和模型化的方法往往有助于研究其規(guī)律性和結(jié)構(gòu)?,F(xiàn)已知20個(gè)人工序列1~10屬于A類,11~20屬于B類,要求運(yùn)用數(shù)學(xué)建模方法發(fā)掘已知類別DNA序列的特征,從而據(jù)此對(duì)未知類別的20個(gè)DNA序列進(jìn)行分類。本文對(duì)T和G堿基在各DNA序列中所占的比例數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,放大兩類DNA序列的差異,采用模糊相似矩陣,模糊等價(jià)矩陣,λ截矩陣方法對(duì)DNA序列進(jìn)行分類。
2 模糊聚類分析模型
2.1 主要研究步驟
通過(guò)觀察發(fā)現(xiàn),A類DNA序列中G堿基含量較多,T堿基含量較少,而B(niǎo)類DNA序列則剛好相反。所以可用這20條DNA序列中T和G堿基在自身序列中所占的頻率作為基本研究對(duì)象,并對(duì)T、G堿基所占的比例的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,放大差異。再建立相應(yīng)的模糊相似矩陣,模糊等價(jià)矩陣和λ截矩陣,找出一個(gè)最優(yōu)的λ值進(jìn)行DNA序列分類并使分類準(zhǔn)確度達(dá)到最高。最后用上述方法以及λ值對(duì)另外20個(gè)未明類別的序列進(jìn)行分類。
2.2 原始數(shù)據(jù)標(biāo)準(zhǔn)化
先對(duì)T和G堿基頻率作標(biāo)準(zhǔn)化處理。平移—標(biāo)準(zhǔn)差變換
(i=1,2…,20;j=2,4)
其中xi是第i個(gè)DNA序列,x'ij是指堿基A,G,C,T在第i個(gè)DNA序列中出現(xiàn)的頻率,x\"ij是對(duì)x'ij進(jìn)行標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)頻率值,
,,(j=2,4)。
進(jìn)行平移—極差變換,(j=2,4),
可得到關(guān)于堿基頻率的模糊矩陣
2.3 模糊聚分析法
相關(guān)系數(shù)刻畫(huà)隨機(jī)變量之間的線性相關(guān)性:相關(guān)系數(shù)絕對(duì)值越大,隨機(jī)變量之間的線性關(guān)系越密切;相關(guān)系數(shù)為0,稱隨機(jī)變量線性無(wú)關(guān)。所以利用相關(guān)系數(shù)法對(duì)堿基頻率模糊矩陣的元素進(jìn)行處理,利用公式:
得到一個(gè)關(guān)于xi與xj相似程度的模糊相似矩陣rij。
如果xi與xj的相似程度為rij,那么模糊矩陣R=(rij)20×20,顯然R是模糊相似矩陣,為
為了從模糊相似矩陣R得到模糊等價(jià)矩陣R=(rij)n×n,從n階模糊相似矩陣R出發(fā),依次求平方R→R2→R4→…直到R2i×R2i=R2i(2i≤n,i≤log2n),求出R傳遞閉包t(R),則t(R)=R。對(duì)于已知分類的20條DNA序列,由大到小取一組λ∈[0,1],確定相應(yīng)的λ截矩陣Rλ=(λij)20×20,且λ截矩陣為一個(gè)對(duì)角線為1的對(duì)稱0-1矩陣。即可將其分類:若λij=1,說(shuō)明第i條DNA序列與第j條DNA序列屬于同一類。若λij=0,說(shuō)明第i條DNA序列與第j條DNA序列不屬于同一類。對(duì)于未分類的DNA序列,利用已求出的λ值,得到相應(yīng)λ截矩陣,再利用已知λ值便可對(duì)未分類的DNA序列進(jìn)行分類。
2.4 分類結(jié)果及其分析
應(yīng)用Matlab軟件對(duì)第1-20個(gè)DNA序列數(shù)據(jù)進(jìn)行處理,經(jīng)平移-極差變得到類別A、B中A、T、C、G堿基的標(biāo)準(zhǔn)化頻率(表1)。
可得到標(biāo)準(zhǔn)化矩陣:
那么得到表示這1-20個(gè)DNA序列之間的相關(guān)程度的模糊相似矩陣:
進(jìn)而求得傳遞閉包t(R)及模糊相似矩陣RR=t(R)。對(duì)模糊等價(jià)矩陣R進(jìn)行分析,發(fā)現(xiàn)選取λ∈(0.8714,0.9834)會(huì)得到最高的準(zhǔn)確
率,高達(dá)100%,識(shí)別率為90%,沒(méi)有出現(xiàn)誤判。計(jì)算時(shí)可取平均值λ=0.9764,得到λ截矩陣Rλ=(λij)20×20。對(duì)于λ截矩陣Rλ=(λij)20×20,若λij=1,說(shuō)明第i條DNA序列與第j條DNA序列屬于同一類;若λij=0,則說(shuō)明第i條DNA序列與第j條DNA序列不屬于同一類。最后得到分類結(jié)果:
A{1,2,3,5,6,7,8,9,10}
B{11,12,13,14,15,16,18,19,20}
C類(無(wú)法識(shí)別){4,17}。
采用以上方法對(duì)第1-20個(gè)DNA序列分類的準(zhǔn)確率為100%,識(shí)別率為90%,沒(méi)有出現(xiàn)誤判。把標(biāo)號(hào)為21-40的DNA序列添加到原來(lái)的數(shù)據(jù)中,采用同樣的模型與已求出的λ值對(duì)其進(jìn)行分類,結(jié)
果為:
A類{22,23,25,27,29,33,34,35,36,37,39}
B類{21,24,26,28,30,31,38,40}
C類{32}。
3 結(jié)論
本文運(yùn)用數(shù)學(xué)建模模糊聚類分析法方法,對(duì)T和G堿基在各DNA序列中所占的比例數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,放大兩類DNA序列的差異,采用模糊相似矩陣,模糊等價(jià)矩陣,λ截矩陣方法對(duì)DNA序列進(jìn)行分類,方法簡(jiǎn)單、實(shí)用,且分類結(jié)果準(zhǔn)確率高達(dá)100%,識(shí)別率為90%,沒(méi)有出現(xiàn)誤判。
參考文獻(xiàn)
[1]www.csiam.edu.cn/mcm.2000網(wǎng)易杯全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽題.
[2]顧俊華,盛春楠,韓正忠.模糊聚類分析方法在DNA序列分類中的應(yīng)用[J].計(jì)算機(jī)仿真,2005,10(22):108-129.
[3]劉煥彬,庫(kù)在強(qiáng),廖小勇,陳文略,張忠誠(chéng).數(shù)學(xué)模型與實(shí)驗(yàn)[M].北京:科學(xué)出版社,2008.
[4]徐曉秋,初立元,左銘杰,譚欣欣.DNA分類方法的探討[J].大連大學(xué)學(xué)報(bào),2001,8.
[5]岳曉寧,徐寶樹(shù),王競(jìng)波.基于聚類分析的DNA序列分類研究[J].沈陽(yáng)大學(xué)學(xué)報(bào),2008,20(6):104-106.
作者簡(jiǎn)介
黎澤(1989—),男,漢族,華南師范大學(xué)信息光電子科技學(xué)院本科在讀。