阿肯色醫(yī)科大學(xué)兒科系生物統(tǒng)計(jì)中心 美國(guó)阿肯色州小石城 72202
隱馬爾可夫模型在生物學(xué)和醫(yī)學(xué)研究中的應(yīng)用*
阿肯色醫(yī)科大學(xué)兒科系生物統(tǒng)計(jì)中心 美國(guó)阿肯色州小石城 72202
隱馬爾可夫模型;評(píng)價(jià);解碼;模型擬合;生物學(xué)應(yīng)用
馬爾可夫過(guò)程(Markov process)是具馬爾可夫特性即無(wú)記憶性(memorylessness)又稱(chēng)無(wú)后效性(non-aftereffect)的隨機(jī)過(guò)程,其未來(lái)狀態(tài)的條件概率僅與系統(tǒng)的當(dāng)前狀態(tài)(或此前的少數(shù)若干個(gè)歷史狀態(tài))有關(guān),而獨(dú)立于其他歷史狀態(tài)(或該序列其他變量的狀態(tài)),由俄國(guó)數(shù)學(xué)家Andrey Andreyevich Markov提出相關(guān)的統(tǒng)計(jì)理論而得名[1]。其中,隨機(jī)過(guò)程通常是指以時(shí)間為參數(shù)的隨機(jī)函數(shù),但也可廣義地視為一組隨參數(shù)而變化的隨機(jī)變量的有限或無(wú)限集合,如以空間為參數(shù)的隨機(jī)函數(shù);若參數(shù)為離散時(shí)又稱(chēng)隨機(jī)序列。根據(jù)時(shí)間參數(shù)是否連續(xù)、狀態(tài)空間是否可列等性質(zhì),馬爾可夫過(guò)程有離散時(shí)間(discrete time)和連續(xù)時(shí)間(continuous time)、有限(finite)和不可列(infinite)、一階(first-order,其條件概率僅依賴(lài)于系統(tǒng)的當(dāng)前狀態(tài))和高階(high-order,其條件概率依賴(lài)于此前多個(gè)狀態(tài))、時(shí)間齊次(time-homogeneous,有靜態(tài)的轉(zhuǎn)換頻率函數(shù),轉(zhuǎn)換頻率不依賴(lài)于當(dāng)前狀態(tài)所處的位置)和時(shí)間非齊次(time-nonhomogeneous)、一維(uni-dimensional)和高維(multi-dimensional)等之分。自然界和人類(lèi)社會(huì)中,馬爾可夫過(guò)程的存在相當(dāng)普遍,例如隨機(jī)漫步(random walk)、醉漢行走(drunkard's walk)、萊維飛行(Lévy flight)、布朗運(yùn)動(dòng)(Brownian motion)、原子核中自由電子在電子層中的跳躍等都是齊次的連續(xù)時(shí)間馬爾可夫過(guò)程,傳染病受感染的人數(shù)、人口增長(zhǎng)過(guò)程等也可由馬爾可夫過(guò)程來(lái)模擬。其中,參數(shù)為離散、狀態(tài)空間可列的馬爾可夫序列稱(chēng)為馬爾可夫鏈(Markov chain)[2]。當(dāng)馬爾可夫鏈的狀態(tài)不能被完全觀測(cè)但可由受狀態(tài)影響的某些觀察變量推斷時(shí),稱(chēng)為隱馬爾可夫過(guò)程,相應(yīng)地,刻畫(huà)其統(tǒng)計(jì)特征的概率模型稱(chēng)為隱馬爾可夫模型(hidden Markov model)。常用的隱馬爾可夫模型是一維的,其高維的擴(kuò)展包括多維的隱馬爾可夫模型或馬氏網(wǎng)格隨機(jī)場(chǎng)(Markov mesh random field)及更廣義的馬爾可夫隨機(jī)場(chǎng)(Markov random field),又稱(chēng)馬爾可夫網(wǎng)絡(luò)(Markov network)。隱馬爾可夫模型在信號(hào)處理、文字識(shí)別、通信譯碼、圖像分析、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、生命科學(xué)等領(lǐng)域有著廣泛的應(yīng)用[3-6]。現(xiàn)介紹隱馬爾可夫模型在生物學(xué)和醫(yī)學(xué)研究中的應(yīng)用。
隱馬爾可夫過(guò)程是一個(gè)雙重隨機(jī)過(guò)程,其中基本的隨機(jī)過(guò)程是馬爾可夫過(guò)程,描述隱變量間狀態(tài)轉(zhuǎn)移的關(guān)系,另一個(gè)是觀測(cè)過(guò)程,描述狀態(tài)和觀測(cè)結(jié)果間的統(tǒng)計(jì)關(guān)系[7]。因高階馬爾可夫過(guò)程可通過(guò)數(shù)據(jù)擴(kuò)增還原成一階馬爾可夫過(guò)程[2],下面以一階馬爾可夫過(guò)程為例加以介紹,有關(guān)的分析方法不難擴(kuò)展至高階的情形。常見(jiàn)的隱馬爾可夫過(guò)程如圖1所示。
A:一維隱馬爾可夫過(guò)程;B:二維隱馬爾可夫過(guò)程;C:隱馬爾可夫場(chǎng)。圖1 常見(jiàn)的隱馬爾可夫過(guò)程
1.2 二維隱馬爾可夫過(guò)程 二維隱馬爾可夫過(guò)程的基本過(guò)程是一個(gè)由隨機(jī)變量陣列構(gòu)成的馬爾可夫網(wǎng)格,每一隨機(jī)變量Xi,j有Si,j個(gè)可能的狀態(tài),其條件概率滿(mǎn)足無(wú)記憶性(即只依賴(lài)于緊鄰的晶格點(diǎn)),Pr(Xi,j│X0:i,0:j{Xi,j})=Pr(Xi,j│Xi-1,j,Xi,j-1)(i=1,2,…,I,j=1,2,…,J),其中X0:i,0:j={Xu,v?u=0,1,…,i;v=0,1,…,j},Pr(Xi,j│Xi-1,j,Xi,j-1)是狀態(tài)轉(zhuǎn)移概率,記為│Xi-1,j=k,Xi,j-1=l);
當(dāng)i=0和j=0,有一組初始狀態(tài)概率Pr(X0,0),記為π=(πu)(u=1,2,…,S0,0),其中πu=Pr(X0,0=u)。
1.3 隱馬爾可夫場(chǎng) 隱馬爾可夫模型可進(jìn)一步拓展至更高維的情形[10-13],包括更一般的隱馬爾可夫隨機(jī)場(chǎng)或馬爾可夫網(wǎng)絡(luò)[14-19]。隱馬爾可夫隨機(jī)場(chǎng)是一個(gè)夾雜了(條件)獨(dú)立噪音的馬爾可夫隨機(jī)場(chǎng),其基本變量是一組稱(chēng)為馬爾可夫隨機(jī)場(chǎng)或馬爾可夫網(wǎng)的變量[20]。如圖1C所示,每個(gè)節(jié)點(diǎn)是一個(gè)變量,節(jié)點(diǎn)間的邊代表兩變量間的依賴(lài)關(guān)系。若一個(gè)變量子集中的任何兩個(gè)變量都有邊相連,則稱(chēng)該子集為團(tuán)(clique),每個(gè)團(tuán)由一組稱(chēng)為勢(shì)函數(shù)(potential functions)的非負(fù)函數(shù)定義其概率分布。若在一個(gè)團(tuán)中加入另外任何一個(gè)節(jié)點(diǎn)都不再形成團(tuán),則稱(chēng)該團(tuán)為“極大團(tuán)”。馬爾可夫隨機(jī)場(chǎng)變量集的聯(lián)合分布可表示為基于團(tuán)分解的多個(gè)勢(shì)函數(shù)的乘積:
其中cl(X)表示該隨機(jī)場(chǎng)的一組團(tuán),通常是一組極大團(tuán),ψc( )是團(tuán)c的勢(shì)函數(shù),xc是團(tuán)c的狀態(tài),標(biāo)準(zhǔn)化因子Z=∑xΠc∈cl(x)ψc(xc)。
隱馬爾可夫隨機(jī)場(chǎng)的基本變量不能被完全觀測(cè),但每個(gè)變量有可測(cè)的輸出信號(hào)相聯(lián),給定一隱變量的狀態(tài),其對(duì)應(yīng)的觀測(cè)變量獨(dú)立于其他變量。
一維隱馬爾可夫模型主要運(yùn)用網(wǎng)格算法,如圖2所示,不同變量的各狀態(tài)可依變量序列的位置排列成一個(gè)交織網(wǎng)格,網(wǎng)格的節(jié)點(diǎn)對(duì)應(yīng)于某位置的某狀態(tài),網(wǎng)格圖中的每個(gè)節(jié)點(diǎn)與前一變量的至少一個(gè)節(jié)點(diǎn)和(或)與后一變量的至少一個(gè)節(jié)點(diǎn)相接。應(yīng)用條件獨(dú)立性,每個(gè)節(jié)點(diǎn)可貯存與之有關(guān)的所有狀態(tài)序列(即網(wǎng)格圖中經(jīng)該節(jié)點(diǎn)的路徑)計(jì)算信息。在網(wǎng)格圖基礎(chǔ)上建立的前向-后向算法(the forward-backward algorithm)[21-22]、維特比算法(the Viterbi algorithm)[23-25]、鮑姆-韋爾奇(the Baum-Welch algorithm)或EM算法(expectation-maximization algorithm)[26-27]分別用于評(píng)估、識(shí)別、訓(xùn)練問(wèn)題,現(xiàn)簡(jiǎn)述如下。
上:前向網(wǎng)格;下:維特比網(wǎng)格。圖2 網(wǎng)格算法
2.1 前向-后向算法 一組觀察序列(y0,y1,…,yI)的概率,記為Pr(y0,y1,…,yI│Ω)=∑x0,x1,…,xIPr(y0,y1,…,yI│x0,x1,…,xI;Ω),可由前向遞推法或后向遞推法計(jì)算,包括初始化、遞推和終止等3個(gè)步驟。網(wǎng)格圖中的每個(gè)節(jié)點(diǎn)分別有2個(gè)輔助變量貯存前向概率和后向概率,分別記為αi(u)和βi(u)(u=1,2,…,Si,i=0,1,…,I),αi(u)表示從最始位置到達(dá)此狀態(tài)的所有路徑的概率之和,βi(u)表示從此狀態(tài)出發(fā)到最終位置的所有路徑的概率之和。
2.3 EM算法 給定一組或若干組觀察序列,模型擬合可由EM算法實(shí)現(xiàn)。EM算法利用如下原理求解[28]:根據(jù)Kullback-Leibler散度理論[29],完全數(shù)據(jù)(由隱變量數(shù)據(jù)與觀測(cè)數(shù)據(jù)共同構(gòu)成)似然函數(shù)對(duì)數(shù)的期望將是觀測(cè)數(shù)據(jù)(即不完全數(shù)據(jù))似然函數(shù)對(duì)數(shù)的下界(即完全數(shù)據(jù)似然函數(shù)在任意一組隱狀態(tài)變量頻率下的期望將小于或等于觀測(cè)數(shù)據(jù)的似然函數(shù)),因此可用完全數(shù)據(jù)似然函數(shù)對(duì)數(shù)的期望代替不完全數(shù)據(jù)似然函數(shù)對(duì)數(shù)作為目標(biāo)函數(shù),通過(guò)交替執(zhí)行期望步和最大化步逐步逼近觀測(cè)數(shù)據(jù)的似然函數(shù),進(jìn)而求得參數(shù)的最大似然估計(jì)子(maximum likelihood estimator, MLE)。其中期望步是指在給定觀測(cè)數(shù)據(jù)下估算隱變量的后驗(yàn)概率分布并對(duì)完全數(shù)據(jù)似然函數(shù)對(duì)數(shù)求期望,最大化步是指根據(jù)完全數(shù)據(jù)似然函數(shù)對(duì)數(shù)的期望,求解最大化似然函數(shù)的模型參數(shù),每一期望步和最大化步均將增加(或不減少)完全數(shù)據(jù)似然函數(shù)對(duì)數(shù)的期望值,從而收斂于一個(gè)局部最優(yōu)解。當(dāng)完全數(shù)據(jù)參數(shù)的MLE有簡(jiǎn)單易求的分析解時(shí),EM算法將十分有效。EM算法包括初始化分布參數(shù)、一系列由期望步和最大化步構(gòu)成的迭代及終止等步驟。
①初始化:設(shè)定一組初始參數(shù)值Ω(0)={π(0),A(0),B(0)},啟動(dòng)迭代。
②迭代:每一迭代包括期望步和最大化步,兩者交替進(jìn)行,完成一次迭代。
期望步中,計(jì)算當(dāng)前參數(shù)值Ω(t)={π(t),A(t),B(t)}和觀測(cè)數(shù)據(jù)下的各組序列隱變量狀態(tài)或狀態(tài)組合的后驗(yàn)概率分布和完全數(shù)據(jù)似然函數(shù)對(duì)數(shù)的條件期望。具體地,如前向-后向算法中所述,計(jì)算每組序列(y0,y1,…,yI)的前向概率和后向概率,然后隱變量狀態(tài)或狀態(tài)組合的概率可由前向概率和后向概率求得:
執(zhí)行期望步確保在當(dāng)前參數(shù)估計(jì)值Ω(t)下完全數(shù)據(jù)似然函數(shù)對(duì)數(shù)的條件期望值最大化。接著,利用估計(jì)的隱變量數(shù)據(jù)條件期望,求含未知參數(shù)的完全數(shù)據(jù)似然函數(shù)對(duì)數(shù)的期望。
③終止:重復(fù)迭代至收斂條件滿(mǎn)足,如目標(biāo)函數(shù)不再增加或參數(shù)估計(jì)不再變化。
原理上,上述一維隱馬爾可夫模型統(tǒng)計(jì)方法可推廣至多維及馬爾可夫場(chǎng)的情形,但實(shí)際上實(shí)現(xiàn)起來(lái)難度卻非常大。最直接的解決方案是通過(guò)把多維空間的節(jié)點(diǎn)沿一定方向拓展成一個(gè)向量,以向量為新節(jié)點(diǎn)把多維模型轉(zhuǎn)化為一維馬爾可夫模型。例如,二維馬爾可夫網(wǎng)格可沿著行、列、對(duì)角或反對(duì)角方向拓展成一個(gè)向量,得到以向量為“超節(jié)點(diǎn)”(supernode)的馬爾科夫鏈[30-34],三維網(wǎng)格也有類(lèi)似的推廣[35-37]。從而前述的前向-后向算法、維特比算法和EM算法等可用于新的一維模型的統(tǒng)計(jì)分析。這類(lèi)方法的不足是算法的復(fù)雜度隨向量維數(shù)的增加而呈指數(shù)增加。另一類(lèi)方法是應(yīng)用限制性統(tǒng)計(jì)模型減少節(jié)點(diǎn)間的連通性,從而降低模型復(fù)雜性,這類(lèi)方法包括偽多維隱馬爾可夫模型(pseudomulti-dimensionalHMMs)[38-39]、鑲嵌隱馬爾可夫模型(embeddedHMMs)[40-41]、依賴(lài)樹(shù)隱馬爾可夫模型(dependence-treeHMMs)[42]等,其主要缺點(diǎn)是改變了原有的依賴(lài)關(guān)系。另外,還有各種探試式(heuristic)近似算法通過(guò)簡(jiǎn)化求解假定減低算法復(fù)雜度[30, 32, 43-48],其局限是理論上不能保證近似性。在隱馬爾可夫場(chǎng)方面也有類(lèi)似前向-后向算法的變量消去法(variableelimination)和信念傳播法(beliefpropagation)[對(duì)應(yīng)于前向-后向算法與維特比算法,又可進(jìn)一步分為和積訊息傳送(sum-productmessagepassing)與最大積訊息傳送(max-productmessagepassing)]等[49],用于精確推斷。然而,對(duì)于多維隱馬爾可夫模型和隱馬爾可夫場(chǎng),精確計(jì)算是非確定性多項(xiàng)式時(shí)間難題(nondeterministic,polynomialtime-hard,簡(jiǎn)記NP-hard),迄今不相信存在針對(duì)一般情形的快速計(jì)算方法。多數(shù)情況下因運(yùn)算量巨大,精確計(jì)算基本不可行。近似推理算法及數(shù)值計(jì)算技術(shù)如馬爾可夫鏈蒙特卡洛(MarkovchainMonteCarlo)抽樣方法[50]、變分推斷法(variationalinference)[51]、循環(huán)信念傳播法(loopybeliefpropagation)[52-53]等通常更可行。我們?cè)诿绹?guó)國(guó)家基金的資助下,開(kāi)發(fā)了伸縮型算法(telescopicalgorithm),有望將呈指數(shù)增加的復(fù)雜度降低為線(xiàn)性增加的迭代算法,大大降低計(jì)算資源(包括內(nèi)存和時(shí)間)的開(kāi)銷(xiāo),適用于多維隱馬爾可夫模型的精確計(jì)算。
隱馬爾可夫模型是預(yù)測(cè)和特征識(shí)別的有效工具。自Churchill將其引入計(jì)算生物學(xué)[54],該模型在生物學(xué)領(lǐng)域呈現(xiàn)出十分重要的研究?jī)r(jià)值和廣闊的應(yīng)用前景[55-56],現(xiàn)概述其在如下幾個(gè)方面的應(yīng)用。
3.1 遺傳作圖 遺傳作圖(genetic mapping)包括連鎖圖譜構(gòu)建(linkage map construction)和基因定位(gene mapping),是指根據(jù)重組信息確定基因以及其他特征序列(如遺傳標(biāo)記)在基因組上相對(duì)位置的過(guò)程,是圖位克隆(map-based cloning)、標(biāo)記輔助選擇(marker-assisted selection)和正向遺傳學(xué)(forward genetics)等研究的基礎(chǔ)。基因在世代間的傳遞是一個(gè)二維馬爾可夫過(guò)程,從世代的方向上,給定親本基因型,其子裔將獨(dú)立于其他祖先,因此是個(gè)一階馬爾可夫鏈;從染色體方向上,若線(xiàn)性排列的各位點(diǎn)間沒(méi)有重組干擾,則給定某位點(diǎn)的遺傳狀態(tài)(inheritance state),即該位點(diǎn)的基因來(lái)自于祖父或祖母的信息,一邊位點(diǎn)的遺傳狀態(tài)將獨(dú)立于另一邊位點(diǎn)的狀態(tài),因而也是個(gè)一階馬爾可夫鏈(若存在重組干擾,則是高階馬爾可夫過(guò)程),因此,某個(gè)體在某位點(diǎn)(遺傳標(biāo)記或基因等)的遺傳狀態(tài)代表了二維馬爾可夫網(wǎng)格上的一個(gè)節(jié)點(diǎn)。通常性狀基因型、標(biāo)記等位基因序位和遺傳狀態(tài)不能被直接觀測(cè),因此遺傳因子的傳遞是個(gè)二維的隱馬爾可夫過(guò)程。迄今的遺傳作圖主要應(yīng)用Elston-Stewart算法[57-58]和Lander-Green算法[59]兩大基本算法,以前者為基礎(chǔ)開(kāi)發(fā)的方法及軟件有FASTLINK[60-62]和VITESSE[63]等,以后者為內(nèi)核的有GENEHUNTER[64]、MERLIN[65]和ALLEGRO[66-67]等。但這兩類(lèi)方法都采用了把二維模型轉(zhuǎn)化為一維模型的計(jì)算策略:Elston-Stewart算法把個(gè)體或婚姻聯(lián)結(jié)視為一個(gè)超節(jié)點(diǎn),利用世代方向的馬爾可夫特性簡(jiǎn)化計(jì)算;Lander-Green算法把各位點(diǎn)視為超節(jié)點(diǎn),利用染色體方向上的馬爾可夫特性簡(jiǎn)化計(jì)算。兩類(lèi)算法都有局限。隨考慮位點(diǎn)數(shù)的增加,Elston-Stewart算法中超節(jié)點(diǎn)的狀態(tài)數(shù)呈指數(shù)式增加,計(jì)算機(jī)內(nèi)存和計(jì)算時(shí)間開(kāi)銷(xiāo)隨之也急劇增加,因而只能處理少數(shù)位點(diǎn)。隨家系內(nèi)非奠基者(non-founder)數(shù)目的增加,Lander-Green算法中超節(jié)點(diǎn)的狀態(tài)數(shù)將指數(shù)增加,因而只能分析小家系。我們正在開(kāi)發(fā)基于伸縮型算法作圖方法,可望克服上述兩類(lèi)方法的不足。
3.2 生物序列數(shù)據(jù)分析 蛋白質(zhì)和核酸分別是由氨基酸和核苷酸等單元組成的序列。各單元的線(xiàn)性排列(即一級(jí)結(jié)構(gòu))是高級(jí)結(jié)構(gòu)和功能的基礎(chǔ),蘊(yùn)含了其行使生物功能所需的豐富信息,通過(guò)序列分析可挖潛生物分子的結(jié)構(gòu)、功能和進(jìn)化信息。在生物進(jìn)化過(guò)程中祖代序列受自然環(huán)境和其他因素的影響會(huì)發(fā)生突變、重組交換、插入/缺失等變化,在選擇或遺傳漂移等進(jìn)化力作用下,按不同的途徑演變成現(xiàn)存的序列。因某些生物學(xué)機(jī)制如三聯(lián)體密碼、二聯(lián)核苷酸及功能序列的保守性,序列單元間會(huì)存在內(nèi)在關(guān)聯(lián)性,研究[68]也證實(shí)生物序列并非完全隨機(jī)排列。Krogh等[69]發(fā)現(xiàn)蛋白質(zhì)和DNA等序列數(shù)據(jù)可用隱馬爾可夫模型表述,其中發(fā)生在各位置的替換、插入和刪除等是不可觀測(cè)的隱狀態(tài),各位置間狀態(tài)變換具有馬爾可夫特性,由一組轉(zhuǎn)換頻率決定狀態(tài)變化的可能性,而測(cè)序數(shù)據(jù)是觀測(cè)數(shù)據(jù),受相應(yīng)位置狀態(tài)的一組生成概率控制。因此,隱馬爾可夫模型是生物序列數(shù)據(jù)分析的有效工具,被廣泛應(yīng)用于單一序列的模式識(shí)別(pattern recognition)、序列比對(duì)、序列分類(lèi)、相似性查詢(xún)或同源性檢測(cè)等[70-73]。
序列比對(duì)是指將兩個(gè)或多個(gè)序列按照一定的規(guī)律排列,并標(biāo)注其相似之處,用于檢測(cè)序列之間的相似性或同源性。在比對(duì)中,錯(cuò)配與突變對(duì)應(yīng),而空位與插入或缺失對(duì)應(yīng),分別賦以不同的罰值,最終輸出一個(gè)位置特異性計(jì)分表,稱(chēng)為輪廓或特征譜。序列比對(duì)是序列特征提取和模式分類(lèi)的基礎(chǔ)。序列比對(duì)有全局和局部比對(duì)、雙序列和多序列比對(duì)之分。全局比對(duì)考慮整個(gè)序列的所有錯(cuò)配和空位,用于比較序列間整體關(guān)系上的密切程度,推測(cè)同源性;局部比對(duì)則識(shí)別匹配的子串序列,而忽略配對(duì)區(qū)域外的錯(cuò)配和空位,考察的是特定區(qū)段匹配程度,用于推斷那些與功能域有關(guān)、進(jìn)化上更保守的序列片段。多序列比對(duì)是雙序列比對(duì)的推廣,用于發(fā)現(xiàn)序列的共同特征和序列模式、定量估計(jì)序列間的關(guān)系、推斷進(jìn)化中的關(guān)系,原理上多序列比對(duì)與雙序列比對(duì)相同,但算法復(fù)雜度隨比對(duì)序列數(shù)增加而快速增加,通常由啟發(fā)式、漸進(jìn)式算法實(shí)現(xiàn)。常用的比對(duì)方法有以下幾種。Needleman-Wunsch算法[74]是成對(duì)全局比對(duì)方法,Smith-Waterman算法[75]是成對(duì)局部比對(duì)方法,F(xiàn)eng-Doolittle算法[76]是漸進(jìn)式多序列比對(duì)方法,特征譜分析法[77]是多序列特征譜構(gòu)建和比較的工具。然而這些常規(guī)方法效果相當(dāng)程度地依賴(lài)于取代矩陣(如蛋白質(zhì)序列中的Dayhoff mutational distance matrix)和空位罰分的選擇,帶有一定的主觀隨意性。
為了彌補(bǔ)上述方法的不足,近年來(lái)隱馬爾可夫原理被應(yīng)用于序列比對(duì)。根據(jù)輸入數(shù)據(jù),應(yīng)用學(xué)習(xí)算法訓(xùn)練模型參數(shù)如配對(duì)、插入、缺失間的轉(zhuǎn)換頻率及各狀態(tài)的輸出概率;基于擬合的模型,應(yīng)用解碼算法,找出單條序列的最優(yōu)狀態(tài)組合,完成比對(duì)。與常規(guī)的序列比對(duì)相比,隱馬爾可夫模型有正規(guī)的概率作基礎(chǔ),對(duì)序列空位和插入狀態(tài)評(píng)分、狀態(tài)輸出概率等有可靠的統(tǒng)計(jì)理論依據(jù)[78]。一組由共同祖先進(jìn)化而來(lái)的序列通過(guò)比對(duì)構(gòu)建特征譜后,隱馬爾可夫模型可用于提取共同區(qū)段、建立搜索數(shù)據(jù)庫(kù)、查找序列家族、查詢(xún)新序列,也可根據(jù)相似性對(duì)未知序列進(jìn)行分類(lèi),推斷進(jìn)化關(guān)系,構(gòu)建進(jìn)化樹(shù)。
3.3 基因發(fā)現(xiàn)和序列模式鑒別 基因識(shí)別就是從測(cè)序得到的DNA序列中識(shí)別其中的編碼區(qū)或基因,這項(xiàng)工作也稱(chēng)為基因組注釋(genomic annotation)[79-82]。有兩類(lèi)方法可用于基因識(shí)別。一類(lèi)是完全依賴(lài)序列數(shù)據(jù)的全始方法(ab initio method),即通過(guò)探索DNA序列中特異的區(qū)域?qū)ふ一?。一個(gè)基因包括啟動(dòng)子、起始密碼子、外顯子、內(nèi)含子、終止密碼子及兩端的不翻譯區(qū)域等結(jié)構(gòu),其中存在某些特征序列如內(nèi)含子的供體(GT二聯(lián)核苷酸)和接受器(AG二聯(lián)核苷酸)等。如果將給定的一段基因組DNA視為觀察序列,而將基因結(jié)構(gòu)看作不能直接觀測(cè)的隱狀態(tài),那么基因預(yù)測(cè)與自然語(yǔ)言識(shí)別十分相似,是一個(gè)隱馬爾可夫過(guò)程,基因識(shí)別就是根據(jù)觀測(cè)序列預(yù)測(cè)隱狀態(tài)最佳序列,屬隱馬爾可夫模型的解碼問(wèn)題。隱馬爾科夫模型用來(lái)預(yù)測(cè)基因的具體步驟如下。首先,用一組已注釋過(guò)的DNA序列集訓(xùn)練模型,然后根據(jù)擬合的模型,對(duì)一個(gè)未知的基因組序列反推出最可能的狀態(tài)路徑。類(lèi)似的思路也適用于序列模式、功能位點(diǎn)和特征信號(hào)的鑒別如CpG島、開(kāi)放讀碼框、轉(zhuǎn)錄因子結(jié)合位點(diǎn)、順式調(diào)控模塊、非編碼RNA等的預(yù)測(cè)[83]。另一類(lèi)基因識(shí)別方法是基于同源性方法或稱(chēng)比較基因組學(xué)法發(fā)現(xiàn)新基因,根據(jù)與已知的蛋白質(zhì)或基因序列比對(duì)的結(jié)果進(jìn)行基因預(yù)測(cè)、推斷基因功能,該法也可用于鑒定調(diào)控基因、檢測(cè)開(kāi)放讀碼框、探索垃圾基因等。
3.4 分子結(jié)構(gòu)預(yù)測(cè) 序列單元的排列次序是生物分子的一級(jí)結(jié)構(gòu),其更高級(jí)結(jié)構(gòu)與其功能密切相關(guān),如雙鏈DNA的雙螺旋和超螺旋立體形狀、蛋白質(zhì)的螺旋與折疊及轉(zhuǎn)角、二級(jí)結(jié)構(gòu)元素在三維空間的排列及不同亞基間的復(fù)合等。隱馬爾可夫模型也可用于分子結(jié)構(gòu)預(yù)測(cè),即由一級(jí)結(jié)構(gòu)推斷其高級(jí)結(jié)構(gòu)等[84-86]。本質(zhì)上這是一個(gè)模式識(shí)別問(wèn)題,隱馬爾可夫模型能提供有效的解決方案。其思路是把高級(jí)結(jié)構(gòu)分成若干個(gè)隱狀態(tài)如蛋白質(zhì)螺旋、折疊、轉(zhuǎn)角等,通過(guò)對(duì)已知高級(jí)結(jié)構(gòu)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,建立序列與高級(jí)結(jié)構(gòu)之間關(guān)系的最佳模型,進(jìn)而來(lái)預(yù)測(cè)目標(biāo)序列的高級(jí)結(jié)構(gòu)。
3.5 生物圖像分析 現(xiàn)代成像技術(shù)包括計(jì)算機(jī)斷層掃描成像、磁共振成像、超聲成像等,所產(chǎn)生的生物圖像是一類(lèi)重要的生物學(xué)數(shù)據(jù),計(jì)算機(jī)圖像分析是近年來(lái)生物學(xué)研究一個(gè)非?;钴S的熱點(diǎn)領(lǐng)域[87-88]。圖像的像素間常存在時(shí)空依賴(lài)性[89],同一張圖像像素間會(huì)有空間相關(guān),不同時(shí)間點(diǎn)的圖像像素間會(huì)有時(shí)間相關(guān)。多維隱馬爾可夫模型或隱馬爾可夫隨機(jī)場(chǎng)能可靠地描繪這些內(nèi)在相關(guān)結(jié)構(gòu)和隨機(jī)噪聲過(guò)程,作為改進(jìn)的方法被廣泛地應(yīng)用于圖像分割、圖像去噪、圖像檢索、圖像分類(lèi)、圖形識(shí)別等分析中[20,52,90-91]。其原理是將各個(gè)圖像像素特征,通常是矢量量化(由若干個(gè)標(biāo)量整體量化像素的特征如色彩、亮度、紋理、形狀等)的像素,視作服從一定概率分布的隨機(jī)變量,用馬爾可夫網(wǎng)格模型描述像素的空間結(jié)構(gòu)關(guān)系和條件獨(dú)立性,從而有效地描述圖像的性質(zhì),進(jìn)而對(duì)圖像數(shù)據(jù)進(jìn)行擬合。其步驟包括收集訓(xùn)練數(shù)據(jù)(即大量的圖像系列),提取像素特征(如灰度值、幾何形狀、紋理單元排列等信息)作為觀測(cè)序列,定義隱馬爾可夫網(wǎng)格模型結(jié)構(gòu),通過(guò)學(xué)習(xí)算法來(lái)優(yōu)化模型參數(shù),用優(yōu)化模型對(duì)未知圖像序列進(jìn)行圖像分割提取、分類(lèi)識(shí)別或者抽象化并找出其本質(zhì)的內(nèi)容,進(jìn)行圖像數(shù)據(jù)庫(kù)檢索、查找。
3.6 流行病學(xué)預(yù)測(cè) 傳染病蔓延、慢性病發(fā)病等是多狀態(tài)、多階段的進(jìn)程。病源菌在個(gè)體間傳播和體內(nèi)的擴(kuò)散有時(shí)序相關(guān)性,將來(lái)的疫情或病情與現(xiàn)在有關(guān),不依賴(lài)于過(guò)去。許多情況下,如疾病的狀態(tài)等不能確診或沒(méi)有調(diào)查。病源菌傳播也具有空間相關(guān)性,疾病地理分布也呈一定的空間結(jié)構(gòu)。因此可用隱馬爾可夫模型來(lái)模擬傳染病動(dòng)力學(xué)和慢性病發(fā)展過(guò)程及地理分布,進(jìn)行流行病學(xué)分析、預(yù)報(bào)和監(jiān)控[92-95]。主要步驟是:收集病情、疫情和流行病學(xué)資料,劃分若干個(gè)狀態(tài)如流行與非流行、健康與疾病分級(jí)狀態(tài),或動(dòng)態(tài)分派狀態(tài)數(shù)目,建立隱馬爾可夫模型,優(yōu)化模型參數(shù),然后對(duì)特定的病情、疫情進(jìn)行預(yù)測(cè)或繪制災(zāi)情區(qū)域分布圖。并且,可進(jìn)一步地把流行病學(xué)因素導(dǎo)入馬爾可夫模型,如建立對(duì)轉(zhuǎn)換狀態(tài)頻率影響模型等,改進(jìn)預(yù)測(cè)準(zhǔn)確性和評(píng)估風(fēng)險(xiǎn)因子。
3.7 進(jìn)化樹(shù)構(gòu)建 與基因在世代間傳遞類(lèi)似,分子進(jìn)化也是雙重馬爾可夫過(guò)程的組合:一方面,發(fā)生在基因組空間維度上不同位點(diǎn)的進(jìn)化事件如序列單元的取代和重組交換等是馬爾可夫過(guò)程;另一方面,發(fā)生在進(jìn)化歷史時(shí)間維度上各進(jìn)化樹(shù)分叉點(diǎn)的事件也是馬爾可夫過(guò)程[96]。相較于傳統(tǒng)的忽略位點(diǎn)間相依關(guān)系的進(jìn)化樹(shù)模型,進(jìn)化樹(shù)隱馬爾可夫模型可更為精準(zhǔn)地表達(dá)進(jìn)化上的真實(shí)關(guān)系,因而構(gòu)建的進(jìn)化樹(shù)更為精確[97-98]。這類(lèi)模型也用于抗原決定基的發(fā)現(xiàn)等研究中[99]。此外,隱馬爾可夫模型也被用于處理進(jìn)化和比較基因組研究中的不確定性和數(shù)據(jù)的不完整性[100]和位點(diǎn)進(jìn)化率的異質(zhì)性[101]等。
3.8 文本挖掘 飛速增長(zhǎng)的醫(yī)學(xué)文獻(xiàn)和臨床資料為循證醫(yī)學(xué)提供了大量素材,如何有效駕馭和處理海量文本信息也成了重要課題,開(kāi)發(fā)有效的文本挖掘方法可大大提高工作效率[102]。隱馬爾可夫模型是進(jìn)行文本信息提取和分類(lèi)的強(qiáng)有力工具[103-104]。其基本思路是科研論文和病例檔案包含若干語(yǔ)義標(biāo)簽或抽取域(如癥狀、論文標(biāo)題域、作者域等),其內(nèi)容是要抽取的語(yǔ)義項(xiàng),信息提取首先需確定抽取域,然后再提取相應(yīng)的語(yǔ)義項(xiàng),這一過(guò)程與隱馬爾可夫模型相吻合,各抽取域?qū)?yīng)于模型的隱狀態(tài)序列,而語(yǔ)義項(xiàng)則對(duì)應(yīng)于各狀態(tài)的觀測(cè)。具體實(shí)現(xiàn)包括建立隱馬爾可夫模型和選擇適當(dāng)?shù)慕Y(jié)構(gòu),對(duì)論文和醫(yī)學(xué)資料的語(yǔ)義項(xiàng)作分解,將大量已知的語(yǔ)義項(xiàng)作為觀測(cè)序列進(jìn)行模型學(xué)習(xí),利用學(xué)習(xí)好的模型對(duì)未知觀測(cè)序列執(zhí)行解碼運(yùn)算,找出最優(yōu)狀態(tài)序列,即尋找語(yǔ)義項(xiàng)相關(guān)的抽取域,并提取語(yǔ)義項(xiàng)信息,進(jìn)而完成文本挖掘任務(wù)。
生物體是由無(wú)數(shù)代謝網(wǎng)絡(luò)和調(diào)控網(wǎng)絡(luò)等組成的多層次、模塊化錯(cuò)綜龐雜的系統(tǒng),長(zhǎng)期進(jìn)化過(guò)程中功能上的關(guān)聯(lián)及隨機(jī)事件進(jìn)一步造就了充滿(mǎn)復(fù)雜性和不確定性的復(fù)雜進(jìn)化關(guān)系,解析這些復(fù)雜聯(lián)系、破譯生命的奧秘是當(dāng)今生物學(xué)研究面臨的艱巨挑戰(zhàn)?,F(xiàn)代生物技術(shù)為生物學(xué)研究提供了潛在可靠的實(shí)驗(yàn)手段,為剖析不同層次網(wǎng)絡(luò)模塊結(jié)構(gòu)、追蹤歷史事件等創(chuàng)造了可能,但對(duì)這些數(shù)據(jù)的提煉和知識(shí)的綜合,有賴(lài)于系統(tǒng)生物學(xué)、計(jì)算生物學(xué)、生物信息學(xué)等分析工具。隱馬爾可夫模型既能反映變量隨機(jī)性,又能反映變量間潛在結(jié)構(gòu),對(duì)內(nèi)在聯(lián)系和隨機(jī)信號(hào)有較強(qiáng)的建模能力,不僅能靈活處理時(shí)間、空間關(guān)聯(lián)性,同時(shí)又能容忍知識(shí)域中存在的不完整性和矛盾性,因此是十分有效的生物建模和生物計(jì)算工具。近年來(lái),隱馬爾可夫模型在復(fù)雜生物學(xué)問(wèn)題求解如基因代謝網(wǎng)絡(luò)分析和多組學(xué)數(shù)據(jù)的有機(jī)整合[105-106]中有深入的應(yīng)用。相信已經(jīng)初試身手的隱馬爾可夫模型必將在生物學(xué)機(jī)制的研究中大有用武之地。
[1]SHANNON CE.A mathematical theory of communication[J].Bell Labs Technical Journal,1948,27(3):379
[2]BILLINGSLEY P.Statistical methods in Markov chains[J].Annals of Mathematical Statistics,1961,32(1):12
[3]BHARUCHA-REID AT.Elements of the theory of Markov processes and their applications[M].New York/Toronto/London:McGraw-Hill,1960.
[4]VIDYASAGAR M.Hidden Markov Processes:theory and applications to biology[M].Princeton:Princeton University Press,2014.
[5]DYMARSKI P.Hidden Markov models, theory and applications[M].Rijeka:InTech Press,2011.
[6]CHING WK,MK MG.Markov chains: models, algorithms and applications[M].2nd ed.New York:Springer,2013.
[7]RABINER L,JUANG B.An introduction to hidden Markov models[J].IEEE ASSP Magazine,1986,3(1):4
[8]WOODS J.Two-dimensional discrete Markovian fields[J].IEEE Transactions on Information Theory,1972,18(2):232
[9]FORNASINI E.2D Markov chains[J].Linear Algebra and Its Applications,1990,140(1):101
[10]POLITIS DN.Markov-Chains in many dimensions[J].Adv Appl Probab,1994,26(3):756
[11]DERIN H,KELLY PA.Discrete-index Markov-type random processes[J].Proceedings of the IEEE,1989,77(10):1485
[12]ABEND K,HARLEY T,KANAL L.Classification of binary random patterns[J].IEEE Transactions on Information Theory,1965,11(4):538
[13]GRAY AJ,KAY JW,TITTERINGTON DM.An empirical study of the simulation of various models used for images[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,1994,16(5):507
[15]KINDERMANNR,SNELLJL.Markov random fields and their applications[J].American Mathematical Society,1980,1(3):415
[16]SHAKYA S,SANTANA R.Markov networks in evolutionary computation[M].Berlin/Heidelberg:Springer,2012.
[17]SMYTH P.Belief networks,hidden Markov models,and Markov random fields: a unifying view[J].Pattern Recognition Letters,1997,18(11/13):1261
[18]JORDAN MI.Graphical models[J].Statistical Science,2004,19(1):140
[19]KUNSCH H,GEMAN S,KEHAGIAS A.Hidden Markov random fields[J]. Annals of Applied Probability,1995,5(3):577
[20]ZHANG Y,Brady M,SMITH S.Segmentation of brain MR images through a hidden Markov random field model and the expectation-maximization algorithm[J].IEEE Trans Med Imaging,2001,20(1):45
[22]RABINER LR.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(2):257
[23]VITERBI A.Error bounds for convolutional codes and an asymptotically optimum decoding algorithm[J].IEEE Transactions on Information Theory,1967,13(2):260
[24]VITERBI AJ.A personal history of the Viterbi algorithm[J].IEEE Signal Processing Magazine,2006,23(4):120
[25]FORNEY GDJ.Theviterbi algorithm[J].Proceedings of the IEEE,1973,61(5):268
[26]BAUM LE,PETRIE T.Statistical inference for probabilistic functions of finite state Markov chains[J].Annals of Mathematical Statistics,1966,37(6):1554
[27]BAUM LE,PETRIE T,SOULES G,et al.A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains[J].Annals of Mathematical Statistics,1970,41(1):164
[28]DEMPSTER AP,LAIRD NM,RUBIN DB.Maximum likelihood from incomplete data via the EM algorithm[J].Elearn,1977,39(1):1
[29]KULLBACK S,LEIBLER RA.On information and sufficiency[J].Annals of Mathematical Statistics,1951,22(1):79
[30]LI J,NAJMI A,GRAY RM.Image classification by a two-dimensional hidden Markov model[J].IEEE Transactions on Signal Processing,2000,48(2):517
[31]LI YJ.An analytic solution for estimating two-dimensional hidden Markov models[J].Appl Math Comput,2007,185(2):810
[32]KANAL LN,GELSEMA ES.Pattern recognition in practice Ⅱ[M].Amsterdam:Elsevier,1986.
[33]DU S,WANG J,WEI Y.New learning algorithms for third-order 2-D hidden Markov models[J].International Journal of Advancements in Computing Technology,2011,3(2):104
[34]XIANG M,SCHONFEID D,KHOKHAR A.A general two-dimensional hidden Markov model and its application in image classification[J].IEEE International Conference on Image Processing,2007,6(3):Ⅵ
[35]QIAN W,TITTERINGTON DM.Pixel labelling for three-dimensional scenes based on Markov mesh models[J].Signal Processing,1991,22(3):313
[36]JOSHI D,LI J,WANG JZ.A computationally efficient approach to the estimation of two-and three-dimensional hidden Markov models[J].IEEE Transactions on Image Processing,2006,15(7):1871
[37]LI J,JOSHI D,WANG JZ.Stochastic modeling of volume images with a 3-D hidden Markov model:4 volume[C].International Conference on Image Processing,2004.IEEE,2004: 2359
[38]WERNER S,Rigoll G.Pseudo 2-dimensionalhidden Markovmodelsinspeechrecognition[C].IEEE Workshop on Automatic Speech Recognition and Understanding,2001.IEEE, 2001: 441
[39]LIN HC,WANG LL,YANG SN.Color image retrieval based on hidden Markov models[J].IEEE Transactions on Image Processing,1997,6(2):332
[40]KUO SS,AGAZZI OE.Keyword spotting in poorly printed documents using pseudo 2-D hidden Markov models[J].IEEE Transaction Pattern Analysis and Machine Intelligence,1994,16(8):842
[41]NEFIAN AV,HAYES Ⅲ MH.Face recognition using embedded hidden Markov model[C].IEEE Conference on Audio and Video-based Biometric Person Authentication.IEEE,1999:19
[42]MERIALDO BJ,JITEN J,HUET B.Multi-dimensional dependency-tree hidden Markov models[C].International Conference on Acoustics, Speech, and Signal Processing.IEEE,2006:773
[43]BAUMGARTNER J, FLESIA AG, GIMENEZ J,et al.A new approach to image segmentation with two-dimensional hidden Markov models[C].2013 BRICS Congress on Computational Intelligence & 11th Brazilian Congress on Computational Intelligence.IEEE,2013:213
[44]EMENTHON D,DOERMANN D,STUCKELBERG MV,Image distance using hidden Markov models:3 volume[C].The 15th Int.Conf.on Pattern Recognition, 2000.IEEE,2000:143
[45]SARGIN ME, ALTINOK A, ROSE K,et al. Conditional iterative decoding of two dimensional hidden Markov models[C].The 15th IEEE International Conference on Image Processing, 2008.IEEE,2008:2252
[46]MERIALDOB,MARCHAND-MAILLE S,HUETB.Approximate Viterbi decoding for 2-D hidden Markov models: 6 volume[C].IEEE International Conference on Acoustics,Speech,and Signal Processing,2000.IEEE,2000:2147
[47]PERRONNIN F,DUGELAY JL,ROSE K.Deformable face mapping for person identification[C].International Conference on Image Processing ICIP2003.IEEE,2003:661
[48]BAGGENSTOSS PM.Two-dimensional hidden Markov model for classification of continuous-valued noisy vector fields[J].IEEE Transaction Aerospace and Electronic System,2011,47(2):1073
[49]KOLLER D,FRIEDMAN N.Probabilistic graphical models:principles and techniques[M].Cambridge:MIT Press,2009.
[50]BROOKS S.Markov chain Monte Carlo method and its application[J].Journal of the Royal Statistical Society Series D:the statistician,1998,47(1):69
[51]JORDAN MI,GHAHRAMANI Z,JAAKKOLA TS,et al.An introduction to variational methods for graphical models[J].Mach Learn,1999,37(2):183
[52]BLAKE A,KOHLI P,ROTHER C.Markov random fields for vision and image processing[M].Cambridge:MIT Press,2011.
[53]WANG C,PARAGIOS N.Markov random fields in vision perception: a survey[M].Rapport de recherché,2012.
[54]CHURCHILL GA.Stochastic models for heterogeneous DNA sequences[J].Bull Math Biol,1989,51(1):79
[55]CHOO KH,TONG JC,ZHANG L.Recent applications of hidden Markov models in computational biology[J].Genomics Proteomics Bioinformatics,2004,2(2):84
[56]KOSKI T.Hidden Markov models for bioinformatics[M].Dordrecht:Kluwer Academic Publishers,2001.
[57]ELSTON RC,STEWART J.A general model for the genetic analysis of pedigree data[J].Hum Hered,1971,21(6):523
[58]CANNINGS C,THOMPSON EA,SKOLNICK MH.Probability functions on complex pedigrees[J].Advances in Applied Probability,1978,10(1):26
[59]LANDER ES,GREEN P.Construction of multilocus genetic linkage maps in humans[J].Proc Natl Acad Sci USA,1987,84(8):2363
[60]COTTINGHAM RW JR,IDURY RM,SCH-FFER AA.Faster sequential genetic linkage computations[J].Am J Hum Genet,1993,53(1):252
[63]O'CONNELL JR,WEEKS DE.The VITESSE algorithm for rapid exact multilocus linkage analysis via genotype set-recoding and fuzzy inheritance[J].Nat Genet,1995,11(4):402
[64]KRUGLYAK L,DALY MJ,REEVE-DALY MP,et al.Parametric and nonparametric linkage analysis: a unified multipoint approach[J].Am J Hum Genet,1996,58(6):1347
[65]ABECASIS GR,CHERNY SS,COOKSON WO,et al.Merlin:rapid analysis of dense genetic maps using sparse gene flow trees[J].Nat Genet,2002,30(1):97
[66]GUDBJARTSSON DF,THORVALDSSON T,KONG A,et al.Allegro version 2[J].Nat Genet,2005,37(10):1015
[67]GUDBJARTSSON DF,JONASSON K,FRIGGE ML,et al.Allegro, a new computer program for multipoint linkage analysis[J].Nat Genet,2000,25(1):12
[68]GENTLEMAN JF,MULLIN RC.The distribution of the frequency of occurrence of nucleotide subsequences, based on their overlap capability[J].Biometrics,1989,45(1):35
[69]KROGH A,BROWN M,MIAN IS,et al.Hidden Markov models in computational biology:applications to protein modeling[J].J Mol Biol,1994,235(5):1501
[70]KARLIN S,GHANDOUR G,OST F,et al.New approaches for computer analysis of nucleic acid sequences[J].Proc Natl Acad Sci USA,1983,80(18):5660
[71]HUGHEY R,KROGH A.Hidden Markov models for sequence analysis: extension and analysis of the basic method[J].Comput Appl Biosci,1996,12(2):95
[72]YOON BJ.Hidden Markov models and their applications in biological sequence analysis[J].Curr Genomics,2009,10(6):402
[73]EDDY SR.Hidden Markov models[J].Curr Opin Struct Biol,1996,6(3):361
[74]NEEDLEMAN SB,WUNSCH CD.A general method applicable to the search for similarities in the amino acid sequence of two proteins[J].J Mol Biol,1970,48(3):443
[75]SMITH TF,WATERMAN MS.Identification of common molecular subsequences[J].J Mol Biol,1981,147(1):195
[76]FENG DF,DOOLITTLE RF.Progressive sequence alignment as a prerequisite to correct phylogenetic trees[J].J Mol Evol,1987,25(4):351
[77]GRIBSKOV M,MCLACHLAN AD,EISENBERG D.Profile analysis:detection of distantly related proteins[J].Proc Natl Acad Sci USA,1987,84(13):4355
[78]HE M,PETOUKHOV S.Mathematics of bioinformatics:theory,methods and applications[M].[s.l]:Wiley-Interscience,2010:15
[79]KROGH A,MIAN IS,HAUSSLER D.A hidden Markov model that finds genes in E.coli DNA[J].Nucleic Acids Res,1994,22(22):4768
[80]LUKASHIN AV,BORODOVSKY M.Gene.hmm:new solutions for gene finding[J].Nucleic Acids Res,1998,26(4):1107
[81]BURGE C,KARLIN S.Prediction of complete gene structures in human genomic DNA[J].J Mol Biol,1997,268(1):78
[82]PEDERSEN JS,HEIN J.Gene finding with a hidden Markov model of genome structure and evolution[J].Bioinformatics,2003,19(2):219
[83]BANG H,ZHOU XK,VAN EPPS HL,et al.Statistical methods in molecular biology[M].Clifton:Humana Press,2010.
[84]CHURCHILL GA.Hidden Markov chains and the analysis of genome structure[J].Computers and Chemistry,1992,16(2):107
[85]GOLDMAN NTHORNE JL,JONES DT.Using evolutionary trees in protein secondary structure prediction and other comparative sequence analyses[J].J Mol Biol,1996,263(2):196
[86]WON JK,HAMELRYCK T,PR-GELBENNETT A,et al.An evolutionary method for learning HMM structure:prediction of protein secondary structure[J].BMC Bioinformatics,2007,8(1):357
[87]ROEDER AH,CUNHA A,BURL MC,et al.A computational image analysis glossary for biologists[J].Development,2012,139(17):3071
[88]RITTSCHER J.Characterization of biological processes th-rough automated image analysis[J].Annu Rev Biomed Eng,2010,12:315
[89]WANG Y,RESNICK SM,DAVATZIKOS C,et al.Analysis of spatio-temporal brain imaging patterns by Hidden Markov models and serial MRI images[J].Hum Brain Mapp,2014,35(9):4777
[90]LI SZ.Markov randomfield modeling in computer vision[M].Tokyo:Springer,2012.
[91]LI J,GRAY RM.Image segmentation and compression using hidden Markov models[M].New York:Springer,2000.
[92]LE STRAT Y,CARRAT F.Monitoring epidemiologic surveillance data using hidden Markov models[J].Stat Med,1999,18(24):3463
[93]COOPER B,LIPSITCH M.The analysis of hospital infection data using hidden Markov models[J].Biostatistics,2004,5(2):223
[94]WATKINS RE,EAGLESON S,VEENENDAAL B,et al.Disease surveillance using a hidden Markov model[J] BMC Med Inform Decis Mak,2009,9(1):39
[95]GREEN PJ,RICHARDSON S.Hidden Markov models and disease mapping[J].J Am Stat Assoc,2002,97(460):1055
[96]NIELSEN R.Statistical methods in molecular evolution[M].New York:Springer,2010.
[97]SIEPEL A,HAUSSLER D.Combining phylogenetic and hidden Markov models in biosequence analysis[J].J Comput Biol,2004,11(2/3):413
[98]HUSMEIER D.Discriminating between rate heterogeneity and interspecific recombination in DNA sequence alignments with phylogenetic factorial hidden Markov models[J].Bioinformatics,2005,21(suppl 2):ii166
[99]LACERDA M,SCHEFFLER K,SEOIGHE C.Epitope discovery with phylogenetic hidden Markov models[J].Mol Biol Evol,2010,27(5):1212
[100]BYKOVA NA, FAVOROV AV, MIRONOV AA.Hidden Markov models for evolution and comparative genomics analysis[J].PLoS One,2013,8(6):e65012
[101]FELSENSTEIN J,CHURCHILL GA.A Hidden Markov Model approach to variation among sites in rate of evolution[J].Mol Biol Evol,1996,13(1):93
[102]AGGARWAL C,ZHAI CX.Mining text data[M].New York:Springer,2012.
[103]JANG H,SONG SK,MYAENG SH.Text mining for medical documents using a Hidden markov model[C]//NG HT,LEONG MK,KAN MY, et al.Editors Information Retrieval Technology:AIRS 2006.Berlin/Heidelberg:Springer,2006:553
[104]YI K,BEHESHTI J.A hidden Markov model-based text classification of medical documents[J].Journal of Information Science,2009,35(1):67
[105]WEI P,PAN W.Network-based genomic discovery: application and comparison of Markov random field models[J].J R Stat Soc Ser C Appl Stat,2010,59(1):105
[106]RIDER AK,CHAWLA NV,EMRICH SJ.A survey of currentintegrative network algorithms for systems biology[M]//.Systems biology:integrative biology and simulation tools.Dordrecht:Springer,2013:479
(2017-01-23收稿 責(zé)任編輯王 曼)
特約述評(píng)作者簡(jiǎn)介
樓向陽(yáng)(1967-),男,浙江東陽(yáng)人,博士,美國(guó)阿肯色醫(yī)科大學(xué)副教授。1997年獲浙江大學(xué)農(nóng)生學(xué)院作物遺傳育種專(zhuān)業(yè)統(tǒng)計(jì)遺傳研究方向博士學(xué)位。2002年赴美國(guó)留學(xué)深造,相繼在佛羅里達(dá)大學(xué)(University of Florida)統(tǒng)計(jì)系、德克薩斯大學(xué)圣安東尼奧醫(yī)學(xué)中心(University of Texas Health Science Center)精神病學(xué)系、弗吉尼亞大學(xué)(University of Virginia)精神病醫(yī)學(xué)與神經(jīng)行為科學(xué)系任博士后研究員。2006年在美國(guó)弗吉尼亞大學(xué)(University of Virginia)晉升為助理教授,2009年在美國(guó)阿拉巴馬大學(xué)伯明翰分校(University of Alabama at Birmingham)晉升為副教授,2015年任職杜蘭大學(xué)(Tulane University)副教授,2016年在阿肯色醫(yī)科大學(xué)(University of Arkansas for Medical Sciences)任職。在《Journal of the American Statistical Association》《American Journal of Human Genetics》《Proceedings of the National Academy of Sciences of the United States of America》《Human Molecular Genetics》《Molecular Psychiatry》《Biological Psychiatry》《Genetics》《Heredity》《Human Genetics》等期刊上發(fā)表學(xué)術(shù)論文70余篇。2006年獲浙江省科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)1項(xiàng)。主持美國(guó)國(guó)家科學(xué)基金(NSF)、美國(guó)國(guó)立衛(wèi)生研究院(NIH)R01基金等國(guó)際級(jí)項(xiàng)目及中國(guó)國(guó)家自然科學(xué)基金項(xiàng)目等多項(xiàng)課題的研究。擔(dān)任美國(guó)國(guó)家科學(xué)基金評(píng)委、美國(guó)國(guó)立衛(wèi)生研究院基金評(píng)委,多家國(guó)際學(xué)術(shù)雜志的副主編和編委。
10.13705/j.issn.1671-6825.2017.03.001
*美國(guó)國(guó)家科學(xué)基金項(xiàng)目 DMS1462990