• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      質(zhì)譜分析的生物信息學(xué)方法及其對(duì)比分析

      2012-03-24 07:23:13梁冰苑昂清王衛(wèi)東
      中國(guó)醫(yī)療器械雜志 2012年5期
      關(guān)鍵詞:信息學(xué)決策樹(shù)質(zhì)譜

      梁冰苑,昂清,王衛(wèi)東

      1 解放軍總醫(yī)院醫(yī)學(xué)工程保障中心生物醫(yī)學(xué)工程研究室,北京市,100853

      2 北京理工大學(xué)信息與電子學(xué)院,北京市,100081

      質(zhì)譜分析的生物信息學(xué)方法及其對(duì)比分析

      【作者】梁冰苑1,2,昂清1,2,王衛(wèi)東1

      1 解放軍總醫(yī)院醫(yī)學(xué)工程保障中心生物醫(yī)學(xué)工程研究室,北京市,100853

      2 北京理工大學(xué)信息與電子學(xué)院,北京市,100081

      蛋白質(zhì)譜具有復(fù)雜、數(shù)據(jù)量大等特點(diǎn),采用一般的統(tǒng)計(jì)學(xué)方法難以得到滿意的疾病預(yù)測(cè)或分類結(jié)果。文從生物信息學(xué)的角度出發(fā),綜述了質(zhì)譜數(shù)據(jù)挖掘的決策樹(shù)模型、偏最小二乘法、神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)幾種主要方法,并對(duì)不同的方法給出了疾病診斷的實(shí)例說(shuō)明,體現(xiàn)了質(zhì)譜分析方法對(duì)疾病判別和預(yù)測(cè)的重要作用。

      生物信息學(xué);數(shù)據(jù)預(yù)處理;決策樹(shù)模型;偏最小二乘法;人工神經(jīng)網(wǎng)絡(luò);支持向量機(jī)。

      0 引言

      生命科學(xué)的迅猛發(fā)展使人們從基因組學(xué)、蛋白質(zhì)組學(xué)等研究領(lǐng)域中獲得了大量的數(shù)據(jù)[1]。但數(shù)據(jù)并不等同于信息和知識(shí),而是信息和知識(shí)的源泉。如何收集、存儲(chǔ)和分析這些數(shù)據(jù),尤其是如何從不連貫的數(shù)據(jù)中獲取有用的生物學(xué)信息,僅僅依靠傳統(tǒng)的數(shù)理統(tǒng)計(jì)手段是難以解決這些問(wèn)題的。

      伴隨著蛋白質(zhì)組學(xué)和基因組學(xué)研究的發(fā)展,生物信息學(xué)(bioinformatics)應(yīng)運(yùn)而生[2]。生物信息學(xué)以數(shù)學(xué)理論和計(jì)算機(jī)技術(shù)為主要手段,應(yīng)用軟件和計(jì)算機(jī)網(wǎng)絡(luò)為主要工具,通過(guò)對(duì)海量的原始數(shù)據(jù)進(jìn)行收集、存儲(chǔ)、管理、分析、注釋、加工和處理,從而獲得新的知識(shí)。通過(guò)將數(shù)據(jù)挖掘和信息處理技術(shù)應(yīng)用于臨床醫(yī)學(xué)數(shù)據(jù),生物信息學(xué)在醫(yī)學(xué)基礎(chǔ)研究和臨床實(shí)踐領(lǐng)域都發(fā)揮了巨大的輔助和推動(dòng)作用。將生物信息學(xué)的方法應(yīng)用到質(zhì)譜數(shù)據(jù)的挖掘,可以很大程度上提高疾病預(yù)測(cè)的準(zhǔn)確度,并提高分類效率。

      本文在查閱大量文獻(xiàn)的基礎(chǔ)上,綜述了質(zhì)譜分析的生物信息學(xué)方法,并分析、對(duì)比了幾種代表性研究方法的優(yōu)劣。

      1 質(zhì)譜分析的主要方法

      數(shù)據(jù)挖掘[3]是從大量、不完整、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中,提取隱含在其中人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。而質(zhì)譜分析的目的在于從原始質(zhì)譜數(shù)據(jù)中提取有用信息,為臨床疾病診斷和個(gè)體化治療方案的確定提供決策性建議。從信息學(xué)角度講,屬于數(shù)據(jù)挖掘范疇。

      質(zhì)譜分析的方法有很多,每種方法都有自己的優(yōu)點(diǎn)和不足之處,到目前為止還沒(méi)有一種普適的方法。比選擇分類方法更重要的是熟悉選定的方法,以保證其正確和合理使用。通常需要根據(jù)主觀標(biāo)準(zhǔn)來(lái)進(jìn)行選擇,如研究人員的經(jīng)驗(yàn)和科學(xué)背景等。

      目前,質(zhì)譜分析主要有決策樹(shù)模型(Decision Tree Analysis, DTA)[5]、偏最小二乘法(Partial Least Squares, PLS)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANN)[6]和支持向量機(jī)(Support Vector Machines, SVM)[7]等幾種方法。根據(jù)是否具有記憶和學(xué)習(xí)功能,可分為非智能算法(DTA、PLS)與智能算法(ANN、SVM)兩類。

      在進(jìn)行質(zhì)譜數(shù)據(jù)分析前,首先需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,為高質(zhì)量的挖掘結(jié)果打好基礎(chǔ)。

      1.1 質(zhì)譜數(shù)據(jù)的預(yù)處理

      “預(yù)處理”一詞給人的印象是處理一系列主要分析的次要前期階段。然而,預(yù)處理階段有其特殊的重要性,因?yàn)樗绊懙綌?shù)據(jù)處理后期階段的特定編碼格式的選擇。選擇正確的編碼格式,可以大大降低后續(xù)處理的計(jì)算量,提高分析的能力和效率。

      迄今,還沒(méi)有一種通用、公認(rèn)的方法讀出譜線。目前常用的讀出譜峰的方法有:幅值法、一階導(dǎo)數(shù)法和二階導(dǎo)數(shù)法。信噪比大的明顯的譜峰,由平均質(zhì)量和強(qiáng)度最高值檢測(cè)和表征(圖1A)[4]。這里所說(shuō)的“質(zhì)量”,實(shí)際上是“質(zhì)荷比”[8]。

      圖1 質(zhì)譜數(shù)據(jù)預(yù)處理Fig.1 Mass spectrometry data preprocessing

      如果不同譜線的峰值對(duì)應(yīng)相近的質(zhì)量,譜線的峰值就會(huì)互相配合并集群,這就是所謂的譜峰聚類(圖1B)。峰值完全依靠譜結(jié)構(gòu)分組。每個(gè)高峰聚類對(duì)應(yīng)于一個(gè)質(zhì)量區(qū)間,由一個(gè)特征性的質(zhì)量來(lái)描述,如某一集群中眾多譜峰的平均位置所對(duì)應(yīng)的質(zhì)量。按照譜峰的最大強(qiáng)度值讀出所有的譜線。

      峰值的自動(dòng)檢測(cè)和聚類往往同步進(jìn)行。在峰值檢測(cè)的第一步,峰值都是獨(dú)立地由單一質(zhì)譜決定的。譜峰聚類后,單一質(zhì)譜依據(jù)較嚴(yán)格的標(biāo)準(zhǔn)被再次分析,從而最初遺漏的信噪比較小的峰值將被發(fā)現(xiàn),也就是說(shuō)一個(gè)峰值如果存在于許多譜中,那么它也很有可能存在于一個(gè)譜中。在圖1中,右側(cè)標(biāo)記“×”的極大值被其他譜證明,而左邊極大值的則得不到證明。峰值檢測(cè)和聚類通常分兩個(gè)步驟進(jìn)行:第一,峰值自動(dòng)檢測(cè)和集群;第二,根據(jù)檢查結(jié)果,由有經(jīng)驗(yàn)的工作人員手動(dòng)調(diào)整。

      1.2 決策樹(shù)模型

      1.2.1 模型原理

      決策樹(shù)模型是一種階梯式劃分?jǐn)?shù)據(jù)(圖2)的算法。從給定的樣本數(shù)目基本一致的兩個(gè)數(shù)據(jù)集開(kāi)始(圖2A,頂部)(例如兩組分別來(lái)自健康人和病人的血清質(zhì)譜的峰叢強(qiáng)度),通過(guò)從不同類別中將病例分離,檢查所有可能的特征截?cái)嘀档挠猛?。兩個(gè)數(shù)據(jù)點(diǎn)之間的每個(gè)特定功能的截?cái)?,?duì)應(yīng)于兩個(gè)分類器:一個(gè)分類器將數(shù)值?。ù螅┯诮?cái)嘀档臉颖痉峙涞健鞍祝ê冢鳖愔?,另一個(gè)功能相反的分類器將數(shù)值低(高)于截?cái)嘀档臉颖痉峙涞健昂冢ò祝鳖愔校▓D2A,中)。判斷截?cái)嗍欠裼行У囊罁?jù)是正確歸類病例的數(shù)目。用所有測(cè)得的功能檢查所有不同的截?cái)嗪?,選擇最有用的截?cái)?特征對(duì)。在圖2A(下)中,最有用的切斷標(biāo)記為“*”, 該截?cái)嗌傻姆诸惼髦挥?個(gè)錯(cuò)誤分類的病例。從而,可獲得優(yōu)化的同質(zhì)類中的子數(shù)據(jù)集,例如圖2B中的子數(shù)據(jù)集I和II。數(shù)據(jù)分區(qū)的過(guò)程反復(fù)進(jìn)行,直到獲得的同質(zhì)類(Class homogenous)的子數(shù)據(jù)集的大小可以接受。圖2B顯示了一個(gè)連續(xù)應(yīng)用兩個(gè)截?cái)嗟睦?,最后產(chǎn)生三個(gè)子數(shù)據(jù)集,記為“終端節(jié)點(diǎn)”I-III。

      圖2 決策樹(shù)生成Fig.2 Decision Tree

      決策樹(shù)生成中的核心問(wèn)題是“過(guò)擬合”現(xiàn)象。決策樹(shù)過(guò)于擬合實(shí)際數(shù)據(jù)集,因而對(duì)于未曾發(fā)現(xiàn)的數(shù)據(jù)很可能是不適合的。

      研究只對(duì)非過(guò)度擬合的決策樹(shù)感興趣。非過(guò)擬合決策樹(shù)的分類標(biāo)準(zhǔn)并不代表實(shí)際數(shù)據(jù)集的特性,而是潛在患者群的典型特征。如圖3 A,在單一的決策樹(shù)中使用許多分裂標(biāo)準(zhǔn),生成樹(shù)所使用的數(shù)據(jù)集的錯(cuò)誤分類的數(shù)量可以減少到零。然而,只有最初的幾個(gè)準(zhǔn)則可以推廣到無(wú)形的數(shù)據(jù)。

      可以通過(guò)停止準(zhǔn)則防止過(guò)度擬合。停止準(zhǔn)則,即決策樹(shù)生成過(guò)程中當(dāng)遇到某一標(biāo)準(zhǔn)時(shí),則停止生成,例如,當(dāng)所有終端節(jié)點(diǎn)少于5例病人時(shí)。交叉驗(yàn)證是估計(jì)最佳分裂標(biāo)準(zhǔn)數(shù)量的一種很好的方式(圖3 B)。通過(guò)選擇各自的測(cè)試集上整體分類錯(cuò)誤最少的樹(shù)的結(jié)構(gòu),可以獲得決策樹(shù)的最佳截?cái)鄠€(gè)數(shù)。

      圖3 過(guò)擬合Fig.3 Over-fitting

      1.2.2 模型舉例

      (1) 研究[15]表明,發(fā)明蛋白質(zhì)芯片飛行時(shí)間質(zhì)譜系統(tǒng),根據(jù)各蛋白質(zhì)峰的質(zhì)荷比(m/z),采用決策樹(shù)算法,建立一個(gè)決策樹(shù)的蛋白質(zhì)指紋圖譜模型;將檢測(cè)人血清中相應(yīng)的蛋白質(zhì)的質(zhì)荷比與本發(fā)明的模型進(jìn)行分析,就可以初步用于肺癌診斷,其預(yù)測(cè)準(zhǔn)確率為71%。

      (2) 研究[16]表明,分類決策樹(shù)模型的交叉驗(yàn)證(測(cè)試組)總準(zhǔn)確率為81.8%,ALN有轉(zhuǎn)移的乳腺癌患者檢出率為83.3%,ALN無(wú)轉(zhuǎn)移的檢出率為80%,構(gòu)建的分類決策樹(shù)模型能達(dá)到區(qū)分ALN是否有轉(zhuǎn)移的最佳效果。

      1.3 偏最小二乘法(PLS)

      偏最小二乘法(Partial Least Squares,PLS)是一種適合處理變量數(shù)很大的建模方法,具有較強(qiáng)的提供信息能力,在分析化學(xué)中得到了廣泛的應(yīng)用[11-12]。PLS變量篩選法是在PLS回歸法基礎(chǔ)上作變量篩選的[9]。

      1.3.1 PLS回歸法原理

      PLS法是一種研究?jī)蓚€(gè)數(shù)據(jù)塊或矩陣和相關(guān)關(guān)系的方法。在該方法中對(duì)數(shù)據(jù)矩陣實(shí)施序列的正交變換:

      其中h為隱變量的個(gè)數(shù)。在變換過(guò)程中,使得到的矢量ti與對(duì)數(shù)據(jù)矩陣變換得到的矢量ui=Yqi的協(xié)方差為最大值。具體PLS正交變換算法見(jiàn)文獻(xiàn)[10]

      式(1)可寫(xiě)為矩陣的形式:

      PLS回歸模型為:

      將(2)帶入(3),可得:

      因此,PLS回歸法的模型系數(shù)由(4)得:

      其中,隱變量的個(gè)數(shù)或矩陣中變量的個(gè)數(shù)小于矩陣中變量的個(gè)數(shù)。

      2.3.2 PLS變量篩選法原理

      PLS變量篩選法是在PLS方法技術(shù)上發(fā)展起來(lái)的一種變量篩選法,能提取成分復(fù)雜的圖譜信息,且可以避免譜圖數(shù)據(jù)共線的問(wèn)題。預(yù)測(cè)能力強(qiáng)且模型相對(duì)簡(jiǎn)單。

      在PLS變量篩選法中,首先用PLS法對(duì)含有全部變量的數(shù)據(jù)處理,建立一個(gè)預(yù)報(bào)穩(wěn)定性較高的模型。在此基礎(chǔ)上,利用其中回歸系數(shù)等有關(guān)信息進(jìn)行變量篩選。主要采用以下判據(jù)刪除影響不大的變量:

      △Ei表示當(dāng)刪除第個(gè)變量時(shí),PLS回歸模型的擬合誤差增加值;T為PLS法得到的正交矩陣,矩陣(TTT)-1為對(duì)角矩陣,較容易計(jì)算;R是PLS正交分解得到的矩陣,而矢量1i為第1i個(gè)分量為1、其余分量為0的一種特殊矢量;bi為第i個(gè)變量對(duì)應(yīng)的回歸系數(shù)。在PLS變量篩選法中,主要是刪除那些△Ei值很小對(duì)應(yīng)的變量。

      1.3.3 模型舉例

      ⑴ 研究[17]中,Goncalves等應(yīng)用SELDI-TOF-MS研究了81例早期乳腺癌患者的血清蛋白質(zhì)組圖譜,其中40個(gè)蛋白質(zhì)在有轉(zhuǎn)移組和無(wú)轉(zhuǎn)移組中有顯著性差異表達(dá)。采用偏最小二乘法,最終得到了一個(gè)由40個(gè)蛋白組成的蛋白質(zhì)組預(yù)后預(yù)測(cè)圖譜,其預(yù)測(cè)的敏感度和特異度分別是87%和76%。血清蛋白質(zhì)組學(xué)在乳腺癌預(yù)后預(yù)測(cè)中得到應(yīng)用。

      ⑵ 研究[9]表明:肝癌病人和健康人的血清蛋白質(zhì)指紋圖譜數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)預(yù)處理、PLS變量篩選法建立分類模型,模型CR值達(dá)到0.9611,100個(gè)樣本完全判斷正確。

      1.4 人工神經(jīng)網(wǎng)絡(luò)模型

      人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)模型的研究目標(biāo),是通過(guò)研究人腦的組成機(jī)理和思維方式,探索人類智能的奧秘,進(jìn)而通過(guò)模擬人腦的結(jié)構(gòu)和工作模式,使機(jī)器具有類似人類的智能。應(yīng)用到醫(yī)學(xué)數(shù)據(jù)處理上,就是通過(guò)建立模型,找出血清蛋白質(zhì)譜中表征健康或疾病的信息。

      感知器(perceptron)模型是一種最基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型。在感知器模型的基礎(chǔ)上,發(fā)展出了反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)、自組織映射(Self-Organized Mapping,SOM)神經(jīng)網(wǎng)絡(luò)等模型[12]。

      BP神經(jīng)網(wǎng)絡(luò)可以處理共線性效應(yīng)和變量間交互作用,善于處理非線性的、模糊的、含有噪聲的數(shù)據(jù)情況,且理論基礎(chǔ)牢固,物理概念清晰,通用性好。SOM神經(jīng)網(wǎng)絡(luò)是無(wú)監(jiān)督競(jìng)爭(zhēng)式學(xué)習(xí)網(wǎng)絡(luò),通過(guò)學(xué)習(xí)能夠提取待處理數(shù)據(jù)中的某種內(nèi)在規(guī)律,并按離散時(shí)間方式進(jìn)行分類,大大減弱了一致性準(zhǔn)則中的人為因素。神經(jīng)網(wǎng)絡(luò)的局限性在于,建立在漸進(jìn)理論的基礎(chǔ)上,需要無(wú)窮多的樣本才能較真實(shí)的模擬樣本的分布函數(shù),而實(shí)際上所得的樣本都是有限的。

      1.4.1 反向傳播模型原理

      反向傳播模型也稱B-P模型,是一種用于前向多層的反向傳播學(xué)習(xí)算法。所以將其稱作反向?qū)W習(xí)算法,是因?yàn)樵谛薷母魅斯ど窠?jīng)元的連接權(quán)值時(shí),所依據(jù)的是該網(wǎng)絡(luò)的實(shí)際輸出與其期望的輸出之差,將這一差值反向一層一層的向回傳播,來(lái)決定連接權(quán)值的修改(圖4)。

      圖4 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 BP neural network

      B-P算法的學(xué)習(xí)過(guò)程如下:

      (1) 選擇一組訓(xùn)練樣例,每一個(gè)樣例由輸入信息和期望的輸出結(jié)果兩部分組成;

      (2) 從訓(xùn)練樣例集中取一樣例,把輸入信息輸入到網(wǎng)絡(luò)中;

      (3) 分別計(jì)算經(jīng)神經(jīng)元處理后的各層節(jié)點(diǎn)的輸出;

      (4) 計(jì)算網(wǎng)絡(luò)的實(shí)際輸出和期望輸出的誤差;

      (5) 從輸出層反向計(jì)算到第一個(gè)隱層,并按照某種能使誤差向減小方向發(fā)展的原則,調(diào)整網(wǎng)絡(luò)中各神經(jīng)元的連接權(quán)值;

      (6) 對(duì)訓(xùn)練樣例集中的每一個(gè)樣例重復(fù)(3)~(5)的步驟,直到對(duì)整個(gè)訓(xùn)練樣例集的誤差達(dá)到要求時(shí)為止。1.4.2 自組織映射模型原理

      自組織映射神經(jīng)網(wǎng)絡(luò)是聚類分析中廣泛使用的一種高維可視化的無(wú)監(jiān)督學(xué)習(xí)算法,是通過(guò)模擬人腦對(duì)信號(hào)處理的特點(diǎn)而發(fā)展起來(lái)的一種人工神經(jīng)網(wǎng)絡(luò)。SOM網(wǎng)絡(luò)由輸入層和競(jìng)爭(zhēng)層(輸出層)組成,且兩層之間是全連接的(圖5)。目前,SOM算法已被廣泛應(yīng)用于眾多信息處理領(lǐng)域,在血清蛋白質(zhì)譜分析中也發(fā)揮著很大作用[13]。

      圖5 SOM網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 SOM neural network

      SOM算法的學(xué)習(xí)過(guò)程如下:

      將網(wǎng)絡(luò)中各輸入神經(jīng)元與競(jìng)爭(zhēng)層神經(jīng)元的連接情況抽出,設(shè)網(wǎng)絡(luò)輸入模式為:

      競(jìng)爭(zhēng)層神經(jīng)元矢量為:

      其中式(7)的Pk為連續(xù)值,式(8)的Aj為數(shù)字量。競(jìng)爭(zhēng)層神經(jīng)元j與輸入層神經(jīng)元之間的連接權(quán)矢量為

      1.4.3 模型舉例

      ⑴ 研究[18]采用BP-ANN算法,建立并存儲(chǔ)診斷模型、預(yù)后模型。診斷模型對(duì)大腸癌的診斷靈敏度和特異度分別為82.22%和80.45%,陰性預(yù)測(cè)值94.74%,陽(yáng)性預(yù)測(cè)值51.39%,準(zhǔn)確度為80.80%。預(yù)后模型通過(guò)回驗(yàn),證明該模型的檢驗(yàn)符合率為62.96%。

      ⑵ 在研究[14]中,對(duì)所有質(zhì)譜數(shù)據(jù)用SOM-ANN進(jìn)行特征選擇(網(wǎng)絡(luò)為6*6,迭代次數(shù)為1 000次),按權(quán)值大小挑出權(quán)值大的那些特征,對(duì)權(quán)值相同的特征挑出其中一個(gè)。在卵巢癌質(zhì)譜數(shù)據(jù)的實(shí)驗(yàn)結(jié)果中,當(dāng)特征維數(shù)選擇為5左右時(shí),SOM的識(shí)別率達(dá)到了87.2%,是一種有效的特征選擇方法。

      1.5 支持向量機(jī)

      支持向量機(jī)(Support vector machine,SVM)是一種新型模式識(shí)別方法,它能根據(jù)有限的樣本信息,在研究對(duì)象模型的復(fù)雜性與分類器的學(xué)習(xí)能力之間尋求最佳的折中方案。理論上,支持向量機(jī)算法得到的是全局最優(yōu)點(diǎn),解決了局部極值問(wèn)題。該算法將實(shí)際問(wèn)題通過(guò)非線性變換轉(zhuǎn)換到高維的特征空間,巧妙地解決了維數(shù)問(wèn)題,使算法復(fù)雜度與樣本維數(shù)無(wú)關(guān)。但是支持向量機(jī)算法的核函數(shù)選擇困難,且算法的復(fù)雜性導(dǎo)致訓(xùn)練速度較慢,不宜解決大規(guī)模的分類問(wèn)題。

      支持向量機(jī)剛主要用于解決數(shù)據(jù)分類問(wèn)題,分類問(wèn)題中最常見(jiàn)的是線性可分問(wèn)題(圖6左)、大約線性可分(圖6右)、線性不可分情況(圖7)[14]。

      圖6 線性可分(左),大約線性可分(右)。Fig.6 Linearly separable sample (left) Approximately linearly separable sample (right).)

      圖7 線性不可分Fig.7 linearly inseparable sample

      圖8 二維兩類可分樣本。Fig.8 Two types of two-dimensional separable sample

      1.5.1 模型原理

      SVM的基本思想是根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,尋找一個(gè)滿足要求的分割平面,使訓(xùn)練集中的點(diǎn)距離該平面盡可能地遠(yuǎn),即構(gòu)造一個(gè)分類函數(shù),將兩類樣本盡可能地區(qū)分開(kāi)來(lái),使得分類平面兩側(cè)的余裕(margin)盡可能最大(圖8)。

      圖8中十字和圓圈分別代表兩類訓(xùn)練樣本點(diǎn),分類線H能把兩類正確的分開(kāi),H1、H2平行于H,且分別通過(guò)兩類樣本中離分類線H最近的點(diǎn)。H1、H2之間的距離叫兩類的分類空隙或分類間隔。

      1.5.2 模型舉例

      ⑴ 本研究[19]中應(yīng)用非線性的SVM分類器(nonlinear SVM classifier),在此基礎(chǔ)上分別應(yīng)用1 000次5倍交叉驗(yàn)證和“留一法”交叉驗(yàn)證兩種方法,并建立評(píng)價(jià)模型。經(jīng)過(guò)計(jì)算篩選出最佳組合是:3 932 m/z+5635 m/z,即由這兩個(gè)蛋白質(zhì)峰構(gòu)建的模型可達(dá)到對(duì)乳腺癌患者的最佳檢測(cè)效果。

      ⑵ 研究[14]表明,腦良性腫瘤樣本較少,用SVM模型可以使這樣的小樣本具有較好的推廣性。在研究生物信息學(xué)方面,選擇了“留一法”SMV分類器簡(jiǎn)歷評(píng)價(jià)模型,可以篩選出在膠質(zhì)瘤和腦良性腫瘤及健康對(duì)照中表達(dá)有差異的新的潛在生物標(biāo)記,并且可以建立檢測(cè)膠質(zhì)瘤敏感性和特異性都很高的判別模型,為膠質(zhì)瘤的診斷提供了新的方法。

      2 質(zhì)譜分析的發(fā)展趨勢(shì)及前景展望

      高通量檢測(cè)技術(shù)的進(jìn)步,使原始蛋白質(zhì)表達(dá)譜的采集得以實(shí)現(xiàn),但隨之而來(lái)的是后續(xù)分析、處理技術(shù)和方法的新挑戰(zhàn)。使用得當(dāng)?shù)脑挘|(zhì)譜分析的結(jié)果可應(yīng)用于疾病預(yù)警或者檢測(cè),為個(gè)體化治療方案的制定提供支持。

      本文綜述了質(zhì)譜分析的幾種主要方法:決策樹(shù)模型、偏最小二乘法、神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)。對(duì)分析方法的基本原理、適用范圍、優(yōu)勢(shì)和不足之處做了具體論述,并分別給出疾病診斷的實(shí)例加以說(shuō)明,展現(xiàn)了質(zhì)譜分析方法對(duì)疾病判別和預(yù)測(cè)的重要作用。

      綜上所述,通過(guò)對(duì)臨床血清蛋白質(zhì)譜數(shù)據(jù)庫(kù)的原始數(shù)據(jù)開(kāi)展分析,可以發(fā)現(xiàn)與疾病診斷或健康狀況預(yù)警相關(guān)聯(lián)的特征信息,提示或協(xié)助臨床診斷和個(gè)體化治療方案的確定,對(duì)人群健康分析和疾病預(yù)警的實(shí)現(xiàn)具有重要的指導(dǎo)意義。研究人員將在改進(jìn)現(xiàn)存方法的基礎(chǔ)上,創(chuàng)新質(zhì)譜處理方法,尋找生物信息學(xué)和臨床診斷間的契合點(diǎn)。

      [1] C. Nicole White, Daniel W. Chan, and Zhen Zhang. Bioinformatics strategies for proteomic profiling[J].ELSEVIER, Clinical Biochemistry, 2004, 37: 636-641.

      [2] 郝柏林, 張淑譽(yù). 生物信息學(xué)手冊(cè)(第二版)[M]. 上海: 上海科學(xué)技術(shù)出版社, 2002

      [3] Daniel T. Larose. Data mining methods and models[M]. 北京: 高等教育出版社, 2011

      [4] Jan. C Wiemer, Alexander Prokudin. Bioinformatics in proteomics: application, terminology, and pitfalls[J]. ELSEVIER, Pathology-Research and Practice, 2004, (200): 173-178.

      [5] L. Breiman, J. Friedman, R. Olhsen,et al. Classification and Regression Trees[M]. Wadsworth International, Belmont, California, 1984.

      [6] C.M. Bishop. Neural Networks for Pattern Recognition[M]. Oxford University Press, New York, 1995.

      [7] B.Sch.olkopf, A.J.Smola. Learning with Kernels[M]. MIT Press, Cambridge, Massachusetts, 2002

      [8] 孟凡臣, 張艷貞, 胡英考, 等. 生物質(zhì)譜及其在蛋白質(zhì)組學(xué)研究中的應(yīng)用[J]. 生物技術(shù)通訊, 2006, 17(3): 468-470.

      [9] 徐琨, 朱爾一, 楊芃原, 等. 由質(zhì)譜分析數(shù)據(jù)建立肝癌病人與健康人血清的分類模型[J]. 質(zhì)譜學(xué)報(bào), 2008, 29(5):268-273.

      [10] 朱爾一, 楊芃原. 化學(xué)計(jì)量學(xué)技術(shù)及應(yīng)用[M]. 北京: 科學(xué)出版社, 2001 [11] 王翼飛, 史定華. 生物信息學(xué)——智能化算法及其應(yīng)用[M]. 北京: 化學(xué)工業(yè)出版社, 2006

      [12] 楊行峻, 鄭君里. 人工神經(jīng)網(wǎng)絡(luò)與盲信號(hào)處理[M]. 北京: 清華大學(xué)出版社, 2002

      [13] 劉麗平, 李昂, 連森陽(yáng), 等. 自組織神經(jīng)網(wǎng)絡(luò)在生物信息學(xué)中的應(yīng)用[J]. 中國(guó)家禽, 2011, 33(6):47-50.

      [14] 時(shí)沖. 蛋白質(zhì)質(zhì)譜數(shù)據(jù)挖掘方法研究[M]. 南京: 南京理工大學(xué), 2011

      [15] 曾華宗. 一種用于肺癌早期診斷的蛋白質(zhì)指紋質(zhì)譜模型[P]. 中國(guó)專利: CN102200537A. 2011-09-28.

      [16] 龐達(dá). 楊艷梅. 張國(guó)強(qiáng), 等. 血清SELDI蛋白質(zhì)指紋圖譜在乳腺癌腋淋巴結(jié)轉(zhuǎn)移中的應(yīng)用研究[J]. 中國(guó)腫瘤臨床. 2008. 35(17): 1010-1014.

      [17] 陳劍, 王小蕓. SELDI-TOF-MS技術(shù)在乳腺癌中的應(yīng)用[J]. 醫(yī)學(xué)綜述, 2009, 15(11): 1642-1644.

      [18] 王專, 李小瓊, 王開(kāi)正, 等. 血清蛋白指紋圖與大腸癌預(yù)后診斷[J]. 世界華人消化雜志, 2010, 18(35): 3745-3751.

      [19] 胡躍. 蛋白質(zhì)質(zhì)問(wèn)圖譜和生物信息學(xué)在乳腺癌中的研究[M]. 浙江: 浙江大學(xué), 2005

      Bioinformatics Methods and Their
      Comparative Analysis of Mass Spectrometry

      【W(wǎng)riters 】Liang Bingyuan1,2, Ang Qing1,2, Wang Weidong1
      1 Biomedical Engineering Laboratory, Medical Engineering Support Center, Chinese PLA(People's Liberation Army)General Hospital, Beijing, 100853 2 School of Information and Electronics, Beijing Institute of Technology, 100081

      bioinformatics, data preprocessing, decision tree analysis, partial least squares, artificial neural networks, support vector machines.

      R318.5

      A

      10.3969/j.issn.1671-7104.2012.05.013

      1671-7104(2012)05-0357-05

      2012-04-13

      國(guó)家自然科學(xué)基金(60971044)、國(guó)家科技支撐計(jì)劃

      (2009BAI86B02)

      王衛(wèi)東,主任、研究員、教授,E-mail: wangwd301@126.com

      【 Abstract 】The protein spectrometry holds such characteristics of complex and large volumes of data that the general statistical methods can’t satisfy the demand of disease prediction or classification. Several kinds of main methods of mass spectrometry data mining,such as decision tree analysis, partial least squares, artificial neural networks and support vector machines is overviewed in bioinformatics perspective. And examples of different methods used to diagnose disease are illustrated . These show an important role of mass spectrometry in identification and prediction of disease.

      猜你喜歡
      信息學(xué)決策樹(shù)質(zhì)譜
      氣相色譜質(zhì)譜聯(lián)用儀在農(nóng)殘檢測(cè)中的應(yīng)用及維護(hù)
      雞NRF1基因啟動(dòng)子區(qū)生物信息學(xué)分析
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      初論博物館信息學(xué)的形成
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于決策樹(shù)的出租車乘客出行目的識(shí)別
      吹掃捕集-氣相色譜質(zhì)譜聯(lián)用測(cè)定水中18種揮發(fā)性有機(jī)物
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      miRNA-148a在膀胱癌組織中的表達(dá)及生物信息學(xué)分析
      棗霜化學(xué)成分的色譜質(zhì)譜分析
      贵南县| 夏河县| 手机| 鄂伦春自治旗| 靖西县| 申扎县| 台江县| 和政县| 巨鹿县| 宁陕县| 星子县| 张家口市| 乌拉特前旗| 资阳市| 张家界市| 天津市| 青海省| 宣武区| 潜江市| 彭山县| 垫江县| 红安县| 静海县| 鄄城县| 松潘县| 库伦旗| 鹤山市| 嘉善县| 北碚区| 南部县| 丰顺县| 扬州市| 神农架林区| 南丹县| 贵溪市| 井陉县| 新郑市| 济宁市| 卢龙县| 安宁市| 开江县|