摘 要 生物組織質(zhì)譜成像技術(shù)不僅能夠展示組織的生物分子信息,而且能直觀地顯示分子空間分布, 是當(dāng)今生物質(zhì)譜的研究熱點(diǎn)。如何對生物組織質(zhì)譜成像的數(shù)據(jù)進(jìn)行基于生物分子的有效分類與識別是該領(lǐng)域關(guān)注的重要問題, 特別對于病變組織與其鄰近非病變組織的區(qū)分與識別和生物組織功能區(qū)域的劃分與鑒定具有重要的意義。本研究開發(fā)出一種新的分類與識別方法。其流程是,首先進(jìn)行質(zhì)譜成像數(shù)據(jù)預(yù)處理,應(yīng)用無監(jiān)督的自組織特征映射網(wǎng)絡(luò)區(qū)分組織樣品區(qū)與非組織區(qū)域,提取組織區(qū)域的質(zhì)譜數(shù)據(jù),應(yīng)用有監(jiān)督的學(xué)習(xí)向量量化網(wǎng)絡(luò)對已知類別數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,建立模型;應(yīng)用模型對未知樣品進(jìn)行識別。應(yīng)用本方法對6個(gè)膀胱癌患者的膀胱癌變組織與鄰近非癌變組織的質(zhì)譜成像數(shù)據(jù)進(jìn)行分類與識別,結(jié)果顯示,癌變組織判錯(cuò)率低于23.38%,而非癌變組織判錯(cuò)率低于9.08%,表現(xiàn)出較高的準(zhǔn)確度;對3片鄰近的小鼠大腦切片質(zhì)譜成像數(shù)據(jù)進(jìn)行白質(zhì)與灰質(zhì)區(qū)域劃分,將中間的1片用于訓(xùn)練,兩邊的2片用于驗(yàn)證,結(jié)果顯示,自組織特征映射網(wǎng)絡(luò)的分類結(jié)果與學(xué)習(xí)向量量化網(wǎng)絡(luò)的預(yù)測結(jié)果不一致率低于4%。本方法基于生物分子的質(zhì)譜成像組織區(qū)域分類與識別,具有較高準(zhǔn)確度和操作簡便等優(yōu)點(diǎn),在臨床醫(yī)學(xué)研究領(lǐng)域有大規(guī)模的應(yīng)用潛能。
關(guān)鍵詞 質(zhì)譜成像; 分類與識別; 自組織特征映射網(wǎng)絡(luò); 學(xué)習(xí)向量量化網(wǎng)絡(luò)
1 引 言
生物質(zhì)譜成像(Mass spectrometry imaging,MSI)是近幾年快速發(fā)展起來的生物分子成像技術(shù),不僅能展示組織的生物分子信息,而且可直觀顯示分子空間分布[1~3]。MSI廣泛應(yīng)用于從生物細(xì)胞到生物組織的蛋白、多肽和脂質(zhì)分子的成像研究,包括藥物及其代謝物在組織內(nèi)的分布研究、生物醫(yī)學(xué)診斷、分子病理研究、以及三維生物分子質(zhì)譜成像研究等[4~10]。
如何對生物組織質(zhì)譜成像的測試數(shù)據(jù)進(jìn)行基于生物分子的有效分類與識別,是MSI研究領(lǐng)域關(guān)注的重要問題,也是利用質(zhì)譜成像提供分子生物空間信息的關(guān)鍵。特別對于病變組織與其鄰近非病變組織的區(qū)分與識別,癌變與非癌變的判定,以及癌變的早、中、晚期識別具有重要意義。同時(shí)對生物組織功能區(qū)域的劃分與鑒定、功能區(qū)域邊界的劃分與認(rèn)定等,同樣具有重要意義。
選擇分類與識別依據(jù)的變量類型直接關(guān)系到分類與識別模型的成敗??梢宰鳛榕袆e的變量類型有:疾病標(biāo)志物的有無、單一分子的含量差異和多分子的復(fù)合差異。利用疾病標(biāo)志物的質(zhì)譜成像分類與識別很簡單直觀,但由于疾病標(biāo)志物難以尋找和發(fā)現(xiàn)已知的標(biāo)志物種類太少,依賴于此的質(zhì)譜成像分類應(yīng)用研究過于狹窄。另外,應(yīng)用單一分子含量差異能夠得到對比顯著的質(zhì)譜成像圖,但其結(jié)果通常不可靠。因?yàn)闃悠贩治霏h(huán)節(jié)中存在諸多可以導(dǎo)致單一分子含量產(chǎn)生顯著變化的因素,容易掩蓋樣品間的本質(zhì)差異,而且樣品個(gè)體間的本身差異太大,以至于判定閾值難以適用。多分子的復(fù)合差異,相對單一分子差異,能夠顯著增強(qiáng)其可靠性。本研究采用多分子的復(fù)合差異作為分類與識別的依據(jù)變量。
基于多分子復(fù)合差異分類與識別的系統(tǒng)方法包括:提取多分子復(fù)合差異的特征信息,并應(yīng)用已知樣品的特征信息進(jìn)行模型訓(xùn)練獲得判別規(guī)則,再將判別規(guī)則應(yīng)用于其它未知樣品的有效區(qū)分與識別。這類方法的研究才剛剛起步。當(dāng)前,美國普渡大學(xué)Cooks教授研究組對人膀胱癌組織與鄰近非癌變組織進(jìn)行解吸附電噴霧離子化(Desorption electrospray ionization, DESI)質(zhì)譜成像分析,應(yīng)用多元統(tǒng)計(jì)偏最小二乘判別分析(Partial least-square discriminate analysis,PLS-DA)方法進(jìn)行訓(xùn)練和判別,取得了很好的結(jié)果[11]。然而,在PLS-DA方法判斷的過程中需要人為選定參與訓(xùn)練和判別主成分的數(shù)量(這將直接影響最終的判定結(jié)果),而且整個(gè)過程相對復(fù)雜,對應(yīng)用該方法的人員提出了較高的專業(yè)背景要求。
本研究建立了從質(zhì)譜原始數(shù)據(jù)處理到基于人工神經(jīng)網(wǎng)絡(luò)的生物組織質(zhì)譜成像分類與識別方法。充分利用自組織特征映射網(wǎng)絡(luò)(Self-organizing feature map,SOFM)無監(jiān)督、自組織自學(xué)習(xí)網(wǎng)絡(luò)特點(diǎn)來區(qū)分樣品區(qū)與非樣品區(qū)。SOFM相對其它的自組織網(wǎng)絡(luò)(競爭層網(wǎng)絡(luò))既可以學(xué)習(xí)訓(xùn)練數(shù)據(jù)輸入向量的分布特征,也可以學(xué)習(xí)訓(xùn)練輸入向量的拓?fù)浣Y(jié)構(gòu),具有聚類速度快、結(jié)果精確等特點(diǎn)[12,13]。在獲取了樣品區(qū)域后,再應(yīng)用學(xué)習(xí)向量量化網(wǎng)絡(luò)(Learning vector quantization,LVQ)進(jìn)一步對樣品區(qū)的生物組織進(jìn)行有監(jiān)督的學(xué)習(xí)訓(xùn)練,建立模型,應(yīng)用模型對其它未知樣品進(jìn)行類別識別。LVQ有一個(gè)創(chuàng)建原型的優(yōu)勢,其結(jié)果易于解釋,在模式識別和優(yōu)化領(lǐng)域有著廣泛的應(yīng)用[12,14]。應(yīng)用6個(gè)膀胱癌患者的膀胱癌變組織與鄰近非癌變組織的質(zhì)譜成像數(shù)據(jù)和3片臨近的小鼠大腦切片質(zhì)譜成像數(shù)據(jù)測試本方法的效果。從測試數(shù)據(jù)看,本方法有效、簡便、實(shí)用,具有大規(guī)模應(yīng)用的潛能。
2 實(shí)驗(yàn)部分
生物組織質(zhì)譜成像的分類與識別方法的流程示于圖1。本方法的總體策略是,為了獲得判別規(guī)則模型的高穩(wěn)定性,剔除與組織樣品本質(zhì)特征無關(guān)的信息,包括剔除弱小質(zhì)譜峰信號,以減少參與判別的無意義變量;應(yīng)用無監(jiān)督SOFM方法將非樣品區(qū)排除在外,即減少無關(guān)的變量和無關(guān)的樣品采樣點(diǎn)的干擾,增加可靠性。方法的具體步驟如下:首先將原始質(zhì)譜數(shù)據(jù)重構(gòu)成質(zhì)譜圖像數(shù)據(jù)。質(zhì)譜圖像數(shù)據(jù)格式可以是科學(xué)圖像Analyze 7.5格式數(shù)據(jù)或標(biāo)準(zhǔn)通用的imzXML格式。本研究采用本課題組開發(fā)的imgGenerate軟件(http://msimaging.net)實(shí)現(xiàn)此操作。對質(zhì)譜成像數(shù)據(jù)進(jìn)行基線扣除,信號剔除(剔除出現(xiàn)機(jī)率小的質(zhì)譜峰信號)等預(yù)處理操作,以排除化學(xué)噪聲的干擾和增強(qiáng)樣品區(qū)域與非樣品區(qū)的對比度。質(zhì)譜成像的各離子圖像的瀏覽可以用Biomap軟件(http://www.maldi-msi.org)或MSI-View軟件(http://msimaging.net)查看。本研究采用MSI-View軟件實(shí)現(xiàn)此步驟的操作。
對預(yù)處理后的質(zhì)譜成像數(shù)據(jù)進(jìn)行無監(jiān)督SOFM分類。根據(jù)每個(gè)樣品點(diǎn)的分子組成和含量的差異與相似度分類,分為樣品區(qū)和非樣品區(qū)兩類。質(zhì)譜峰是體現(xiàn)每個(gè)樣品點(diǎn)的分子組成和含量的關(guān)鍵數(shù)據(jù)。但是采用質(zhì)譜相對峰強(qiáng)還是絕對峰強(qiáng),分類效果差別較大。在對比樣品區(qū)與非樣品區(qū)時(shí),以質(zhì)譜絕對峰強(qiáng)為變量產(chǎn)生的差異明顯大于相對峰強(qiáng)產(chǎn)生的差異,數(shù)據(jù)測試也驗(yàn)證了以質(zhì)譜絕對峰強(qiáng)作為輸入變量的分類效果要明顯優(yōu)于相對峰強(qiáng)。因此,在應(yīng)用無監(jiān)督SOFM進(jìn)行樣品區(qū)與非樣品區(qū)分類時(shí),采用質(zhì)譜絕對峰強(qiáng)作為輸入變量。本研究應(yīng)用Matlab(The Mathworks, Natick, MA, USA)的人工神經(jīng)網(wǎng)絡(luò)函數(shù)開發(fā)的SOFM分類軟件實(shí)現(xiàn)樣品區(qū)與非樣品區(qū)的區(qū)分。在具體應(yīng)用SOFM分類時(shí),可以直接選用1×2神經(jīng)元結(jié)構(gòu)將整個(gè)分析區(qū)域分為組織樣品區(qū)與非組織樣品區(qū)兩類,也可以選用2×2或2×3的神經(jīng)元結(jié)構(gòu),最后根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)較容易的區(qū)分樣品區(qū)與非樣品區(qū)。
對樣品區(qū)內(nèi)的質(zhì)譜成像數(shù)據(jù)進(jìn)行有監(jiān)督的LVQ訓(xùn)練,建立識別模型。由于建立后的識別模型要用于在相同實(shí)驗(yàn)條件下獲得的其它測試數(shù)據(jù)的判別,因此要求用于建立模型和用于判別的輸入變量穩(wěn)定可靠,否則建立的模型沒有意義。由于實(shí)驗(yàn)隨機(jī)誤差等因素,組織中生物分子的質(zhì)譜絕對峰強(qiáng)容易產(chǎn)生較大的波動(dòng)(即便是同一樣品的重復(fù)實(shí)驗(yàn)),因此不可以作為LVQ輸入變量。而組織中生物分子構(gòu)成不同,生物分子的質(zhì)譜相對峰強(qiáng)也不同,實(shí)驗(yàn)隨機(jī)誤差能夠影響分子的質(zhì)譜絕對峰強(qiáng),但是難以改變質(zhì)譜相對峰強(qiáng)的本質(zhì)特征,因此以質(zhì)譜相對峰強(qiáng)可以作為LVQ輸入變量。采用1對或多對已知樣品的數(shù)據(jù)進(jìn)行訓(xùn)練,建立模型。建立好的識別模型由在相同實(shí)驗(yàn)條件獲得的已知樣品進(jìn)行驗(yàn)證,再對未知樣品進(jìn)行預(yù)測。本研究應(yīng)用Matlab的人工神經(jīng)網(wǎng)絡(luò)函數(shù)開發(fā)出LVQ訓(xùn)練、識別模型軟件工具來實(shí)現(xiàn)對組織區(qū)域類型的判斷。
3 結(jié)果與討論
3.1 人膀胱癌變組織的質(zhì)譜成像分類與識別
由美國普渡大學(xué)Cooks教授研究組提供的6個(gè)膀胱癌患者的癌變組織與鄰近非癌變組織質(zhì)譜成像數(shù)據(jù)用于測試此方法的效果。這6對癌變組織及非癌變組織均由提供該組織的臨床醫(yī)生進(jìn)行過嚴(yán)格確認(rèn)。質(zhì)譜原始數(shù)據(jù)均由DESI離子源(負(fù)離子模式)結(jié)合LTQ線性離子阱質(zhì)譜儀(Thermo Fisher Scientific San Jose. CA, USA)進(jìn)行質(zhì)譜成像分析獲得[11]。
對原始質(zhì)譜數(shù)據(jù)(質(zhì)量范圍m/z 150~1000,單位質(zhì)量分辨)進(jìn)行圖像重構(gòu)和數(shù)據(jù)預(yù)處理,剔除化學(xué)噪聲(剔除質(zhì)譜峰出現(xiàn)概率小于1%的信號),獲取46個(gè)有明顯意義的質(zhì)譜峰。應(yīng)用以質(zhì)譜絕對峰強(qiáng)為變量的SOFM方法(2×2神經(jīng)元結(jié)構(gòu))對所有樣品進(jìn)行組織區(qū)域和非組織區(qū)域分類。為了驗(yàn)證在應(yīng)用SOFM方法區(qū)分組織區(qū)域與非組織區(qū)域時(shí),以質(zhì)譜絕對峰強(qiáng)為變量的策略優(yōu)于以相對峰強(qiáng)的策略,采用這兩種策略對12片組織數(shù)據(jù)分別進(jìn)行SOFM分類,將兩種策略獲得的結(jié)果與相應(yīng)的組織染色圖進(jìn)行對照。數(shù)據(jù)顯示,相對于以質(zhì)譜相對峰強(qiáng)為變量的策略,以絕對峰強(qiáng)為變量的策略的SOFM方法更容易將組織區(qū)域與非組織區(qū)域分開。其中一例的對比結(jié)果示于圖2。
隨機(jī)選取1對樣品數(shù)據(jù)應(yīng)用LVQ網(wǎng)絡(luò)進(jìn)行訓(xùn)練,建立模型,并用這6對已知類型樣品數(shù)據(jù)對模型進(jìn)行檢驗(yàn)。6對組織的總離子強(qiáng)度圖像和應(yīng)用LVQ判斷結(jié)果示于圖4。從圖4可見,每對組織的脂質(zhì)分子絕對峰強(qiáng)都不相同, 因此絕對峰強(qiáng)不能作為判斷模型的輸入?yún)?shù);癌變組織脂質(zhì)分子總含量明顯高于非癌變區(qū)域,與文獻(xiàn)\\一致;判錯(cuò)率低,錯(cuò)判的主要分布在分子信號較弱的區(qū)域。
圖4 6對人膀胱癌變組織與鄰近非癌變組織的總離子強(qiáng)度圖像和應(yīng)用LVQ判斷結(jié)果圖。在LVQ判斷結(jié)果圖中,綠色表示判對的區(qū)域,紅色表示判錯(cuò)的區(qū)域
Fig.4 Total ion image maps of six pairs of human cancerous and adjacent normal bladder tissue samples, and the corresponding result maps identified by learning vector quantization (LVQ). In the result maps by LVQ, the right identified regions are indicated in green and the regions of misjudgment are with red
統(tǒng)計(jì)判錯(cuò)率,數(shù)據(jù)示于表1。由1對樣品數(shù)據(jù)訓(xùn)練建立的模型識別6對已知的樣品類別,癌變判錯(cuò)率最大值23.38%,均值12.32%;非癌變判錯(cuò)率最大值3.85%,均值0.82%。由2對樣品數(shù)據(jù)訓(xùn)練建立的模型識別6對已知的樣品類別,癌變判錯(cuò)率最大值10.73%,均值5.11%;非癌變判錯(cuò)率最大值9.08%,均值2.08%。模型的識別正確率較高,癌變判錯(cuò)率高于非癌變判錯(cuò)率。而且2對樣品數(shù)據(jù)訓(xùn)練的模型相對于1對樣品數(shù)據(jù)訓(xùn)練的模型,識別正確率較高,服從訓(xùn)練樣品數(shù)據(jù)信息越豐富,模型識別準(zhǔn)確性越高的規(guī)律。
3.2 小鼠大腦組織切片的質(zhì)譜成像分類與識別
3張空間鄰近的小鼠大腦組織切片的質(zhì)譜成像數(shù)據(jù)由美國普渡大學(xué)Cooks教授研究組提供。這3張切片的編號是N260, N273和N294,其中N273在中間,距離N260和N294分別是0.26和0.28 mm,具有相似的生物分子空間分布。這3張組織切片數(shù)據(jù)均由DESI離子源(負(fù)離子模式)結(jié)合LTQ線性離子阱質(zhì)譜儀進(jìn)行質(zhì)譜成像分析獲得[9]。
對原始質(zhì)譜數(shù)據(jù)(質(zhì)量范圍m/z 150~1000,單位質(zhì)量分辨)進(jìn)行圖像重構(gòu)和數(shù)據(jù)預(yù)處理。應(yīng)用以質(zhì)譜絕對峰強(qiáng)為變量的SOFM方法對組織切片數(shù)據(jù)進(jìn)行樣品區(qū)和非樣品區(qū)分類,獲得每個(gè)切片的樣品區(qū)域。
3張切片數(shù)據(jù)的總離子強(qiáng)度圖示于圖6左列。從總離子強(qiáng)度質(zhì)譜圖像中可以大體看出2個(gè)不同的區(qū)域。進(jìn)一步對樣品區(qū)內(nèi)的數(shù)據(jù)信息進(jìn)行無監(jiān)督模式的SOFM分類(以每個(gè)樣品點(diǎn)的質(zhì)譜相對峰強(qiáng)為輸入變量),獲取白質(zhì)和灰質(zhì)區(qū)域。這兩個(gè)區(qū)域的典型平均質(zhì)譜圖示于圖5。在白質(zhì)區(qū)域m/z 888.8(sulfatide 24∶1)具有較高的相對峰強(qiáng),而在灰質(zhì)區(qū)域m/z 834.4(phosphatidylserine 18∶0/22∶6)具有較高的相對峰強(qiáng)。
將由SOFM對中間切片N273分類的結(jié)果數(shù)據(jù)用來作為LVQ網(wǎng)絡(luò)的訓(xùn)練參數(shù)建立模型,再應(yīng)用該模型來預(yù)測這3張切片上的白質(zhì)與灰質(zhì)區(qū)域。然后將預(yù)測結(jié)果與SOFM分類的結(jié)果對比。N260, N273和N294這3張切片的不一致率分別是1.75%, 2.71%和4.00%。SOFM分類結(jié)果示于圖6中間列,LVQ預(yù)測結(jié)果與SOFM分類結(jié)果對比圖示于圖6右列。從圖6可見,LVQ預(yù)測與SOFM分類結(jié)果一致性較高,不一致的結(jié)果多發(fā)生在白質(zhì)與灰質(zhì)相連接的區(qū)域(此區(qū)域的分子組成相對含量沒有像白質(zhì)與灰質(zhì)區(qū)域那樣特征明顯)。
圖6 3張鄰近的小鼠大腦組織切片的總離子圖像、應(yīng)用SOFM分類圖和LVQ判斷結(jié)果圖。SOFM分類圖和LVQ判斷結(jié)果圖中,紅色表示白質(zhì)區(qū)域,藍(lán)色表示灰質(zhì)區(qū)域,綠色表示SOFM分類結(jié)果與LVQ判斷結(jié)果不一致的區(qū)域
Fig.6 Total ion image maps of three adjacent slices of mouse brain tissue, the corresponding result maps classified by self-organizing feature map(SOFM) and the result maps identified by learning vector quantization(LVQ). In the result maps, the regions of white matter are in red, the regions of gray matter are in blue, and the regions in green indicate the inconsistent result by classification with SOFM and identification with LVQ
4 結(jié) 論
組合應(yīng)用人工神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)生物組織質(zhì)譜成像的分類與識別方法,基于多分子復(fù)合差異,通過剔除弱小質(zhì)譜峰信號和應(yīng)用無監(jiān)督SOFM方法把非樣品區(qū)排除在外等措施,減少無關(guān)變量和無關(guān)樣品采樣點(diǎn)的干擾,增加可靠性,獲得高準(zhǔn)確度。本方法不需要判別閾值設(shè)置、關(guān)鍵變量選擇等人為操作,因而操作簡便。同時(shí),本方法可以精確到具體單個(gè)采樣點(diǎn)的識別,具有高精度的優(yōu)點(diǎn)。在經(jīng)過大量樣品驗(yàn)證后,擁有作為常規(guī)工具應(yīng)用于基于生物分子成像臨床醫(yī)學(xué)研究和生命科學(xué)研究的潛能。
致 謝 感謝美國普渡大學(xué)Cooks教授研究組提供的質(zhì)譜成像原始數(shù)據(jù)。
References
1 Pacholski M L, Winograd N.Chemical Reviews, 1999, 99(10): 2977~3006
2 McDonnell L A, Heeren R M A.Mass Spectrometry Reviews, 2007, 26(4): 606~643
3 Caprioli R M.Proteomics, 2008, 8(18): 3679~3680
4 Sinha T K, Khatib-Shahidi S, Yankeelov T E, Mapara K, Ehtesham M, Cornett D S, Dawant B M, Caprioli R M, Gore J C.Nature Methods,2008, 5(1): 57~59
5 Chaurand P, Rahman M A, Hunt T, Mobley J A, Gu G, Latham J C, Caprioli R M, Kasper S.Molecular Cellular Proteomics, 2008, 7(2): 411~423
6 Altelaar A F M, Luxembourg S L, McDonnell L A, Piersma S R, Heeren R M A.Nature Protocols, 2007, 2(5): 1185~1196
7 LIU Hui, CHEN Guo-Qiang, WANG Yan-Ying, LI Zhi-Li.Chinese J. Anal. Chem., 2011, 39(1): 87~90
劉 輝, 陳國強(qiáng), 王艷英, 李智立. 分析化學(xué), 2011, 39(1): 87~90
8 Nemes P, Barton A A, Vertes A.Anal. Chem., 2009, 81(16): 6668~6675
9 Eberlin L S, Ifa D R, Wu C, Cooks R G.Angewandte Chemie-International Edition, 2010, 49(5): 873~876
10 Eberlin L S, Dill A L, Costa A B, Ifa D R, Cheng L, Masterson T, Koch M, Ratliff T L, Cooks R G.Anal. Chem., 2010, 82(9): 3430~3434
11 Dill A L, Eberlin L S, Costa A B, Zheng C, Ifa D R, Cheng L A, Masterson T A, Koch M O, Vitek O, Cooks R G.Chemistry-a European Journal, 2011, 17(10): 2897~2902
12 Fritzke B.Neural Networks, 1994, 7(9): 1441~1460
13 Kohonen T, Kaski S, Lagus K, Salojarvi J, Honkela J, Paatero V, Saarela A. IEEE Transactions on Neural Networks, 2000, 11(3): 574~585
14 Ahalt S C, Krishnamurthy A K, Chen P K, Melton D E.Neural Networks, 1990, 3(3): 277~290
15 Dill A L, Ifa D R, Manicke N E, Costa A B, Ramos-Vara J A, Knapp D W, Cooks R G.Anal. Chem., 2009, 81(21): 8758~8764
Artificial Neural Networks Method of Classification and Identification for
Mass Spectrometry Imaging Data of Biological Tissue
XIONG Xing-Chuang*1,2, FANG Xiang2, OU Yang-Zheng3, JIANG You2, HUANG Ze-Jian2, ZHANG Yu-Kui1
1(School of Life Science, Beijing Institute of Technology, Beijing 100081)
2 (National Institute of Metrology, Beijing 100013)
3(Weldon School of Biomedical Engineering, Purdue University, West Lafayette 47907, USA)
Abstract Mass spectrometry imaging (MSI), the combination of molecular mass analysis and spatial information, provides visualization of molecules on complex biological surfaces, thus is currently getting a significant amount of attention in the mass spectrometric community. One important problem in this researching field is how to develop an effective method of classification and identification for MSI data, especial for identifying the cancerous tissue from adjacent normal tissue and classifying the different functional regions in a complex biological tissue. For this purpose, we developed a new method, containing image reconstruction from raw mass spectral data, MSI data pre-processing, classification of tissue regions from background regions by self-organizing feature map and identification of special interesting regions from the whole tissue regions by learning vector quantization. The MSI data of six pairs (12 tissue samples) of human cancerous and adjacent normal bladder tissue samples were used to test the effect of this method. The result showed an error rate of less than 23.38% for identification of cancerous regions and an error rate of less than 9.08% for identification of the adjacent normal regions. The method was also tested to classify white matter and gray matter regions of three adjacent slices of mouse brain tissue. The slice in the middle was used to train and to establish an identification model; the other two slices were used to test the model. The inconsistent rate of the identification results by using self-organizing feature map is less than 4% comparing with the results using learning vector quantization. This indicated that the method could be performed simply and efficiently, to extend the capability of MSI, and underline its potential to be a regular tool applied to study on clinical application.
Keywords Mass spectrometry imaging; Classification and identification; Self-organizing feature map; Learning vector quantization
(Received 24 May 2011; accepted 27 June 2011)