周哲海, 熊 濤, 趙 爽, 張 帆, 朱桂賢
北京信息科技大學(xué)光電測(cè)試技術(shù)及儀器教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100192
血液承擔(dān)著運(yùn)輸人體廢物和分泌物的任務(wù), 對(duì)血液的分析可以反映出人或動(dòng)物器官或組織的健康情況, 因此關(guān)于血液的研究一直是生物醫(yī)學(xué)領(lǐng)域的研究熱點(diǎn)。 傳統(tǒng)血液鑒別方法有高效液相色譜法、 質(zhì)譜法、 定量PCR法和DNA分析法等[1]。 以上幾種方法都需要添加試劑, 不但耗時(shí), 而且操作流程復(fù)雜, 對(duì)樣品具有破壞性。 相比之下, 熒光光譜分析法操作簡(jiǎn)單、 準(zhǔn)確性高, 因此更適合作為一種血液分類的研究手段, 特別是與機(jī)器學(xué)習(xí)算法相結(jié)合, 極大提高了檢測(cè)分類的精度[2-4]。 血液中存在許多受激后可產(chǎn)生自體熒光的分子, 如卟啉、 氨基酸、 色氨酸等, 因此血液的熒光光譜能反映內(nèi)部物質(zhì)吸收光能量后產(chǎn)生的能量轉(zhuǎn)移情況, 而利用這些信息可以對(duì)一些血液疾病進(jìn)行診斷與病理研究。
Devanesan等利用熒光光譜技術(shù)對(duì)地中海貧血、 缺鐵性貧血兩種疾病進(jìn)行了分類研究, 結(jié)果表明, 血漿熒光光譜的某些信息能夠?qū)@兩種疾病進(jìn)行可靠且簡(jiǎn)單的分類[5]。 糖尿病是一種常見疾病, 王磊等將糖尿病大鼠的紅細(xì)胞與健康大鼠紅細(xì)胞的熒光光譜進(jìn)行對(duì)比, 通過光譜信息之間的差異, 分析了糖尿病對(duì)老鼠血液的影響[3]。 高斌等獲取了四種動(dòng)物不同濃度(1%和3%)的全血與紅細(xì)胞熒光光譜數(shù)據(jù), 建立了對(duì)不同動(dòng)物血液熒光光譜的BP神經(jīng)網(wǎng)絡(luò)分類器, 實(shí)現(xiàn)了不同動(dòng)物、 不同濃度的血液熒光光譜100%的準(zhǔn)確分類[2]。 同時(shí), 基于血液分類的熒光光譜分析法作為一種靈敏度高、 非侵入的檢測(cè)手段, 也已經(jīng)成為鑒別癌變組織的一種很好的方法[6-8]。
利用物種間血液成分的差異來識(shí)別物種, 不僅對(duì)生物醫(yī)學(xué), 對(duì)海關(guān)、 刑偵、 食品安全、 野生動(dòng)物保護(hù)等工作也十分重要, 因此設(shè)計(jì)一種能夠依據(jù)血液對(duì)不同物種實(shí)現(xiàn)快速、 準(zhǔn)確分類的方法是十分必要的。 但上述研究都是針對(duì)群體細(xì)胞展開的, 忽略了單細(xì)胞的異質(zhì)性, 在腫瘤細(xì)胞中, 少數(shù)的基因變異需要用單細(xì)胞的瘤內(nèi)異質(zhì)性來闡述, 這樣可以更深入的研究癌癥及治療[9]。 單細(xì)胞熒光光譜的研究可以更好地揭示細(xì)胞的運(yùn)作機(jī)理和細(xì)胞間的相互作用; 同時(shí), 對(duì)于針對(duì)群體細(xì)胞的分類研究, 若將光譜數(shù)據(jù)作為數(shù)據(jù)集建立分類模型, 需要大量實(shí)驗(yàn)樣品進(jìn)行重復(fù)測(cè)試, 若樣品本身較少或較為珍貴, 則這種群體測(cè)試手段可能并不適用。 因此, 開展基于單細(xì)胞的血液熒光光譜分類方法研究非常迫切。
同時(shí), 光鑷技術(shù)提供了一種獨(dú)特微粒操控手段[10], 相比于應(yīng)用較多的拉曼檢測(cè)技術(shù), 熒光信號(hào)強(qiáng)度約比拉曼信號(hào)高5~7個(gè)量級(jí), 如何發(fā)揮熒光檢測(cè)的高靈敏度特性, 對(duì)單分子和單細(xì)胞領(lǐng)域的相關(guān)研究具有重要意義。 將光鑷與熒光光譜技術(shù)相結(jié)合, 為開展單細(xì)胞的熒光光譜檢測(cè)提供了解決方案。
本工作提出一種基于熒光光鑷和機(jī)器學(xué)習(xí)的單細(xì)胞血液分類方法, 利用光鑷實(shí)現(xiàn)了單細(xì)胞捕獲, 通過熒光光譜測(cè)量系統(tǒng)獲得了光譜數(shù)據(jù), 并基于機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)了準(zhǔn)確分類。 這種方法不需要過多樣品就能滿足建模需求, 而且能夠避免因濃度低帶來的熒光自吸收強(qiáng)度過低等問題, 具有快速、 準(zhǔn)確分類的優(yōu)點(diǎn)。
設(shè)計(jì)并搭建了一種基于光鑷的單細(xì)胞熒光光譜檢測(cè)系統(tǒng), 即熒光光鑷, 圖1給出了系統(tǒng)結(jié)構(gòu)示意圖。 系統(tǒng)主要由兩個(gè)模塊組成, 即光鑷模塊和熒光檢測(cè)模塊。 首先組建光鑷模塊, 光纖激光器發(fā)出的光束經(jīng)過光纖準(zhǔn)直器后變?yōu)闇?zhǔn)直光束, 然后通過透鏡1和透鏡2擴(kuò)束, 再經(jīng)過二向色鏡1和反射鏡反射進(jìn)入油浸物鏡, 形成聚焦光斑, 將放置在平移臺(tái)上的溶液器皿中的細(xì)胞捕獲住; 為了能夠觀察到捕獲的細(xì)胞, 用LED光源照射捕獲的細(xì)胞, 并成像在CCD相機(jī)上。 為了能夠在CCD相機(jī)上觀察到捕獲的細(xì)胞圖像, 二向色鏡1、 二向色鏡2、 濾光片2要能夠透射全部或部分LED光束到CCD相機(jī)上, 這需要使LED光束的光譜范圍在二向色鏡1、 二向色鏡2、 濾光片2各個(gè)器件的透射光譜范圍內(nèi)。 在這個(gè)基礎(chǔ)上, 繼續(xù)組建熒光檢測(cè)模塊, 選用一寬光譜光源作為熒光激發(fā)光源, 由導(dǎo)光管將光引入準(zhǔn)直透鏡4, 準(zhǔn)直后的光束先經(jīng)過一個(gè)濾光片1, 使特定波段的激發(fā)光透過, 并經(jīng)過二向色鏡2反射, 經(jīng)過二向色鏡1透射和反射鏡反射, 被油浸物鏡聚焦照射到捕獲的細(xì)胞上, 激發(fā)出熒光信號(hào)。 此時(shí)反射的熒光信號(hào)和激發(fā)光束經(jīng)過油浸物鏡原路返回, 經(jīng)過反射鏡反射, 穿過二向色鏡1和二向色鏡2, 此時(shí)返回的光束是熒光信號(hào)和激發(fā)光束的混合, 其中的激發(fā)光束強(qiáng)度要比熒光信號(hào)高出很多, 因此使用濾光片2濾除激發(fā)光束, 只讓熒光信號(hào)透過, 然后再用一分束鏡將熒光信號(hào)分為兩束, 一路經(jīng)過透鏡3成像到CCD相機(jī)上, 一路經(jīng)過透鏡5射入熒光光譜儀中, 并在連接的計(jì)算機(jī)上獲得了熒光光譜。 需要說明的是, LED光源僅在細(xì)胞捕獲階段用于觀測(cè)捕獲細(xì)胞狀態(tài)時(shí)開啟, 在進(jìn)行熒光光譜檢測(cè)時(shí), 要關(guān)閉LED光源, 此時(shí)在CCD相機(jī)上觀察到僅有細(xì)胞的熒光成像。
圖1 熒光光鑷的系統(tǒng)結(jié)構(gòu)示意圖
基于以上的設(shè)計(jì)原理和系統(tǒng)結(jié)構(gòu), 搭建了一套熒光光鑷系統(tǒng), 所用的主要器件類型及主要性能如表1所示。 光鑷所用的光源為波長(zhǎng)為976 nm的單模光纖激光器, 光束具有較大功率且對(duì)細(xì)胞傷害較小。 使用的油浸物鏡有較大的數(shù)值孔徑, 可以獲得更大的細(xì)胞捕獲力。 激發(fā)光源覆蓋整個(gè)可見光波段, 有非常大的激光功率。 二向色鏡和濾光片則根據(jù)具體的應(yīng)用需求進(jìn)行選用。
表1 搭建熒光光鑷所用的主要器件及性能參數(shù)
從北京波爾西科技有限公司采購了馬、 豬、 犬、 雞的全血溶液(加入抗凝劑EDTA), 所有血液樣品在運(yùn)輸和儲(chǔ)存過程中均保存在4~8 ℃的無菌冷藏環(huán)境中。 制備紅細(xì)胞樣品時(shí), 用離心機(jī)處理全血樣品, 經(jīng)1 600轉(zhuǎn)·min-1的轉(zhuǎn)速離心10 min, 去除上清液和部分白細(xì)胞及雜質(zhì), 然后用磷酸鹽緩沖溶液(10 mmol·L-1)重懸和洗滌紅細(xì)胞, 上述過程重復(fù)2次。 紅細(xì)胞經(jīng)過離心過程后沉淀在離心管底部, 從離心管中提取一定體積的紅細(xì)胞, 通過加入適量磷酸鹽緩沖溶液, 最終配置成濃度為1%的紅細(xì)胞懸液, 在這種濃度下的紅細(xì)胞懸液更易于單細(xì)胞捕獲和熒光光譜檢測(cè)。 實(shí)驗(yàn)時(shí)先利用光鑷系統(tǒng)將待測(cè)紅細(xì)胞捕獲, 使其在溶液中處于穩(wěn)定狀態(tài), 然后開啟熒光檢測(cè)模塊, 采集紅細(xì)胞受激后的熒光光譜。
由于熒光分子對(duì)不同波長(zhǎng)的光吸收程度不同, 所發(fā)射的熒光信號(hào)強(qiáng)度受到激發(fā)波長(zhǎng)的影響, 因此有必要在實(shí)驗(yàn)前測(cè)試激發(fā)波長(zhǎng)對(duì)熒光強(qiáng)度的影響[11]。 實(shí)驗(yàn)使用馬的紅細(xì)胞進(jìn)行測(cè)試, 設(shè)置300、 340、 440和546 nm四個(gè)不同激發(fā)波長(zhǎng)。 每個(gè)激發(fā)波長(zhǎng)對(duì)應(yīng)的熒光光譜重復(fù)測(cè)量5次, 取5次測(cè)量的平均作為最終數(shù)據(jù)光譜。 圖2展示了在四個(gè)不同波長(zhǎng)光的激發(fā)下得到的四條熒光光譜。
圖2 不同波長(zhǎng)的激發(fā)光對(duì)應(yīng)的紅細(xì)胞熒光光譜
圖2中可看出, 不同波長(zhǎng)的激發(fā)光所對(duì)應(yīng)的波形分布、 發(fā)射熒光強(qiáng)度是不同的。 圖2(a)中曲線在500、 625和764 nm附近存在明顯熒光峰, 圖2(b)中曲線在500、 634和764 nm附近存在熒光峰, 圖2(c)中曲線在625、 690、 506、 733和764 nm附近存在熒光峰, 圖2(d)中曲線在622和714 nm附近存在熒光峰。 這些差異表明不同波長(zhǎng)光在紅細(xì)胞中引起的能量轉(zhuǎn)移不同, 所以在熒光光譜上表現(xiàn)出差異。 通過對(duì)比發(fā)現(xiàn), 當(dāng)激發(fā)波長(zhǎng)為440 nm時(shí), 得到的熒光光譜效果最好, 熒光峰較為明顯, 因此實(shí)驗(yàn)采用440 nm的激發(fā)光來激發(fā)熒光信號(hào), 選用的熒光發(fā)射濾光片中心波長(zhǎng)是440 nm、 半帶寬為10 nm。
實(shí)驗(yàn)前將每個(gè)物種的全血溶液進(jìn)行稀釋, 得到1%濃度的紅細(xì)胞稀釋液。 取稀釋好的紅細(xì)胞溶液200 μL加入石英器皿中, 調(diào)節(jié)位移平臺(tái)使得物鏡與石英器皿逐漸接近, 直至在CCD相機(jī)中出現(xiàn)清晰的紅細(xì)胞圖像。 此時(shí)打開激發(fā)光源, 記錄熒光信號(hào)。 每個(gè)物種共5輪測(cè)試, 每輪血液樣品采集20次熒光光譜, 每個(gè)物種共采集100次熒光光譜, 最終得到四個(gè)物種共400條熒光光譜。 利用Origin軟件對(duì)每個(gè)物種的100條光譜做平均處理, 可得到帶有標(biāo)準(zhǔn)差的平均化后的馬、 豬、 犬、 雞的熒光光譜, 圖3是四種動(dòng)物的紅細(xì)胞熒光光譜平均后的結(jié)果對(duì)比。 從圖中可以發(fā)現(xiàn), 雞的熒光光譜在500 nm附近的熒光峰強(qiáng)度最高, 豬的最低。 但在622、 690、 730和764 nm附近, 雞的熒光峰最低, 馬和豬相當(dāng)。 通過四種動(dòng)物的紅細(xì)胞熒光光譜對(duì)比可見, 不同動(dòng)物在某些熒光峰存在強(qiáng)度差異, 但峰的位置基本相同。
圖3 四個(gè)動(dòng)物(馬、 雞、 犬、 豬)的紅細(xì)胞熒光光譜平均后的結(jié)果對(duì)比
另外, 由于光譜可能受到外界噪聲干擾, 這樣會(huì)影響熒光光譜分類的準(zhǔn)確性, 因此需要對(duì)獲取的熒光光譜進(jìn)行預(yù)處理, 預(yù)處理的目的是消除儀器噪聲和環(huán)境干擾。 本實(shí)驗(yàn)中數(shù)據(jù)預(yù)處理主要包括去除背景、 平滑、 歸一化。 為了消除石英基底和磷酸鹽緩沖溶液所帶來的背景熒光干擾, 實(shí)驗(yàn)前先測(cè)試石英基底加入磷酸鹽緩沖溶液后的熒光光譜, 重復(fù)測(cè)試3次, 最終取平均值作為背景熒光。 利用Origin軟件中自帶的Sacitzky-Golay方法對(duì)光譜進(jìn)行平滑去噪處理, 這樣能夠提高光譜的信噪比。 最后, 為了使不同物種的光譜獲得統(tǒng)一的強(qiáng)度, 因此有必要將每條光譜進(jìn)行歸一化, 歸一化的目的是將光譜的縱坐標(biāo)(強(qiáng)度) 統(tǒng)一轉(zhuǎn)換為0~1區(qū)間內(nèi)。 圖4給出了馬的紅細(xì)胞熒光光譜進(jìn)行預(yù)處理的結(jié)果。
圖4 熒光光譜的預(yù)處理
圖5 當(dāng)k=20時(shí)基于隨機(jī)森林模型的樹的棵樹與預(yù)測(cè)準(zhǔn)確率之間的關(guān)系
利用已經(jīng)測(cè)出的共400個(gè)光譜數(shù)據(jù)(四個(gè)物種, 每個(gè)物種100條光譜)來構(gòu)建隨機(jī)森林模型, 首先要進(jìn)行測(cè)試集與訓(xùn)練集的劃分, 設(shè)定樣本數(shù)據(jù)的30%作為測(cè)試集, 70%為訓(xùn)練集。 設(shè)定隨機(jī)森林模型參數(shù)k=20、m=500, 計(jì)算得到不同波長(zhǎng)與特征重要性之間的關(guān)系, 如圖6所示。 由計(jì)算結(jié)果可知, 對(duì)紅細(xì)胞熒光光譜分類起重要作用的五個(gè)波長(zhǎng)分別是523、 683、 656、 710和519 nm。 對(duì)照?qǐng)D3可以看出, 四種動(dòng)物在這五個(gè)波長(zhǎng)附近光譜有明顯差異, 因此算法主要依據(jù)這五個(gè)波長(zhǎng)的差異來對(duì)光譜進(jìn)行區(qū)分。 由于動(dòng)物血液中存在一些光敏物質(zhì), 其中卟啉所占比重較大, 在不同環(huán)境下, 細(xì)胞內(nèi)熒光物質(zhì)存在漂移現(xiàn)象。 卟啉通常在630、 690和710 nm附近存在特征峰[14-15], 因此這三個(gè)特征峰可能為卟啉類物質(zhì)。 而523與519 nm附近可能是血紅素或者黃素腺嘌呤二核苷酸引起的[16], 因此本實(shí)驗(yàn)結(jié)果表明, 在四種動(dòng)物紅細(xì)胞自體熒光光譜中, 對(duì)物種紅細(xì)胞熒光光譜分類起確定性作用的物質(zhì)分別是卟啉類物質(zhì)、 血紅素或者黃素腺嘌呤二核苷酸, 這幾種物質(zhì)最能夠體現(xiàn)物種間的差異性。
圖6 基于隨機(jī)森林模型的不同波長(zhǎng)與特征重要性之間的關(guān)系
然后, 運(yùn)行模型代碼10次并得到10個(gè)分類準(zhǔn)確率, 取這十個(gè)數(shù)值的平均作為模型分類的準(zhǔn)確率, 如表2所示, 測(cè)試集最終平均后的準(zhǔn)確率達(dá)到93.1%, 方差為0.31%, 表明達(dá)到了非常高的分類準(zhǔn)確率。
表2 隨機(jī)森林模型運(yùn)行10次的準(zhǔn)確率及平均后的準(zhǔn)確率(%)
進(jìn)一步計(jì)算了混淆矩陣, 它是一種對(duì)模型預(yù)測(cè)精度進(jìn)行評(píng)價(jià)的一種可視化工具, 可以反映出預(yù)測(cè)結(jié)果與實(shí)際結(jié)果的差異。 在本次實(shí)驗(yàn)中, 任意選一次運(yùn)行結(jié)果(這里以第8次為例)做混淆矩陣來描述對(duì)每個(gè)物種的分類情況, 如圖7所示。 從圖中可看到, 雞的分類正確率最高, 馬的分類正確率最低。 從圖3可以看出, 豬與馬的紅細(xì)胞熒光光譜的譜型十分相似, 兩者的光譜數(shù)據(jù)差異很小, 這是導(dǎo)致豬與馬最終分類效果較差的主要原因。
圖7 通過混淆矩陣表示的隨機(jī)森林模型預(yù)測(cè)結(jié)果
為克服傳統(tǒng)群體細(xì)胞熒光光譜檢測(cè)難以體現(xiàn)單細(xì)胞異質(zhì)性的不足, 在小樣本量下實(shí)現(xiàn)快速、 準(zhǔn)確的血液分類, 提出了一種基于熒光光鑷和機(jī)器學(xué)習(xí)的單細(xì)胞血液分類方法, 設(shè)計(jì)并搭建了一套熒光光鑷系統(tǒng), 并建立了隨機(jī)森林分類模型, 測(cè)試了馬、 豬、 犬、 雞4種血液的單細(xì)胞熒光光譜, 分類準(zhǔn)確率達(dá)到93.1%, 方差為0.31%, 驗(yàn)證了方法的可行性和有效性。 若進(jìn)一步提高光譜測(cè)試的數(shù)量, 增加隨機(jī)森林模型中訓(xùn)練集和測(cè)試集的數(shù)據(jù)量, 分類準(zhǔn)確率有望進(jìn)一步提高。
相比于傳統(tǒng)的基于群體細(xì)胞的熒光光譜分析手段, 這種基于光鑷的單細(xì)胞分析手段能夠以無損、 非侵入式的方式在單細(xì)胞水平上揭示細(xì)胞的異質(zhì)性, 更重要的是該方法能夠與一些機(jī)器學(xué)習(xí)算法結(jié)合, 展示出其在未來擁有強(qiáng)大的應(yīng)用前景。