王 鵬, 王振亞, 汪 舜, 張 杰, 張 哲, 楊天航, 王弼陡1, *,羅剛銀1, *, 翁良飛, 張翀宇, 李 原
1. 中國(guó)科學(xué)技術(shù)大學(xué)生物醫(yī)學(xué)工程學(xué)院(蘇州), 生命科學(xué)與醫(yī)學(xué)部, 江蘇 蘇州 215163
2. 中國(guó)科學(xué)院蘇州生物醫(yī)學(xué)工程技術(shù)研究所工程化研究中心, 江蘇 蘇州 215163
3. 重慶國(guó)科醫(yī)創(chuàng)科技發(fā)展有限公司分子診斷中心, 重慶 400700
聚合酶鏈?zhǔn)椒磻?yīng)(polymerase chain reaction, PCR)是分子生物學(xué)常用的檢測(cè)手段, 能夠檢測(cè)生物特定DNA和RNA的濃度, 對(duì)疾病診斷、 法醫(yī)鑒定和食品安全檢測(cè)等應(yīng)用有重要的意義[1-5]。 其主要原理是在PCR過(guò)程中, 加入能夠與待測(cè)核酸反應(yīng)的特定熒光基團(tuán), 通過(guò)檢測(cè)熒光值的上升, 推算核酸量的增加過(guò)程。 理論上, 檢測(cè)到的熒光值大小, 能夠?qū)?yīng)已反應(yīng)熒光染料的濃度, 可以推算出核酸的量。
在實(shí)際操作中, 由于激發(fā)光譜和發(fā)射光譜的重疊以及濾光片過(guò)濾帶寬限制帶來(lái)的熒光串?dāng)_, 使測(cè)得的信號(hào)無(wú)法真實(shí)反映被測(cè)目標(biāo)的準(zhǔn)確值。 研究中主要采取以下幾種解決方式來(lái)減少串?dāng)_帶來(lái)的影響, (一)通過(guò)系統(tǒng)設(shè)計(jì), 如濾光片選擇或分時(shí)復(fù)用等方式, 最大限度地減少干擾的存在。 如Lewis等采用分時(shí)復(fù)用的方式將各波段的激光脈沖及對(duì)應(yīng)染料的熒光信號(hào)在時(shí)間上分離, 消除了傳統(tǒng)DNA測(cè)序技術(shù)的光譜串?dāng)_[6]。 該方法降低了對(duì)染料的要求, 但對(duì)所用熒光染料仍有所限制。 (二)根據(jù)系統(tǒng)采用的硬件參數(shù), 正向計(jì)算獲得熒光補(bǔ)償系數(shù)。 如Gei?ler等設(shè)計(jì)的FRET生物傳感器, 其補(bǔ)償矩陣中各元素通過(guò)熒光光譜直接計(jì)算獲得[7]。 Liu等同樣是通過(guò)熒光光譜獲得串?dāng)_數(shù)據(jù), 獲得了待測(cè)對(duì)象的精確測(cè)量結(jié)果[8]。 以上方法均是根據(jù)硬件的物理參數(shù)進(jìn)行計(jì)算熒光補(bǔ)償矩陣中各個(gè)元素的具體值。 實(shí)際系統(tǒng)往往與理論值有些許偏差, 再加上激發(fā)光和發(fā)射光的疊加影響, 導(dǎo)致計(jì)算過(guò)程復(fù)雜。 還有一種比較常用的確定串?dāng)_的方式, 通過(guò)實(shí)驗(yàn)反向求解串?dāng)_系數(shù)。 Yin、 Li和Huang等分別在各自的DNA測(cè)序研究中, 采用四維空間聚類方法, 通過(guò)迭代計(jì)算, 確定熒光強(qiáng)度分布和染料濃度之間的映射關(guān)系[9-11]。 Domnioru等提出利用信號(hào)的強(qiáng)度差異代替信號(hào)本身來(lái)進(jìn)行計(jì)算, 使得無(wú)需基線調(diào)整, 即可實(shí)現(xiàn)串?dāng)_校正的目的[12]; 該算法主要是針對(duì)4種及以下不同的熒光的分離與分析, 對(duì)于4種以上染料組合討論較少。 對(duì)于4種以上熒光串?dāng)_的計(jì)算, Gothot等通過(guò)實(shí)驗(yàn)獲得線性方程組的各個(gè)系數(shù), 從而得到熒光補(bǔ)償矩陣[13]。 在補(bǔ)償效果評(píng)估方面, Li等在研究中提出了一種定量方法來(lái)評(píng)價(jià)串?dāng)_校正的質(zhì)量[11]。 臧留琴等在標(biāo)準(zhǔn)迭代四維聚類分析的基礎(chǔ)上提出了一種對(duì)串?dāng)_矩陣進(jìn)行估算的方法[14]。 以上方法實(shí)驗(yàn)操作過(guò)程繁瑣, 或需要通過(guò)多次迭代才能獲得比較理想的補(bǔ)償矩陣。
主成分分析(principal component analysis, PCA)是一種常見(jiàn)的數(shù)據(jù)分析方式, 常用于高維數(shù)據(jù)的降維, 可用于提取數(shù)據(jù)的主要特征分量。 目前已有研究者將其應(yīng)用于微弱信號(hào)分離。 Hasegawa提出了利用主成分分析檢測(cè)混合光譜中微弱光譜變化的方法[15-16]。 有研究采用流式細(xì)胞術(shù)對(duì)藍(lán)細(xì)菌進(jìn)行光譜流式檢測(cè)時(shí), 提出利用主成分分析、 多元曲線分辨以及交替最小二乘法得到純組分光譜及其組分濃度。 該方法計(jì)算量小, 能夠快速定位獲得目標(biāo)數(shù)據(jù)。
本研究將主成分分析方法應(yīng)用于熒光定量PCR測(cè)量過(guò)程中的熒光補(bǔ)償, 適用于4色及以上的多重?zé)晒庋a(bǔ)償。 本方法不需經(jīng)過(guò)迭代, 即可獲得補(bǔ)償矩陣, 有效地減少計(jì)算量。 采用得到的熒光補(bǔ)償矩陣去除非目標(biāo)通道的熒光串?dāng)_, 可實(shí)現(xiàn)熒光通道數(shù)據(jù)的解耦。
在多重?zé)晒舛縋CR設(shè)備的設(shè)定中, 各染料理論發(fā)射熒光值記為“染料向量”F, 各通道的檢測(cè)值記為“檢測(cè)向量”R, 理想情況下F等于R, 但在實(shí)際操作中, 由于濾光片的選擇、 光譜重疊等因素影響, 導(dǎo)致測(cè)得的“檢測(cè)向量”R無(wú)法直接用于表示各染料的實(shí)際濃度值。 向量F與向量R之間關(guān)系如式(1)。
R=MF
(1)
式(1)中, 轉(zhuǎn)換矩陣M為n×n的方陣,n為熒光染料/檢測(cè)通道數(shù)量, 該矩陣即為熒光串?dāng)_矩陣。M的列向量表示某染料在各個(gè)檢測(cè)波長(zhǎng)下的熒光強(qiáng)度。 計(jì)算的目標(biāo)是針對(duì)特定系統(tǒng)得到矩陣M, 但在實(shí)際檢測(cè)中, 由于無(wú)法直接獲得“染料向量”F中各元素的理論值, 因此無(wú)法通過(guò)方程線性求解系數(shù)的方式進(jìn)行計(jì)算。
為了方便描述, 考慮二維數(shù)據(jù)情形, 假設(shè)有兩種熒光染料dye1和dye2及其對(duì)應(yīng)檢測(cè)通道channel1和channel2, 當(dāng)取不同濃度的dye1進(jìn)行實(shí)驗(yàn)時(shí), 由于熒光光譜的重疊, 會(huì)有部分熒光進(jìn)入到channel2中, 實(shí)驗(yàn)得到的數(shù)據(jù)將如圖1所示, 其中X軸為channel1數(shù)據(jù),Y軸為channel2數(shù)據(jù)。 在系統(tǒng)硬件一定的情況下, 可以看出dye1在channel1和channel2中的比例相對(duì)固定, 其中的數(shù)據(jù)波動(dòng)來(lái)源于測(cè)量誤差。 計(jì)算熒光串?dāng)_, 就是要確定dye1在各通道中的讀數(shù)比例。
圖1 兩通道數(shù)據(jù)分布和其降維后的投影向量
主成分分析是數(shù)據(jù)分析中常用的降維方法, 其原理是通過(guò)尋找一組新的坐標(biāo)系, 將原始數(shù)據(jù)投影至該坐標(biāo)系下, 同時(shí)最大限度地保留原始信息。 將其原理應(yīng)用于串?dāng)_補(bǔ)償, 對(duì)于二維坐標(biāo)系的情形, 若想進(jìn)行降維, 很容易觀察到, 圖1中e所指的方向即為將來(lái)降維后新坐標(biāo)系的基。 因此通過(guò)主成分分析方法, 找到其第一主成分, 其所代表的方向即指出了染料在各個(gè)通道的分布情況。 以上是在兩個(gè)通道的情形下進(jìn)行計(jì)算, 當(dāng)通道數(shù)增多時(shí), 該計(jì)算方法的優(yōu)勢(shì)將更加明顯。
將上述方法拓展到n個(gè)染料的情況, 當(dāng)采用某個(gè)單一染料進(jìn)行實(shí)驗(yàn)時(shí), 將會(huì)得到不同濃度的該染料在各個(gè)檢測(cè)通道熒光分布情況, 測(cè)得的數(shù)據(jù)組成一個(gè)n×i的矩陣, 其中n為通道數(shù),i為實(shí)驗(yàn)次數(shù)。 對(duì)該矩陣中的數(shù)據(jù)進(jìn)行主成分分析, 得到第一主成分。 新得到的“主成分”所表示的并不是某一通道的熒光值, 而是一種抽象的混合熒光; 雖然如此, 但是該主成分所表示的向量, 明確地給出各熒光通道所占比例。 通過(guò)將該主成分旋轉(zhuǎn), 即可反向計(jì)算得到該染料真正的熒光值或者相對(duì)熒光值, 同時(shí)其對(duì)其他通道的串?dāng)_也得到了量化, 通過(guò)計(jì)算將該部分串?dāng)_從其他通道中剔除。 對(duì)其他通道染料進(jìn)行同樣的單一染料實(shí)驗(yàn)和分析, 可以獲得其他染料的主成分向量。 將得到的n個(gè)主成分向量分別作為矩陣的n個(gè)列向量, 即可獲得矩陣M。
設(shè)計(jì)了如圖2所示檢測(cè)光路, 激發(fā)光路由LED光源、 準(zhǔn)直透鏡、 激發(fā)濾光片、 二向色鏡及熒光收集透鏡組成, 激發(fā)光激發(fā)樣品管內(nèi)熒光物質(zhì), 發(fā)射的熒光經(jīng)過(guò)熒光收集透鏡、 二向色鏡、 發(fā)射濾光片、 熒光聚焦透鏡, 由探測(cè)器接收。
圖2 光學(xué)原理圖
在系統(tǒng)設(shè)計(jì)時(shí), 選擇合適的激發(fā)和發(fā)射濾光片對(duì), 以優(yōu)化激發(fā)光收集, 同時(shí)最小化熒光團(tuán)之間的串?dāng)_。 由于很多熒光物質(zhì)的斯托克斯位移只約30 nm, 因此要求激發(fā)和發(fā)射濾光片必須有矩形化的通帶波形和較高的截止深度。 各通道選用LED激發(fā)光源均具有特定的光譜曲線, 在保證充分激發(fā)功率的同時(shí), 還需要考慮熒光基團(tuán)之間的串?dāng)_和其他通道激發(fā)光之間的串色問(wèn)題。 其主要矛盾為: FAM、 HEX、 ROX、 Cy5的發(fā)射波長(zhǎng)分別與HEX、 ROX、 Cy5、 Cy5.5的激發(fā)波長(zhǎng)有一定程度的疊加, 因此在考慮較高的檢測(cè)效率和信噪比的同時(shí), 應(yīng)盡可能減少光譜重疊。 基于上述原理, 所選擇的5通道濾光片組合及二向色鏡參數(shù)見(jiàn)表1。
表1 實(shí)驗(yàn)平臺(tái)所用光學(xué)元件參數(shù)表
5種染料的熒光發(fā)射光譜及本實(shí)驗(yàn)平臺(tái)所選擇的檢測(cè)通道如圖3所示。 由圖3可以看出, 選擇的硬件可以將大部分非目標(biāo)通道熒光過(guò)濾掉, 但在各目標(biāo)通道內(nèi), 仍或多或少的混入了其他熒光染料的發(fā)射光。
圖3 染料的熒光光譜及對(duì)應(yīng)檢測(cè)通道
研究了FAM、 HEX、 ROX、 Cy5和Cy5.5五種染料的光譜串?dāng)_。 染料采購(gòu)自ThermoFisher, 相關(guān)信息見(jiàn)表2。 采用凱基生物的磷酸鹽緩沖液(PBS, 貨號(hào): KGB5001)作為稀釋劑進(jìn)行染料稀釋。
表2 測(cè)試所用試劑信息
補(bǔ)償矩陣的測(cè)試需進(jìn)行單一染料實(shí)驗(yàn)。 在實(shí)驗(yàn)開(kāi)始前, 需先確定系統(tǒng)熒光染料濃度線性范圍。 將5種染料分別稀釋8個(gè)梯度, 為了減少實(shí)驗(yàn)誤差, 每個(gè)梯度進(jìn)行3重復(fù), 10 min內(nèi)連續(xù)讀取, 對(duì)讀取的熒光檢測(cè)數(shù)據(jù)進(jìn)行分析, 確定染料的線性范圍, 同時(shí)確定各染料的熒光背景。
分別在各染料濃度線性范圍內(nèi), 再選取16個(gè)濃度梯度, 加入PBS稀釋劑, 配制成單一染料溶液, 分別將單一染料放入搭建的實(shí)驗(yàn)平臺(tái), 每隔30 s讀取一次, 重復(fù)讀取20次。 對(duì)于任一單一染料, 每次讀數(shù)均可得到所有通道熒光檢測(cè)數(shù)據(jù)。 采用前述提出的方法, 處理實(shí)驗(yàn)得到的各通道數(shù)據(jù), 可得到熒光補(bǔ)償矩陣。
由于無(wú)法得到不同濃度染料的理論熒光值, 因此在多種染料混合測(cè)試時(shí), 評(píng)價(jià)染料的串?dāng)_程度比較困難。 設(shè)計(jì)了一組顏色分辨實(shí)驗(yàn)來(lái)驗(yàn)證前述算法結(jié)果的準(zhǔn)確性。 為了保證每各染料濃度都有相同機(jī)會(huì)接受測(cè)試, 而不受試驗(yàn)人員主觀傾向的影響, 采用隨機(jī)方式將不同濃度的多種染料進(jìn)行組合測(cè)試, 將得到的數(shù)據(jù)進(jìn)行熒光補(bǔ)償后, 評(píng)價(jià)各染料熒光的線性度。 在PCR管中以盲法分析5種染料的混合物, 5種染料分別取各自線性范圍內(nèi)的6個(gè)濃度, 濃度從大到小依次編號(hào)1—6, 隨機(jī)混合12組混合染料, 染料溶液混合方式由Matlab隨機(jī)數(shù)發(fā)生器確定, 具體混合見(jiàn)表3, 每種混合方式對(duì)測(cè)試平臺(tái)是未知的。
表3 染料隨機(jī)組合表
檢測(cè)結(jié)果如圖4(a—e)所示, 分別表示用FAM、 HEX、 ROX、 Cy5和Cy5.5單一染料進(jìn)行測(cè)試時(shí), 各通道測(cè)得的熒光數(shù)據(jù), 其中橫坐標(biāo)為相對(duì)應(yīng)染料的熒光值, 縱坐標(biāo)為其余通道的熒光值, 圖中數(shù)據(jù)已被去除熒光背景。
圖4 不同濃度染料在各個(gè)通道的測(cè)試結(jié)果
從圖4(b)中可以看出, HEX染料對(duì)FAM通道、 ROX染料對(duì)HEX通道、 Cy5染料對(duì)Cy5.5通道、 Cy5.5通道對(duì)Cy5通道分別有明顯的干擾, FAM染料對(duì)HEX通道有輕微的串?dāng)_, 其余通道無(wú)明顯的串?dāng)_。 另外, 從圖中可以看出隨著染料濃度的降低, 受干擾通道的線性度降低, 這是由于低濃度時(shí), 受干擾通道接受到的光信號(hào)較弱, 超出了系統(tǒng)可檢測(cè)的線性范圍。 這種非線性對(duì)于熒光補(bǔ)償來(lái)說(shuō)是不利的, 但由于熒光值本身較小, 對(duì)檢測(cè)影響不大。 個(gè)別濃度熒光值橫軸間距不一致, 此外, 在低濃度時(shí), 檢測(cè)結(jié)果聚集成團(tuán), 推測(cè)是由于手動(dòng)配制染料及實(shí)驗(yàn)誤差所導(dǎo)致。
利用主成分分析方法, 獲得熒光補(bǔ)償矩陣見(jiàn)式(2)。
(2)
實(shí)驗(yàn)過(guò)程中, 由于系統(tǒng)誤差帶來(lái)的數(shù)據(jù)波動(dòng), 導(dǎo)致串?dāng)_矩陣中部分元素出現(xiàn)負(fù)數(shù), 但理論上, 不應(yīng)產(chǎn)生負(fù)串?dāng)_, 因此, 將負(fù)值設(shè)為0, 并對(duì)矩陣的每一列重新歸一化, 得到新的串?dāng)_矩陣見(jiàn)式(3)。
(3)
觀察串?dāng)_矩陣發(fā)現(xiàn), Cy5通道對(duì)Cy5.5通道串?dāng)_較大, 串?dāng)_比例為8.76%, 意味著當(dāng)僅采用Cy5染料進(jìn)行實(shí)驗(yàn)時(shí), Cy5.5通道也可檢測(cè)到Cy5通道數(shù)值約8.76%的熒光值; 同樣, Cy5.5通道對(duì)Cy5通道串?dāng)_影響也相對(duì)較大, 比例約為6.2%; 其次是ROX通道對(duì)HEX通道串?dāng)_, 比例約為2.68%; HEX通道對(duì)FAM通道串?dāng)_, 比例約為1.58%; FAM通道對(duì)HEX通道串?dāng)_相對(duì)較小, 比例約為0.25%, 其余通道無(wú)明顯串?dāng)_。 與圖4顯示結(jié)果一致。
將圖4中測(cè)試數(shù)據(jù)R, 代入式(1), 進(jìn)行熒光補(bǔ)償計(jì)算, 得到染料的理論熒光值F, 以同樣的方式繪制各通道數(shù)據(jù), 如圖5(a—e)所示。
圖5 經(jīng)過(guò)串?dāng)_補(bǔ)償后不同濃度染料在各個(gè)通道的分布情況
由圖5(a—e)中可以看出, 經(jīng)過(guò)補(bǔ)償之后, 非目標(biāo)通道的數(shù)據(jù)基本呈水平狀態(tài), 對(duì)各個(gè)通道分別進(jìn)行線性擬合, 斜率最大為10-8, 趨近于零, 即非目標(biāo)通道數(shù)值不隨目標(biāo)通道染料熒光值的上升而變化, 實(shí)現(xiàn)了熒光通道間串?dāng)_的解耦。
熒光補(bǔ)償矩陣與測(cè)試平臺(tái)硬件及染料特性具有密切相關(guān)性, 當(dāng)測(cè)試平臺(tái)和染料熒光特性不變, 通過(guò)單一染料實(shí)驗(yàn)獲得的補(bǔ)償矩陣, 同樣適用于多重染料的情況。 將不同濃度混合的染料放入搭建的實(shí)驗(yàn)平臺(tái), 分別進(jìn)行實(shí)驗(yàn), 將得到的測(cè)試結(jié)果代入前述補(bǔ)償矩陣, 測(cè)得各染料濃度柱狀圖見(jiàn)圖6。
圖6 混合染料的測(cè)試數(shù)據(jù)
對(duì)比觀察表3和圖6發(fā)現(xiàn), 同一濃度的同一染料, 在不同的混合組合中, 熒光值相差不大, 沒(méi)有受到其他通道的明顯干擾。 從圖4(d)中可知, Cy5染料對(duì)Cy5.5通道有明顯的串?dāng)_, 表3中組合5和組合9里Cy5染料的濃度相差較大, 而兩組中Cy5.5染料濃度較低且為同一值, 由圖6看出, 經(jīng)過(guò)補(bǔ)償補(bǔ)償后, 無(wú)論Cy5的染料濃度多大, Cy5.5的熒光值基本不受影響。 另外, ROX對(duì)HEX有明顯串?dāng)_, 在組合5和組合12中, HEX濃度均為同一低值, 但ROX濃度相差較大, 但從圖6可以看出, 兩個(gè)組合中, HEX染料的熒光值基本一致, 未受到明顯的干擾。 補(bǔ)償算法有效地去除了染料間的干擾。
對(duì)各混合物中測(cè)得的不同濃度染料按照濃度大小進(jìn)行了排序, 并取對(duì)數(shù)。 由圖7看出, 對(duì)同一染料的不同濃度梯度進(jìn)行擬合, 最大線性相關(guān)系數(shù)為0.999 3, 采用該算法, 能夠很好地對(duì)染料的原始熒光進(jìn)行區(qū)分。
圖7 各染料梯度的線性擬合
光譜重疊現(xiàn)象廣泛存在于熒光定量PCR等多種熒光檢測(cè)領(lǐng)域, 對(duì)檢測(cè)結(jié)果帶來(lái)不利影響。 本工作提出將主成分分析中求解主成分向量的計(jì)算方法, 應(yīng)用到熒光定量PCR系統(tǒng)中, 該方法無(wú)需經(jīng)過(guò)迭代計(jì)算, 即可獲得系統(tǒng)的熒光補(bǔ)償矩陣。 經(jīng)過(guò)該矩陣的轉(zhuǎn)換, 能夠非常有效地分離各個(gè)熒光通道數(shù)據(jù)。 設(shè)計(jì)了染料分辨實(shí)驗(yàn), 通過(guò)對(duì)隨機(jī)組合的6個(gè)不同濃度的5種染料混合物進(jìn)行實(shí)驗(yàn)測(cè)試和分析, 從中高效地分離了各個(gè)染料成分及其濃度, 進(jìn)一步驗(yàn)證了方法的有效性。 本方法不受通道數(shù)量限制, 不僅可用于熒光定量PCR系統(tǒng)的熒光補(bǔ)償校正, 也可用于其他具有串?dāng)_問(wèn)題的光譜分析, 具有較高的使用拓展性。