擺文麗,農(nóng)衛(wèi)霞,李智偉,雷 偉,郭玉娟,張向輝,芮東升,王 奎
(1.石河子大學醫(yī)學院預防醫(yī)學系,新疆 石河子 832000;2.石河子大學醫(yī)學院第一附屬醫(yī)院血液風濕科,新疆 石河子 832000;3.新疆維吾爾自治區(qū)人民醫(yī)院臨床檢驗中心,新疆 烏魯木齊 830001)
流式細胞術(flow cytometry,F(xiàn)CM)是一種能夠精確、快速地對生物細胞或微粒的理化特性和生物學特性進行定量分析的技術[1]。隨著精準醫(yī)療和基因生物學的發(fā)展,F(xiàn)CM 已經(jīng)成為惡性血液病診斷的重要依據(jù)[2]。FCM 數(shù)據(jù)在人工分析中最關鍵和最耗時的步驟是識別數(shù)據(jù)中的同質細胞群,這個過程為“設門”[3]。數(shù)據(jù)傳統(tǒng)的分析方法是通過不同參數(shù)組合進行人工設門,隨著檢測參數(shù)成倍增加,產(chǎn)生了多組合、高維度的流式數(shù)據(jù),而FCM 數(shù)據(jù)分析成為FCM 中最具挑戰(zhàn)性和最耗時的診斷步驟[4-7]。自動設門是基于細胞群熒光強度分布的數(shù)學建模,可以使用有監(jiān)督和無監(jiān)督的方法來執(zhí)行,用于解決人工設門所面臨的問題。目前常見的自動化分析方法包括FlowMeans[8]、SPADE[9]、Citrus[10]、FlowSOM[11]以及PCA[12]等,其中最常用的是FlowMeans,其是一種無監(jiān)督聚類方法,通過合并多個聚類以獲得最終細胞亞群[13,14],但只能將FCM 數(shù)據(jù)中相似的細胞聚成亞群[15,16],不能實現(xiàn)亞群的標注,因此需要工作人員去一一識別,存在一定局限性?;诖耍狙芯恐荚诜治鯢lowSOM 與有監(jiān)督分類模型[17](混合正態(tài)分布模型)聯(lián)合應用于FCM 數(shù)據(jù)自動化分析中的效果,現(xiàn)報道如下。
1.1 數(shù)據(jù)來源 數(shù)據(jù)來源于實驗室2021 年1 月-12 月同一面板急性白血病骨髓檢測數(shù)據(jù),共528例,包括412 例正常人、68 例AML、9 例T-ALL 以及39例B-AL。本研究經(jīng)當?shù)卣畟惱砦瘑T會批準。
1.2 數(shù)據(jù)分析 FCM 數(shù)據(jù)細胞亞群的自動分類和自動標注可以分成4 個階段進行:①預處理:通過讀取數(shù)據(jù)、補償和轉換、去粘連完成FCM 數(shù)據(jù)預處理;②細胞聚類:使用FlowSOM 方法對預處理的數(shù)據(jù)進行細胞聚類,聚類的結果以宏細胞的方式可視化;③亞群分類:利用混合正態(tài)分布模型,訓練有監(jiān)督分類模型對細胞亞群進行分類;④亞群標準:對③得到的有限個數(shù)的細胞亞群類進行識別和標注建立多對多映射,完成細胞亞群的標注。
1.2.1 數(shù)據(jù)預處理 通過補償、轉換和去粘連完成FCM 數(shù)據(jù)的預處理。①首先應用補償矩陣對數(shù)據(jù)進行補償,補償矩陣采用流式fcs 格式數(shù)據(jù)自帶的補償矩陣,通過讀取熒光抗體名稱與提取熒光通道的數(shù)據(jù)矩陣,對熒光抗體做補償[5];②接著對FCM 數(shù)據(jù)做轉換,對前向散射光FSC 進行線性變換(除以100 k),側向散射光SSC 進行Log10對數(shù)轉換,對抗體做雙指數(shù)變換;③最后使用百分位法在FSC-A 和FSC-H 平面對數(shù)據(jù)做去粘連處理,具體步驟如下:首先選取FSC-H 大于0.5 且FSC-A 小于2 的細胞子集,計算其在全體細胞中的占比;當子集占比小于等于0.75 時,使用子集計算變量FSC-A 與FSC-H的百分位點P5和P75,否則計算P5和P90;以兩個對子為端點做基準線段,將連線垂直上移和下移0.225單位做兩條平行線;兩條平行線之外的點即為粘連細胞;FSC-H 小于0.2 的點對應于細胞碎片,其余的為進入后續(xù)分析的細胞,包括正常細胞和凋亡細胞。上述切割點的選擇用試錯法確定。
1.2.2 細胞聚類 細胞聚類采用無監(jiān)督分析方法,在操作中不需要任何標簽,任何預定義的類作為引用。聚類算法識別同一聚類中的事件,將相似的細胞保留在同一個集群中,不同的細胞保留在不同的集群中。FlowSOM 具有節(jié)點網(wǎng)格,每個節(jié)點代表多維空間中的點[17]。自組織映射(the self-organizing map,SOM)將數(shù)據(jù)中的單元格分配給最近的節(jié)點,該節(jié)點以及周圍的節(jié)點向新單元格更新,以此類推,節(jié)點被分配到數(shù)據(jù)空間中的高密度區(qū)域,節(jié)點網(wǎng)格中相近的節(jié)點比較遠的節(jié)點更相似[18]。因此,所有的單元格將會分配到距離他們最近的節(jié)點,從而將FCM 數(shù)據(jù)中相同的細胞聚類在一起形成細胞亞群。為便于觀察聚類結果,F(xiàn)lowSOM 聚類結果以亞群中心點展示,下文中把亞群中心點稱為宏細胞。聚類的目標是將FCM 數(shù)據(jù)分為若干個類群,并保證類群內的樣本盡可能密集,不同類群之間盡可能離散。FlowSOM將FCM 數(shù)據(jù)中相似的節(jié)點聚在一起形成無標簽的細胞亞群,以宏細胞的形式展示。當比較5×5、10×10和15×15 網(wǎng)格時,發(fā)現(xiàn)節(jié)點數(shù)量越多對應的純度越高,但是聚類結果很混亂;根據(jù)經(jīng)驗,前4 管使用12×12 網(wǎng)格,第5 管使用10×10 網(wǎng)格,因此前4 管的每管有144 個宏細胞,第5 管有100 個宏細胞。
1.2.3 亞群分類 聚類分析后得到細胞聚類結果,但由于FlowSOM 是無監(jiān)督學習方法,不同抗體組合的樣本得到的亞群構成不一致,導致亞群次序混亂缺乏統(tǒng)一標簽,需要對細胞亞群進行分類[19]。把標本分為訓練集和測試集,訓練基于混合正態(tài)分布的有監(jiān)督分類模型對所有的宏細胞進行分類,也就是對細胞亞群進行統(tǒng)一分類,混合正態(tài)分布模型的類別數(shù)設置為20。有監(jiān)督的混合正態(tài)分布模型對FlowSOM生成的宏細胞結果進行分類。具體步驟如下:為了避免數(shù)據(jù)過少導致訓練集分類結果代表性差,選擇60%~70%的數(shù)據(jù)作為訓練集,30%~40%作為驗證集,因此從AML、T-ALL、B-ALL 數(shù)據(jù)中分別隨機挑選41、9、39 例數(shù)據(jù)作為訓練集;正常人數(shù)據(jù)有412例,如果隨機選擇60%的數(shù)據(jù)作為訓練集,這樣使得訓練集中正常人數(shù)據(jù)遠遠多于患者數(shù)據(jù),正常人細胞亞群特征覆蓋異常細胞亞群,造成分類不準確,因此選擇100 例正常數(shù)據(jù)作為訓練集。訓練集170 例數(shù)據(jù),共97 920 個宏細胞;測試集358 例數(shù)據(jù),共206 208 個宏細胞,為了使分類結果清晰明了,從兩個數(shù)據(jù)中隨機選取25 000 個宏細胞來顯示。
1.2.4 亞群標注 為使細胞亞群分類更加精確,分類模型中亞群數(shù)目的設置通常高于常規(guī)使用的細胞類型數(shù)。因此在亞群標注過程中,通過提取細胞聚類信息以及各類細胞的細胞數(shù),將宏細胞映射到9 個細胞類別并進行命名標注。
2.1 粘連細胞的識別去除 以FSC-A 和FSC-H 為坐標繪制散點圖,基準線上下移動0.225 個單位產(chǎn)生兩條平行線將粘連細胞去除,見圖1,經(jīng)檢查去粘連結果,發(fā)現(xiàn)粘連細胞劃分均合理。
圖1 預處理結果
2.2 聚類分析 各類細胞的宏細胞分布是有規(guī)律可循,服從特定的概率分布,見圖2。
圖2 FlowSOM 聚類結果
2.3 亞群分類與標注 共有20 個類別,且各類宏細胞位置合理,未見異常,見圖3;另對20 個細胞類別進行一一識別和標注,得到9 種已知細胞類,分別是淋巴細胞、單核細胞、中性粒細胞、嗜酸粒細胞、原始細胞、幼稚細胞、有核紅細胞、凋亡細胞、其他細胞,見圖4。
圖4 細胞亞群標注前后比較
由于FCM 具有高通量、高靈敏度、高精確度以及多參數(shù)檢驗的特點[20],被廣泛的應用于生物學研究及臨床診斷中[21-23],同時會產(chǎn)生高維度、多組合的FCM 數(shù)據(jù)。而傳統(tǒng)人工分析具有分析效率低、主觀性高的問題。近年來不斷有學者提出FCM 數(shù)據(jù)的分析需要自動化分析方法的幫助[5,24]。
針對以上問題,本研究提出無監(jiān)督聚類方法與有監(jiān)督分類方法共同用于FCM 數(shù)據(jù)分析,模擬人工分析過程,獲取臨床流式實驗室的原始檢測數(shù)據(jù),預處理過程通過補償、轉換、粘連細胞以及細胞碎片的去除,使得FCM 數(shù)據(jù)規(guī)范化,檢查發(fā)現(xiàn)每例數(shù)據(jù)的粘連細胞去除均合理;之后將無監(jiān)督聚類方法與有監(jiān)督分類方法結合起來用于FCM 數(shù)據(jù)聚類、亞群分類與標注,顯著優(yōu)點是其既能夠快速分類又能夠提高分類數(shù)目的準確度。
無監(jiān)督聚類方法FlowSOM 作為分析的起點,將FCM 數(shù)據(jù)中相似的細胞聚在一起形成無標簽的細胞亞群,通過設定的參數(shù),F(xiàn)lowSOM 將FCM 數(shù)據(jù)中相似的細胞聚在一起形成無標簽的細胞亞群,以宏細胞的形式展示。從聚類結果看出,F(xiàn)lowSOM 具有良好的性能以及快速的運行時間,是對FCM 數(shù)據(jù)進行快速探索性分析的理想工具。但是將宏細胞進一步聚類時會出現(xiàn)不同細胞類型合并的現(xiàn)象,不能通過FlowSOM 模型的元聚類對亞群進一步聚類與特征提取。因此,使用有監(jiān)督分類模型混合正態(tài)分布模型對FlowSOM 生成的宏細胞進行分類,有監(jiān)督學習算法可以達到這樣一種狀態(tài):在提供足夠的信息數(shù)據(jù)前提下,它能夠預測未見數(shù)據(jù)的正確標簽;混合正態(tài)分布模型對亞群進行分類時,首先將數(shù)據(jù)集分為訓練集和測試集,使用訓練集訓練有監(jiān)督分類模型過程中,對亞群類別參數(shù)進行設定,發(fā)現(xiàn)隨著亞群數(shù)的增加,分類精確度會提高,但是不利于對亞群進行標注;反之,亞群數(shù)減少,精確度降低,但是會出現(xiàn)將不同細胞亞群分到一起的現(xiàn)象。故根據(jù)經(jīng)驗,將細胞亞群設置為20 個,接下來使用測試集對模型進行測試,檢查訓練集與測試集的分類結果,未見異常,可以認為有監(jiān)督分類模型能夠準確地對訓練集和測試集進行分類。最后通過設定標簽的形式將20 個類別依次識別并用已知的細胞類別進行標注,即將宏細胞映射到9 個細胞類別,對這9 個細胞類別進行命名標注,檢查所有數(shù)據(jù)標注前與標注后的可視化結果圖,亞群標注結果清晰,未見異常。
總之,通過將基于本研究方法的亞群分類與標注結果與傳統(tǒng)人工分析結果進行對比,成功驗證了自動化分析方法在FCM 數(shù)據(jù)分類與標注中的可行性和高準確性,具有較好的應用前景,可以為下游FCM 數(shù)據(jù)自動化診斷提供參考,并且能夠保留原始數(shù)據(jù)更多的特征信息,為下游診斷結果的質量控制提供依據(jù)。本研究也有不足之處:作為流式數(shù)據(jù)全程自動化分析的重要組成,而且分類結果較難用評價指標進行評價,因此利用分類結果進行特征提取和疾病診斷,診斷結果與專家人工分類結果基本相同,從而反推證明本研究提出的FCM 數(shù)據(jù)自動化分類方法可靠;自動化分析FCM 數(shù)據(jù)時假設流式實驗室在樣本準備、熒光染色、儀器校準和調整階段均正常,在實際情況中,可能出現(xiàn)數(shù)據(jù)大幅度偏移,建立在分布規(guī)律基礎上的亞群標注結果可能會出現(xiàn)偏差。目前,本研究提出的自動化分析方法已經(jīng)在公共數(shù)據(jù)庫Flowrepository.orgAML 項目提供的數(shù)據(jù)以及本地實驗室急性白血病骨髓檢測數(shù)據(jù)進行過測試,效果良好。