汲珊珊,賀環(huán)宇,賈曉冬,謝春如,楚玉蘭,羅丕福,李 行,王志崗,郭 琰 綜述,周劍峰△ 審校
1.天津金域醫(yī)學檢驗實驗室有限公司,天津 300392;2.天津深析智能科技發(fā)展有限公司, 天津 300500;3.廣州金域醫(yī)學檢驗中心有限公司,廣東廣州 510320
流式細胞術(FCM)是一種在功能水平上對單細胞或其他生物粒子進行定量分析和分選的檢測手段,可以高速分析上萬個細胞,并能同時檢測多個參數(shù),被廣泛用于健康研究和癌癥治療等各種醫(yī)療領域,如監(jiān)測艾滋病毒感染過程和治療所需的輔助T淋巴細胞計數(shù),白血病和淋巴瘤患者的診斷和監(jiān)測、外周血造血干細胞移植的評估等[1-3],還被用于移植器官、干細胞研究、基因組學、疫苗開發(fā)、表型研究、細胞因子表達和細胞周期狀態(tài)研究等[4-7]。
傳統(tǒng)人工數(shù)據(jù)分析通過FCM數(shù)據(jù)呈現(xiàn)出的特征進行手動設門對目的細胞進行分群。隨著檢測參數(shù)成倍增加,F(xiàn)CM數(shù)據(jù)分析作為FCM中最具挑戰(zhàn)性和最耗時的診斷步驟,還存在以下不足:人工分析基于“非A即B”邏輯,過程繁瑣、效率低;對操作者的要求較高;交叉區(qū)域的細胞分群容易受到分析者經驗的影響;可重復性差等諸多不足[8-10]。
隨著高通量FCM技術與AI的不斷融合和發(fā)展,F(xiàn)CM數(shù)據(jù)自動化分析的需求越來越凸顯[11-12]。人工智能技術(AI),基于人工智能神經網(wǎng)絡技術的模式,可通過不斷提升神經網(wǎng)絡復雜度和計算能力,解決疾病診斷中的醫(yī)療難題。從50年代后期,第一批人工智能醫(yī)療專家將AI引入到醫(yī)學診斷領域以來,AI作為全球經濟發(fā)展應用最為廣泛的前沿交叉學科,將更先進的計算方法引入組織學、細胞病理學、圖像細胞學和流式細胞學分析中,以減少研究者的工作量并減少偏差以加快分析,逐漸實現(xiàn)檢驗學科標準化、自動化和智能化發(fā)展質的飛躍。如今AI已受到越來越多臨床實驗室的關注[12-13]。本文將列舉近年來AI與FCM應用方面的研究,以供研究者參考。
由于FCM數(shù)據(jù)的結構化特點,聚類、自動分類和降維等數(shù)據(jù)自動分析方法先后被提出,證明了FCM數(shù)據(jù)更適合應用AI加以分析[14]。有學者[15]實驗室回顧性分析了AI與FCM探索性研究,超過70.00%的分析方法側重于FCM數(shù)據(jù)的自動門控,其中65.00%使用了無監(jiān)督學習算法,35.00%使用了監(jiān)督學習算法,只有少數(shù)研究專注于質量控制和FCM數(shù)據(jù)的標準化的研究。
1.1應用監(jiān)督學習技術自動門控分析的探索 AI學習算法包括監(jiān)督學習算法和無監(jiān)督學習算法。監(jiān)督學習算法通過解釋變量與因變量之間的關系分析FCM數(shù)據(jù)的特點,需要足夠大的樣本量獲取因變量的值,更適合用于分析大樣本量的數(shù)據(jù)。監(jiān)督學習算法的重點是分類,通常用于預估風險和建模,同時尋找未知的數(shù)據(jù)關系[16]。以下列舉了近年來一些應用于FCM領域的監(jiān)督學習算法。
1.1.1支持向量機(SVM) SVM是一種用于解決分類問題的監(jiān)督機器學習算法,也可用于回歸分析。SVM最適合用于小數(shù)據(jù)集的數(shù)據(jù)分析,且具有更高的精度。SVM能夠同時解決線性和非線性問題,但非線性SVM性能優(yōu)于線性SVM。MORRIS等[17]最早在浮游植物分類的算法研究中,證明了SVM分類器的性能卓越。TOEDLING等[18]利用SVM技術對白血病細胞進行自動化檢測,證實SVM分型方法可代替人工門控識別白血病細胞,靈敏度為99.78%,特異度為98.87%。
1.1.2決策樹(DTs) 靈敏DTs適用于問題簡單和數(shù)據(jù)集較小的數(shù)據(jù)分析。該算法在處理不平衡的數(shù)據(jù)集時存在過擬合問題導致實驗結果異常。SVENJA等[19]通過誘導DTs分析了6種具有復雜共表達模式的細胞因子細胞內染色數(shù)據(jù)集,并根據(jù)數(shù)據(jù)的類概率進行加權,創(chuàng)建了13 392個不同的DTs。該研究首次成功地利用DTs的誘導來分析高通量FCM數(shù)據(jù),并證明了該方法揭示數(shù)據(jù)結構模式的可行性。周麗娜等[20]以多維空間密度分布的非監(jiān)督學習分群聚類算法為基礎,對FCM數(shù)據(jù)進行聚類分析,應用DTs和隨機森林等及監(jiān)督學習算法辨別細胞分類,并以二維圖、降維t-分布領域嵌入算法(t-SNE)和熱圖進行可視化呈現(xiàn)。該研究建立了AI模型數(shù)據(jù)分析方法,分析了227例B-ALL MRD患者流式細胞數(shù)據(jù),提高了人工智能輔助FCM診斷微小殘留病的靈敏度和準確度。
1.1.3分類樹和回歸樹(CARTs) CARTs是一個數(shù)據(jù)預測模型,根據(jù)所構造的樹的現(xiàn)有值來預測輸出值。CARTs模型通常通過二進制樹來表示。GAIDANO等[21]將1 465個B細胞非霍奇金淋巴瘤(B-NHL)樣本的數(shù)據(jù)庫分為兩組,75.00%的數(shù)據(jù)庫(訓練集)用于生成分類樹,而25.00%的數(shù)據(jù)庫(驗證集)用于驗證預測模型。應用分類樹建立了4個人工預測系統(tǒng),可將B-NHL分為9種最常見的臨床病理類型。準確率可達92.68%,平均靈敏度為88.54%,平均特異度為98.77%。
1.1.4邏輯回歸(LR) LR是一種用于機器學習領域的數(shù)學建模程序,通過LR模型的系數(shù)進行計算和預測。MANNINEN等[22]基于“正則化的LR模型”對20例AML陽性患者和160例健康者的DREAM6/FlowCAP2分子進行分型,獲得了100.00%的準確率。該方法可從不同細胞群和不同熒光標記物的單個樣本中對AML分型并統(tǒng)計數(shù)據(jù)。NAKAMURA等[23]使用浸管試驗和FCM檢測了372例門診膿尿和菌尿樣本,對FCM數(shù)據(jù)進行多元LR分析,以年齡和性別為解釋變量,進行散點圖分析,可計算概率預測公式。
1.1.5隨機森林(RF) RF是一種能夠進行回歸和分類的趨勢機器學習技術,其對噪聲不敏感,可用于分析不平衡的數(shù)據(jù)集。HENNIG等[24]研發(fā)了一套CellProfiler軟件,通過對成像流式細胞儀獲得的圖像數(shù)據(jù)進行分析,使用梯度增強和隨機森林算法,形成一套對不同細胞類型、不同細胞周期階段,以及不同藥物作用下的細胞進行自動識別和分類的工作流程,具有較高的陽性識別率。BURTON等[25]回顧性分析了212 554份尿液報告,比較了使用白細胞計數(shù)和細菌計數(shù)的啟發(fā)式模型,和使用機器學習算法(隨機森林、神經網(wǎng)絡、梯度增強)兩種方法分類的差異,結果顯示使用機器學習算法檢測靈敏度>95.00%,可減少現(xiàn)有臨床檢測工作量密集的問題。
1.1.6樸素貝葉斯(NB) NB是一種基于貝葉斯定理的二進制分類算法,在應用該算法時,被分類的特征必須是相互獨立的。貝葉斯分類與SVM有點相似,但使用了統(tǒng)計學方法。輸入新的數(shù)據(jù)后計算概率值,數(shù)據(jù)將被標記為給定輸入概率值的最高類別。RAJWA等[26]基于無限高斯混合物的非參數(shù)貝葉斯模型,使用了200個相關疾病的免疫表型panel進行訓練,應用所建診斷模型,對36例AML病例進行檢測,復發(fā)病例的準確率為90.00%(9/10),其余病例的準確率達100.00%(26/26)。
1.1.7人工神經網(wǎng)絡(ANN) ANN是一種基于圖像分類問題開發(fā)的一種監(jiān)督機器學習算法。DOMINGUEZ等[27]針對近年來臨床前列腺癌(PCa)篩查出現(xiàn)假陽性的問題,研究了一種液體活檢實驗,使用ANN輔助FCM進行免疫表型分析來檢測PCa,測量了156例前列腺癌患者、123例良性前列腺增生(BPH)患者和99例男性健康供體(HD)的淋巴細胞群,采用模式識別神經網(wǎng)絡(PRNN)分析,檢測PCa與HD的靈敏度為96.60%,特異度為87.50%,曲線下面積(AUC)值為0.97。檢測高危疾病患者患者對低危疾病的靈敏度為92.00%,特異度為42.70%,AUC為0.72。SU等[28]提出了一種基于涂片成像識別白細胞的分類系統(tǒng)。該系統(tǒng)通過提取白細胞的幾何特征、顏色特征和基于LDP的紋理特征,利用3種不同的神經網(wǎng)絡來識別白細胞的類型。該研究使用了450張白細胞圖像驗證該系統(tǒng)的有效性,總體正確識別率最高可達到99.11%。H?LLEIN等[29]報道了AI輔助多參數(shù)FCM診斷B細胞淋巴瘤的應用進展,該研究對比了7 784例B細胞淋巴瘤患者和8 493例健康對照者的流式細胞數(shù)據(jù),利用神經網(wǎng)絡算法建立了疾病診斷模型,并使用10倍交叉驗證對結果進行確認,診斷準確率高達97.00%。
1.2應用無監(jiān)督學習技術自動門控分析的初步探索 無監(jiān)督學習算法是一種數(shù)據(jù)挖掘的探索性分析方法,在因變量未知的情況下分析同一集群的變量,可應用于數(shù)據(jù)集太大、太復雜而無法進行手工分析時,無監(jiān)督學習技術在數(shù)據(jù)中找到自然發(fā)生的模式并進行分析嘗試,可判斷已識別的分類是否適用,這一過程使無監(jiān)督學習在精準醫(yī)學中發(fā)揮重要作用。近年來參與流式細胞學智能化研究的無監(jiān)督技術包括K-means、高斯混合模型、分層聚類、圖像聚類、主成分分析法(PCA)等。
1.2.1分層聚類 分層聚類是對給定數(shù)據(jù)的集合進行層次分解,根據(jù)分層分解確定需采用的分解策略。例如,模糊k-means、COOLCAT、聚類大型應用(CLARA)和基于隨機搜索(CLARANS)的聚類等,都是常見的分層聚類算法。LI等[30]開發(fā)了多重網(wǎng)絡對齊(PAC-MAN)技術,對CyTOF數(shù)據(jù)中細胞群、樣本中的亞種群以及細胞狀態(tài)進行快速自動識別。PAC-MAN計算效率高,可用于非常大的CyTOF數(shù)據(jù)集,可監(jiān)測每個受試者的各種組織樣本,在臨床癌癥研究中被廣泛應用。
1.2.2圖像聚類(GBC) 整個算法以各點之間的距離作為突破口,用于識別、劃分圖像數(shù)據(jù)集、組織導航等。超順磁聚類(SPC)、馬爾可夫聚類算法(MCL)、分子復雜檢測(MCODE)和限制鄰域搜索聚類(RNSC)是基于圖的聚類算法的常見例子。KO等[31]開發(fā)了一種基于圖形用戶界面(GUI)的軟件工具(FLOW-MAP),從FCM或單細胞RNA測序實驗中獲得高通量單細胞數(shù)據(jù)集(scRNAseq),并按時間順序對圖像進行分析,得出可視化分析圖像。研究者同時提供了FLOW-MAP算法和如何通過文本的命令使用開源的R包FLOWMAPR。該方法可應用于許多研究領域,如體外干細胞分化、體內發(fā)育、腫瘤發(fā)生、耐藥性和細胞信號動力學。
1.2.3密度聚類(DBC) DBC使用局部密度準則,具有效率高和尋找任意形狀簇的能力。YU等[32]研究者開發(fā)了一種基于密度的聚類方法,即FLOCK程序,通過一種客觀的計算方法,識別多參數(shù)FCM中細胞子集。其可識別人類外周血樣本中的17個不同的B細胞亞群,并識別和量化對破傷風和其他疫苗接種有短暫應答的新漿母細胞亞群。
1.2.4高斯混合模型(GMM) GMV是一種業(yè)界廣泛使用的聚類算法,該方法使用了高斯分布作為參數(shù)模型,并使用了期望最大(EM)算法進行訓練。其利用混合分布對FCM數(shù)據(jù)進行建模,是最常用的聚類方法,但該模型在FCM數(shù)據(jù)建模時都應遵循高斯分布的假設。K-means算法可以被看作是GMM的一種特殊形式。RUBBENS等[33]提出了一種基于高斯混合模型的自動指紋識別方法(PhenoGMM)。該方法成功地對微生物群落結構的變化進行定量篩選,并可表達細胞學的多樣性。該文利用生態(tài)系統(tǒng)的數(shù)據(jù)集來評估PhenoGMM的性能,并將該方法與通用的指紋識別方法進行了比較。NAIM等[34]提出了可擴展加權迭代方法,該方法以高斯混合模型為核心,實現(xiàn)了樣本數(shù)量稀少類群的準確分析。 王先文等[35]提出了基于偏斜t分布的混合模型聚類方法以概率論的方法對數(shù)據(jù)進行分析,實現(xiàn)了細胞的自動設門,具有較好的魯棒性。
1.2.5PCA PCA是應用最廣泛的無監(jiān)督算法之一,其是一種常用的數(shù)據(jù)降維方法。它可以通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關的表示,以此來提取數(shù)據(jù)的主要線性分量。GRéGOTI等[36]利用PCA處理光譜流式細胞儀的多維實驗數(shù)據(jù),實現(xiàn)了對光譜流式細胞數(shù)據(jù)的自動分群。馬閃閃等[37]提出的核主成分分析法更適合對數(shù)據(jù)的非線性特征進行提取,對數(shù)據(jù)進行降維,得到核主成分變量,使用最能體現(xiàn)不同亞群細胞之間差別的主成分變量作為坐標軸,繪制二維或三維散點圖,提高細胞分群效率。
我國基于AI輔助FCM進行疾病診斷的研究起步較晚。美國和英國等發(fā)達國家已經搭建了成熟的數(shù)據(jù)共享平臺,并建立完善的數(shù)據(jù)標準體系[38]。國內部分第三方醫(yī)學實驗室已初步制定了人工智能發(fā)展目標,努力打造醫(yī)療大數(shù)據(jù)共享平臺的發(fā)展方向。但在兩種快速發(fā)展的技術齊頭并進時,可能會面臨諸多挑戰(zhàn)。
目前AI學習算法的數(shù)據(jù)訓練所需的臨床數(shù)據(jù)還面臨互通和共享問題,以及檢測平臺、檢測流程、檢測試劑的差異化問題。同時,無論是研究開發(fā)領域,還是應用落地領域,需要具備醫(yī)學診斷學、流式細胞學和AI的復合型人才,是目前研究者面臨的主要瓶頸。除此之外,研究者在自動化門控算法上的研究日趨加深,不僅嘗試開發(fā)不同算法,而且從單一數(shù)據(jù)分析方法擴展到幾種算法結合分析,成功應用于臨床疾病診斷的實例屢見不鮮。但目前仍存在算法局限性、低透明度,缺乏安全性、有效性的權威評估標準等諸多問題。未來AI與FCM的成果在臨床投入應用,還需要AI專家與醫(yī)療專家共同融合與探討。
隨著大數(shù)據(jù)、互聯(lián)網(wǎng)、AI等前沿領域的技術整合和技術革新,人工智能以前所未有的速度滲透到FCM疾病診斷領域,已經取得了顯著的進步。未來人工智能領域與FCM的融合發(fā)展,仍有待進一步開發(fā),在研發(fā)與臨床應用過程中,越來越多的問題亟待解決,包括人工智能輔助產品應用范圍受限,人工智能輔助產品的開發(fā)周期長,對資源、人才、條件的依賴度高。人工智能技術的革新,勢必將帶來一場全新的疾病診斷新模式,為患者提供更加準確和快捷的診斷方法。