丁曉燕,沈夢婕,李 嵐,景鵬偉,黃國寧,葉 虹
(人類胚胎工程重慶市重點(diǎn)實(shí)驗室/重慶市生殖醫(yī)學(xué)臨床研究中心/重慶市婦幼保健院 400013)
中國是出生缺陷高發(fā)國家,出生缺陷不但嚴(yán)重影響新生兒身心健康,也給家庭和社會帶來沉重的負(fù)擔(dān)[1]。染色體異常是導(dǎo)致新生兒出生缺陷的常見原因,染色體結(jié)構(gòu)或數(shù)目異常會引起一系列的臨床疾病,是造成胎兒流產(chǎn)、新生兒畸形、智力低下、發(fā)育遲緩等疾病的根本原因[2-4]。隨著國家對出生缺陷的重視以及人們對生育質(zhì)量要求的提高,產(chǎn)前診斷的需求量及工作量日益增加,羊水細(xì)胞培養(yǎng)及染色體核型分析是篩查胎兒先天疾病的首選方法[5]。
隨著輔助生殖技術(shù)(assisted reproductive technology,ART)的發(fā)展,越來越多的不孕患者選擇通過ART解決生育問題。而隨著“二孩”及“三孩”政策的開放,高齡助孕的患者逐漸增多,助孕前的染色體核型檢查及高齡孕婦的產(chǎn)前診斷已成為很多生殖中心的重要工作,需要安排大量的人力物力來完成,且需要等待較長的時間才能出具檢測報告[6]。
傳統(tǒng)染色體核型分析主要依靠人工分析,經(jīng)過專業(yè)訓(xùn)練的技術(shù)人員通過顯微鏡拍攝的單個細(xì)胞圖片觀察染色體,根據(jù)其形態(tài)結(jié)構(gòu)判斷染色體是否重復(fù)、缺失、易位或倒位。這一流程需要經(jīng)驗豐富的專業(yè)技術(shù)人員操作,雖然現(xiàn)有的專用顯微鏡可以自動或半自動進(jìn)行染色體分類,但效果并非特別理想,未能分割的聚簇會導(dǎo)致系統(tǒng)誤報,染色體碎片會增加系統(tǒng)的錯誤率[6]。隨著計算能力的飛速發(fā)展和大數(shù)據(jù)的應(yīng)用,人工智能(artificial intelligence,AI)圖像識別技術(shù)深度神經(jīng)網(wǎng)絡(luò)成為新的圖像識別熱點(diǎn)。本研究以經(jīng)過分類標(biāo)記的染色體圖庫作為訓(xùn)練集,讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人類染色體各個核型特征,實(shí)現(xiàn)可針對中期染色體圖像自動分類過程,在保證分類準(zhǔn)確率的同時降低對人工的依賴性。
1.1數(shù)據(jù)集
采用的所有圖像均來自重慶市婦幼保健院生殖醫(yī)學(xué)中心,包括外周血及羊水標(biāo)本制備的染色體圖像。圖像庫由1 652組不同中期染色體圖片組成,每組由兩張圖片組成,一張為經(jīng)過專業(yè)醫(yī)師分割的圖片,一張為專業(yè)醫(yī)師完成識別并分類排序的圖片。見圖1。
圖1 中期染色體及其分析排版結(jié)果
隨機(jī)將圖像庫中的1 000組歸為訓(xùn)練組,用于神經(jīng)網(wǎng)絡(luò)參數(shù)的訓(xùn)練和修正。將1 000張已經(jīng)標(biāo)記的圖片所包含的約46 000條染色體以40條一組重新隨機(jī)分布到圖片上,每條染色體需經(jīng)過0~360°的隨機(jī)旋轉(zhuǎn),且互不重疊,最終生成10 000張圖片組成訓(xùn)練組。剩余的652組圖像分為測試組(300例)與驗證組(352例),分別用于實(shí)時觀察神經(jīng)網(wǎng)絡(luò)的收斂效果和檢驗神經(jīng)網(wǎng)絡(luò)的性能。
1.2方法
1.2.1軟硬件平臺
所有的網(wǎng)絡(luò)均采用Python3.6語言編寫的TensorFlow1.2框架下搭建,整個試驗在Ubuntu 16.04系統(tǒng)下運(yùn)行。計算機(jī)配置:Intel(R) i7-7820X CPU,64G RAM,NVIDIA 2080TI 11GB GPU *2。
1.2.2不同染色體核型分類方法
一名長期進(jìn)行染色體分類的專業(yè)技師利用普通顯微鏡(Olympus BX51)人工分析染色體圖像(A組),利用全自動染色體顯微圖像掃描分析系統(tǒng)(ZEISS MetaSystems Imager Z2)對染色體圖片進(jìn)行分析(B組),與AI模型(AI組)對染色體圖片分析的準(zhǔn)確率及分析時間進(jìn)行對比(n=50)。
1.3統(tǒng)計學(xué)處理
2.1AI神經(jīng)網(wǎng)絡(luò)建立
采用一個通用圖像分割網(wǎng)絡(luò)Mask-RCNN[7],其是一種基于區(qū)域的神經(jīng)網(wǎng)絡(luò)架構(gòu)。采用數(shù)據(jù)集預(yù)訓(xùn)練模型參數(shù)初始化對應(yīng)的網(wǎng)絡(luò)參數(shù),其余參數(shù)進(jìn)行隨機(jī)初始化。 驗證組測試分類識別的準(zhǔn)確率為91.35%~98.61%,中位準(zhǔn)確率為94.38%。采用驗證組對已收斂的深度網(wǎng)絡(luò)進(jìn)行測試,該網(wǎng)絡(luò)能夠較好地劃出目標(biāo)區(qū)域并分類,見圖2。
圖2 經(jīng)深度神經(jīng)網(wǎng)絡(luò)識別的染色體區(qū)域并分類
2.2人機(jī)分類比較
長期進(jìn)行染色體分類的專業(yè)技師利用普通顯微鏡進(jìn)行一個染色體圖像的分析時間大約為10 min,而人工利用全自動染色體顯微圖像掃描分析系統(tǒng)對染色體圖片進(jìn)行分析,每個染色體圖片大約需要2~5 min,準(zhǔn)確率均為100%。
專業(yè)技師利用全自動染色體顯微圖像掃描分析系統(tǒng)分割粘連、重疊的染色體大約需要1~2 min,然后將圖片傳遞給深度神經(jīng)網(wǎng)絡(luò),其能在幾秒內(nèi)完成染色體分類,正確率為96.0%,因此在人工配合下可在1~2 min左右完成染色體的識別和分類。3組的識別時間比較,差異有統(tǒng)計學(xué)意義(P<0.05);而準(zhǔn)確率比較,差異無統(tǒng)計學(xué)意義,見表1。
表1 不同染色體分類方法耗時與準(zhǔn)確率比較
以往的染色體核型分析工作幾乎均由專業(yè)人員人工完成,包括培養(yǎng)、制片、鏡檢,其過程煩瑣,雖然準(zhǔn)確率有保障,但效率比較低下,導(dǎo)致染色體檢查結(jié)果等待時間較長。半自動或全自動染色體分析系統(tǒng)的出現(xiàn)使染色體核型分析的效率得到了很大的提高,然而這些系統(tǒng)只是在染色體圖像的拍攝和選取方面做到了全自動,而在染色體圖像分割和染色體核型分析方面還是需要專業(yè)技師的參與[8],即仍然是通過人機(jī)交互的模式完成的,并沒有真正做到“全自動”。
隨著計算機(jī)計算能力的飛速發(fā)展和大數(shù)據(jù)的應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)成為新的圖像識別熱點(diǎn)。AI圖像識別技術(shù)用于醫(yī)學(xué)影像的輔助診斷已有大量研究,包括胸部、心血管疾病、骨科疾病及神經(jīng)系統(tǒng)疾病影像等,這些研究成果如果用于臨床將大大減少臨床醫(yī)師的工作量及輔助提高診斷的準(zhǔn)確率[9-10]。關(guān)于染色體核型的AI分析也早有研究,但有很多技術(shù)難題沒有克服,且準(zhǔn)確率一直較低。WU等[11]采用VGG-net-d的網(wǎng)絡(luò)架構(gòu),識別染色體的準(zhǔn)確率達(dá)到了63.5%。GUPTA等[12]采用孿生雙網(wǎng)絡(luò)互糾正分類法,準(zhǔn)確率達(dá)到85.6%。LIN等[13]采用基于ResNeXt框架的遷移學(xué)習(xí)識別法,準(zhǔn)確率達(dá)到了94.09%。然而這些研究的準(zhǔn)確率還遠(yuǎn)遠(yuǎn)不足以用于臨床。
染色體識別的兩個難點(diǎn)在于分割和分類[14]。由于顯微鏡下的染色體難免粘連或重疊,不成熟的分割算法導(dǎo)致后續(xù)的分類準(zhǔn)確率降低[15]。然而人工分割重疊的染色體要求的技術(shù)不高,時間較短,且后續(xù)神經(jīng)網(wǎng)絡(luò)識別率還能得到提高。而影響染色體分類的難點(diǎn)主要在于染色體彎曲折疊等不同的形態(tài)。有研究發(fā)現(xiàn)將彎曲折疊的染色體進(jìn)行伸直處理,使染色體的識別率達(dá)到了很大的提升,然而這種方法并不能完全適用于所有染色體圖像中的情況[16]。本研究發(fā)現(xiàn)只需將各種形態(tài)的染色體隨機(jī)旋轉(zhuǎn),反復(fù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)便可以高效識別呈現(xiàn)各種形態(tài)的染色體。因此相較于傳統(tǒng)的染色體核型分析流程,采用預(yù)先人工處理,再采用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類的方法,不但提高了效率,同時降低了對技術(shù)人員的要求。
本研究通過現(xiàn)有圖像庫訓(xùn)練出的神經(jīng)網(wǎng)絡(luò),對染色體的識別率可高達(dá)96.0%,所耗費(fèi)的時間僅為傳統(tǒng)人工識別的五分之一,較全自動染色體分析系統(tǒng)的所需時間也顯著降低,大大提高了染色體核型分析的效率,從而降低了患者等待檢測結(jié)果的時間。由于培養(yǎng)一名專業(yè)的遺傳學(xué)醫(yī)師需要漫長的時間,其經(jīng)驗也需要在工作中不斷積累,期間必定耗費(fèi)大量的人力物力,需要大量的醫(yī)務(wù)工作者為染色體核型分析付出大量的工作。本研究建立的AI深度神經(jīng)網(wǎng)絡(luò)可以高效、準(zhǔn)確地識別出染色體核型,而且可以集成到現(xiàn)有的核型分析系統(tǒng)中或通過網(wǎng)絡(luò)集成到云端。并且隨著應(yīng)用的推廣,圖像庫的數(shù)據(jù)集會得到不斷的補(bǔ)充,通過AI神經(jīng)網(wǎng)絡(luò)的自主學(xué)習(xí)及調(diào)整功能,識別率會得到進(jìn)一步的提高,將大大減輕醫(yī)護(hù)人員的工作負(fù)擔(dān),并減輕患者的經(jīng)濟(jì)負(fù)擔(dān)及減少患者的等待時間。