周志遠(yuǎn) 萬(wàn)隆 馬利亞
摘要:近年來(lái),隨著大數(shù)據(jù)分析和深度學(xué)習(xí)技術(shù)的快速發(fā)展,醫(yī)療行業(yè)逐步進(jìn)入大數(shù)據(jù)和人工智能時(shí)代,利用醫(yī)院信息系統(tǒng)所積累的醫(yī)療大數(shù)據(jù)進(jìn)行匯集、建模、分析,可以預(yù)測(cè)和判定未知數(shù)據(jù)的已知類(lèi)型。同時(shí),醫(yī)療大數(shù)據(jù)的應(yīng)用也深刻改變了一些疾病診療模式,采用深度學(xué)習(xí)模型和統(tǒng)計(jì)學(xué)習(xí)方法,從醫(yī)學(xué)研究、臨床決策等方面推動(dòng)了診療模式的轉(zhuǎn)變,使疾病的預(yù)測(cè)、診斷、治療、監(jiān)測(cè)發(fā)生了巨大的變革。本文從深度學(xué)習(xí)模型的發(fā)展及應(yīng)用現(xiàn)狀出發(fā),通過(guò)分析其原理及應(yīng)用場(chǎng)景,旨在為醫(yī)療領(lǐng)域如何有效地結(jié)合深度學(xué)習(xí)模型提供一些思路。
關(guān)鍵詞:深度學(xué)習(xí);健康預(yù)測(cè);醫(yī)療大數(shù)據(jù);個(gè)性化治療
引言
作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,一方面,深度學(xué)習(xí)是在模擬人腦復(fù)雜神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和工作原理,通過(guò)前向傳播的學(xué)習(xí)過(guò)程和反向傳播的訓(xùn)練過(guò)程,可以實(shí)現(xiàn)對(duì)復(fù)雜的、大規(guī)模數(shù)據(jù)的有效分析和建模。另一方面,深度學(xué)習(xí)又是一種將待處理的問(wèn)題映射為線(xiàn)性或非線(xiàn)性函數(shù)的過(guò)程。通過(guò)訓(xùn)練次數(shù)的迭代,不斷地更新所得映射函數(shù)的參數(shù),直到映射函數(shù)滿(mǎn)足問(wèn)題的條件,能夠輸出期望值。
傳統(tǒng)的機(jī)器學(xué)習(xí)算法包括SVM、邏輯回歸、隨機(jī)森林等,這些算法有著可解釋性強(qiáng)、計(jì)算速度快、模型內(nèi)存占用少等優(yōu)點(diǎn)。但是當(dāng)面對(duì)大規(guī)模數(shù)據(jù)、多分類(lèi)問(wèn)題以及更為復(fù)雜的非線(xiàn)性問(wèn)題時(shí),傳統(tǒng)方法就會(huì)存在欠擬合、表征能力弱等方面的限制,導(dǎo)致其難以擴(kuò)大應(yīng)用場(chǎng)景和范圍。由于傳統(tǒng)機(jī)器學(xué)習(xí)算法的弊端逐漸顯露,深度學(xué)習(xí)技術(shù)順勢(shì)而起,其憑借著強(qiáng)大的自適應(yīng)能力和泛化能力,可以在大規(guī)模、復(fù)雜數(shù)據(jù)中獲取知識(shí)和經(jīng)驗(yàn),從而發(fā)現(xiàn)更多的規(guī)律。因此,深度學(xué)習(xí)在圖像處理、目標(biāo)識(shí)別及自然語(yǔ)言處理(NLP)等多個(gè)領(lǐng)域得到了廣泛的應(yīng)用。例如,在計(jì)算機(jī)視覺(jué)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(CNN)頗受歡迎,特別是2015年何愷明等人提出的深度殘差網(wǎng)絡(luò)(ResNets)[1],使得深度學(xué)習(xí)的熱潮又上升了一個(gè)高度,在圖像分割、目標(biāo)識(shí)別、三維重建等方向得到了廣泛應(yīng)用。殘差網(wǎng)絡(luò)的主要思想是將目標(biāo)對(duì)象的空間信息轉(zhuǎn)化為高維的通道信息,通過(guò)學(xué)習(xí)通道信息提取目標(biāo)對(duì)象的特征。此外,殘差模塊中還引入了跳躍連接,以此來(lái)緩解網(wǎng)絡(luò)深度增加所帶來(lái)的梯度消失問(wèn)題。
在自然語(yǔ)言處理任務(wù)中,由于其輸入是具有序列特性的數(shù)據(jù),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)相比CNN(通常只能處理單輸入)更具有優(yōu)勢(shì),因此,RNN在NLP領(lǐng)域被廣泛應(yīng)用。最初,在NLP領(lǐng)域只是使用普通的循環(huán)神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)序列數(shù)據(jù)的非線(xiàn)性特征,然而面對(duì)長(zhǎng)序列數(shù)據(jù),RNN逐漸顯露出其短板——長(zhǎng)期依賴(lài)問(wèn)題。RNN在處理間隔較大的序列時(shí),短期記憶的影響較大,在訓(xùn)練時(shí)容易出現(xiàn)梯度爆炸或梯度消失的情況,導(dǎo)致其無(wú)法有效地學(xué)習(xí)長(zhǎng)序列。因此,為了解決RNN的缺陷,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)被提出,該方法通過(guò)引入“門(mén)控”機(jī)制,使得信息可以有選擇性地影響網(wǎng)絡(luò)當(dāng)前的狀態(tài),從而達(dá)到有效學(xué)習(xí)的目的。
目前,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,借助信息選擇的思想,一種基于自注意力機(jī)制(self-attention)的時(shí)序模型Transformer被提出[2],該模型在NLP各個(gè)任務(wù)中都取得了較為優(yōu)異的性能,是預(yù)訓(xùn)練語(yǔ)言模型的核心網(wǎng)絡(luò)。Transformer融合了多頭注意力機(jī)制、殘差連接、位置編碼、掩碼等方法,有效解決了NLP領(lǐng)域中的痛點(diǎn)問(wèn)題。
1. 深度學(xué)習(xí)技術(shù)在醫(yī)療領(lǐng)域中的優(yōu)勢(shì)
在面對(duì)規(guī)模較大、復(fù)雜性較高的數(shù)據(jù)時(shí),深度學(xué)習(xí)有著自適應(yīng)能力和泛化能力等優(yōu)勢(shì)。深度學(xué)習(xí)可以從輸入數(shù)據(jù)中自主地學(xué)習(xí)規(guī)律,總結(jié)經(jīng)驗(yàn),而不需要額外的人工干預(yù),其模仿的是人腦中神經(jīng)元的工作機(jī)制。
在醫(yī)療領(lǐng)域中,數(shù)據(jù)維度較廣,包括患者的基本信息、醫(yī)學(xué)影像信息、動(dòng)態(tài)的生命體征監(jiān)測(cè)數(shù)據(jù)等多種數(shù)據(jù)來(lái)源。這些數(shù)據(jù)相對(duì)較為復(fù)雜,并且含有時(shí)間序列,因此,傳統(tǒng)的機(jī)器學(xué)習(xí)算法無(wú)法滿(mǎn)足模型(預(yù)測(cè)模型、圖像分割模型等)的需要,存在欠擬合、表征能力弱等缺點(diǎn)。深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理中應(yīng)用廣泛,包括自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)、目標(biāo)識(shí)別、圖像分割等領(lǐng)域。在這些領(lǐng)域中,以深度學(xué)習(xí)為基礎(chǔ)的方法產(chǎn)生了顯著的成效。因此,面對(duì)醫(yī)療領(lǐng)域中龐大復(fù)雜的數(shù)據(jù),深度學(xué)習(xí)彰顯了得天獨(dú)厚的優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)、Transformer等現(xiàn)有的深度學(xué)習(xí)技術(shù)可以通過(guò)分析多維度的醫(yī)療數(shù)據(jù),自適應(yīng)地獲取有效信息,提高模型的性能,為臨床研究提供高效精準(zhǔn)的醫(yī)療診斷和治療方案。
2. 深度學(xué)習(xí)技術(shù)在醫(yī)療領(lǐng)域中的應(yīng)用
2.1 醫(yī)學(xué)影像分割
在圖像處理領(lǐng)域,深度學(xué)習(xí)技術(shù)已發(fā)展較為成熟,在三維重建、目標(biāo)識(shí)別、圖像分割等研究方向上取得了顯著的成效。隨著人工智能的不斷發(fā)展,越來(lái)越多的深度學(xué)習(xí)模型應(yīng)用于醫(yī)療領(lǐng)域,特別是在醫(yī)學(xué)影像分割領(lǐng)域[3-4],各種前沿的模型助力醫(yī)學(xué)影像診斷的發(fā)展。為使醫(yī)學(xué)影像能夠匹配深度學(xué)習(xí)模型的數(shù)據(jù)格式,首先需要對(duì)醫(yī)學(xué)影像進(jìn)行標(biāo)注,形成具有真實(shí)標(biāo)簽的數(shù)據(jù)集。值得注意的是,數(shù)據(jù)集標(biāo)注的質(zhì)量將直接影響模型訓(xùn)練的效果。模型的輸出結(jié)果是從輸入的數(shù)據(jù)集中推理得出,錯(cuò)誤的數(shù)據(jù)必然會(huì)導(dǎo)致輸出結(jié)果的偏差,進(jìn)而影響模型的性能。因此,醫(yī)學(xué)影像數(shù)據(jù)標(biāo)注是醫(yī)學(xué)影像分割領(lǐng)域中至關(guān)重要的工作。
當(dāng)然,對(duì)數(shù)據(jù)集的預(yù)處理也是不可或缺的。原始數(shù)據(jù)中會(huì)存在很多冗余信息,這會(huì)大幅增加網(wǎng)絡(luò)學(xué)習(xí)的難度,降低效率。因此,在網(wǎng)絡(luò)提取特征之前,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,使數(shù)據(jù)集趨于均勻分布,縮小樣本數(shù)據(jù)的取值范圍,減少計(jì)算量,提高網(wǎng)絡(luò)學(xué)習(xí)效率。在這里,對(duì)影像數(shù)據(jù)進(jìn)行學(xué)習(xí)時(shí),可以借鑒現(xiàn)有的較為成熟的網(wǎng)絡(luò)模型來(lái)構(gòu)建網(wǎng)絡(luò)架構(gòu),如全卷積神經(jīng)網(wǎng)絡(luò)、ResNet、膠囊網(wǎng)絡(luò)等。利用這些模型,通過(guò)不斷地迭代訓(xùn)練,可以從醫(yī)學(xué)影像中提取有用的臨床相關(guān)信息。例如,放射學(xué)家可以使用深度學(xué)習(xí)技術(shù)來(lái)增強(qiáng)分析,通過(guò)將放射圖像分割成不同的器官、組織類(lèi)型或疾病癥狀,有效診斷和識(shí)別疾病類(lèi)型,提高診斷效率。
2.2 醫(yī)療健康預(yù)測(cè)
醫(yī)療健康預(yù)測(cè)是指從患者的歷史電子醫(yī)療記錄(EHR)中預(yù)測(cè)患者未來(lái)的健康信息,從而幫助臨床醫(yī)生進(jìn)行診斷和治療[5]。目前,患者的健康數(shù)據(jù)如基本信息、生命體征等,一般來(lái)自電子病歷系統(tǒng),該系統(tǒng)的廣泛應(yīng)用為臨床預(yù)測(cè)提供了豐富的海量數(shù)據(jù)。這些數(shù)據(jù)具有復(fù)雜性高、規(guī)模龐大的特點(diǎn),患者的健康狀況就可以從這些數(shù)據(jù)中推理得出,如何使這些數(shù)據(jù)發(fā)揮真正的作用是一個(gè)亟待解決的問(wèn)題。
一方面,這些數(shù)據(jù)龐雜,簡(jiǎn)單直接的應(yīng)用很難達(dá)到預(yù)期結(jié)果。因此,需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)清洗、缺失值填充和標(biāo)準(zhǔn)化都是必要的步驟。
另一方面,深度學(xué)習(xí)模型的選擇也至關(guān)重要??梢詫⒔】禂?shù)據(jù)作為具有序列特性的數(shù)據(jù)輸入到序列模型中進(jìn)行學(xué)習(xí),如RNN、LSTM和Transformer等,利用序列模型的優(yōu)勢(shì)挖掘出原始健康數(shù)據(jù)中所包含的有用信息。也可以將健康數(shù)據(jù)轉(zhuǎn)換為張量的形式,采用卷積神經(jīng)網(wǎng)絡(luò)、自監(jiān)督模型和注意力機(jī)制等方法進(jìn)行特征提取,通過(guò)不斷地迭代訓(xùn)練,幫助模型實(shí)現(xiàn)更準(zhǔn)確的健康預(yù)測(cè)。
總的來(lái)說(shuō),考慮到患者健康數(shù)據(jù)的特點(diǎn),一些傳統(tǒng)的方法無(wú)法從這些海量數(shù)據(jù)中獲取到有效的信息。深度學(xué)習(xí)技術(shù)具有處理海量龐雜數(shù)據(jù)的優(yōu)勢(shì),將醫(yī)療健康預(yù)測(cè)和深度學(xué)習(xí)有機(jī)結(jié)合,可以幫助臨床進(jìn)行更精準(zhǔn)的疾病預(yù)測(cè)和醫(yī)療診斷。
2.3 基因組學(xué)研究
現(xiàn)代基因組技術(shù)會(huì)產(chǎn)生各種各樣的測(cè)量數(shù)據(jù),從個(gè)人的DNA序列到血液中各種蛋白質(zhì)含量,這些數(shù)據(jù)有著獨(dú)特的表示形式。深度學(xué)習(xí)憑借自適應(yīng)能力和泛化能力,能夠有效地分析基因組學(xué)數(shù)據(jù),為特定的生物醫(yī)學(xué)應(yīng)用提供支撐。此外,像深度學(xué)習(xí)中大多數(shù)任務(wù)一樣,基因組學(xué)數(shù)據(jù)存在不平衡的問(wèn)題。例如,相比于致病的變異,有更多的變異是不致病的,或者只有一小部分人可能會(huì)因?yàn)檫@些變異發(fā)展出一種特定的疾病。在這種情況下,網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果是不準(zhǔn)確的。因此,在建立訓(xùn)練數(shù)據(jù)集時(shí),需要適當(dāng)平衡影響模型性能的不利因素。與此同時(shí),要選擇合適的評(píng)價(jià)指標(biāo),如精準(zhǔn)率和召回率,這些指標(biāo)可以有效評(píng)估數(shù)據(jù)集中類(lèi)不平衡的問(wèn)題。用于構(gòu)建基因組深度學(xué)習(xí)模型的主要流程包括:獲取原始數(shù)據(jù)(如基因表達(dá)數(shù)據(jù)),將原始數(shù)據(jù)轉(zhuǎn)換為張量的形式,然后通過(guò)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練這些張量,最終達(dá)到期望值。
深度學(xué)習(xí)可以應(yīng)用在基因組學(xué)的很多方向,如預(yù)測(cè)DNA和RNA結(jié)合蛋白、單細(xì)胞調(diào)控、基因表達(dá)等方向。在調(diào)控基因組學(xué)中,深度學(xué)習(xí)應(yīng)用在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域中的網(wǎng)絡(luò)架構(gòu)是比較有優(yōu)勢(shì)的,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)就非常適用于對(duì)調(diào)節(jié)元件進(jìn)行建模的工作。此外,深度學(xué)習(xí)還可以應(yīng)用在全基因組關(guān)聯(lián)研究領(lǐng)域。全基因組關(guān)聯(lián)研究的目標(biāo)是尋找與復(fù)雜疾病相關(guān)的遺傳因素,全面揭示疾病發(fā)生、發(fā)展與治療相關(guān)的遺傳基因。因此,全基因組關(guān)聯(lián)研究需要算法能夠處理大規(guī)模的患者數(shù)據(jù),并挖掘隱式因素的影響。這些問(wèn)題可以依靠深度學(xué)習(xí)模型的魯棒性和強(qiáng)大的表征能力來(lái)解決。
3. 深度學(xué)習(xí)技術(shù)的應(yīng)用成效
3.1 疾病診斷和預(yù)測(cè)能力提升
在醫(yī)療領(lǐng)域,深度學(xué)習(xí)的飛速發(fā)展已經(jīng)改變了醫(yī)生對(duì)疾病的診斷和預(yù)測(cè)方式。通過(guò)訓(xùn)練大量的醫(yī)學(xué)影像數(shù)據(jù),深度學(xué)習(xí)模型能夠在影像數(shù)據(jù)中較為精準(zhǔn)地標(biāo)識(shí)出腫瘤、病變等異常區(qū)域,可以幫助醫(yī)生分析疾病影像標(biāo)記,從而極大地提高了醫(yī)生的診斷準(zhǔn)確率。例如,在放射學(xué)領(lǐng)域,深度學(xué)習(xí)算法通過(guò)分析CT、核磁等醫(yī)學(xué)影像,自動(dòng)識(shí)別出病變的位置和性質(zhì),具有較高的準(zhǔn)確率。這樣不僅可以減輕醫(yī)師的工作負(fù)擔(dān),提高診斷效率,還能減少因人為因素導(dǎo)致的誤診和漏診。
除此之外,深度學(xué)習(xí)在疾病預(yù)測(cè)領(lǐng)域中也取得了顯著成效。通過(guò)分析海量患者數(shù)據(jù),如生理指標(biāo)、遺傳信息和飲食習(xí)慣等,深度學(xué)習(xí)可以建立預(yù)測(cè)模型,幫助醫(yī)生預(yù)測(cè)出某些慢性疾病的患病風(fēng)險(xiǎn),從而進(jìn)行早期干預(yù)和預(yù)防。例如,通過(guò)分析糖尿病患者相關(guān)數(shù)據(jù),深度學(xué)習(xí)可以建立糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型。醫(yī)生可以根據(jù)該模型,及時(shí)發(fā)現(xiàn)高風(fēng)險(xiǎn)的患者,采取有效的健康管理措施,減少患者的糖尿病發(fā)病率。
3.2 提供更精準(zhǔn)的個(gè)性化治療
深度學(xué)習(xí)算法可以根據(jù)患者的生命體征、基因、歷史病歷等信息,為患者提供更加個(gè)性化和精確的治療方案。例如,對(duì)于心臟病患者,深度學(xué)習(xí)模型可以根據(jù)患者的病史和藥物使用情況,預(yù)測(cè)患者對(duì)不同藥物的反應(yīng),為患者定制最佳治療策略。每個(gè)患者的疾病特征和生理狀況都是不同的,傳統(tǒng)的醫(yī)療方式難以提供個(gè)性化的治療方案。通過(guò)深度學(xué)習(xí)技術(shù),醫(yī)生可以根據(jù)患者的個(gè)體差異,精確調(diào)整藥物劑量和治療周期,提高治療效果并減少副作用。此外,深度學(xué)習(xí)還可以用于臨床決策支持系統(tǒng)的開(kāi)發(fā),幫助醫(yī)生實(shí)時(shí)獲取和解釋大量的臨床數(shù)據(jù),并提供個(gè)性化的治療建議。這將極大地提高醫(yī)療決策的準(zhǔn)確性和效率,為患者提供更好的醫(yī)療服務(wù)。
結(jié)語(yǔ)
深度學(xué)習(xí)算法在醫(yī)療領(lǐng)域的深層應(yīng)用已經(jīng)成為未來(lái)發(fā)展的趨勢(shì),也正改變著目前傳統(tǒng)醫(yī)療的模式。通過(guò)深度學(xué)習(xí)技術(shù)的深入應(yīng)用,預(yù)測(cè)模型可以為醫(yī)生進(jìn)行醫(yī)療管理和決策提供更加準(zhǔn)確和可靠的依據(jù)。同時(shí),可以幫助醫(yī)生更準(zhǔn)確地診斷疾病、預(yù)測(cè)患病風(fēng)險(xiǎn),并為患者提供個(gè)性化的治療方案。在整個(gè)醫(yī)療領(lǐng)域的發(fā)展道路上,深度學(xué)習(xí)技術(shù)的作用不容小覷。要在時(shí)代的洪流中抓住機(jī)遇,借助深度學(xué)習(xí)獨(dú)特的優(yōu)勢(shì)和特點(diǎn),將其和醫(yī)療相關(guān)領(lǐng)域有機(jī)結(jié)合,創(chuàng)造更多的可能性。
目前來(lái)看,在醫(yī)療領(lǐng)域中,深度學(xué)習(xí)的應(yīng)用還面臨一些挑戰(zhàn),如數(shù)據(jù)安全性和模型泛化能力等問(wèn)題,需要進(jìn)一步研究和探索,對(duì)現(xiàn)有方法的一些模型進(jìn)行持續(xù)改進(jìn)。相信隨著技術(shù)的進(jìn)一步發(fā)展與完善,深度學(xué)習(xí)將為醫(yī)療領(lǐng)域帶來(lái)更多的突破和進(jìn)步,使疾病的預(yù)測(cè)、診斷、治療、監(jiān)測(cè)更智能化、人性化。
參考文獻(xiàn):
[1]He K,Zhang X,Ren S,et al.Deep Residual Learning for Image Recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2016).Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[2]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[EB/OL].(2017-06-12)[2024-02-10].https://arxiv.org/abs/1706.03762.
[3]姜灝天,王琦智,黃揚(yáng)林,等.基于邊緣引導(dǎo)的多尺度醫(yī)學(xué)影像分割方法[J].計(jì)算機(jī)科學(xué),2023,50(S2):1038-1044.
[4]谷辛稼,陳一民.基于U-Net的COVID-19病灶醫(yī)學(xué)影像ZMINet分割模型[J].計(jì)算機(jī)應(yīng)用與軟件,2023,40(8):235-243.
[5]戴明鋒,孟群.醫(yī)療健康大數(shù)據(jù)挖掘和分析面臨的機(jī)遇與挑戰(zhàn)[J].中國(guó)衛(wèi)生信息管理雜志,2017,14(2):126-130.
作者簡(jiǎn)介:周志遠(yuǎn),碩士研究生,工程師,研究方向:計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí);通訊作者:馬利亞,碩士研究生,高級(jí)工程師,研究方向:醫(yī)療信息化。
基金項(xiàng)目:寧夏回族自治區(qū)重點(diǎn)研發(fā)計(jì)劃項(xiàng)目——基于乳腺癌、胃癌、冠心病等疾病的醫(yī)療大數(shù)據(jù)管理與服務(wù)關(guān)鍵技術(shù)研發(fā)與應(yīng)用示范(編號(hào):2022BEG02025);基于人工智能的早期肺癌組織病理表型識(shí)別及關(guān)聯(lián)分子判讀系統(tǒng)的研發(fā)及應(yīng)用(編號(hào):2023BEG02023)。