引言
腦電圖(EEG)是判斷大腦功能結(jié)構(gòu)健康程度和檢測大腦異常的重要手段。腦電圖中的特定區(qū)域電活動異??赡苁悄承┘膊“l(fā)作的征兆,比如癲癇發(fā)作2。此外,臨床腦電也被用于診斷腦炎、中風(fēng)、帕金森病等疾病。有經(jīng)驗的醫(yī)生可通過觀察腦電圖并根據(jù)專業(yè)知識評估和診斷神經(jīng)系統(tǒng)疾病,但腦電信號存在個體差異,并且復(fù)雜多變,導(dǎo)致診斷結(jié)果往往具有主觀局限性和一定的誤診風(fēng)險。而借助人工智能技術(shù)自動識別并分析腦電信號4,可以大幅提高腦電診斷的效率和準(zhǔn)確度,醫(yī)生也能通過人工智能給出的分析進(jìn)行進(jìn)一步診療。
然而,在構(gòu)建數(shù)據(jù)集的過程中,智能算法模型需要大量標(biāo)注樣本來提高性能,而大量的腦電數(shù)據(jù)需要手動標(biāo)注,這極大延緩了腦電智能算法模型研究的進(jìn)度。此外,模型性能與數(shù)據(jù)質(zhì)量也有一定關(guān)系。因為數(shù)據(jù)集中的樣本包含信息量不同,并且樣本之間也可能存在重復(fù)的信息,因此需要一個能減少臨床腦電數(shù)據(jù)標(biāo)注工作量,并且在較少標(biāo)注的情況下能夠提高提煉數(shù)據(jù)集質(zhì)量的方法。
在這種背景下,本文提出了一種基于主動學(xué)習(xí)的臨床腦電數(shù)據(jù)挖掘方法,通過主動學(xué)習(xí)篩選潛在的高價值樣本,并通過人工標(biāo)注重新送入訓(xùn)練集對模型進(jìn)行訓(xùn)練。首先通過基于數(shù)據(jù)池的主動學(xué)習(xí)方法進(jìn)行基礎(chǔ)訓(xùn)練,然后通過四種主動查詢策略對臨床腦電數(shù)據(jù)進(jìn)行挖掘和篩選,最后利用所篩選出來的數(shù)據(jù)集訓(xùn)練EEG-Conformer算法進(jìn)行測試。結(jié)果表明,該方法相比基準(zhǔn)有所提升。
1.方法
1.1主動學(xué)習(xí)
隨機(jī)選擇樣本進(jìn)行標(biāo)注的方式?jīng)]有考慮到高價值樣本對模型訓(xùn)練效果的提升,而主動學(xué)習(xí)可以通過提前預(yù)設(shè)好的策略對樣本進(jìn)行篩選并標(biāo)注,在較少樣本標(biāo)記的情況下獲得較好的模型訓(xùn)練效果。主動學(xué)習(xí)在處理數(shù)據(jù)集樣本時有兩種方式:基于數(shù)據(jù)池和基于數(shù)據(jù)流
考慮到臨床腦電數(shù)據(jù)集的規(guī)模大小以及標(biāo)注成本,其更適用于基于數(shù)據(jù)池的主動學(xué)習(xí)方法,從有限的樣本集中挖掘出高價值的數(shù)據(jù)。故本文采用基于數(shù)據(jù)池的主動學(xué)習(xí)方法,設(shè)計臨床腦電數(shù)據(jù)挖掘方法。該方法的框架如圖1所示。
首先,將初始標(biāo)注注入已標(biāo)注數(shù)據(jù)集D中,使用D訓(xùn)練模型M;然后,用模型M掃描未標(biāo)注樣本集S,并根據(jù)主動學(xué)習(xí)策略主動評估出高價值樣本,注入高價值數(shù)據(jù)集H中;隨后將H送至專家進(jìn)行人工標(biāo)注,這些新增的標(biāo)注集被合并到D中;最后,利用更新后的D對模型M進(jìn)行進(jìn)一步的訓(xùn)練和優(yōu)化。
1.2策略設(shè)計
主動學(xué)習(xí)方法的核心在于如何高效地挑選出對學(xué)習(xí)過程具有高價值的樣本實例。本文采用基于不確定性的策略。該策略的核心思想是挑選出模型難以辨別或容易出錯的樣本進(jìn)行標(biāo)注?;诓淮_定性的策略通過計算不確定性度量來選擇樣本。本文主要采取以下四種不確定性方法。
(1)基于概率分布最大值特征的樣本挑選策略,也稱為最小置信度(leastconfidence)。該方法根據(jù)評估模型預(yù)測概率分布來衡量不確定性。如果預(yù)測概率最高類別的概率低于一定閾值,則表明模型對該分類信心不足,從而認(rèn)為此樣本具有較高的不確定性。此方法的公式為
式中, ρe 為未標(biāo)記的腦電數(shù)據(jù)樣本,(204號 ,i為模型M下最大后驗概率的預(yù)測腦電類別標(biāo)簽,
為模型M在樣本e預(yù)測為類別標(biāo)簽的概率, eLC* 為不確定性最高的腦電數(shù)據(jù)樣本。通過選擇這些置信度最低的樣本進(jìn)行標(biāo)注,可以幫助模型更好地理解模糊的分類樣本,提高分類性能。
(2)基于最小分類差距(minimumclassificationmargin)的樣本挑選策略,也稱為邊際采樣。該方法是通過衡量模型對可能性最大和可能性第二大的腦電類別標(biāo)簽之間的預(yù)測概率差距來計算不確定性。樣本在二者之間的預(yù)測概率差距越小,則模型在辨別時不確定性就越大。此方法的公式為
式中, 和
分別表示模型對可能性最大類別和可能性第二大類別的預(yù)測標(biāo)簽,
為模型M在樣本e預(yù)測為
和
的概率。eMcm表示最小分類差距的樣本,分類差距越小,則表明分類器對此次分類的不確定性也越大。
(3)基于信息增益(informationgain)的樣本挑選策略。該方法通過計算腦電標(biāo)注樣本后可能帶來的信息增益來選擇樣本。通?;陟兀╡ntropy)的變化來衡量信息增益。選擇可能使模型信息增益最大化的腦電樣本進(jìn)行標(biāo)注,通過優(yōu)先標(biāo)注這些樣本,可以顯著提升模型的分類能力,使模型在最短的時間內(nèi)學(xué)習(xí)到更有價值的信息。此方法的公式為
式中, 表示模型M在未標(biāo)注腦電數(shù)據(jù)樣本e屬于類別
下給出的置信度,eIG為信息增益最大化的腦電樣本。該方法相對于上面兩種策略,考慮了模型M對腦電樣本e關(guān)于所有類別上的置信度。
(4)基于置信度波動(confidencevariability)的樣本挑選策略。該方法通??梢酝ㄟ^均方差(meanvariance)實現(xiàn),核心在于衡量模型對預(yù)測的波動性。置信度波動較大的腦電樣本,說明模型對該樣本的不確定性較高。標(biāo)注這些樣本,可以增強(qiáng)對波動較大的樣本的理解,從而提升分類效果。此方法的公式為
式中, 表示模型M預(yù)測腦電樣本e時給出的每個類別的平均置信度,
表示模型M在未標(biāo)注腦電數(shù)據(jù)樣本e屬于類別下給出的置信度, n 表示腦電樣本e類別數(shù)量, ecv? 為置信度波動最大的腦電樣本。
1.3數(shù)據(jù)集
使用的數(shù)據(jù)集中包含了8名病人的睡眠腦電數(shù)據(jù)。采樣率為512Hz,每段樣本時長30s,共計6288個樣本。本章選擇其中的F4-C4、C4-P4、P4-O2、C4-A1這4個EEG通道,并將原始腦電下采樣至 100Hz ,得到的數(shù)據(jù)樣本詳細(xì)如表1所示。
為了滿足更新的美國睡眠醫(yī)學(xué)會(AASM)睡眠評分指南,本文將S3和S4階段分在一起,形成N3睡眠階段,將被試的睡眠階段劃分為五個睡眠階段,即WAKE、N1、N2、N3和REM[]。
1.4實驗設(shè)計
本文的實驗將數(shù)據(jù)集隨機(jī)分為兩部分,選取 30% 的臨床腦電數(shù)據(jù)樣本作為測試集, 70% 則分配到無標(biāo)注樣本池中,用來測試其挖掘和篩選腦電數(shù)據(jù)樣本的效果。此外,實驗設(shè)置了對照組,即隨機(jī)挑選樣本策略,從無標(biāo)注樣本池中隨機(jī)挑選樣本進(jìn)行標(biāo)注。實驗開始時,訓(xùn)練集包含50個已標(biāo)注樣本。在實驗過程中,每次查詢操作通過主動學(xué)習(xí)策略從未標(biāo)注樣本池中選出50個樣本交給專家進(jìn)行標(biāo)注,每種主動學(xué)習(xí)策略都設(shè)置了50次查詢操作。所有的主動學(xué)習(xí)策略均使用EEG-Conformer算法進(jìn)行測試,并且設(shè)置了50輪的訓(xùn)練周期,以此評估各種主動學(xué)習(xí)策略對模型訓(xùn)練效果的影響。
2.結(jié)果
不同的主動學(xué)習(xí)策略訓(xùn)練的EEG-Conformer模型的性能表現(xiàn)如圖2和圖3所示。
可以看出,基于信息增益的樣本挑選策略優(yōu)于其他策略。在第37輪迭代,使用基于信息增益的樣本挑選策略構(gòu)建的數(shù)據(jù)集訓(xùn)練的模型性能達(dá)到最高點,該點的準(zhǔn)確率為0.8317,此時最大值特征為0.8099,最小分類差距為0.8147,置信度波動為0.8158,隨機(jī)挑選策略為0.793。之后隨著迭代的次數(shù)繼續(xù)增加訓(xùn)練樣本,模型性能并沒有提升,而是處于波動狀態(tài)。與基準(zhǔn)對照組隨機(jī)挑選策略相比,在第37輪迭代時,基于信息增益的樣本挑選策略的準(zhǔn)確率提升了約 3.9% ,F(xiàn)1-score提升了約 4.7% 。主動學(xué)習(xí)方法對性能的提升存在邊際遞減效應(yīng)。隨機(jī)挑選策略可以很好地模擬在正常情況下模型性能隨數(shù)據(jù)集大小變化的情況。在前10輪迭代,隨機(jī)挑選策略的效果最差,這也輔證了本文提出的四種主動學(xué)習(xí)樣本挑選策略的有效性。
四種樣本挑選策略在50輪迭代中構(gòu)建的訓(xùn)練集在模型性能上的效果如表2所示。
可以觀察到基于信息增益的樣本挑選策略效果最佳。相比隨機(jī)挑選樣本策略,信息增益策略的準(zhǔn)確率提高了 3.8% ,F(xiàn)1-score提升了 5.2%. 。同時,主動學(xué)習(xí)策略構(gòu)建的訓(xùn)練集最優(yōu)效果以及樣本數(shù)量如表3所示。
可以看出基于信息增益的樣本挑選策略在樣本數(shù)量為1450時,模型性能達(dá)到最佳,此時不僅樣本數(shù)量遠(yuǎn)遠(yuǎn)小于其他策略,并且性能也均優(yōu)于其他的策略。
結(jié)語
為了提高臨床腦電數(shù)據(jù)樣本的標(biāo)注效率,并從現(xiàn)有的少量臨床腦電數(shù)據(jù)中挖掘出高質(zhì)量的腦電樣本,本文設(shè)計了4種主動學(xué)習(xí)策略,從原始腦電數(shù)據(jù)文件中挑選高價值的無標(biāo)注臨床腦電數(shù)據(jù)樣本。同時,本文通過設(shè)計實驗對比這4種主動學(xué)習(xí)策略的效果。實驗結(jié)果表明,主動學(xué)習(xí)策略從臨床腦電數(shù)據(jù)集中挑選樣本用于訓(xùn)練EEG-Conformer,能夠有效提高模型性能,并提高訓(xùn)練集構(gòu)建效率,實現(xiàn)數(shù)據(jù)挖掘。此外,基于信息增益的不確定性,主動學(xué)習(xí)策略效果最佳。相比作為基準(zhǔn)策略的隨機(jī)樣本挑選策略,信息增益策略的準(zhǔn)確率提高了 3.8% ,F(xiàn)1-score提升了 5.2% ,同時達(dá)到最優(yōu)效果時的樣本數(shù)量遠(yuǎn)小于其他策略,最終證實了本文提出的基于主動學(xué)習(xí)的臨床腦電數(shù)據(jù)挖掘方法具有一定的可行性及有效性,該方法總體上能以較少的標(biāo)注資源實現(xiàn)模型性能的提升。
參考文獻(xiàn):
[1]Klem GH,Lü dersH O,Jasper H H,et al.The ten-twenty electrode system of theInternational Federation.The International
Federation of Clinical Neurophysiology]. Electroencephalogr Clin Neurophysiol Suppl,1999,52:-6.
[2]ThijsR D,Surges R,O'Brien T J,et al.Epilepsy in adults[J]. Lancet,2019,393(10172):689-701.
[3]RoosKL.Encephaliti[J].Neurologic clinics,1999,17(4):813-833.
[4]AcharyaUR,SreeSV,Swapna G,etal.Automated EEG analysisof epilepsy:areview[J].Knowledge-Based Systems,2013,45:147-165.
[5]SongY H,ZhengQ Q,Liu BC,et al.EEG conformer: Convolutional transformer for EEG decoding and visualization[J]. IEEETransactions on Neural Systems and Rehabilitation Engineering,2023,31:710-719.
[6]趙正旦.基于主動學(xué)習(xí)的少標(biāo)簽不平衡數(shù)據(jù)分類[D].南京:南京郵電大學(xué),2022.
[7].Ren P Z,Xiao Y,Chang XJ.A survey of deep active learning[EB/OL]. (2021-12-05)[2025-04-18].https://arxiv.org/ abs/2009.00236..
[8]SiddiquiY,ValentinJ,NieBner M.Viewal:Active learningwith viewpoint entropy for semantic segmentation[EB/OL]. (2020-05-18)[2025-04-18].https://arxiv.org/ abs/1911.11789#:\~tex t= We%20propose%20 ViewAL%2C%20a%20novel%20active%20 learning%2Ostrategy,segmentation%2Othat%20 exploits%2Oviewpoint%2Oconsistency%20 in%20multi-view%2Odatasets.
[9]Wang G A,HwangJN,Rose C,et al.Active learning using uncertainty informatio[J].IEEE Transactions on Image Processing,2019,28(1):316-329.
[10]Wolpert E A.A Manualof Standardized Terminologyand Scoring System forSleep StagesofHuman Subjects[J].Arch GenPsychiatry,1969,20(2):246-247.
作者簡介:陳李瑩,碩士研究生,工程師,249196252@qq.con,研究方向:人工智能,大數(shù)據(jù)。