周博文,熊偉麗,2
(1.江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122;2.江南大學(xué) 輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122)
在傳統(tǒng)機(jī)器學(xué)習(xí)建模方法中,由于環(huán)境條件的限制,采集到的樣本中通常無標(biāo)簽樣本占比大,有標(biāo)簽樣本占比少。為充分利用這些樣本信息,半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)算法相繼提出并應(yīng)用于圖像分類[1-2]、故障檢測[3-4]、工業(yè)過程建模[5-6]等領(lǐng)域。
傳統(tǒng)的半監(jiān)督學(xué)習(xí)算法通過對無標(biāo)簽樣本進(jìn)行標(biāo)記以擴(kuò)大有標(biāo)簽樣本集,以此達(dá)到提升模型精度的目的[7-10]。區(qū)別于半監(jiān)督學(xué)習(xí)算法僅利用無標(biāo)簽樣本來提升模型性能,主動(dòng)學(xué)習(xí)借助專家知識,對優(yōu)選出的無標(biāo)簽樣本進(jìn)行人工標(biāo)記[11-12],獲取其真實(shí)標(biāo)簽,并將標(biāo)記后的樣本加入有標(biāo)簽樣本集中重新訓(xùn)練模型。因此,主動(dòng)學(xué)習(xí)算法的關(guān)鍵在于如何實(shí)現(xiàn)以最小的標(biāo)記代價(jià)最大程度地提升模型的預(yù)測性能。
主動(dòng)學(xué)習(xí)可劃分為基于流和基于池[13-15]兩類?;诹鞯闹鲃?dòng)學(xué)習(xí)通常需根據(jù)不同情況設(shè)置不同閾值實(shí)行較為困難?;诔氐闹鲃?dòng)學(xué)習(xí)根據(jù)信息度量指標(biāo)對無標(biāo)簽樣本進(jìn)行排序,挑選最具信息量的樣本進(jìn)行標(biāo)記。通過設(shè)置合適的評價(jià)指標(biāo)可有效完成對整個(gè)無標(biāo)簽樣本集的篩選。因此,許多學(xué)者圍繞基于池的主動(dòng)學(xué)習(xí)進(jìn)行研究,并提出多種行之有效的評價(jià)指標(biāo)。如Ge 等[16]提出將主動(dòng)學(xué)習(xí)與高斯過程回歸相結(jié)合,根據(jù)高斯過程回歸的預(yù)測方差衡量樣本的不確定性。Tang等[17]則利用核主成分分析進(jìn)行特征提取并根據(jù)不同學(xué)習(xí)器的預(yù)測輸出挑選無標(biāo)簽樣本,但該類算法通常未能兼顧到其余無標(biāo)簽樣本的分布信息。Douak 等[18]則根據(jù)歐氏距離定義無標(biāo)簽樣本與有標(biāo)簽樣本集的差異,但該算法僅從無標(biāo)簽樣本與有標(biāo)簽樣本差異性角度進(jìn)行選取,容易選出離群樣本。離群無標(biāo)簽樣本雖與有標(biāo)簽樣本差異性較大但標(biāo)記后甚至?xí)档湍P托阅?。為避免選出離群無標(biāo)簽樣本,Rodrigue 等[19]將整個(gè)樣本集劃分為多個(gè)簇,選取聚類簇的中心樣本作為待標(biāo)記樣本,Demir 等[20]則將支持向量回歸機(jī)與核k均值聚類相結(jié)合進(jìn)行無標(biāo)樣本的挑選,但聚類算法選出的無標(biāo)簽樣本可能存在冗余且缺乏信息量。
此外,根據(jù)評價(jià)指標(biāo)進(jìn)行無標(biāo)簽樣本的挑選,經(jīng)常存在一小塊區(qū)域內(nèi)多個(gè)樣本被同時(shí)選中的問題,而相似樣本一般會(huì)提供相同的信息,進(jìn)行標(biāo)記后造成人力物力的浪費(fèi)。因此,需降低所選無標(biāo)簽樣本間的冗余。綜上所述,本文提出一種帶雙層優(yōu)選策略的主動(dòng)學(xué)習(xí)算法,一方面根據(jù)不同模型對無標(biāo)簽樣本預(yù)測輸出的差值衡量樣本的不確定性,同時(shí)引入樣本的分布信息,設(shè)計(jì)出一種新的評價(jià)指標(biāo)用于無標(biāo)簽樣本的挑選。另一方面,對于優(yōu)選出的無標(biāo)簽樣本進(jìn)一步衡量樣本間的差異性并去除冗余信息。基于脫丁烷塔工業(yè)過程數(shù)據(jù)仿真,驗(yàn)證了所提算法選取的樣本具有更高的信息量,可以有效地降低人工標(biāo)記代價(jià)。
基于主動(dòng)學(xué)習(xí)算法的機(jī)器學(xué)習(xí)建模主要包括兩個(gè)步驟:無標(biāo)簽樣本的質(zhì)量評估和對優(yōu)選出的高質(zhì)量樣本進(jìn)行人工標(biāo)記后建立預(yù)測模型。因此,無標(biāo)簽樣本的選擇策略和有標(biāo)簽樣本的建模方法是提升模型預(yù)測性能的關(guān)鍵。
無標(biāo)簽樣本選擇策略大致分為基于不確定性、差異性和代表性3 種[21-23]。不同策略的選取結(jié)果如圖1 所示,紅色樣本點(diǎn)為有標(biāo)簽樣本,灰色為無標(biāo)簽樣本,綠色樣本點(diǎn)為選中無標(biāo)簽樣本。
圖1 主動(dòng)學(xué)習(xí)樣本選擇策略Fig.1 Active learning sample selection strategy
基于不確定性的選擇策略側(cè)重于選取易被機(jī)器誤判的樣本交由人工標(biāo)記;基于差異性的選取策略則側(cè)重于選取與有標(biāo)簽樣本差異較大的無標(biāo)簽樣本來擴(kuò)大模型的預(yù)測空間;而基于代表性的選取策略核心思想為與該樣本相似的樣本越多,則該樣本的代表性越強(qiáng),一般選取聚類簇中心或分布稠密處的樣本作為待標(biāo)記樣本。基于不確定性和差異性的選擇策略選出的樣本都側(cè)重于擴(kuò)大模型的預(yù)測空間,但容易選出離群樣本。而基于代表性的選擇策略考慮到樣本間的相似性,但選出的樣本經(jīng)常彼此間存在冗余。為了克服上述問題,本文構(gòu)建了一種新的評價(jià)指標(biāo),該項(xiàng)指標(biāo)在確保樣本自身具有較高信息量的同時(shí),還考慮到其余樣本間的分布信息,避免挑選出離群樣本。
高斯過程回歸[24-25](Gaussian process regression,GPR)算法適用于非線性數(shù)據(jù)的建模,且模型涉及的參數(shù)少優(yōu)化更加便捷。在GPR 建模中,通過選取合適的高斯核函數(shù)構(gòu)建協(xié)方差矩陣,完成對樣本的預(yù)測。本文均采用平方指數(shù)函數(shù)來構(gòu)建協(xié)方差函數(shù):
式中:δf為信號標(biāo)準(zhǔn)差;l為尺度參數(shù);當(dāng)i=j時(shí),δij=1,否則等于0;δn為 噪聲標(biāo)準(zhǔn)差。設(shè)為模型的超參數(shù),利用極大似然估計(jì)求得超參數(shù)最優(yōu)值。
式中K為協(xié)方差矩陣,其元素Kij=k(xi,xj)。在獲得最優(yōu)超參數(shù)后,對于1 個(gè)新的測試樣本xq,可根據(jù)式(3)求其預(yù)測值,根據(jù)式(4)求取方差。
式中:yq為預(yù)測值,δ2為方差,kq=[k(xq,x1)k(xq,x2)···k(xq,xq)]T為xq與標(biāo)記樣本的協(xié)方差矩陣,式(4)中k(xq,xq)為待預(yù)測樣本構(gòu)建的協(xié)方差矩陣。
本文所提的基于雙層優(yōu)選的主動(dòng)學(xué)習(xí)算法,第1 層通過衡量無標(biāo)簽樣本的不確定性、差異性和代表性進(jìn)行優(yōu)選;第2 層對優(yōu)選出的無標(biāo)簽樣本去除冗余信息,從而達(dá)到以較小的標(biāo)記代價(jià)最大程度提升模型性能的目的。算法基本原理如圖2 所示。
圖2 雙層優(yōu)選的主動(dòng)學(xué)習(xí)算法Fig.2 Active learning algorithm with double-layer optimization
在首先將有標(biāo)簽樣本集均分后分別建立GPR模型 θ=abs(y1?y2) 和 θ=abs(y1?y2),并利用這兩個(gè)模型完成對無標(biāo)簽樣本的預(yù)測,分別得到預(yù)測值θ=abs(y1?y2)和 θ=abs(y1?y2)。根據(jù)差值衡量不確定性的公式為
式中:abs 為對預(yù)測值的差值取絕對值,θ為樣本不確定性度量值。θ值越大,說明不同模型對該無標(biāo)簽樣本的預(yù)測分歧越大,挑選該類樣本進(jìn)行標(biāo)記,可有效降低預(yù)測誤差較大的樣本數(shù)目。但僅根據(jù) θ值進(jìn)行樣本的選取,未能有效利用其余無標(biāo)簽樣本的信息,造成資源的浪費(fèi)。
在根據(jù)不確定性進(jìn)行優(yōu)選的基礎(chǔ)上,進(jìn)一步利用樣本的分布信息,判斷目標(biāo)樣本與有標(biāo)簽樣本的差異性和自身是否具有代表性。通常無標(biāo)簽樣本的差異性和代表性會(huì)有一定的沖突,如圖3所示。紅色樣本點(diǎn)表示有標(biāo)簽樣本,灰色樣本點(diǎn)表示無標(biāo)簽樣本,現(xiàn)需選出1 個(gè)樣本進(jìn)行標(biāo)記后加入有標(biāo)簽樣本集。顯然樣本C與有標(biāo)簽樣本的差異性大于樣本A和B,但樣本點(diǎn)C嚴(yán)重偏離其他無標(biāo)簽樣本,若選中C進(jìn)行標(biāo)記,甚至?xí)档湍P皖A(yù)測精度。樣本A與樣本B則較為相似,對兩者信息量進(jìn)行衡量,選取對模型提升最為有利的樣本。
圖3 樣本的代表性與差異性Fig.3 Sample representativeness and differences
從差異性角度出發(fā),首先根據(jù)有標(biāo)簽樣本建立模型并獲取無標(biāo)簽樣本預(yù)測值yp;其次計(jì)算yp與有標(biāo)簽樣本真值yL的差值并取絕對值,得到Nu個(gè)無標(biāo)簽樣本預(yù)測值與yL的最小差值dn;最后挑選數(shù)值較大的dn所對應(yīng)的樣本,如式(6)和式(7)所示:
式中:NL和Nu分別為有標(biāo)簽樣本和無標(biāo)簽樣本數(shù)目。在上述迭代過程中,通過選取與yL差值較大的無標(biāo)簽樣本來擴(kuò)大模型的預(yù)測空間,但通常會(huì)出現(xiàn)部分所選樣本在分布上嚴(yán)重偏離其余無標(biāo)簽樣本,進(jìn)行標(biāo)記后將降低模型的預(yù)測性能。為避免選出離群樣本,求取每個(gè)無標(biāo)簽樣本到其余無標(biāo)簽樣本的平均歐氏距離,如式(8) 和式(9)所示:
式中 δ為樣本差異性與代表性度量值。若某樣本與其余無標(biāo)簽樣本的歐氏距離過大則的數(shù)值增大,即使該樣本與有標(biāo)簽樣本差異顯著,也將不被選入待標(biāo)記樣本。綜上分析,利用有標(biāo)簽樣本的建模信息,同時(shí)將樣本的分布信息考慮其中得到第一層優(yōu)選的評價(jià)指標(biāo),如公式(10)所示:
式中 α為評價(jià)指標(biāo)度量值。由于 θ 與 δ兩者數(shù)量級不同,因此采用乘積形式。第一層優(yōu)選過程中,在根據(jù)樣本不確定性選取的基礎(chǔ)上,進(jìn)一步度量樣本的分布信息,判斷其對模型性能的提升是否有利。若某樣本因誤判導(dǎo)致預(yù)測分歧較大,而根據(jù) δ值進(jìn)行判別后發(fā)現(xiàn)在分布信息上不利于提升模型的預(yù)測精度,也將無法通過第一輪優(yōu)選。因此,根據(jù) α值衡量每個(gè)無標(biāo)簽樣本信息量,對其進(jìn)行排序后挑選出固定數(shù)目的信息量最高的樣本作為候選樣本。
在主動(dòng)學(xué)習(xí)迭代過程中,通常無標(biāo)簽樣本數(shù)量大,彼此間存在信息重復(fù),即使按照 α值挑選出信息量豐富的無標(biāo)簽樣本彼此間仍會(huì)存在信息冗余,而標(biāo)記相似樣本將造成人力的浪費(fèi)。為此從信息冗余角度對第1 層優(yōu)選出的固定數(shù)目的候選樣本進(jìn)行第2 層優(yōu)選。
在第1 層優(yōu)選中,若設(shè)置候選樣本數(shù)過多,經(jīng)過第2 層優(yōu)選后雖然樣本間冗余性較低,但樣本所含信息量也隨之減少。通過設(shè)置合適的候選樣本數(shù),使樣本整體具備較高的信息量的同時(shí),有效擴(kuò)大模型的預(yù)測空間,在去冗余后對模型性能的提升更為有利。經(jīng)過多次實(shí)驗(yàn),最終確定候選樣本數(shù)為每次迭代過程中人工標(biāo)記樣本數(shù)的兩倍。如圖4 所示為候選無標(biāo)簽樣本分布圖,假設(shè)黃色點(diǎn)為通過評價(jià)指標(biāo)挑選的無標(biāo)簽樣本集,紅色點(diǎn)為有標(biāo)簽樣本,綠色虛線區(qū)域則表示無標(biāo)簽樣本進(jìn)行標(biāo)記后所拓展的模型空間。
由圖4 可以看出,選出的樣本點(diǎn)雖然擴(kuò)大了模型空間,但部分無標(biāo)簽樣本如D1、D2、D3之間相似程度較高,考慮到標(biāo)記代價(jià)昂貴,若標(biāo)記相似的無標(biāo)簽樣本,則會(huì)造成人力物力的浪費(fèi)。為避免樣本的冗余添加,使用最遠(yuǎn)優(yōu)先遍歷算法[26]進(jìn)行第2 層優(yōu)選,該算法的核心思想為:對于2 個(gè)樣本,它們之間距離越大則冗余性越低。算法定義如式(11)和式(12)所示:
圖4 候選樣本分布圖Fig.4 Candidate sample distribution map
式中:S1表 示從集合S2中挑選出的待標(biāo)記樣本集,S2表示候選樣本集S中剩余樣本組成的集合。該算法首先從候選樣本集S中,選擇綜合評價(jià)指標(biāo)α值最大的無標(biāo)簽樣本x加入待標(biāo)記樣本集S1。根據(jù)式(11)和式(12)挑選下一個(gè)樣本xi加入S1,候選樣本集S則除去xi。經(jīng)過二層優(yōu)選得到的待標(biāo)記樣本在具備信息量的同時(shí),彼此之間差異性較大,標(biāo)記后對模型的提升更為有利。
本文提出具有雙層優(yōu)選策略的主動(dòng)學(xué)習(xí)算法,從不確定性、差異性、代表性3 個(gè)角度出發(fā)進(jìn)行無標(biāo)簽樣本的優(yōu)選,并考慮樣本間的冗余信息,以全面地提升主動(dòng)學(xué)習(xí)算法性能。算法流程如圖5 所示,具體建模步驟如下。
圖5 主動(dòng)學(xué)習(xí)算法流程Fig.5 Active learning algorithm
1) 采集的數(shù)據(jù)集中,根據(jù)有標(biāo)簽樣本建立GPR 模型,并對無標(biāo)簽樣本進(jìn)行預(yù)測;
2) 將有標(biāo)簽樣本集均分并建立不同的GPR模型,分別對樣本進(jìn)行預(yù)測,通過不同模型預(yù)測值間的差值 衡量不確定性;
3) 通過式(9)得到無標(biāo)簽樣本差異性與代表性度量值,并與不確定性度量值 相乘得到評價(jià)指標(biāo)。通過指標(biāo)完成對無標(biāo)簽樣本的第1 次優(yōu)選,符合條件的樣本加入候選樣本集 ;
4) 通過最遠(yuǎn)優(yōu)先遍歷算法完成第2 次優(yōu)選,選出的無標(biāo)簽樣本進(jìn)行人工標(biāo)記后加入有標(biāo)簽樣本集;
5) 更新GPR 模型,檢驗(yàn)?zāi)P途?,若未達(dá)到迭代次數(shù)則返回2),達(dá)到則停止。
為驗(yàn)證本文所提算法的性能,與傳統(tǒng)的基于歐式距離的主動(dòng)學(xué)習(xí)算法進(jìn)行對比。為分析兩種選擇策略對于無標(biāo)簽樣本選取上的區(qū)別,對函數(shù)Z=sin3X+cos3Y做回歸分析,其中X、Y均服從正態(tài)分布。數(shù)據(jù)集劃分4 組有標(biāo)簽樣本集,56 組無標(biāo)簽樣本集,10 組測試集。每次迭代分別選取5 個(gè)無標(biāo)簽樣本進(jìn)行標(biāo)記。為了更好地展現(xiàn)2 種算法所選樣本差異,選取的無標(biāo)簽樣本及樣本標(biāo)記后預(yù)測誤差分布如圖6 所示。
圖6 無標(biāo)簽樣本選取散點(diǎn)及預(yù)測誤差分布圖Fig.6 Unlabeled sample selection scatter points and prediction error distribution map
圖6 中,基于歐氏距離的主動(dòng)學(xué)習(xí)(distance active learning,DAL)[18]算法所選出的樣本僅考慮與有標(biāo)簽樣本的差異性,選擇了部分離群點(diǎn)并且樣本之間存在冗余。本文算法選取的樣本則分散在模型空間中且彼此間冗余性低。進(jìn)一步分析選中的無標(biāo)簽樣本進(jìn)行標(biāo)記后,對模型預(yù)測效果的提升明顯。無標(biāo)簽樣本預(yù)測誤差分布如圖(c),(d)所示,其中紅色實(shí)心點(diǎn)為已標(biāo)記樣本點(diǎn),綠色和紫色實(shí)心點(diǎn)分別為根據(jù)DAL 算法和本文所提算法選擇出的樣本。黃色實(shí)心點(diǎn)則為無標(biāo)簽樣本,色標(biāo)值表示樣本的預(yù)測誤差??梢钥闯鲈谝褬?biāo)記樣本點(diǎn)周圍的無標(biāo)簽樣本的預(yù)測誤差都較低,而無標(biāo)簽樣本附近缺少已標(biāo)記樣本點(diǎn)則誤差會(huì)相對較高。圖(c)中在根據(jù)DAL 算法挑選部分無標(biāo)簽樣本進(jìn)行標(biāo)記后,其余大部分無標(biāo)簽樣本的預(yù)測誤差都在1 到2 之間,圖(d)中根據(jù)本文算法挑選無標(biāo)簽樣本進(jìn)行標(biāo)記后,樣本預(yù)測誤差則在0.5~1.5。以均方根誤差[27](root mean squared error,RMSE)衡量模型預(yù)測精度,計(jì)算公式為
式中:n為樣本 數(shù),yi為真值,為預(yù)測值。進(jìn) 行10 次迭代,每次選取5 個(gè)無標(biāo)簽樣本進(jìn)行標(biāo)記,模型性能隨迭代次數(shù)的變化如圖7 所示。
圖7 算法性能對比Fig.7 Algorithm performance contrast
從圖7 中可以看出,DAL 算法由于僅考慮樣本間的差異性,在前期迭代過程中容易選出離群樣本,而根據(jù)本文所提算法選取的無標(biāo)簽樣本在擴(kuò)大模型預(yù)測空間的同時(shí)自身仍具備代表性并且在經(jīng)過第2 層優(yōu)選后去除了樣本間的冗余信息,使所選樣本較為均勻地分散在模型空間,有效地提升了模型預(yù)測精度。
以脫丁烷塔工業(yè)過程數(shù)據(jù)為對象進(jìn)一步驗(yàn)證算法性能。脫丁烷塔裝置如圖8 所示,脫丁烷塔在分離石油過程中是不可或缺的裝置[28]。丁烷濃度是檢測石油分離程度的一項(xiàng)重要指標(biāo),然而塔底的丁烷濃度難以檢測,需根據(jù)其他可監(jiān)測變量建立預(yù)測模型,塔中可監(jiān)測變量如表1 所示。
表1 脫丁烷塔過程變量Table 1 Process variables of the debutanizer
圖8 脫丁烷塔工藝流程Fig.8 Debutanizer process
實(shí)時(shí)采樣獲得2 000 組脫丁烷塔過程數(shù)據(jù)。隨機(jī)選出30 個(gè)有標(biāo)簽樣本,1 800 個(gè)無標(biāo)簽樣本。每次挑選50 個(gè)無標(biāo)簽樣本標(biāo)記后加入有標(biāo)簽樣本集,另選出200 組樣本作為測試樣本。
首先,分析不同學(xué)習(xí)步長對模型性能的影響。從圖9 中可以看出較小的學(xué)習(xí)步長前期取得較好的效果,但隨著標(biāo)記數(shù)目的增加,差別便不再顯著。學(xué)習(xí)步長減小意味著標(biāo)記相同數(shù)目,人工標(biāo)記次數(shù)增加,因此需結(jié)合實(shí)際情況進(jìn)行考慮。本文重點(diǎn)考慮減少人工標(biāo)記次數(shù),經(jīng)多次仿真實(shí)驗(yàn),最終每次選取50 個(gè)無標(biāo)簽樣本進(jìn)行標(biāo)記。
圖9 不同學(xué)習(xí)步長下模型性能變化Fig.9 Model performance changes under different learning steps
此外,對迭代過程中的評價(jià)指標(biāo)變化情況進(jìn)行分析。根據(jù)評價(jià)指標(biāo)優(yōu)選得到的無標(biāo)簽樣本作為候選樣本。本文所選取的候選樣本數(shù)目為目標(biāo)選取的樣本數(shù)的2 倍即選取100 個(gè)候選樣本,對候選樣本的評價(jià)指標(biāo)度量值進(jìn)行加和取平均,則每次迭代過程中,候選樣本的評價(jià)指標(biāo)均值如圖10 所示。
圖10 迭代過程中的評價(jià)指標(biāo)Fig.10 Evaluation index in iterative process
由圖10 可以看出,隨著迭代過程的進(jìn)行,候選無標(biāo)簽樣本的評價(jià)指標(biāo)度量值越來越小,這主要是因?yàn)榍捌谶x擇的都為信息量較為豐富的無標(biāo)簽樣本使剩余樣本所含的額外信息越來越少,后期因剩余無標(biāo)簽樣本信息量過少,使得評價(jià)指標(biāo)均值趨于停滯。這也驗(yàn)證了根據(jù)評價(jià)指標(biāo)進(jìn)行無標(biāo)簽樣本選取的可行性。
其次,分析第一層優(yōu)選中各模塊對模型性能的影響,分別對不確定性指標(biāo) θ和利用樣本分布信息所獲得的差異性與代表性度量值 δ以及第一層優(yōu)選中的評價(jià)指標(biāo) α進(jìn)行分析。不同指標(biāo)對模型的提升效果如圖11 所示。相比于指標(biāo) θ 和δ,根據(jù)評價(jià)指標(biāo) α選取的無標(biāo)簽樣本,在具備較高不確定的同時(shí),擴(kuò)大了模型的預(yù)測空間,同時(shí)避免了單一角度選取的所帶來的誤判和離群點(diǎn)問題,因此所含信息量更為豐富。
圖11 不同指標(biāo)對模型性能影響Fig.11 Impact of different indicators on model performance
最后,對候選樣本去冗余后對模型性能的提升效果進(jìn)行研究。通過計(jì)算樣本彼此間歐氏距離,加和后求取平均值和取其最小值相加這2 種方法來衡量經(jīng)過第二層優(yōu)選后樣本間的差異性。第一層優(yōu)選得到100 個(gè)候選無標(biāo)簽樣本雖然信息量較高,但部分樣本間存在冗余。若根據(jù)綜合評價(jià)指標(biāo)選取度量值最大的前50 個(gè)樣本作為待標(biāo)記樣本而不考慮彼此間的冗余,則每次迭代過程中,最小歐式距離之和如圖12(a)中藍(lán)色柱形所示,經(jīng)過第二層優(yōu)選后的最小歐式距離之和如圖12(a)中紅色柱形圖所示。而經(jīng)過第一層優(yōu)選后樣本間的平均歐氏距離如圖12(b)中藍(lán)色柱形所示,經(jīng)過第二層優(yōu)選后的樣本間平均歐式距離則如圖12(b)中紅色柱形圖所示。單層與雙層優(yōu)選后模型性能對比如圖13 所示。
圖12 單層與雙層優(yōu)選策略下樣本間差異性對比Fig.12 Comparison of differences between samples under single-layer and double-layer optimization strategies
圖13 單層與雙層優(yōu)選策略對比Fig.13 Contrast of single-layer and double-layer optimization strategies
從圖12 和圖13 中可以看出,第1 層優(yōu)選僅根據(jù)樣本的信息量進(jìn)行選取容易造成候選樣本集內(nèi)部存在冗余信息,不利于模型性能提升。第2 層的優(yōu)選在保證樣本具備高信息量的同時(shí),排除少部分具有相似信息的高質(zhì)量樣本,有效地降低了樣本間的冗余,在模型迭代初期,進(jìn)行人工標(biāo)記后對模型效果的提升更為有利。為驗(yàn)證本文所提算法有效性,與基于歐氏距離、預(yù)測值(prediction active learning,PAL)和期望變更(excepted change active learning,ECAL)3 種主動(dòng)學(xué)習(xí)算法進(jìn)行對比。
1) DAL[18]:以無標(biāo)簽樣本與有標(biāo)簽樣本間的歐氏距離作為評價(jià)指標(biāo)來挑選樣本。
2) PAL[29]:有標(biāo)簽樣本建模后獲取無標(biāo)簽樣本預(yù)測值,預(yù)測值與有標(biāo)簽樣本真值作差并以差值作為評價(jià)指標(biāo)來挑選信息量較大的無標(biāo)簽樣本。
3) ECAL[30]:有標(biāo)簽樣本建立模型并獲取無標(biāo)簽樣本的預(yù)測值,在設(shè)計(jì)損失函數(shù)后將無標(biāo)簽樣本依次加入有標(biāo)簽樣本集,根據(jù)損失的梯度估計(jì)樣本的不確定性。
4) 本文所提算法:每次選取50 個(gè)無標(biāo)簽樣本進(jìn)行標(biāo)記,標(biāo)記后加入有標(biāo)簽樣本集,達(dá)到設(shè)置的迭代次數(shù)則停止迭代。隨機(jī)選擇初始有標(biāo)簽樣本,均方根誤差如圖14(a)所示。圖14(b)則展示了隨機(jī)選擇第6 次迭代即標(biāo)記250 個(gè)無標(biāo)簽樣本后,4 種選擇策略的預(yù)測誤差。
圖14 4 種主動(dòng)學(xué)習(xí)算法對比Fig.14 Contrast of four active learning algorithms
從圖14(a)中可以看出,在迭代初期根據(jù)本文所提算法挑選的無標(biāo)簽樣本質(zhì)量要優(yōu)于其他3 種算法。在后期4 種算法的下降趨勢都趨于停滯,出現(xiàn)這樣的現(xiàn)象的原因是,在前期4 種算法選擇的都為質(zhì)量較高的無標(biāo)簽樣本,使得后續(xù)迭代過程中剩余無標(biāo)簽樣本所包含的信息量減少,對模型的提升效果不再顯著。同時(shí)本文所提算法在第11 次迭代后,再繼續(xù)添加無標(biāo)簽樣本,對模型的提升效果較為有限。而要達(dá)到同樣的效果,DAL,PAL,ECAL 則要進(jìn)行更多次的迭代。因此,在相同標(biāo)記代價(jià)下,本文所提算法對模型提升效果更為有利。4 種主動(dòng)學(xué)習(xí)算法預(yù)測丁烷濃度的指標(biāo)如表2 所示,其中,ARE 為平均相對誤差,定義為
式中:n為樣本數(shù),為預(yù)測值,yi為真值。從 表2可以看出,本文所提算法的2 個(gè)誤差評價(jià)指標(biāo)都要低于其他3 種方法,表明所建立的模型具有更好的預(yù)測性能與泛化能力。
表2 4 種主動(dòng)學(xué)習(xí)方法性能指標(biāo)Table 2 Performance indicators of four active learning methods
本文提出了一種雙層優(yōu)選的主動(dòng)學(xué)習(xí)建模算法。該算法的第一層利用不同模型對無標(biāo)簽樣本的信息量進(jìn)行初步評估,并引入樣本的分布信息,構(gòu)建評價(jià)指標(biāo)后完成對無標(biāo)簽樣本的第一次優(yōu)選。在第二層對優(yōu)選后的樣本去冗余,得到彼此差異性較大的無標(biāo)簽樣本作為待標(biāo)記樣本。通過數(shù)值仿真分析和脫丁烷塔過程的應(yīng)用仿真,驗(yàn)證了該選擇策略的有效性。并與現(xiàn)有的幾種選擇策略進(jìn)行對比,實(shí)驗(yàn)證明本文選擇策略更具備優(yōu)越性,即在相同的人工標(biāo)記消耗下獲得更高質(zhì)量的無標(biāo)簽樣本。