周欣蕾,王熙照
(深圳大學 計算機與軟件學院, 廣東 深圳 518060)
弱監(jiān)督學習適用于存在大量未標注或低質(zhì)量標注樣本場景下的機器學習。眾所周知,有監(jiān)督學習范式下的學習模型需要大量的高質(zhì)量帶標記訓練樣本以保證泛化性能。然而,高質(zhì)量的帶標記訓練樣本通常需要具備領域?qū)I(yè)知識的人員花費大量的時間進行手動標注。并且當學習任務發(fā)生變化時,標注的粒度要求相異,如對同一張圖像進行分類和分割時,需要分別對整張圖像進行類別標注和針對圖像中各個類別區(qū)域的像素進行區(qū)分,這是不同粒度級別的標注工作。因此,能夠結(jié)合極其有限的高質(zhì)量帶標簽樣本與大量未標注或低質(zhì)量標注的樣本進行高效訓練的弱監(jiān)督學習范式,更符合當下大數(shù)據(jù)時代的特點,能夠更有效地利用海量數(shù)據(jù),是未來研究的發(fā)展趨勢。
本文依據(jù)樣本標簽的狀態(tài)討論3類弱監(jiān)督學習。第1類為不完全監(jiān)督學習,可以指缺失明確標簽且僅以概率分布的形式給出標注信息的樣例層面監(jiān)督信息的不完全;也包括數(shù)據(jù)集中僅有少量已標注樣本而存在大量樣本缺失標簽信息這類數(shù)據(jù)集層面監(jiān)督信息的不完全。第2類為不準確監(jiān)督學習,指數(shù)據(jù)集中樣本標簽存在誤差,即有一定比例的標注錯誤。第3類為不確切監(jiān)督學習,指數(shù)據(jù)集中樣例僅以0或1標注的候選標簽集的形式給出。3類弱監(jiān)督學習范式都僅有少量知識描述當前整體數(shù)據(jù)分布的情況,因此,從不確定性視角來看, 弱監(jiān)督學習是樣本監(jiān)督信息具有不確定性場景下的機器學習建模方式。 本文將結(jié)合分類任務中弱監(jiān)督學習的特點, 討論由于事物類屬劃分的不分明(模糊)而引起的判斷上的不確定性, 并以分類熵、 模糊集和不可指定性為例, 討論弱監(jiān)督場景下的不確定性建模, 以量化各類弱監(jiān)督學習范式下的監(jiān)督信息強度, 而隨機性不在本文的討論范疇之內(nèi)。 同時, 歸整了以不確定性建模為核心的各類弱監(jiān)督學習方法, 強調(diào)了不確定性建模在弱監(jiān)督學習中的重要性。 從弱監(jiān)督學習的問題描述和具體的弱監(jiān)督學習方法兩個層面闡明弱監(jiān)督學習范式與不確定性之間存在的緊密關(guān)聯(lián)。
在決策論中“不確定性”用于表達沒有足夠知識來描述目前的情況或估計將來的結(jié)果[1]。然而,機器學習是基于無法準確代表整體數(shù)據(jù)集的部分抽樣來實現(xiàn)機器智能化的過程。因此,利用任何一種算法和模型去實現(xiàn)這個學習過程,都會存在不確定性。不僅如此,大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的表示形式多種多樣、特征維度和類別數(shù)目暴增,出現(xiàn)樣本的獨立性假設被破壞、數(shù)據(jù)缺失、大量數(shù)據(jù)帶有噪聲、數(shù)據(jù)分布不平衡,從而呈現(xiàn)長尾分布、模型的超參數(shù)量和解空間巨大等問題,更增加了機器學習建模過程的不確定性,從而嚴重影響傳統(tǒng)學習算法的有效性[2]。在數(shù)學上還沒有不確定性的一般性定義,沒有一個適用于任何情況的通用公式,通常在特定的背景下考慮建模不確定性。常見的不確定性量化方法有香農(nóng)熵、分類熵、模糊集、不可指定性和粗糙集等,在以往工作中對此進行了詳細介紹[3]。而基于貝葉斯推斷理論和集成是深度學習中不確定性定性量化的主要方法[4-5]。在實際應用中,區(qū)分并量化不同種類的不確定性對模型性能的提升有重要意義[6]。
通常機器學習系統(tǒng)建模過程中不確定性的描述有:偶然不確定性、認知不確定性和超出分布的不確定性[7]。本節(jié)將在訓練和測試數(shù)據(jù)集包含關(guān)系的統(tǒng)一描述框架下分析各類不確定性的來源,并對不確定性的類別進行說明。假設有全集U,存在一個分布未知的真子集S,并稱集合S中的樣本為分布內(nèi)(in-distribution)的樣本,S在U中的補集US中的樣本為分布外(out-of-distribution)的樣本。為了擬合集合S的分布,通過采樣的方式得到真子集合S′,將其作為訓練集輸入機器學習模型Md,并配以優(yōu)化策略進行訓練。利用訓練好的模型Mdw對測試樣本集T的測試結(jié)果來評估Mdw對集合S分布的擬合程度。
基于上述描述,機器學習系統(tǒng)建模過程中不確定性的來源和相應分類如下。
1) 收集數(shù)據(jù)集S′的過程中,樣本各屬性值的測量和類別標注都存在不確定性。這種不確定性通常被稱為偶然不確定性,是由于收集數(shù)據(jù)時不可避免的隨機性和不可預測的變化引起的,且無法因收集更多的數(shù)據(jù)而消除[8]。例如測量重力加速度時,儀器的精準度不夠和氣流擾動等原因都會造成結(jié)果存在不可避免的偏差。根據(jù)出現(xiàn)誤差的是屬性還是標注信息可分為數(shù)據(jù)屬性不確定性和標簽不確定性。
2) 一般來說,抽樣數(shù)據(jù)集S′為集合S的真子集,即訓練數(shù)據(jù)包含的信息量不足。因此,會導致系統(tǒng)因缺乏目標數(shù)據(jù)集合S的知識(或數(shù)據(jù))而引起不確定性,這通常被稱為認知不確定性。這種不確定性描述的是系統(tǒng)的認知狀態(tài),體現(xiàn)在模型Md的選擇、優(yōu)化策略的制定以及超參數(shù)的設定等,而不是潛在的隨機現(xiàn)象[8]。因此,又被稱為模型(系統(tǒng))的不確定性,它可以通過收集缺乏區(qū)域樣本信息增強系統(tǒng)預測能力,從而減少這種不確定性。
3) 當測試集合T為US的子集,則測試樣本被稱為分布外的樣本。然而,基于分布內(nèi)的樣本訓練得到的系統(tǒng)對于這類超出分布的數(shù)據(jù)通常是無效的[9]。因此,我們根據(jù)測試樣本與目標數(shù)據(jù)集S的相對位置,將認知不確定性細分出一類稱為超出分布的不確定性。文獻[10]已經(jīng)充分證明,以不確定性的形式感知到本系統(tǒng)預測能力之外的樣本即超出分布的樣本非常有必要。
弱監(jiān)督學習場景下標簽信息的大部分缺失或不完全可信導致當前訓練數(shù)據(jù)集僅有少量知識來描述數(shù)據(jù)真實的整體分布或用于將來的預測。從監(jiān)督信息具有不確定性的角度來看,弱監(jiān)督學習是監(jiān)督信號的不確定性形式化后的訓練和推理范式。Ghahramani在2016年NIPS的研討會上也曾提到,不確定性的概率表示對于依賴于有限數(shù)據(jù)或存在缺失和噪聲的數(shù)據(jù)進行建模的機器學習過程是至關(guān)重要的[11]。程圣軍提出了一個分析弱監(jiān)督樣本的統(tǒng)一框架[12],但缺乏對各類弱監(jiān)督信息不確定性的定量分析。本節(jié)基于標簽向量的形式對各類弱監(jiān)督學習范式進行統(tǒng)一描述,并討論各類弱監(jiān)督信息的不確定性量化方法以建模弱監(jiān)督學習的不確定性。
考慮一個k分類問題,給定包含N個樣例的弱監(jiān)督數(shù)據(jù)集D,如表1所示。
表1 分類任務數(shù)據(jù)集
用標簽向量μi=(μi1,μi2,…,μij,…,μik)的形式表示第i個樣例的監(jiān)督信息,該數(shù)據(jù)集整體的監(jiān)督信息可以表示為矩陣C,
(1)
其中,μij(1≤i≤N,1≤j≤k)∈[0,1]。根據(jù)監(jiān)督信息矩陣C的不同特點,可以將弱監(jiān)督學習大致分為不完全監(jiān)督、不準確監(jiān)督和不確切監(jiān)督3類。
1) 不完全監(jiān)督
當訓練數(shù)據(jù)集中僅有少量樣例具有準確標簽,而剩余的大量樣例都缺失標注信息,則稱該場景下的弱監(jiān)督學習范式為數(shù)據(jù)集層面的不完全監(jiān)督,其形式化表示為
且b?N,有
μi=(μi1,μi2,…,μij,…,μik)=
(2)
2) 不準確監(jiān)督
當訓練數(shù)據(jù)集對于所有樣例都標定了唯一的所屬類別,同時指出當前數(shù)據(jù)集的標注存在一定的誤差(噪聲率),則稱該場景下的弱監(jiān)督學習范式為不準確監(jiān)督,其形式化表示為
?μi∈C,?j0,使得
(3)
3) 不確切監(jiān)督
當訓練數(shù)據(jù)集對于所有樣例都標定了一組候選標簽集合,則稱該場景下的弱監(jiān)督學習范式為不確切監(jiān)督,其形式化表示為
(4)
(5)
由式(5)可知,當各類別所屬概率值相等時,監(jiān)督信息的分類熵達到最大,此時的監(jiān)督信息不確定性最大;當有且僅有類別j*的概率μij*=1時,類別分布的純度達到最大,監(jiān)督信息的分類熵最小,即監(jiān)督信息的不確定性最小。
(1-μij)log(1-μij))。
(6)
(7)
(8)
本節(jié)主要介紹基于不確定性建模的各類弱監(jiān)督學習方法,對于想要全面了解弱監(jiān)督學習方法的讀者來說,本節(jié)所提到的方法可能覆蓋面不夠廣,我們建議有需求的讀者參考文獻[17-20]。
數(shù)據(jù)層面的監(jiān)督信息不完全使得樣例缺乏唯一指定的類標信息,但可以借助給定的類別可能性分布進行有效推斷。一項經(jīng)典的相關(guān)工作是1995年Yuan等人提出的模糊決策樹[16],他們將不可指定性引入決策樹的建模中,提出了一種基于模糊證據(jù)最小化類別不可指定性的啟發(fā)式模糊決策樹歸納方法。基于不可指定性估計與各屬性相關(guān)的分類不確定性,選擇平均分類不確定性最小的屬性作為決策節(jié)點。假設有n個屬性,第k個屬性的平均分類不確定性(不可指定性)定義為
(9)
(10)
Gk0=min1≤k≤nGk。
(11)
對于數(shù)據(jù)集層面的監(jiān)督信息不完全,即存在大量未標記樣例的弱監(jiān)督學習問題,主要有主動學習和半監(jiān)督學習兩類策略[21],這兩類策略的區(qū)別在于主動學習假定存在一個專家標注者能夠提供未標記樣例的真實標簽,而半監(jiān)督學習是由訓練的分類器代替人(專家)給定(偽)標簽。具體來說,半監(jiān)督學習是學習器結(jié)合少量標記樣例和大量未標記樣例進行自主學習以實現(xiàn)目標數(shù)據(jù)有效預測的一種智能化策略。為了建立未標記樣例和目標數(shù)據(jù)之間的聯(lián)系,半監(jiān)督學習方法通常假定數(shù)據(jù)內(nèi)部結(jié)構(gòu)保持不變,相似的樣例擁有相似的輸出并聚集在相近位置。具體來說,基于聚類假設的半監(jiān)督學習方法側(cè)重于考慮數(shù)據(jù)的整體特性,假定同一集群的數(shù)據(jù)樣例具有相同輸出,且決策邊界處于樣例分布稀疏的區(qū)域,利用無標記數(shù)據(jù)對學習到的數(shù)據(jù)分布邊界進行調(diào)整從而逼近真實分布;流形假設則偏向于強調(diào)決策函數(shù)的局部平滑性,假定相似數(shù)據(jù)分布在一個流形結(jié)構(gòu)上,且臨近的樣例擁有相似的輸出值,以無標記樣例作為擴充標記樣例分布局部特性的有效信息,從而提升決策函數(shù)的擬合能力[17]。
早在1997年P(guān)edrycz等人便將不確定性建模引入半監(jiān)督學習的具體解決方法中[22],對模糊聚類方法進行改進和調(diào)整,使其有效適用于弱監(jiān)督學習場景。隨后,Bouchachia等人則通過擴展目標函數(shù)建模類別和集群之間的關(guān)系,進一步強化了基于模糊聚類的弱監(jiān)督學習方法[23]。2016年Ashfaq等人基于模糊集量化未標記樣例偽標簽的不確定性F(V)[24],
(1-μi)log((1-μi)))。
(12)
(13)
且文中證明
因此,條件熵Hemp(Y|X,Z;Ln)的結(jié)果僅受未標記樣例影響,它可以作為未標記樣例的先驗信息嵌入任何基于最大后驗估計的半監(jiān)督概率分類模型,以增強分類器輸出對于未標記樣例的置信度。
(14)
(15)
(16)
其中:H和W是圖像的高和寬;I(·)是指數(shù)函數(shù);Sx是圖像x的最終分割結(jié)果。通過對比偽標簽和設定閾值t篩選置信度高的像素點,計算預測結(jié)果和偽標簽的平方差。當然,LUG只是文中全卷積網(wǎng)絡目標函數(shù)中的一部分,其他具體細節(jié)請參考原文[28]。Xia等人提出不確定性感知的多視圖協(xié)同訓練[29],通過空間變換探索3D數(shù)據(jù)的多個視角來引入視圖差異,基于貝葉斯推斷理論在模型中添加dropout,并將未標記樣例多次輸入模型,以估計每個視圖模塊的認知不確定性,并將置信度分數(shù)作為每個視圖模塊預測的權(quán)值。最終未標記樣例的偽標簽將基于不確定性加權(quán)融合不同視圖的輸出。Vashishth等人提出的ConfGCN將不確定性的評估引入基于圖卷積神經(jīng)網(wǎng)絡的半監(jiān)督學習中[30],這一方法以偽標簽均值和方差作為模型參數(shù)進行優(yōu)化,提供了置信度的衡量方式以確定鄰域聚合過程中一個節(jié)點對另一個節(jié)點的影響,從而獲得了更加穩(wěn)定的預測結(jié)果。有學者則關(guān)注到圖的結(jié)構(gòu)不確定性對最終預測的不確定性影響很大,提出了一種基于圖高斯過程的不確定性感知方法(UaGGP),利用預測不確定性和標簽平滑正則項共同指導學習過程[31]。
主動學習是另一種監(jiān)督信息不完全場景下的機器學習范式,其主要思想是借助專家尋求最優(yōu)的查詢策略,通過最小化人工查詢次數(shù)實現(xiàn)模型性能增益的最大化?;诓淮_定性建模的查詢策略是主動學習中最簡單常用的一類方法[32]。這類查詢策略的核心是挑選最不確定該如何標記的樣例交給專家進行標注,以最大化信息收益。
大多基于不確定性建模的查詢策略通過計算模型輸出的信息熵選擇熵較大的未標記樣例作為待標記數(shù)據(jù)[33-34],或選擇偽標記向量μi={μi1,μi2,…,μij,…,μik}中最大概率值分量μi*=argmax(μij)最小的樣例x*進行標注[35],即x*=argmini=1,2,…,n(μi*)。文獻[36-37]則假定偽標記向量μi={μi1,μi2,…,μij,…,μik}表示每個類別的相應隸屬度值,并基于Margin進行樣例挑選,即隸屬度最大μi1和第2大μi2的差值,
x*=arg mini=1,2,…,n(μi1-μi2)。
(17)
μi1和μi2之間的差值小則意味著當前偽標簽的模糊性很大以至于基本無法區(qū)分該樣例。另一查詢策略則基于已有的標簽數(shù)據(jù)訓練出一個委員會集合,并以最小化版本空間為原則挑選未標記樣例,量化委員會集合中各成員的分歧有基于投票熵[19]和基于平均KL散度[38]的方法。Liu等人則基于深度信息網(wǎng)絡將樣例的多樣性和不確定性分別嵌入網(wǎng)絡結(jié)構(gòu)的無監(jiān)督和監(jiān)督微調(diào)階段,綜合考慮樣例的不確定性和多樣性進行優(yōu)化[39]。Ash等人則提出利用多元梯度嵌入進行批量主動學習(BADGE),同時,基于樣例多樣性和預測不確定性之間的權(quán)衡進行優(yōu)化,消除了在批處理中選擇許多相同的不確定實例的失效模式,并且不需要任何超參數(shù)[40]。除此之外,結(jié)合決策理論[41]、基于信息理論的貝葉斯主動學習[42]、貝葉斯圖卷積神經(jīng)網(wǎng)絡[43]等都是基于不確定性建模以增強主動學習性能的有效方法。
在實際應用中由于標注工作量大或標注者的主觀性等原因,很容易造成標注信息存在誤差(噪聲率),標簽帶噪學習(learning with label noise)則是處理數(shù)據(jù)集監(jiān)督信息不準確的有效方法。文獻[44]指出使用標簽帶噪的樣例進行學習的關(guān)鍵在于準確、直接地表征數(shù)據(jù)中標簽噪聲的不確定性。針對標簽帶噪場景設計的算法核心是構(gòu)建一個噪音感知模型,當前主要存在兩種類型的解決方法:基于噪音標簽構(gòu)建特殊的模型結(jié)構(gòu)或訓練方法,以及使用更加魯棒的損失函數(shù)使網(wǎng)絡本身具有更強的抗噪性[45]。
Pc(xi)=1-0.5*e(-r(xi)/2)。
(18)
交叉熵能夠反映同一個隨機變量上兩個不同概率分布的差異程度,在機器學習中常被用做損失函數(shù),衡量給定真實概率分布條件下預測概率分布的偏差。在標簽帶噪場景下,給定的真實概率分布本身便存在一定誤差,設計更魯棒的損失函數(shù)[20,48-51]以構(gòu)建一個能夠容忍標簽噪聲的神經(jīng)網(wǎng)絡成為當前一類主流的方法。有許多研究工作則基于交叉熵損失函數(shù)作出適應性的調(diào)整,以提升模型的抗噪能力[48-49]。如Zhang等人基于標簽存在噪聲的場景下平均絕對誤差(MAE) 損失函數(shù)的魯棒性更強、交叉熵 (CE) 損失函數(shù)的擬合能力更強的結(jié)論,提出廣義交叉熵(GCE)損失函數(shù)[48]:
(19)
(20)
(21)
(22)
(23)
如2.1節(jié)所定義,稱基于候選標簽集合μi=(μi1,μi2,…,μij,…,μik),μij∈{0, 1}表示的訓練數(shù)據(jù)集是監(jiān)督信息不確切的,其中,所有的候選標簽都記為1,但真正的標簽是候選標簽的真子集,因此,候選標簽中存在偽標記。這類弱監(jiān)督問題的關(guān)鍵難點在于訓練數(shù)據(jù)類標簽的不可指定性[53],顯示了不確定性量化在這類問題解決方法中的重要性。針對這種每個對象可同時獲得多個語義標記,但其中僅有一個標記反應了對象真實語義的弱監(jiān)督學習場景,研究者們提出了偏標記學習的概念[54]。
θ*=arg minθ{-∑i∑yp(y|xi)
(24)
(25)
(26)
H(f(xi;θ))=-f(xi;θ)Tlogf(xi;θ)。
(27)
同時,將約束f(xi)≤yi+ε,?i∈[m]作為鉸鏈損失項加入目標函數(shù)中,
α[f(xi;θ)-yi-ε]++βΩ(θ))。
(28)
其中:m為樣例個數(shù),[m]:={1,2,…,m};[·]+=max(·,0);ε>0是一個非常小的常數(shù)值;定義Ω(f)=‖θ‖2控制模型參數(shù)的復雜性;λ,β為超參。
本文從弱監(jiān)督學習的問題描述和具體解決方法兩個層面闡明弱監(jiān)督學習范式與不確定性之間存在關(guān)聯(lián)。以分類熵、模糊集和不可指定性為例,討論弱監(jiān)督場景下的不確定性建模以量化監(jiān)督信息強度。其次,歸整了各類弱監(jiān)督學習場景下基于不確定性建模進行優(yōu)化的具體解決方法,其中,許多研究成果證明了不確定性建模對于解決弱監(jiān)督學習具體問題的有效性?,F(xiàn)有弱監(jiān)督學習方法集中于利用信息熵、交叉熵、模糊集等不確定性的度量方法,結(jié)合貝葉斯推斷理論或集成的方式進行不確定性建模的相關(guān)研究逐步增多,將更具一般性的證據(jù)理論等不確性建模方式引入弱監(jiān)督學習場景也可能成為一種趨勢。結(jié)合不確定性分析理論的弱監(jiān)督學習還有非常廣闊的探索空間,例如,如何建模各類弱監(jiān)督學習范式中不同來源的不確定性,以提升整體性能;如何結(jié)合問題的特性與弱監(jiān)督信息強度的分析,選擇最適用的不確定性建模方法,都是值得探究的問題。