李嘉豪,蔡瑞初
(廣東工業(yè)大學計算機學院,廣州510006)
隨著社會和科技的發(fā)展,人類的活動數據與日俱增。由于數據處理遠不如數據生成高效,各個領域都亟需一種高效的學習方法來處理大量堆積的無標簽數據。大量的研究工作表明,這種問題能夠被無監(jiān)督領域自適應算法[1]有效解決。這種算法能夠把源領域的類別信息遷移到無標注的目標領域中,避免了繁重的標注工作。
目前,分布對齊思想被主流的無監(jiān)督領域自適應算法所采用。一些算法假設目標領域總體分布是源領域總體分布的一個子集,并試圖對樣本重加權或挑選以抽取出一個符合目標領域特性的分布[2-4]。一些算法假設目標領域總體分布是源領域總體分布的一個低維映射,并試圖挑選與領域弱相關的局部特征來對齊領域的低維總體分布[5-7]。這兩種分布對齊方法可以混合使用。最簡單的方法是使用兩個投影矩陣分別加權源領域和目標領域的全體數據集,然后使用一定的策略約束投影矩陣和加權結果的相似性[8-9]。為了使投影矩陣能夠對齊領域總體分布或條件分布,算法需要引入再生核希爾伯特空間,并執(zhí)行核對齊準則[10-11]和分散準則[12-13]。
然而,淺層模型沒有為算法提供一個充足的用于分布對齊的參數空間,算法在面對更為復雜的場景時無法挖掘出足夠的高層分類知識。為此,不少研究工作使用深度學習來完成無監(jiān)督領域自適應任務。部分工作會從神經網絡中劃分一個特征提取器,然后使用最大均值差異對齊不同領域的特征分布差異[14-15]。此外,一些研究工作表明,在基于多任務學習思想設計的神經網絡上,對目標領域重構誤差最小化或對領域判別誤差最大化,能夠幫助算法尋得領域一致的類別空間。兩個領域的特征分布還可以通過對抗學習[20]的形式進行對齊。通過反轉領域判別器到特征提取器的梯度,特征提取器能夠去除源領域和目標領域中的領域專用信息[21-22]。此外,兩個共享權重的生成對抗網絡也能夠對齊生成器的輸出特征分布[23-24]。
不過,這些深度算法經常造成分布差異和分類誤差互相抗衡的局面。該問題主要由總體分布對齊引起的,因為從對齊的總體分布中得到的知識未必就是有效的類別信息,從而無法保證類別信息的有效利用。為此,所提算法使用類內均方偏差(Intra-Class Mean Square Bias)準則對齊兩個領域的類內分布。這種做法會通過模型預測所有領域樣本的偽標簽,然后對齊兩個領域中帶相同偽標簽的數據分布。這種做法能夠最大限度保留源領域的類別信息,并且有效減少源領域中某些專用類別信息的干擾。實驗結果表明所提算法能夠通過類內均方偏差準則有效對齊兩個領域的類內分布,并得到了最佳的性能表現。
本文接下來引入一個風險上界,并以此概括無監(jiān)督領域自適應算法的設計理念,然后從風險上界中引出基于類內均方偏差的無監(jiān)督領域自適應算法。最后把所提算法與一系列對比算法進行比較,以驗證本文所提算法的效果。
領域自適應能夠被一個風險上界所描述。在給定轉換函數g 后,這個風險上界能夠被拆分為兩個部分。第一部分為目標領域的后驗分布pT(Y|g(X))與源領域的后驗分布pS(Y|g(X))之間的差異。第二部分為源領域的后驗分布pS(Y|g(X))與經驗模型的后驗分布q(Y|g(X))之間的差異。這些分布差異可以定義為L1距離,即給定任意轉換函數g 和領域D ∈{S,T}后,后驗分布p(Y|g(X))和q(Y|g(X))之間的差異被定義為:
定理1 如果給定轉換函數g 和源領域S 后,源領域的后驗分布pS(Y|g(X))與經驗模型的后驗分布q(Y|g(X))之間的差異被量化為?S( )g,q,pS,那么同理可得,并且有不等式:
由定理1 知,若目標領域的后驗分布pT(Y|g(X))與源領域的后驗分布pS(Y|g(X))之間的差異Δ 足夠小,那么對齊源領域的后驗分布pS(Y|g(X))與經驗模型的后驗分布q(Y|g(X))才有意義,因為q(Y|g(X))能夠逼近pT(Y|g(X))。不過,若使用有監(jiān)督模型來擬合源領域的后驗分布,那么q(Y|g(X))逼近pT(Y|g(X))的程度有限。因為Δ 無法得到優(yōu)化。為此,無監(jiān)督領域自適應任務會借助目標領域中的無標簽樣本最小化Δ,從而使q(Y|g(X))進一步逼近pT(Y|g(X))。根據Δ 的形式,對齊兩個領域的總體分布πS(g(x))和πT(g(x))能夠達到最小化Δ 的效果。于是,無監(jiān)督領域自適應算法有兩個任務:①使用任意的有監(jiān)督模型來擬合源領域的后驗分布;②使用一個評估函數量化并對齊兩個領域的總體分布差異。
根據上一節(jié)的討論,算法需要借助評估函數對齊領域總體分布πS(g(x))和πT(g(x))。一種有效的評估函數是均方偏差準則,即MSB(Mean Square Bias)。它的定義如下:
其中,μS和μT分別為g(x )在兩個領域上的期望。為了在數據集上評估分布差異,均方偏差準則有經驗評估:
然而,定理1 表明,如果算法使用均方偏差準則對齊總體分布,那么模型可能無法避免分類信息的流失。由于模型與源領域的后驗分布差異還影響到后驗分布差異Δ,對齊領域總體分布有可能造成經驗模型的后驗分布無法逼近源領域的后驗分布,從而增大后驗分布差異Δ。為此,算法轉而對齊兩個領域的類內分布。根據式(1),針對類別c 的均方偏差可以定義為:
綜合上述討論,基于類內均方偏差的無監(jiān)督領域自適應算法有以下目標函數
其中,損失函數L 采用均方誤差或Softmax 函數等。超參λ 決定ICMSB 正則項的誤差貢獻程度。
根據式(2)的目標函數形式,算法有兩個任務。第一個任務是對分類器f 和特征提取器g 進行優(yōu)化,從而最小化源領域分類誤差。第二個任務是對特征提取器g 使用ICMSB 進行優(yōu)化,從而對齊類內分布。這里需要說明一點,為了減少內存占用,算法在每個迭代I最小化以下形式的ICMSB 正則項。
其中,集合C 代表兩個領域的類別空間。
考慮到目標領域的類別空間在無監(jiān)督場景下無法被訪問,并且源領域和目標領域都存在領域專用的類別信息,因此輸入到ICMSB 正則項的樣本都帶有偽標簽。除此之外,考慮到未收斂模型的弱分類能力會造成某類偽標記樣本不夠充足,因此算法需要對偽標記樣本進行過采樣。整個過采樣流程主要由閾值τ 和α控制。詳細地說,當兩個領域的同類偽標記樣本個數都不低于τ 時,算法分別對采樣α 次。否則,算法分別對原始數據XS和XT采樣α 次??傊瑹o論哪種采樣方式被算法執(zhí)行,這套過采樣流程都會額外產生兩個樣本集和。最后,為了保證模型收斂,所提算法計算以下梯度縮放率。
基于上述目標函數的形式,神經網絡結構的設計如圖1 所示。整個算法流程有四個步驟。第一步預測兩個領域中所有樣本的偽標記。第二步對偽標記樣本執(zhí)行過采樣流程,并得到第三步評估類內分布差異和分類誤差。第四步更新并學習分類器f 的參數θf和特征提取器g 的參數θg。這些參數的更新幅度由學習率η 控制。
圖1 神經網絡結構
綜上所述,基于類內最大均方偏差的無監(jiān)督自適應算法有以下訓練過程:
(1)對于當前迭代I:
(2)c ←I mod|C|
(4)mc←0,nc←0
(5)對于每個下標i=1,2,…,m,若xi帶有偽標簽c:
(7)對于每個下標j=1,2,…,n,若x?j帶有偽標簽c:
(9)如果mc≥τ 并且nc≥τ:
(11)否則,分別從XS和XT中采樣α 次,得到和
為了比較所提算法與主流算法,本文采用精度(Accuracy)指標來量化所有算法的性能表現。由于使用神經網絡對目標函數進行建模,所提算法被部署到CAFFE[25]深度學習框架中。
考慮到對比實驗的公平性,所有實驗均使用OFFICE-31 圖片數據集①下載地址為https://pan.baidu.com/s/1o8igXT4#list/path=%2F。OFFICE-31 包含三個領域,分別為AMAZON、DSLR 和WEBCAM。這些領域都包含31 種類別的圖片。其中,AMAZON 包含2817 張圖片,DSLR 包含498 張圖片,WEBCAM 包含795 張圖片??紤]到OFFICE-31 的數據形式,所有算法都在六種領域自適應場景中驗證它們的有效性。這六種場景分別為‘A2W’、‘W2A’、‘A2D’、‘D2A’、‘W2D’和‘D2W’。其中,‘2’之前的字母代表源領域,剩余的字母代表目標領域。
為了更好地展示所提算法的優(yōu)越性,實驗選用了四個主流對比算法,分別為GRL[18]、DRCN[16]、DAN[15]和DDC[14]。其中,GRL 通過最大化領域預測錯誤率來尋找一致的類別空間,DRCN 借助自動編碼器對齊隱層特征的類別空間。DAN 和DDC 均采用最大均值差異(Maximum Mean Discrepancy,MMD)對齊領域分布,其中前者使用單核MMD,后者使用多核MMD。
同時,所有算法的網絡骨架均采用AlexNet[26],見圖2。對比算法中的正則項及超參數維持原論文公布的設計。所提算法的正則項采用ICMSB 的設計,并受四類超參數控制。第一類超參數是初始學習率η0及其退火策略,主要控制模型的迭代優(yōu)化量。由于OFFICE-31 數據集充滿背景噪聲,為了不影響模型收斂,算法采用初始學習率較小的退火策略來調整學習率,即η0被設為0.001,并在每個迭代I 計算以下學習率η。
第二類超參數是迭代周期數,主要控制模型的更新次數。由于使用了較小的學習率,算法把迭代周期數設定為50000,即I 的取值不能超過50000。根據設定,算法使用隨機梯度算法對模型中的所有參數更新50000 次。第三類超參數是正則項權重λ,主要影響正則項對整體目標函數的誤差貢獻。由于ICMSB 自帶縮放功能,正則項權重λ 被設定為1.0。第四類超參數是閾值τ 和α,主要控制算法的過采樣邏輯。在本文實驗中,它們被設定為7 和64。亦即,當兩個領域都有7 個同類偽標記樣本時,算法對這些樣本采樣64 次。
圖2 具體網絡結構
在OFFICE-31 數據集上,將所提算法與GRL、DRCN、DAN、DDC 相比較,并得到以下實驗結果。
表1 OFFICE-31 上的算法精度比較
由表1 可知,在所有的領域自適應場景下,ICMSB的精度都高于主流算法。這是因為ICMSB 只對齊兩個領域的類內分布,避免了傳統算法的類別信息流失問題。由于其他算法在對齊總體分布時總是過多地流失類別信息,這些對比算法的實驗精度都不及ICMSB。顯然,對齊總體分布會削弱模型對目標領域的預測能力。
值得說明的是,所有算法在‘W2D’和‘D2W’自適應場景中都有良好的表現。這是因為DSLR 和WEBCAM 的原始數據分布是十分接近的。此外,GRL 和DRCN 分別在‘W2A’和‘A2W’場景中表現遠遠不及ICMSB,但GRL 和DRCN 分別在‘A2W’和‘W2A’場景中表現接近ICMSB。這表明對齊總體分布不一定流失太多的類別信息。此外,在所有自適應場景中,DAN 的精度都高于DDC。這表明多核MMD 能夠有效保留源領域的類別信息。
針對傳統算法的類別信息流失問題,本文提出了一種基于類內均方偏差的無監(jiān)督領域自適應算法。這個算法能夠對齊不同領域的類內分布。得益于這種類內分布對齊的設計,算法有效保留源領域中具備遷移能力的類別信息,從而獲得優(yōu)于主流算法的性能表現。