劉大鵬,曹永鋒,張倫
(1.貴州師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,貴陽550025;2.貴州師范大學(xué)大數(shù)據(jù)與計(jì)算機(jī)科學(xué)學(xué)院,貴陽550025)
近些年來深度學(xué)習(xí)在很多領(lǐng)域中都取得了十分顯著的成效[1-3]。其取得顯著效果的前提條件是需要數(shù)以萬計(jì)的帶有標(biāo)簽的樣本,而獲取這些標(biāo)簽(標(biāo)注)需要消耗大量的金錢、時(shí)間和精力,成本十分昂貴。如何利用很少量的標(biāo)注樣本達(dá)到目標(biāo)任務(wù)高性能是急迫解決的難題。
深度遷移學(xué)習(xí)和深度主動(dòng)學(xué)習(xí)是應(yīng)用于深度領(lǐng)域中解決標(biāo)注樣本不足的兩類主流方法。深度遷移學(xué)習(xí)降低了訓(xùn)練樣本必須與測(cè)試樣本獨(dú)立同分布的要求,嘗試將知識(shí)從源域遷移到目標(biāo)域,以提高深度模型的性能[4-5]。從空白開始訓(xùn)練一個(gè)目標(biāo)任務(wù)模型需要大量目標(biāo)域標(biāo)注樣本。而從一個(gè)與目標(biāo)任務(wù)相關(guān)卻不同的源任務(wù)模型開始訓(xùn)練目標(biāo)任務(wù)模型,所需目標(biāo)域標(biāo)注樣本將會(huì)大大減少[6]。此外,源域標(biāo)注樣本還可以直接為目標(biāo)任務(wù)免費(fèi)使用[7-8]。盡管如此,在多數(shù)情況下,將源任務(wù)模型調(diào)整到適應(yīng)目標(biāo)任務(wù)仍然需要較大數(shù)量的目標(biāo)域標(biāo)注樣本。并且從源域中遷移的標(biāo)注樣本的分布可能與目標(biāo)域分布差異很大,造成“負(fù)遷移”,使得模型的性能降低。
深度主動(dòng)學(xué)習(xí)旨在對(duì)未標(biāo)注樣本集進(jìn)行選擇性采樣并標(biāo)注,通過使用最少量代表性的樣本來最大化深度模型的性能,以此減少訓(xùn)練深度模型所需的標(biāo)注數(shù)量[9]。雖然深度主動(dòng)學(xué)習(xí)可以在一定程度上降低訓(xùn)練深度模型需要的標(biāo)注成本,但是想要訓(xùn)練一個(gè)高性能的深度模型仍然需要大量的標(biāo)注樣本。
在解決訓(xùn)練樣本缺乏的問題上,深度遷移學(xué)習(xí)和深度主動(dòng)學(xué)習(xí)各有擅長(zhǎng)與不足。為了更好地解決訓(xùn)練樣本不足的問題,近些年來,有研究者開始將兩種方法進(jìn)行結(jié)合產(chǎn)生了深度遷移主動(dòng)的學(xué)習(xí)方法。一來可以結(jié)合深度主動(dòng)學(xué)習(xí)的思想,解決“負(fù)遷移”的問題;二來也利用了深度遷移學(xué)習(xí)降低深度主動(dòng)學(xué)習(xí)中獲得訓(xùn)練樣本的代價(jià)。本文首先對(duì)深度遷移學(xué)習(xí)和深度主動(dòng)學(xué)習(xí)進(jìn)行歸納,然后總結(jié)最新的深度遷移主動(dòng)學(xué)習(xí)工作,并指出了可行的研究方向。
在深度遷移學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)不需要服從獨(dú)立同分布,并且目標(biāo)任務(wù)模型不需要從零開始訓(xùn)練,這顯著降低了深度模型在目標(biāo)域內(nèi)對(duì)訓(xùn)練樣本量和訓(xùn)練時(shí)間的需求[10]?;谶w移的目標(biāo)形態(tài),可將深度遷移學(xué)習(xí)分為:基于實(shí)例的深度遷移學(xué)習(xí)[5,11-12]和基于映射的深度遷移學(xué)習(xí)[13]。對(duì)深度遷移學(xué)習(xí)的一種稍復(fù)雜的不同形式分類可參考文獻(xiàn)[14]。
(1)基于實(shí)例的深度遷移學(xué)習(xí)
基于實(shí)例的深度遷移學(xué)習(xí)是將源域中與目標(biāo)域相似的樣本遷移到目標(biāo)域中并賦予權(quán)重以輔助目標(biāo)任務(wù)模型訓(xùn)練,越相似的樣本,賦予的權(quán)重就越大。這樣訓(xùn)練出來的模型會(huì)很好地適應(yīng)到目標(biāo)域中。
Wenyuan Dai等人[5]提出了一種集成遷移學(xué)習(xí)框架TrAdaBoost,他們利用了AdaBoost的技術(shù)調(diào)整源域樣本的權(quán)重,來減弱源域中與目標(biāo)域差異性大的樣本對(duì)目標(biāo)任務(wù)模型的影響。在每一個(gè)迭代中,使用重新加權(quán)的源域樣本和有標(biāo)注的目標(biāo)樣本訓(xùn)練模型。實(shí)驗(yàn)證明,即使在目標(biāo)域樣本稀少的情況下,也能借助加權(quán)后的源域樣本構(gòu)建高性能模型。
Xiaobo Liu等人[7]在Wenyuan Dai等人[5]的基礎(chǔ)上進(jìn)行了改進(jìn),增加了重采樣算法——Weighted-Resam-pling。在每次迭代中只從源域挑選權(quán)重值最大的樣本遷移到目標(biāo)域中,并結(jié)合目標(biāo)域中的原始樣本來重構(gòu)訓(xùn)練集。
很多實(shí)例遷移的研究[5,7]都是通過歐氏距離來衡量實(shí)例之間的差異。但是在很多實(shí)際應(yīng)用中歐氏距離并不能很好地表達(dá)實(shí)例之間的相似或差異性,Yonghui Xu等人[12]提出了一種可以很好彌補(bǔ)這一缺陷的度量算法——MIFT。MIFT是一個(gè)多目標(biāo)學(xué)習(xí)框架,可以同時(shí)學(xué)習(xí)源域數(shù)據(jù)的實(shí)例權(quán)值、目標(biāo)域的馬氏距離度量以及目標(biāo)域的最終預(yù)測(cè)模型。
(2)基于映射的深度遷移學(xué)習(xí)
一般地,任意深度神經(jīng)網(wǎng)絡(luò)可以看成是將特定輸入(樣本,樣本對(duì),多源樣本對(duì),…)和特定輸出(預(yù)測(cè)概率,距離測(cè)度值,…)建立的一個(gè)映射?;谟成涞纳疃冗w移學(xué)習(xí)是指利用源域樣本(或者源域和目標(biāo)域的樣本聯(lián)合)訓(xùn)練一個(gè)網(wǎng)絡(luò)模型,并使用該網(wǎng)絡(luò)模型服務(wù)于目標(biāo)任務(wù)(通常會(huì)嵌入到目標(biāo)任務(wù)初始模型內(nèi)部)。根據(jù)訓(xùn)練樣本所用域的個(gè)數(shù),基于映射的深度遷移學(xué)習(xí)再分為:基于單域映射的深度遷移學(xué)習(xí)和基于聯(lián)域映射的深度遷移學(xué)習(xí)。
1)基于單域映射的深度遷移學(xué)習(xí)
基于單域映射的深度遷移學(xué)習(xí)是指對(duì)僅經(jīng)過源域樣本訓(xùn)練的局部網(wǎng)絡(luò)(包括其網(wǎng)絡(luò)結(jié)構(gòu)和連接參數(shù))進(jìn)行重用,將其轉(zhuǎn)變?yōu)槟繕?biāo)任務(wù)模型的一部分。
Yong Xu等人[4]在語音識(shí)別的任務(wù)中設(shè)計(jì)出了一種深度遷移學(xué)習(xí)方法。該方法將DNN神經(jīng)網(wǎng)絡(luò)的隱藏層作為語音識(shí)別的特征提取層,認(rèn)為特征提取層是可以在多種語音之間相互遷移的;最后一層為語音識(shí)別的分類層。其將一個(gè)在樣本豐富的語音樣本集中預(yù)訓(xùn)練的DNN網(wǎng)絡(luò)遷移到樣本稀缺的語音數(shù)據(jù)集上,通過凍結(jié)預(yù)訓(xùn)練模型的特征提取層僅微調(diào)分類器層的方式再訓(xùn)練模型。實(shí)驗(yàn)證明僅使用少量的目標(biāo)樣本就能顯著提高DNN的性能。
Jason Yosinski等人[15]通過實(shí)驗(yàn)量化了深度卷積神經(jīng)網(wǎng)絡(luò)各層神經(jīng)元的一般性與特異性,指出神經(jīng)網(wǎng)絡(luò)中各層神經(jīng)元的可遷移性會(huì)受到兩個(gè)負(fù)面問題的影響:①源任務(wù)模型高層神經(jīng)元學(xué)習(xí)到的是針對(duì)源任務(wù)的特征表示,并不適用于目標(biāo)任務(wù);②凍結(jié)過多的前層微調(diào)后層會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)優(yōu)化困難。對(duì)在ImageNet[16]上訓(xùn)練的示例網(wǎng)絡(luò)的遷移實(shí)驗(yàn)結(jié)果表明,他們證明了這兩個(gè)問題都可能占主導(dǎo)地位,這取決于是否從網(wǎng)絡(luò)的底部、中間或頂部遷移特征。除此之外,實(shí)驗(yàn)結(jié)果還表明即使從很不相似任務(wù)遷移來的網(wǎng)絡(luò)參數(shù)也要比隨機(jī)生成的參數(shù)更好。
Maxime Oquab等人[17]重用了在ImageNet上訓(xùn)練的特征提取層并在后面新添了兩個(gè)全連接層。在微調(diào)模型以適應(yīng)目標(biāo)任務(wù)時(shí),凍結(jié)了在ImageNet上訓(xùn)練的層,只在PASCAL VOC數(shù)據(jù)集中學(xué)習(xí)模型最后兩層參數(shù)。最終研究表明遷移學(xué)習(xí)顯著提高了物體和動(dòng)作的分類結(jié)果。
2)基于聯(lián)域映射的深度遷移學(xué)習(xí)
基于聯(lián)域映射的深度遷移學(xué)習(xí)是指在預(yù)訓(xùn)練中聯(lián)合使用源域和目標(biāo)域的樣本訓(xùn)練網(wǎng)絡(luò)模型,使得網(wǎng)絡(luò)能夠?qū)W習(xí)到使得兩域分布盡可能相近的表示。這樣訓(xùn)練出來的網(wǎng)絡(luò)模型能夠更好地適用于目標(biāo)任務(wù)。
Eric Tzeng等人[18]提出了一個(gè)新的CNN遷移學(xué)習(xí)框架,它引入了適應(yīng)層和域距離損失。在適應(yīng)層中通過MMD[19]的方法計(jì)算兩域的分布距離,通過最小化分類損失和域距離損失以學(xué)習(xí)語義上有意義且域不變的表示形式。
Mingsheng Long等人[20]在Eric Tzeng[18]的基礎(chǔ)上有了改進(jìn):①使用多核變體MMD(MK-MMD[21])距離替換MMD距離;②將在一個(gè)適應(yīng)層中計(jì)算域距離損失替換為在三個(gè)全連接層中計(jì)算域距離損失。
Eric Tzeng等人[22]提出了一種域適應(yīng)的廣義遷移學(xué)習(xí)框架,可以將最近的域適應(yīng)的方法[13,18,20]作為特殊情況包含進(jìn)去。此外,他們還提出了一種新的對(duì)抗判別域適應(yīng)方法AMMD:考慮源域分類損失的同時(shí),通過引入GAN[23]來對(duì)抗學(xué)習(xí)域不變的特征表示,這樣在學(xué)習(xí)域不變表示的同時(shí)能夠?qū)υ从驑颖据^好的分類。
深度主動(dòng)學(xué)習(xí)選擇最有價(jià)值的樣本來查詢其標(biāo)簽,旨在使用少量的樣本訓(xùn)練模型以達(dá)到使用全部樣本訓(xùn)練的效果。一般地,設(shè)計(jì)一個(gè)深度主動(dòng)學(xué)習(xí)框架需考慮三個(gè)主要部分[9,24]:①構(gòu)建初始訓(xùn)練集;②設(shè)置主動(dòng)查詢函數(shù);③迭代訓(xùn)練。對(duì)一般主動(dòng)學(xué)習(xí)(沒有使用深度模型)的詳細(xì)總結(jié)可參考文獻(xiàn)[25]。
(1)構(gòu)建初始訓(xùn)練集
構(gòu)建初始樣本集是深度主動(dòng)學(xué)習(xí)框架的起始階段。根據(jù)初始樣本集可訓(xùn)練得到一個(gè)具備一定分類能力的初始模型,為主動(dòng)挑選樣本做準(zhǔn)備。
構(gòu)建初始樣本集的方法主要有兩種。一種比較常見的是從所有未標(biāo)注樣本的集合中,按照一定的比例隨機(jī)抽取出來并標(biāo)注;Asim Smailagic等人[9]提出一個(gè)新的構(gòu)建方法,他們采用ORB算法構(gòu)造初始樣本集,是為了找到彼此最不相似的圖像,從而覆蓋更大的搜索區(qū)域。
(2)設(shè)置主動(dòng)查詢函數(shù)
設(shè)置主動(dòng)查詢函數(shù)是深度主動(dòng)學(xué)習(xí)框架的核心。主動(dòng)查詢函數(shù)可大致分為以下幾類:基于度量不確定的主動(dòng)查詢函數(shù)、基于度量多樣性的主動(dòng)查詢函數(shù)[26]和基于度量差異性的主動(dòng)查詢函數(shù)[9]。
常見的基于度量不確定的主動(dòng)查詢函數(shù)有:LC[25]、MS[27]、EN[28]。LC是根據(jù)模型對(duì)樣本預(yù)測(cè)的最大概率值對(duì)所有未標(biāo)注樣本進(jìn)行排序;MS是根據(jù)最優(yōu)標(biāo)號(hào)和次優(yōu)標(biāo)號(hào)對(duì)應(yīng)預(yù)測(cè)概率的差值對(duì)所有未標(biāo)注樣本進(jìn)行排序;EN是根據(jù)模型對(duì)樣本預(yù)測(cè)概率的熵值對(duì)所有未標(biāo)注樣本進(jìn)行排序;Keze Wang等人[24]提出了一個(gè)與半監(jiān)督方法相結(jié)合的深度主動(dòng)學(xué)習(xí)方法,其在主動(dòng)查詢時(shí)挑選兩種互補(bǔ)性樣本:高置信度樣本和低置信度樣本,來訓(xùn)練當(dāng)前深度模型。其中當(dāng)未標(biāo)記樣本的預(yù)測(cè)概率高于某個(gè)閾值時(shí)被認(rèn)定為高置信度樣本,低置信度樣本是根據(jù)EN挑選得到的。
Asim Smailagic等人[9]設(shè)計(jì)出了一個(gè)用于醫(yī)學(xué)圖像分割的深度主動(dòng)學(xué)習(xí)方法MedAL,其主動(dòng)查詢函數(shù)基于樣本之間的差異性度量。每次主動(dòng)學(xué)習(xí)迭代都挑選與已有樣本差異最大的樣本來標(biāo)注學(xué)習(xí)。
Zongwei Zhou等人[26]提出了一個(gè)基于度量樣本多樣性的主動(dòng)學(xué)習(xí)方法,其將樣本的多樣性定義為樣本增廣圖片預(yù)測(cè)的一致性。使用自定義的多樣性函數(shù)首先計(jì)算兩個(gè)增廣圖片之間多樣性,然后將樣本所有增廣圖片之間的多樣性指標(biāo)相加得到該樣本的多樣性。
(3)迭代訓(xùn)練
迭代訓(xùn)練是深度主動(dòng)學(xué)習(xí)框架的運(yùn)行環(huán)節(jié),它規(guī)定了如何使用不斷累積的標(biāo)注數(shù)據(jù)訓(xùn)練模型。
在每次主動(dòng)學(xué)習(xí)迭代中,大部分研究都選擇將新標(biāo)注的樣本放回已標(biāo)記樣本池中,然后使用已標(biāo)記池的全部樣本訓(xùn)練分類器[9,26];另一種方式是使用新標(biāo)注樣本和先前可用訓(xùn)練樣本的特定子集[24]。Keze Wang等人[24]用新標(biāo)注的樣本和由模型自動(dòng)偽標(biāo)注的樣本訓(xùn)練模型。自動(dòng)偽標(biāo)注樣本每一輪都會(huì)重新更新,這樣做可以減少錯(cuò)誤的偽標(biāo)記樣本混亂模型。Zongwei Zhou等人[29]在每次迭代中剔除掉在已標(biāo)注池中模型預(yù)測(cè)確置信度的樣本。這樣可以使得模型不再專注學(xué)習(xí)預(yù)測(cè)高的樣本而偏向?qū)W習(xí)那些難以預(yù)測(cè)的樣本。
主動(dòng)遷移學(xué)習(xí)是將主動(dòng)學(xué)習(xí)和遷移學(xué)習(xí)相結(jié)合的方法。如前文所述,遷移學(xué)習(xí)和主動(dòng)學(xué)習(xí)各自包含很多類型的子方法,將這些子方法進(jìn)行結(jié)合會(huì)產(chǎn)生更多變化。本文將主動(dòng)遷移學(xué)習(xí)的方法歸納為強(qiáng)結(jié)合和弱結(jié)合兩種類別(參見圖1)。弱結(jié)合的方法是指:雖然其包含了遷移學(xué)習(xí)和主動(dòng)學(xué)習(xí),但是兩者在發(fā)揮作用時(shí)沒有關(guān)聯(lián)性,其中一種方法作用時(shí)并不需要另一種方法的支撐。相比之下,強(qiáng)結(jié)合的方法是指:主動(dòng)學(xué)習(xí)和遷移學(xué)習(xí)緊密地結(jié)合在一起,彼此在發(fā)揮作用的時(shí)候有著關(guān)聯(lián)性。
圖1 兩種類別的主動(dòng)遷移學(xué)習(xí)方法
有一些研究[30-31]將主動(dòng)學(xué)習(xí)、遷移學(xué)習(xí)與淺層模型進(jìn)行了結(jié)合。Cheng Deng等人[30]通過MS的主動(dòng)學(xué)習(xí)方法從目標(biāo)域未標(biāo)記數(shù)據(jù)集中挑選最具信息量的樣本進(jìn)行標(biāo)注,再結(jié)合源域樣本來訓(xùn)練模型,并且在優(yōu)化函數(shù)中添加MMD正則化項(xiàng)來解決兩域樣本之間存在的域適應(yīng)問題。因?yàn)槠渲鲃?dòng)學(xué)習(xí)部分與遷移學(xué)習(xí)所用的方法沒有聯(lián)系點(diǎn)、均獨(dú)立發(fā)揮作用,所以屬于弱結(jié)合的方法。
Sheng-Jun Huang等人[31]設(shè)計(jì)出一種強(qiáng)結(jié)合的遷移主動(dòng)學(xué)習(xí)方法。此方法主動(dòng)從加權(quán)后的源域樣本中挑選最不確定性以及與目標(biāo)域分布匹配的樣本,其中源域樣本的權(quán)值和主動(dòng)挑選的樣本是在一個(gè)基于分布匹配框架下交替優(yōu)化得到。該方法為“實(shí)例遷移”和“主動(dòng)學(xué)習(xí)”的強(qiáng)結(jié)合。
近些年,開始有少量研究將深度主動(dòng)學(xué)習(xí)和深度遷移學(xué)習(xí)進(jìn)行結(jié)合。Zongwei Zhou等人[26]提出了AIFT深度遷移主動(dòng)學(xué)習(xí)方法。其使用了AlexNet[32]網(wǎng)絡(luò)模型并且遷移了在ImageNet數(shù)據(jù)集中訓(xùn)練的網(wǎng)絡(luò)參數(shù),同時(shí)使用了多樣性與不確定性結(jié)合的主動(dòng)學(xué)習(xí)方法在目標(biāo)域未標(biāo)記池中挑選最具信息量的樣本訓(xùn)練模型。其遷移學(xué)習(xí)部分只是簡(jiǎn)單的“單域映射遷移”,主動(dòng)學(xué)習(xí)部分采用的方法也沒有與遷移學(xué)習(xí)有聯(lián)系點(diǎn),因此是一種典型的弱結(jié)合方法。
Sheng-Jun Huang等人[6]同樣采用了在ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的深度網(wǎng)絡(luò)模型,并且設(shè)計(jì)了動(dòng)態(tài)權(quán)衡獨(dú)特性和不確定的主動(dòng)學(xué)習(xí)方法從目標(biāo)域中挑選樣本。其主動(dòng)學(xué)習(xí)部分需要利用源域樣本在特征層空間的投影點(diǎn)計(jì)算獨(dú)特性指標(biāo),此處加強(qiáng)了主動(dòng)學(xué)習(xí)和遷移學(xué)習(xí)的聯(lián)系,因此該方法屬于強(qiáng)結(jié)合類別。
Cheng Deng等人[8]使用了源域的部分樣本和通過MS主動(dòng)學(xué)習(xí)函數(shù)從目標(biāo)域中挑選得到的最具信息量的樣本聯(lián)合訓(xùn)練在源域中預(yù)訓(xùn)練過的深度模型。其將遷移來的源域樣本與主動(dòng)從目標(biāo)域挑選的樣本組合訓(xùn)練模型,同時(shí)采用主動(dòng)學(xué)習(xí)方法從源域樣本中剔除那些會(huì)影響目標(biāo)模型性能的樣本。這是一種強(qiáng)結(jié)合的深度主動(dòng)遷移學(xué)習(xí)的方法。
本綜述主要對(duì)深度遷移學(xué)習(xí)、深度主動(dòng)學(xué)習(xí)、深度主動(dòng)遷移學(xué)習(xí)三個(gè)領(lǐng)域進(jìn)行了總結(jié)和概述。
深度遷移學(xué)習(xí)和深度主動(dòng)學(xué)習(xí)都可以一定程度上解決標(biāo)注樣本不足的問題,而將深度主動(dòng)學(xué)習(xí)和深度遷移學(xué)習(xí)結(jié)合能夠進(jìn)一步降低標(biāo)注成本。然而,當(dāng)前對(duì)兩者的結(jié)合,即深度遷移主動(dòng)學(xué)習(xí)的研究工作還不多,研究工作的深度和廣度都不夠。例如,多數(shù)工作停留在了“弱”結(jié)合的范疇,而不是“強(qiáng)”結(jié)合范疇;多數(shù)是兩種方法的結(jié)合:如“單域映射遷移”+“主動(dòng)學(xué)習(xí)”[6,26],而很少進(jìn)行三者結(jié)合:如“實(shí)例遷移”+“單域映射遷移”+“主動(dòng)學(xué)習(xí)”[8];稍復(fù)雜的“聯(lián)域映射遷移”還未見與“主動(dòng)學(xué)習(xí)”的結(jié)合。因此,深度遷移主動(dòng)學(xué)習(xí)領(lǐng)域仍存在巨大的探索空間,對(duì)其的研究探索才剛剛開始。