陳穎,于炯,*,陳嘉穎,杜旭升
(1.新疆大學 軟件學院,烏魯木齊 830091; 2.新疆大學 信息科學與工程學院,烏魯木齊 830046)(?通信作者電子郵箱yujiong@xju.edu.cn)
基于交叉層級數(shù)據(jù)共享的多任務模型
陳穎1,于炯1,2*,陳嘉穎2,杜旭升2
(1.新疆大學 軟件學院,烏魯木齊 830091; 2.新疆大學 信息科學與工程學院,烏魯木齊 830046)(?通信作者電子郵箱yujiong@xju.edu.cn)
針對多任務學習模型中相關度低的任務之間存在的負遷移現(xiàn)象和信息共享困難問題,提出了一種基于交叉層級數(shù)據(jù)共享的多任務模型。該模型關注細粒度的知識共享,且能保留淺層共享專家的記憶能力和深層特定任務專家的泛化能力。首先,統(tǒng)一多層級共享專家,以獲取復雜相關任務間的公共知識;然后,將共享信息分別遷移到不同層級的特定任務專家之中,從而在上下層之間共享部分公共知識;最后,利用基于數(shù)據(jù)樣本的門控網絡自主選擇不同任務所需信息,從而減輕樣本依賴性對模型的不利影響。相較于多門控混合專家(MMOE)模型,所提模型在UCI census-income數(shù)據(jù)集上對兩個任務的F1值分別提高了7.87個百分點和1.19個百分點;且在MovieLens數(shù)據(jù)集上的回歸任務的均方誤差(MSE)值降低到0.004 7,分類任務的AUC值提高到0.642。實驗結果表明,所提出的模型適用于改善負遷移現(xiàn)象的影響,且能更高效地學習復雜相關任務之間的公共信息。
多任務學習;信息共享;負遷移;神經網絡;遷移學習
多任務學習在一個模型之中同時學習多個不同任務,能通過任務之間的信息遷移有效提升模型學習效率[1],目前已廣泛應用于自然語言處理、機器翻譯、計算機視覺等領域[2-6]。通過對模型進行正則化或改進任務之間的遷移學習以提升模型預測能力仍是現(xiàn)有多任務學習研究的主流方向。然而,由于現(xiàn)實世界中的多任務之間關系復雜甚至相互沖突,這將導致模型性能顯著下降,即負遷移現(xiàn)象,同時,Tang等[7]提出的seesaw現(xiàn)象也是多任務模型面臨的一個難點,眾多模型[1,8-10]性能均受該現(xiàn)象影響。為改善負遷移現(xiàn)象,研究者們就如何更有利地學習任務之間的公共信息做了大量工作,如:Cross-stitch網絡[9]、Sluice網絡[10]等提出了學習靜態(tài)線性聯(lián)合來融合不同任務高維表征,但卻未考慮樣本獨立性對相應任務的影響;多門控混合專家(Multi-gate Mixture-Of-Experts, MMOE)模型[8]基于輸入樣本聯(lián)合底層專家,為每個任務設置了一個門控網絡,使樣本的線性轉換作為門控網絡選擇底層專家的權重,從而使每個任務均依賴于相應樣本空間,但該模型忽略了專家之間的差異性和交互性,即對每個專家一視同仁,不同任務使用相同的專家輸出,這將受到seesaw現(xiàn)象的影響;PLE(Progressive Layered Extraction)模型[7]既考慮了樣本獨立性,也對共享專家和特定任務專家進行了分離,從而有效提升了模型的預測能力,減輕了負遷移和seesaw現(xiàn)象的影響,但對于共享專家而言,深層次知識抽取會提升其泛化能力從而給共享知識加入噪聲,背離其提取底層表征中公共知識的初衷,且特定任務專家學習共享知識只能通過門控網絡,公共知識的重要度僅依賴于輸入樣本,因此,特定任務專家無法深入學習共享信息。
針對上述問題,本文提出了能在不同層級專家內部進行遷移學習的交叉層級數(shù)據(jù)共享多任務(Cross-Layer Shared multi-task, CLS)模型。該模型利用特定的門控網絡建模任務對樣本空間的依賴性;同時,分離特定任務專家和共享專家,不同任務除使用相同的共享專家外,亦有獨立的特定任務專家學習特定信息;最后,統(tǒng)一多層級共享專家,將共享專家學習到的先驗知識以特定的路由方式傳輸給不同任務的不同層級的專家,使不同層級的專家使用部分共享專家內部相同層級的輸出,既準確記憶公共知識,亦使任務不絕對依賴門控網絡,從而深入學習共享信息。在兩個真實公開數(shù)據(jù)集以及一個合成數(shù)據(jù)集上的實驗結果表明,CLS模型的性能優(yōu)于基線多任務模型,驗證了其有效性和可行性。
本文的主要工作如下:1)利用先驗知識捕獲任務之間的公共信息,并將信息遷移到不同的特定任務專家之中,提出了層級共享路由機制;2)保留淺層共享專家的記憶能力和深層特定任務專家的泛化能力,統(tǒng)一多個層級的共享專家,提出了交叉層級共享網絡;3)引入門控單元,聯(lián)合交叉層級共享網絡,提出了可挖掘深層語義信息的CLS模型。
深度學習背景下,多任務模型通常使用隱藏層的硬參共享或軟參共享來學習任務之間的關系,其中,最基本的模型是硬參共享模型[1]。
硬參共享模型是最常用的多任務學習方法,其在所有任務中使用相同的隱藏層,并同時對特定任務保留不同的輸出層。硬參共享模型顯著降低了過擬合的風險,當需要學習的任務越多,模型就越需要找到一個能捕獲所有任務信息的表示,在原始任務上出現(xiàn)過擬合的可能性就越?。坏谌蝿罩g相互沖突時,該模型容易受到負遷移帶來的不利影響。針對該問題,Cross-stitch網絡[8]、Sluice網絡[9]等提出了學習線性組合的權值,從而使任務有選擇性地融合其余任務的信息;然而這些模型中不同任務的高維表征用相同的靜態(tài)線性權重聯(lián)合會出現(xiàn)seesaw現(xiàn)象。
軟參共享模型中,每個任務均有其自身的模型以及參數(shù),通過對模型參數(shù)之間的距離進行正則化使參數(shù)盡可能相似[11],或利用門控網絡和注意力網絡來做信息融合以提高預測精度。Jacobs等[12]最早提出了將門控網絡應用于聯(lián)合底層專家的模型,但沒有考慮任務之間樣本的區(qū)別;因此文獻[8]中針對每個任務設置一個門控網絡,明確地從數(shù)據(jù)中建模任務關系以優(yōu)化每個任務;Ma等[13]利用AutoML(Automated Machine Learning)技術提出了一種新的子網路由框架,通過二進制隨機變量來控制子網之間的連接,并使用神經架構搜索[14]來探索最優(yōu)結構,以在保持多任務模型計算性能的同時實現(xiàn)更加靈活的參數(shù)共享。在此基礎上,多層級的多任務模型被提出,用于挖掘高維數(shù)據(jù)深層語義信息,如ML-MMOE(Multi-Layer MMOE)、PLE等。
此外,一些具備更高效共享學習機制的其他多任務模型也被研究者研究[15-17],如:Hadash等[18]提出了一個同時學習排序任務和評級任務參數(shù)的多任務框架,通過共享底層表示改進了文獻[1]中的文本推薦任務;Akhtar等[19]利用多任務框架和任務之間的相關性,將多任務模型應用于推薦系統(tǒng)以分析用戶的多種情感,從而提升多任務學習性能;Zhao等[20]為能捕捉任務之間的差異、有效優(yōu)化多個目標,引入了基于輸入樣本的門控網絡[8],但該門控網絡無差別地對待所有專家,只通過控制門控網絡的權重參數(shù)優(yōu)化不同目標,很難解決復雜相關任務之間的信息共享[11]。CLS模型準確分離共享專家和特定任務專家,對于相關度復雜的任務,不絕對依賴于專家頂端的門控網絡與共享專家進行交流,共享信息在專家內部即能進行學習,從而更細粒度、簡單且高效地學習公共知識,有效減輕負遷移現(xiàn)象。
交叉層級共享網絡的核心思想是在每個專家的內部均對公共知識進行學習,不同層級專家學習部分相同的共享信息。前者將共享專家學習到的公共信息以層級共享路由方式映射到不同層級的特定任務專家之中,不同層級的特定任務專家即可更深入地學習共享信息,從而更有利于信息共享和信息交流;后者可保留淺層共享專家的記憶能力,亦可維持特定任務專家的泛化能力。然后,使用了一個高效的門控網絡,該門控網絡能夠自主學習選擇怎樣的共享信息來提高模型性能。最后,結合交叉層級共享網絡和高效的門控網絡,提出了交叉層級數(shù)據(jù)共享多任務模型。
對于復雜且相互競爭的任務,僅利用門控網絡學習共享專家公共知識,可能會導致特定任務專家受到不必要的參數(shù)干擾。利用共享專家和特定任務專家之間知識的層級共享,可以更加細粒度地學習共享信息,任務相關度高時,能更準確地學習不同任務之間的公共信息;任務相關度低時,公共知識也能作為特定任務專家每層的輸入數(shù)據(jù)來進行學習,對于不需要共享的沖突信息,特定任務專家學習過程中只需給予其更低的重要度,即可降低干擾信息的影響,不再增加額外計算成本。這樣既能充分利用共享專家學習到的不同任務間的共享信息,更是弱化了門控網絡的作用,減輕了共享信息僅能通過門控網絡選擇而導致的依賴性。
在交叉層級共享網絡中,所有專家使用相同的底層輸入表征,在輸入表征之上分離建模特定任務專家組件和共享專家組件,特定任務知識和公共知識在不同專家內部通過訓練自動學習,無需人為區(qū)分。以兩個任務的情況為例,如圖1所示,輸入層之上,分為TaskA、TaskB的特定任務專家組件,其中間灰色標志組件為共享專家。TaskA中,每兩個層級的特定任務專家共享一個層級的共享專家,如ExpertA1、ExpertA2兩者共用一個共享專家中的輸出數(shù)據(jù),共享專家的層數(shù)由特定任務專家的層數(shù)決定。共享專家中所有會在不同層級的特定任務專家中重復使用的數(shù)據(jù)已在圖1中用虛線箭頭標出。對于ExpertA1、ExpertA2,其輸入層均不使用共享專家中的輸出數(shù)據(jù),ExpertA1的Layer2和ExpertA2的Layer4使用專有的共享專家輸出數(shù)據(jù)。因此,對于具有K個任務的交叉層級共享網絡,第k個任務的輸出為:
其中:wk為第k()個任務輸出層的可訓練參數(shù);x為輸入表示;Ck(x)是由前層神經網絡和共享專家最后一層神經網絡的輸出組成的向量。
圖1 交叉層級共享網絡Fig. 1 Cross-layer shared network
共享專家的神經網絡層數(shù)由特定任務專家決定,兩者層數(shù)相等。例如,當一個網絡具有兩層專家,每個專家具有三層神經網絡時,共享專家神經網絡的層數(shù)同為三層,所以,第一層特定任務專家的輸入依次為:(x,concat(Ek(1,1),),,其中,Ek(i,j)表示第k個任務第i層專家的第j層神經網絡的輸出,表示共享專家第l層神經網絡的輸出,此處默認mk和ms的值為1。同理可得,第二層特定任務專家的輸入依次為:(),concat(Ek(2,1),),concat(Ek(2,2),)),而對于每一層特定任務專家的輸入,其為前一層特定任務專家的輸出與相應共享專家的輸出。
在此,定義不同層級專家的共享率p為:
其中:Q表示共享專家的神經網絡層數(shù);q表示用于層級共享的隱藏層層數(shù)。p表示:在共享專家所有層的輸出數(shù)據(jù)中,為同一任務不同層級專家共享的數(shù)據(jù)所占總數(shù)據(jù)的比例。當特定任務專家只有單層神經網絡時,共享專家的輸出數(shù)據(jù)不傳給任何一個特定任務專家,此時模型退化為單任務模型,共享率為0;當其具有兩層神經網絡時,同一任務的每層特定任務專家具有不同的共享專家輸出數(shù)據(jù),共享率為0,由此往后,層數(shù)增加,共享率增加。
交叉層級共享網絡采取共享專家和特定任務專家分離的方法,使得不同類型的專家能夠專注地學習所需要學習的知識,即:共享專家專注學習不同任務之間的公共知識,特定任務專家分別學習不同任務所需信息,消除共享知識和特定任務知識之間的參數(shù)沖突帶來的不利影響。這意味著,每個任務都會影響共享專家的參數(shù)取值,以及時調整共享專家內部公共特征學習的權重,而特定任務專家的參數(shù)取值只受到相應任務的影響。采用交叉層級共享方法后,特定任務專家內部每一層神經網絡都可以學習到部分公共知識,從而能更加細粒度地學習松散相關任務間的公共知識,且無需付出高昂的計算代價,對相互沖突的任務也不會引入更多的無關信息。此外,還聯(lián)合了不同層級專家之間的信息共享,保留淺層神經網絡的記憶能力,充分利用共享信息,緩解參數(shù)爆炸和共享信息抽象化、復雜化給模型性能帶來的不利影響。
考慮到不同任務對輸入數(shù)據(jù)樣本空間的依賴性,在每層專家的輸出層后加了一個定制共享門控網絡[7],網絡結構如圖2所示。
圖2 門控網絡模型Fig. 2 Gated network model
不同于MMOE簡單地使用輸入數(shù)據(jù)的線性轉換來建模不同專家的權重,該門控網絡通過對輸入層數(shù)據(jù)的加權來控制不同專家的重要度,能靈活選擇共享專家傳遞的共享信息。在該門控網絡中,輸入層的數(shù)據(jù)經過單層前饋神經網絡和softmax激活函數(shù)后,作為門控網絡選擇矩陣的權重,從而靈活地學習需要的共享知識,第k個任務的門控網絡的輸出為:
其中:E(k,mk)表示第k個任務的第mk個子網的輸出;表示共享專家中第ms個子網的輸出。
最終,第k個任務Tower層的輸出為:
其中tk表示任務k的Tower層。
門控網絡作用于每個特定任務專家的頂層,靈活選擇特定任務專家的輸出信息和共享專家的輸出信息。任務之間的相關度較高時,門控網絡會給予共享專家輸出信息更高的權重。當任務相關度較低時,門控網絡便會選擇性地將共享信息重要度降低,從而使特定任務專家能夠專注地學習所需知識,不會因為接收到的無關信息降低模型性能。
簡單的交叉層級共享網絡無法更深層次地抽取輸入表征中高階的語義信息,為解決該問題,設計了一個CLS模型。在該模型中,所有專家被分為特定任務專家和共享專家,門控網絡被應用于每個任務每個專家的頂層。如圖3所示,每個任務的共享專家和特定任務專家均由多個子網組成,并在專家內部所有子網的不同層級之間實現(xiàn)信息共享,除每個專家的頂層門控網絡與子網內部層級共享策略不同以外,所有特定任務專家與共享專家之間的信息共享策略均相同。
圖3 多層級CLS模型Fig. 3 Multi-layer CLS model
CLS模型中特定任務專家與共享專家的數(shù)據(jù)聯(lián)合方法同交叉層級共享網絡相同,每個專家頂層的門控網絡共享策略已經在2.2節(jié)提到。因此,在交叉層級多任務模型中,第k個任務第n()層的輸出為:
其中:wk,n為第k個任務第n層交叉層級網絡以為輸入的可訓練參數(shù);為前一層交叉層級網絡的輸出;為第k個任務第n層的選擇矩陣,需要注意的是,共享專家的選擇矩陣與特定任務專家的選擇矩陣不同,其為所有任務的輸出向量和共享專家的輸出向量組合而成,組合方式同式(6)相同,不再贅述。
因此,模型中任務k的最終輸出為:
CLS模型通過共享專家與特定任務專家內部的信息交流,使得不同層級之間的專家也能對相同的共享信息進行學習。將不同任務之間的信息交互分布于每個專家內部,能更加高效地學習共享信息,減輕任務之間復雜相關度對特定任務專家知識學習的影響。
CLS模型主要關注更加高效的知識共享,為了驗證其性能,將CLS模型在合成數(shù)據(jù)集、UCI census-income數(shù)據(jù)集和MovieLens數(shù)據(jù)集上和基線模型進行對比。由于現(xiàn)實世界中多任務模型常應用于不同任務類型的場景中,如兩個任務分別為分類任務和回歸任務,因此還在不同任務類型上對模型進行了實驗。此外,還分析了門控網絡對于模型性能的影響以及CLS模型在不同任務相關度上的表現(xiàn),進一步驗證了CLS模型在共享知識學習和改善負遷移現(xiàn)象上的有效性。
3.1.1 數(shù)據(jù)集
Synthetic Data是基于控制任務相關度而從系統(tǒng)中生成的數(shù)據(jù)[8],在本文實驗中,依照文獻[8]中原有的數(shù)據(jù)生成規(guī)則,使αi和βi服從N(0,0.01)的正態(tài)分布,設置。同時,如表1所示,共包含兩部分合成數(shù)據(jù),在驗證模型性能時,共生成120萬條數(shù)據(jù)樣本,其中100萬條為訓練數(shù)據(jù),10萬條為驗證數(shù)據(jù),其余數(shù)據(jù)為測試數(shù)據(jù)。
在驗證任務相關度對模型性能的影響時,共使用了12萬條數(shù)據(jù),任務相關度分別設置為[0.2,0.5,0.8,1],訓練集、驗證集、測試集的數(shù)據(jù)分配策略同上。
表1 實驗中使用的合成數(shù)據(jù)集Tab. 1 Synthetic datasets used in experiments
3.1.2 對比模型
將本文提出的交叉層級數(shù)據(jù)共享多任務(CLS)模型與以下模型進行對比:
1)Shared-bottom模型[1]。該共享底層模型是廣泛應用于多任務模型中的方法,其基本理念是使不同的任務共享一個知識抽取網絡,僅tower層輸出相分離。
2)MMOE模型[8]。該模型提出對每個任務使用基于輸入樣本的門控單元控制每個專家的重要度,從而使不同的任務在同一個專家上具備一定的選擇能力。
3.1.3 實驗步驟
合成數(shù)據(jù)集上一共進行了兩個實驗:
1)第一個實驗的目的是為了評估在大規(guī)模數(shù)據(jù)集上模型的性能,因此依照合成數(shù)據(jù)的生成方式[8],共生成了120萬條數(shù)據(jù)。實驗過程中,為保證公平性,使共享底層模型設置為一個三層[256,128,64]的多層感知機(Multi-Layer Perceptron, MLP)網絡;MMOE的神經元個數(shù)及專家個數(shù)的參數(shù)設置依照原文獻中的實驗結果,分別為16和8;CLS模型中需要調整的參數(shù)為每個專家神經元個數(shù),在保證模型不過擬合或欠擬合的情況下進行參數(shù)調整,最終一共設置兩層專家,共享率為2/3,每個專家為兩層的神經網絡,每層網絡及門控網絡神經元個數(shù)均為16。同時,保證共享底層模型、MMOE、CLS的模型參數(shù)依次減少,其中CLS模型的參數(shù)個數(shù)少于任何一個對比模型。對于每個模型,其任務相關度(即皮爾遜相關系數(shù))為0.6,所有模型初始學習率為0.000 01,迭代次數(shù)為300。
2)第二個實驗的目的是驗證不同任務相關度對模型性能的影響。此實驗中,對MMOE和CLS模型進行了對比實驗,任務相關度依次控制為[0.2,0.5,0.8,1]。針對每個任務相關度生成了12萬條數(shù)據(jù),其中MMOE中設置8個專家,每個專家4個神經元,CLS模型具有兩層專家,每個專家均為兩層神經網絡,每層8個神經元。模型用Adam優(yōu)化器進行訓練,學習率從[0.000 1,0.001,0.01]中進行網格搜索。CLS的模型參數(shù)少于MMOE的模型參數(shù),迭代次數(shù)為300。
在第一個實驗中,統(tǒng)計了隨著迭代次數(shù)的增加,各模型在大規(guī)模數(shù)據(jù)上均方誤差(Mean Square Error, MSE)值的變化。在第二個實驗中,同樣用MSE值來衡量不同任務相關度對不同模型性能的影響。
3.1.4 結果分析
在合成數(shù)據(jù)1上的實驗結果如圖4所示。從圖4可以看出,所有任務中共享底層模型的表現(xiàn)較不理想。隨著迭代次數(shù)的增加,所提模型的MSE值均低于MMOE模型,保持良好的效果,而且MSE值的波動較為平穩(wěn),模型性能較為穩(wěn)定。這表明,相較于MMOE和共享底層模型,CLS模型中的交叉層級數(shù)據(jù)共享并未給特定任務專家引入過多噪聲,在大規(guī)模數(shù)據(jù)上具有較好的表現(xiàn),具備處理超大規(guī)模數(shù)據(jù)的能力。
圖4 三種模型的MSE比較Fig. 4 MSE comparison of three models
關于任務相關度對模型性能的影響如圖5所示。在這個實驗中,比較了MMOE模型和CLS模型在不同任務相關度上的表現(xiàn),可以看出:
1)任務相關度較低時,MMOE模型表現(xiàn)不佳;而對于所提出的模型,任務相關度對模型性能的影響不明顯。這表明,即使在相關度低的任務上,因為對共享信息的充分學習,所提模型的性能未受影響,不同任務之間相互沖突的信息亦并未造成負遷移現(xiàn)象。
2)在不同相關度、不同任務上,所提出模型的表現(xiàn)均優(yōu)于MMOE。即使具備更少的可訓練參數(shù),所提出CLS模型的性能均超過具備更多可訓練參數(shù)的MMOE模型。
圖5 不同模型在不同相關度上的性能比較Fig. 5 Performance comparison of different models with different correlations
3.2.1 數(shù)據(jù)集
UCI census-income數(shù)據(jù)集:該數(shù)據(jù)集是從1994年美國人口普查數(shù)據(jù)庫中抽取得到,包含299 285個成年人的統(tǒng)計數(shù)據(jù)實例,共計40個特征。為了驗證多任務模型的效果,將其兩個任務標簽分別設置為Income和Marital status,前者預測其年收入是否大于$50 000,后者預測其婚姻狀況,兩個任務均為分類問題,其相關度為0.176 8[8]。
MovieLens數(shù)據(jù)集:該數(shù)據(jù)集是推薦系統(tǒng)領域廣泛使用的數(shù)據(jù)集,包含943個用戶對1 682部電影的100 000條評分(1~5分),其中每個用戶對不同電影的評分數(shù)據(jù)不少于20條。在此數(shù)據(jù)集中,訓練集和測試集數(shù)據(jù)的比例為7∶3;將對用戶的年齡預測視為回歸任務,用戶對電影的評分預測視為分類任務,即當評分大于3時,表示用戶喜歡這部電影,否則為不喜歡該電影,其任務相關度約為0.055。表2給出了兩個數(shù)據(jù)集在實驗中的數(shù)據(jù)分布細節(jié)。
表2 實驗中使用的真實數(shù)據(jù)集Tab. 2 Real datasets used in experiments
3.2.2 對比模型
Single-task[21]:使用兩個分離的MLP網絡來分別預測不同任務,該模型中兩個任務具有相同的輸入數(shù)據(jù)。
Cross-stitch模型[9]:該模型使用兩個交叉共享單元學習兩個任務之間的公共知識,一個系數(shù)矩陣來學習不同任務隱藏層的輸出,通過自動調整系數(shù)矩陣中參數(shù)的值控制不同任務之間的共享知識學習。
PLE模型[7]:該模型分離特定任務專家和共享專家,并使用門控網絡選擇性地學習共享專家和特定任務專家的知識。
CLS-0:本文提出的交叉層級共享網絡,為了驗證交叉層級共享網絡的作用,在此網絡中使用的門控單元與MMOE中相同,其余數(shù)據(jù)共享和輸出與2.1節(jié)提到的相同。
此外,對比模型還包括共享底層模型、MMOE模型以及本文提到的CLS模型。
3.2.3 實驗步驟
在兩個真實數(shù)據(jù)集上進行了對比實驗,第一個為UCI census-income數(shù)據(jù)集,在這個數(shù)據(jù)集上,對比了單任務模型、共享底層模型、Cross-stitch模型以及MMOE模型。為驗證交叉層級共享網絡的作用,同時比較了CLS-0和CLS的模型性能。本文實驗中,對比模型的參數(shù)均參照原文獻中針對相應數(shù)據(jù)集得出的最佳結果,CLS-0和CLS中需要調整的參數(shù)包括神經元個數(shù)。根據(jù)文獻[7-8]中所用對比模型在該數(shù)據(jù)集上的參數(shù)設置,單任務模型和共享底層模型均為一個三層的MLP網絡,其神經元個數(shù)依次為[32,16,8],Cross-stitch模型、CLS-0和CLS的神經元個數(shù)為32,MMOE設置8個專家,每個專家4個神經元,PLE模型依照原文獻設置兩層專家網絡,每個專家為單層神經網絡,包含16個神經元。所有模型初始學習率為0.001,迭代次數(shù)為400。
第二個數(shù)據(jù)集為MovieLens數(shù)據(jù)集,在這個數(shù)據(jù)集上對比了共享底層模型、Cross-stitch模型、MMOE模型以及PLE模型和本文提出的CLS-0、CLS模型。共享底層模型為[128,64,32]的三層神經網絡,MMOE、PLE和Cross-stitch模型的參數(shù)設置同上不變,CLS和CLS-0模型神經元個數(shù)設置為16,所有模型中,初始學習率為0.000 1,迭代次數(shù)為400。
在以上兩個數(shù)據(jù)集的實驗中,第一個實驗使用了AUC(Area Under Curve)、F1-score、ACC(ACCuracy)指標來衡量分類任務模型性能;第二個實驗,由于兩個任務類型的不同,分別使用MSE和AUC來衡量不同模型在兩個任務上的表現(xiàn)。此外,還定義了一個新的評價指標——多任務模型綜合值(Multi-task model Comprehensive Value, MCV),來衡量多任務模型在不同任務上的綜合表現(xiàn)。給定一個多任務模型,該模型每個任務的指標值為,其MCV定義為:在同一樣本中,具備相同任務的任意多任務模型的每個任務指標值的綜合之和,MCV值越大,表示模型性能越佳。
3.2.4 結果分析
在UCI census-income數(shù)據(jù)集上各模型性能的表現(xiàn)如表3所示,用加粗字體標注出了所提模型在兩個任務(Task1-Income、Task2-Marital)上的AUC值、F1-score、ACC值以及每個指標的MCV,同時比較了CLS-0和各對比模型之間的性能差異,可以看出:
1)CLS-0模型的共享策略使得模型性能相較于所有基線模型有顯著的提升,進一步驗證了CLS-0模型的交叉共享機制能夠更深入地學習不同任務間復雜相關的共享信息。
2)加入的門控網絡使得CLS模型在所有模型中表現(xiàn)最佳,相較于MMOE模型,對兩個任務的F1值分別提高了7.87個百分點和1.19個百分點,表明了基于任務樣本空間的門控網絡有助于提升模型性能。
3)CLS-0模型的MCV-F1值相較于MMOE模型提升了7.63個百分點,在對專家內部的知識共享進行建模并考慮淺層共享專家的記憶能力后,模型性能在預測結果的F1值上有所提升。
表3 UCI census-income 數(shù)據(jù)集上的實驗結果Tab. 3 Experimental results on UCI census-income dataset
考慮到不同任務類型對模型性能的影響,在MovieLens數(shù)據(jù)集上同樣做了對比實驗。在任務分別為預測用戶年齡和預測用戶對電影的評分時,比較了共享底層模型、Cross-stitch模型、MMOE模型、PLE模型、CLS-0以及CLS模型的表現(xiàn),其中預測年齡和預測評分的任務分別為回歸任務和分類任務。使用MSE、AUC指標來評價模型的表現(xiàn),如圖6所示。
圖6 不同模型在不同任務類型上的性能比較Fig. 6 Performance comparison of different models on different task types
可以得出:
1)共享底層模型在預測年齡和評分兩個任務上均表現(xiàn)不佳。年齡任務和評分任務兩者的相關度較低,而大部分多任務模型往往擅長處理任務相關度較高的情況,任務之間復雜度較低時,表現(xiàn)并不理想[7]。
2)Cross-stitch和MMOE兩個模型均出現(xiàn)了seesaw現(xiàn)象,即在提升一個任務的性能時,伴隨著另一個任務性能的下降。
3)CLS-0模型的交叉共享路由策略提升了模型性能;CLS模型在所有模型中表現(xiàn)最佳,回歸任務的MSE值降低到0.004 7,分類任務的AUC值提高到0.642,并未受到seesaw現(xiàn)象的影響,顯著優(yōu)于其他基線模型。
針對多任務模型中公共信息共享存在的負遷移問題,本文提出了交叉層級信息共享多任務模型。該模型結合特定的層級信息路由機制及不同層級專家之間的信息交叉共享,深入學習相關任務間的公共知識,提高預測目標準確度。實驗結果表明,所提CLS模型不僅能穩(wěn)定地處理大規(guī)模數(shù)據(jù),且能在復雜相關的知識中有效學習到不同任務之間的共享表示,同時具備應對任務相關度較低場景的能力,有效避免了seesaw現(xiàn)象的不利影響。未來將持續(xù)探索更加高效的信息路由機制,以及研究怎樣的層級信息共享方法更具備可解釋性。
[1] CARUANA R. Multitask learning [M]// THRUN S, PRATT L. Learning to Learn. New York: Springer, 1998: 95-133.
[2] 章蓀,尹春勇.基于多任務學習的時序多模態(tài)情感分析模型[J].計算機應用,2021,41(6):1631-1639.(ZHANG S, YIN C Y. Sequential multimodal sentiment analysis model based on multi-task learning [J]. Journal of Computer Applications, 2021, 41(6): 1631-1639.)
[3] 姜堯崗,孫曉剛,林云.基于多任務卷積神經網絡人臉檢測網絡的優(yōu)化加速方法[J].計算機應用,2019,39(S2):59-62.(JIANG Y G, SUN X G,LIN Y. Optimization acceleration method for face detection network based on multi-task convolutional neural network[J]. Journal of Computer Applications, 2019, 39(S2): 59-62.)
[4] BANSAL T, BELANGER D, MCCALLUM A. Ask the GRU: multitask learning for deep text recommendations [C]// Proceedings of the 2016 10th ACM Conference on Recommender Systems. New York: ACM, 2016: 107-114.
[5] SHAO C J, FU H M, CHENG P J. Improving one-class recommendation with multi-tasking on various preference intensities [C]// Proceedings of the 2020 14th ACM Conference on Recommender Systems. New York: ACM, 2020: 498-502.
[6] LU Y C, DONG R H, SMYTH B. Why I like it: multi-task learning for recommendation and explanation [C]// Proceedings of the 2018 12th ACM Conference on Recommender Systems. New York: ACM, 2018: 4-12.
[7] TANG H Y, LIU J N, ZHAO M, et al. Progressive Layered Extraction (PLE): a novel Multi-Task Learning (MTL) model for personalized recommendations [C]// Proceedings of the 2020 14th ACM Conference on Recommender Systems. New York: ACM, 2020: 269-278.
[8] MA J Q, ZHAO Z, YI X Y, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts [C]// Proceedings of the 2018 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2018:1930-1939.
[9] ISHAN M, ABHINAV S, GUPTA A, et al. Cross-stitch networks for multi-task learning [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2016: 3994-4003.
[10] RUDER S, BINGEL J, AUGENSTEIN I, et al. Sluice networks: learning what to share between loosely related tasks [EB/OL]. [2021-02-11]. https://arxiv.org/pdf/1705.08142v1.pdf.
[11] ZHANG Y, YANG Q. An overview of multi-task learning [J]. National Science Review, 2018, 5(1): 30-43.
[12] JACOBS R A, JORDAN M I, NOWLAN S J, et al. Adaptive mixtures of local experts [J]. Neural Computation, 1991, 3(1): 79-87.
[13] MA J Q, ZHAO Z, CHEN J L, et al. SNR: sub-network routing for flexible parameter sharing in multi-task learning[C]// Proceedings of the 2019 33rd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019:216-223.
[14] ZOPH B, LE Q V. Neural architecture search with reinforcement learning [EB/OL]. [2021-02-11]. https://arxiv.org/pdf/1611. 01578.pdf.
[15] WANG N, WANG H N, JIA Y L, et al. Explainable recommendation via multi-task learning in opinionated text data [C]// Proceedings of the 2018 41st International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2018: 165-174.
[16] WANG J L, HOI S C H, ZHAO P L, et al. Online multitask collaborative filtering for on-the-fly recommender systems [C]// Proceedings of the 2013 7th ACM Conference on Recommender Systems. New York: ACM, 2013: 237-244.
[17] QIN Z, CHENG Y C, ZHAO Z, et al. Multitask mixture of sequential experts for user activity streams [C]// Proceedings of the 2020 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2020: 3083-3091.
[18] HADASH G, SHALOM O S, OSADCHY R. Rank and rate: multi-task learning for recommender systems [C]// Proceedings of the 2018 12th ACM Conference on Recommender Systems. New York: ACM, 2018: 451-454.
[19] AKHTAR M S, CHAUHAN D S, EKBAL A. A deep multi-task contextual attention framework for multi-modal affect analysis [J]. ACM Transaction on Knowledge Discovery from Data, 2020, 14(3): Article No.32.
[20] ZHAO Z, HONG L C, WEI L, et al. Recommending what video to watch next: a multi-task ranking system [C]// Proceedings of the 2019 13th ACM Conference on Recommender Systems. New York: ACM, 2019: 43-51.
[21] ROSENBLATT F. The perceptron: a probabilistic model for information storage and organization in the brain [J]. Psychological Review, 1958, 65(6): 386-408.
Cross-layer data sharing based multi-task model
CHEN Ying1, YU Jiong1,2*, CHEN Jiaying2, DU Xusheng2
(1.School of Software,Xinjiang University,Urumqi Xinjiang830091,China;2.College of Information Science and Engineering,Xinjiang University,Urumqi Xinjiang830046,China)
To address the issues of negative transfer and difficulty of information sharing between loosely correlated tasks in multi-task learning model, a cross-layer data sharing based multi-task model was proposed. The proposed model pays attention to fine-grained knowledge sharing, and is able to retain the memory ability of shallow layer shared experts and generalization ability of deep layer specific task experts. Firstly,multi-layer shared experts were unified to obtain public knowledge among complicatedly correlated tasks. Then, the shared information was transferred to specific task experts at different layers for sharing partial public knowledge between the upper and lower layers. Finally, the data sample based gated network was used to select the needed information for different tasks autonomously, thereby alleviating the harmful effects of sample dependence to the model. Compared with the Multi-gate Mixture-Of-Experts (MMOE) model, the proposed model improved the F1-score of two tasks by 7.87 percentage points and 1.19 percentage points respectively on UCI census-income dataset. The proposed model also decreased the Mean Square Error (MSE)value of regression task to 0.004 7 and increased the Area Under Curve (AUC) value of classification task to 0.642 on MovieLens dataset. Experimental results demonstrate that the proposed model is suitable to improve the influence of negative transfer and can learn public information among complicated related tasks more efficiently.
multi-task learning; information sharing; negative transfer; neural network; transfer learning
TP311.1
A
1001-9081(2022)05-1447-08
10.11772/j.issn.1001-9081.2021030516
2021?04?06;
2021?06?22;
2021?06?22。
國家自然科學基金資助項目(61862060,61462079,61562086)。
陳穎(1999—),女,湖南婁底人,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、機器學習; 于炯(1964—),男,北京人,教授,博士生導師,博士,主要研究方向:綠色計算、機器學習、數(shù)據(jù)挖掘; 陳嘉穎(1988—),女,新疆沙灣人,博士研究生,主要研究方向:推薦系統(tǒng)、數(shù)據(jù)挖掘; 杜旭升(1995—),男,甘肅慶陽人,博士研究生,CCF會員,主要研究方向:機器學習、數(shù)據(jù)挖掘。
This work is partially supported by National Natural Science Foundation of China (61862060,61462079, 61562086).
CHEN Ying, born in 1999, M. S. candidate. Her research interests include data mining, machine learning.
YU Jiong, born in 1964, Ph. D., professor. His research interests include green computing, machine learning, data mining.
CHEN Jiaying, born in 1988, Ph. D. candidate. Her research interests include recommender system, data mining.
DU Xusheng, born in 1995, Ph. D. candidate. His research interests include machine learning, data mining.