趙傳君 , 王素格 , 李德玉
1(山西財經(jīng)大學(xué) 信息學(xué)院,山西 太原 030006)2(山西大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006)3(計算智能與中文信息處理教育部重點(diǎn)實驗室(山西大學(xué)),山西 太原 030006)
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第44 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,截至2019 年6月,我國網(wǎng)絡(luò)購物用戶規(guī)模達(dá)6.39 億,而社交軟件“微信”的全球月活躍用戶數(shù)首次突破10 億大關(guān).隨著諸如在線評論、微博、微信和論壇社區(qū)等社會媒體(social media)的蓬勃發(fā)展,網(wǎng)絡(luò)上呈現(xiàn)出海量帶有情感的主觀性文本數(shù)據(jù)[1,2].文本情感分析專家Liu 教授將文本中的情感(sentiment)定義為“描述觀點(diǎn)中所蘊(yùn)含的褒義或貶義的情感傾向”[3].在本文中,情感特指情感極性(傾向),是個體用戶對于產(chǎn)品、服務(wù)或者社會輿論等的情感認(rèn)知與評價的具體體現(xiàn)[4].傾向性文本中的情感具有多極性,即正面(positive)、中性(neutral)或者負(fù)面(negative).按照文本情感類別的細(xì)粒度,還可以分為1~5 個星級,即強(qiáng)烈正面傾向、正面傾向、中性、負(fù)面傾向和強(qiáng)烈負(fù)面傾向.
2015 年,Hirschberg 教授指出了開展識別社會媒體中產(chǎn)品評價和服務(wù)中隱含的情感(sentiment)和情緒(emotion)研究的重要性[5].同年,LeCun 教授指出,深度學(xué)習(xí)在情感分析的各項任務(wù)中均取得了非常好的效果[6].社會媒體中,文本數(shù)據(jù)的大幅增加可為現(xiàn)有的深度學(xué)習(xí)(deep learning)模型提供豐富的數(shù)據(jù)支持[7].社會媒體中的主觀性文本蘊(yùn)含著豐富的情感信息,通過挖掘這些文本的情感類別信息,可為產(chǎn)品推薦、客戶管理、口碑分析、新聞評論分析和股票推薦等應(yīng)用提供技術(shù)支持.
遷移學(xué)習(xí)(transfer learning)自1995 年起受到了廣泛的關(guān)注和研究,亦稱作知識遷移(knowledge transfer).2005 年,美國Defense Advanced Research Projects Agency(DARPA)信息處理技術(shù)辦公室發(fā)布通告,定義遷移學(xué)習(xí)為“系統(tǒng)識別和應(yīng)用之前任務(wù)的知識和技能到新任務(wù)的能力”.文獻(xiàn)[10]于2010 年將遷移學(xué)習(xí)定義為:利用數(shù)據(jù)、任務(wù)或模型間的相似性,將在舊領(lǐng)域?qū)W習(xí)的模型應(yīng)用于新領(lǐng)域的一種學(xué)習(xí)過程.一般情況下,有標(biāo)注數(shù)據(jù)的原始領(lǐng)域稱為源領(lǐng)域(source domain),待測試的新領(lǐng)域稱為目標(biāo)領(lǐng)域(target domain).傳統(tǒng)的文本情感分類研究假設(shè)用于訓(xùn)練和測試的領(lǐng)域間數(shù)據(jù)是獨(dú)立同分布的(independent and identical distributions,簡稱I.I.D.),然而,現(xiàn)實條件下不同領(lǐng)域間存在分布差異,在源領(lǐng)域訓(xùn)練的分類器很難直接用于目標(biāo)領(lǐng)域的情感分類任務(wù).
在面對特定領(lǐng)域的情感分類任務(wù)時,往往缺乏大量的帶標(biāo)簽數(shù)據(jù),而標(biāo)注需要消耗大量的人力物力,有時還需要語言學(xué)專家的支持.已有的研究積累了部分領(lǐng)域的帶標(biāo)簽情感數(shù)據(jù),完全丟棄這些數(shù)據(jù)是非??上У腫8].因此,將現(xiàn)有的機(jī)器學(xué)習(xí)模型用于特定領(lǐng)域文本情感分類任務(wù)時,解決問題的思路之一是:有效利用其他領(lǐng)域的帶標(biāo)簽數(shù)據(jù),以擺脫對該領(lǐng)域標(biāo)注樣本的過度依賴,提升模型的泛化能力[9].跨領(lǐng)域文本情感分類任務(wù)存在以下3個特點(diǎn).
· 第1 個特點(diǎn)是數(shù)據(jù)量的不對稱性.源領(lǐng)域中往往帶有大量的帶標(biāo)簽數(shù)據(jù),有時還可能存在多個源領(lǐng)域.而目標(biāo)領(lǐng)域標(biāo)注樣本往往很稀少,這些寶貴的目標(biāo)領(lǐng)域帶標(biāo)簽信息可以為構(gòu)建目標(biāo)領(lǐng)域分類器提供有效的指導(dǎo)信息;
· 第2 個特點(diǎn)是跨領(lǐng)域統(tǒng)計的異構(gòu)性.源領(lǐng)域和目標(biāo)領(lǐng)域的特征分布差異性大,源領(lǐng)域訓(xùn)練的分類器不能直接應(yīng)用于目標(biāo)領(lǐng)域任務(wù),需要執(zhí)行特定的情感遷移策略;
· 第3 個特點(diǎn)是領(lǐng)域情感的可移植性.不同領(lǐng)域間存在領(lǐng)域通用的情感特征,可以作為領(lǐng)域遷移的橋梁,因此核心問題就是尋找領(lǐng)域不變性要素.
針對跨領(lǐng)域異構(gòu)問題,遷移學(xué)習(xí)利用源領(lǐng)域中帶標(biāo)簽的訓(xùn)練樣本建立一個可靠的模型,對具有不同數(shù)據(jù)分布的目標(biāo)領(lǐng)域不帶標(biāo)簽樣本進(jìn)行預(yù)測.Yang 等人提到遷移學(xué)習(xí)可以減少跨領(lǐng)域情感分類的標(biāo)注工作量,在某些產(chǎn)品上訓(xùn)練的分類模型,通過遷移可以幫助建立其他產(chǎn)品的分類模型[10].已有的大量研究工作表明:遷移學(xué)習(xí)是解決跨領(lǐng)域文本情感分類的有效手段之一,主要的研究思路包括實例遷移方法、特征遷移方法、模型遷移方法、基于詞典的方法、聯(lián)合情感主題方法和圖模型方法等.
隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,簡稱CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,簡稱RNN)等深度學(xué)習(xí)技術(shù)在自然語言處理中廣泛使用,其中詞語的分布式表示(distributed representation)和多層網(wǎng)絡(luò)架構(gòu)具有強(qiáng)大的擬合和學(xué)習(xí)能力,已成為現(xiàn)階段自然語言處理的主流技術(shù)方案[11].深度學(xué)習(xí)在面對文本情感分類任務(wù)時往往面臨特定領(lǐng)域缺少大規(guī)模標(biāo)注數(shù)據(jù)的問題.隨著深度遷移學(xué)習(xí)(deep transfer learning)方法在解決領(lǐng)域適應(yīng)(domain adaption)問題取得成功,很多研究者探索采用深度遷移學(xué)習(xí)機(jī)制解決跨領(lǐng)域文本情感分類問題[12].
跨領(lǐng)域文本情感分類(cross-domain text sentiment classification)作為自然語言處理任務(wù)中的重要問題之一,一直是產(chǎn)業(yè)界和學(xué)術(shù)界關(guān)注的研究熱點(diǎn)和難點(diǎn)[13].國務(wù)院發(fā)布的2017 年《新一代人工智能發(fā)展規(guī)劃》提出,要實現(xiàn)“多風(fēng)格多語言多領(lǐng)域的自然語言智能理解和自動生成”,跨領(lǐng)域文本情感分類可作為完成此任務(wù)的有效手段之一.跨領(lǐng)域文本情感分類涉及機(jī)器學(xué)習(xí)、知識工程、人工智能以及相關(guān)的語言學(xué)研究等[14].關(guān)于跨領(lǐng)域文本情感分類,年度的數(shù)據(jù)挖掘和自然語言處理頂級會議以及學(xué)術(shù)期刊已有相當(dāng)多的研究報道,例如國際會議ACL,AAAI,COLING,EMNLP,ICML,NeurIPS 以及ICDM 等,重要期刊IEEE TKDE、IEEE TASLP、Knowledgebased Systems、Expert Systems with Applications、Computer Speech and Language、《軟件學(xué)報》以及《計算機(jī)研究與發(fā)展》等.
本文首先介紹了跨領(lǐng)域文本情感分類相關(guān)的背景知識.隨后,分別從目標(biāo)領(lǐng)域中有無帶標(biāo)簽數(shù)據(jù)、情感遷移策略和可用源領(lǐng)域個數(shù)這3 個角度對已有工作進(jìn)行了總結(jié).由于深度遷移學(xué)習(xí)的興起,我們還重點(diǎn)介紹了其在跨領(lǐng)域情感文本分類中的應(yīng)用.我們進(jìn)一步分析了跨領(lǐng)域文本情感分類面臨的研究挑戰(zhàn)和未來可能的突破方向.最后,我們對全文進(jìn)行了總結(jié).
在文本分析中,領(lǐng)域(domain)通常指文本內(nèi)容所涉及的現(xiàn)實生活中的相似主題,如電子產(chǎn)品、酒店服務(wù)、電影評論和音樂評論等,亦可指微博、論壇等某種形式的社會媒體平臺中文本的集合.社會媒體中的主觀性文本所屬領(lǐng)域具有多樣性、數(shù)據(jù)來源具有多源性.表1 是4 個領(lǐng)域中部分正面和負(fù)面評論的例子,由表1 中的評論可以發(fā)現(xiàn):不同的領(lǐng)域中用戶傾向于使用不同的情感詞表達(dá)情感特征,例如電影評論領(lǐng)域的詞“無聊”和酒店評論領(lǐng)域的詞“舒服”,Books 領(lǐng)域的詞“thin”(薄)和DVDs 領(lǐng)域的詞“stuck(卡住)”等.另外,同一個情感詞或者短語在不同領(lǐng)域中的情感極性可能是不同的甚至是相反的.例如:酒店評論領(lǐng)域的“軟”表達(dá)了正面的情感傾向,而電影評論領(lǐng)域的“軟”則表達(dá)了負(fù)面的情感傾向.因此,當(dāng)源領(lǐng)域訓(xùn)練的分類器轉(zhuǎn)移到另一個新的領(lǐng)域時,由于源領(lǐng)域和目標(biāo)領(lǐng)域不滿足數(shù)據(jù)獨(dú)立同分布假設(shè),分類效率和精度會出現(xiàn)明顯下降[15].
Table 1 Eight examples of positive and negative sentiment reviews from four domains in Chinese and English表1 中文和英文4 個領(lǐng)域中8 個正面和負(fù)面情感傾向評論例子
數(shù)據(jù)驅(qū)動的分類模型的性能需要滿足兩個基本假設(shè):一是用于學(xué)習(xí)的訓(xùn)練樣本與新的測試樣本滿足獨(dú)立同分布;另一方面是必須有足夠多的訓(xùn)練樣本才能得到一個好的分類模型[16].我們看到:跨領(lǐng)域文本情感分類放寬了這兩個基本假設(shè),它被定義為通過遷移源領(lǐng)域和源領(lǐng)域任務(wù)的情感信息到目標(biāo)領(lǐng)域,利用由源領(lǐng)域帶標(biāo)簽數(shù)據(jù)學(xué)習(xí)的一個精確情感分類器,實現(xiàn)對目標(biāo)領(lǐng)域的情感極性分類任務(wù).
在文本情感分類任務(wù)中,X是文本集,x={w1,w2,…,wT}∈X為包含一系列詞wi的評論文本.在傳統(tǒng)文本情感分類任務(wù)中,文本由詞的獨(dú)熱(one-hot)表示.在深度學(xué)習(xí)模型中,詞wi由word2vec 表示為一個d維向量,即.詞向量矩陣記為E∈RV×d,這里,V為詞典的大小,d為詞向量的維數(shù).Y是情感分類的標(biāo)簽空間,對于二分類任務(wù)Y={正面,負(fù)面},對于5 級細(xì)粒度情感分類任務(wù)Y={強(qiáng)烈正面,正面,中性,負(fù)面,強(qiáng)烈負(fù)面}.每個訓(xùn)練樣本記為(x,y),y∈Y是訓(xùn)練樣本x的標(biāo)簽.
在文本情感分類問題中,領(lǐng)域D被認(rèn)為是某個特征空間X及其上的概率分布P(X),通常情況下,P(X)是未知的.跨領(lǐng)域文本情感分類涉及多個領(lǐng)域,不同的領(lǐng)域其特征空間和對應(yīng)的概率分布不同.源領(lǐng)域訓(xùn)練數(shù)據(jù)記為DS={(xi,yi)|1≤i≤N},源領(lǐng)域分布為PS(X).DL={(xi,yi)|1≤i≤n}為目標(biāo)領(lǐng)域中帶標(biāo)簽數(shù)據(jù)集,DU={xi|1≤i≤p}為目標(biāo)領(lǐng)域測試數(shù)據(jù)集,DT=DL∪DU為目標(biāo)領(lǐng)域數(shù)據(jù)集,分布為PT(X).一般情況下,源領(lǐng)域數(shù)據(jù)規(guī)模遠(yuǎn)大于目標(biāo)領(lǐng)域數(shù)據(jù)規(guī)模,即|DS|>>|DL|.
從標(biāo)記空間角度,本文將討論兩種情形的跨領(lǐng)域文本情感分類:一是源領(lǐng)域和目標(biāo)領(lǐng)域的標(biāo)記空間是相同的,即YS=YT;另一種是源領(lǐng)域和目標(biāo)領(lǐng)域的標(biāo)記空間是不同的,即YS≠YT.
已有研究工作積累了大量跨領(lǐng)域文本情感分類語料資源,如亞馬遜(Amazon)英文DVDs,Books,Electronics和Kitchen 等4 個領(lǐng)域的在線評論語料是研究者們使用最多的數(shù)據(jù)集.已有的數(shù)據(jù)集資源見表2,其中多為英文數(shù)據(jù)集,如文獻(xiàn)[2,8,14,17-66].其次是中文數(shù)據(jù)集,如文獻(xiàn)[67-74],也有少量的German,French 和Japanese 評論數(shù)據(jù)集,如文獻(xiàn)[75-77].已有數(shù)據(jù)集多為在線產(chǎn)品評論數(shù)據(jù),也有少量的博客數(shù)據(jù)集[62]、微博數(shù)據(jù)集,如Stanford Twitter Dataset Test Set(STS),Obama Healthcare Reform(HCR)和Obama-McCain Debate(OMD)等[60].這些數(shù)據(jù)集普遍規(guī)模不大,規(guī)模較大的有:Amazon 4 種領(lǐng)域的大規(guī)模數(shù)據(jù)集[25];文獻(xiàn)[63]中的IMDB,Yelp,Cell phone 和Baby數(shù)據(jù)集;文獻(xiàn)[66]中的Large Movie Review 數(shù)據(jù)集等.
Table 2 Dataset resources of cross-domain texts sentiment classification表2 跨領(lǐng)域文本情感分類數(shù)據(jù)集資源
Table 2 Dataset resources of cross-domain texts sentiment classification (Continued)表2 跨領(lǐng)域文本情感分類數(shù)據(jù)集資源(續(xù))
跨領(lǐng)域文本情感分類研究面臨以下4 點(diǎn)關(guān)鍵技術(shù)問題.
(1) 弱監(jiān)督條件下的標(biāo)簽數(shù)據(jù)依賴(dependency of labeled data)問題.傳統(tǒng)機(jī)器學(xué)習(xí)模型需要大量的標(biāo)簽數(shù)據(jù)支持,而數(shù)據(jù)標(biāo)注費(fèi)用高昂,對于特定任務(wù)構(gòu)建大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù)非常困難.因此,情感遷移建模中弱監(jiān)督條件下的標(biāo)注數(shù)據(jù)依賴是一大重要挑戰(zhàn);
(2) 目標(biāo)領(lǐng)域缺乏高質(zhì)量標(biāo)簽數(shù)據(jù)(lack of comprehensive data annotation)問題.即使在特定任務(wù)/領(lǐng)域下訓(xùn)練好的模型也往往存在可擴(kuò)展性差的問題,當(dāng)目標(biāo)領(lǐng)域缺乏高質(zhì)量標(biāo)簽數(shù)據(jù)時,如何建模情感遷移是一個重要挑戰(zhàn);
(3) 不同領(lǐng)域情感分布的差異鴻溝(distribution gap)問題.文本中情感的表達(dá)具有領(lǐng)域依賴性,這導(dǎo)致了不同領(lǐng)域的情感分布差異是非常明顯的,在源領(lǐng)域訓(xùn)練的模型很難直接應(yīng)用于目標(biāo)領(lǐng)域中,需要執(zhí)行特定的情感遷移策略;
(4) 數(shù)據(jù)來源具有多源性(multi-source domains)問題.社會媒體的主觀性文本可以屬于不同主題的領(lǐng)域,在面對特定目標(biāo)領(lǐng)域的情感分類任務(wù)時,可能有多個源領(lǐng)域的帶標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,而多個源領(lǐng)域的情感分布與目標(biāo)領(lǐng)域是不同的,需要有效融合多個源領(lǐng)域的情感信息.
針對以上技術(shù)問題,跨領(lǐng)域文本情感分類研究主要解決以下3 個問題:(1) 克服領(lǐng)域間情感分布差異,利用源領(lǐng)域的帶標(biāo)簽情感數(shù)據(jù)實現(xiàn)不同領(lǐng)域的情感知識遷移;(2) 目標(biāo)領(lǐng)域可能有少量帶標(biāo)簽數(shù)據(jù)(但不足以訓(xùn)練一個有效的分類模型),如何有效避免過擬合問題;(3) 并非所有的源領(lǐng)域數(shù)據(jù)對于目標(biāo)領(lǐng)域分類均有積極作用,如何選擇合適的源領(lǐng)域數(shù)據(jù)避免所謂的負(fù)遷移(negative transfer)現(xiàn)象[67].
認(rèn)知科學(xué)的研究表明:人類大腦能夠借鑒地處理不同領(lǐng)域的任務(wù),并能很自然地從一項技能遷移到另一項技能中.關(guān)于如何模擬人類大腦的認(rèn)知過程解決現(xiàn)有的跨領(lǐng)域文本情感分類問題,研究者多采用遷移學(xué)習(xí)(transfer learning)或領(lǐng)域適應(yīng)(domain adaptation)的方法[68,73].情感遷移學(xué)習(xí)是指遷移源領(lǐng)域的情感信息和模型到新的目標(biāo)領(lǐng)域.而領(lǐng)域適應(yīng)是指從一個或者多個源領(lǐng)域中獲取知識和經(jīng)驗,適應(yīng)到與源領(lǐng)域分布不同的目標(biāo)領(lǐng)域的過程[69].
盡管不同領(lǐng)域之間存在分布差異,不同領(lǐng)域的情感知識仍然是可遷移的.主要原因有兩個:(1) 大多數(shù)單詞或短語在所有領(lǐng)域和任務(wù)中表達(dá)相似的情感極性,這表明不同領(lǐng)域的情感分類任務(wù)可以共享多個領(lǐng)域通用的情感特征;(2) 不同任務(wù)和領(lǐng)域中情感的表達(dá)方式是非常相似的,用戶往往遵循相似的句法結(jié)構(gòu)和語法規(guī)則.
關(guān)于跨領(lǐng)域文本情感分類,最早可追溯到2005 年Anthony 等人[17]在目標(biāo)領(lǐng)域缺少大量帶標(biāo)簽數(shù)據(jù)的情況下提出了4 種研究策略,將在源領(lǐng)域訓(xùn)練的情感分類器適應(yīng)到新領(lǐng)域中.按照不同的角度,我們可以對已有的工作進(jìn)行分類,主要的角度有3 個,分別是按照目標(biāo)領(lǐng)域中是否有帶標(biāo)簽的數(shù)據(jù)、不同的情感適應(yīng)性策略和可用源領(lǐng)域的個數(shù)等.本文將在第2 節(jié)按照這3 個角度對已有的跨領(lǐng)域文本情感分類工作進(jìn)行總結(jié).隨著深度遷移學(xué)習(xí)方法的興起,本文在第3 節(jié)對其在跨領(lǐng)域文本情感分類中的應(yīng)用進(jìn)行了重點(diǎn)介紹.
綜上所述,跨領(lǐng)域文本情感分類利用已有的源領(lǐng)域標(biāo)注數(shù)據(jù)輔助目標(biāo)領(lǐng)域的文本情感分類任務(wù),不僅可以減少新領(lǐng)域數(shù)據(jù)標(biāo)注工作量,而且可以顯著提高源領(lǐng)域標(biāo)注資源的利用率,是很多機(jī)器學(xué)習(xí)和自然語言處理專家關(guān)注和研究的課題之一.情感遷移學(xué)習(xí)將在大規(guī)模數(shù)據(jù)環(huán)境下學(xué)習(xí)到的情感知識遷移到特定的小眾領(lǐng)域,可以拓展情感語義分析的應(yīng)用場景,有效解決特定領(lǐng)域數(shù)據(jù)標(biāo)記不足問題,還可以為社會媒體情感分析提供新的研究思路,實現(xiàn)對蘊(yùn)含于主觀性文本中情感的全面和深層次理解.
如前所述,遷移學(xué)習(xí)或者領(lǐng)域適應(yīng)的方法是實現(xiàn)情感遷移的主要方法,而目標(biāo)領(lǐng)域分類預(yù)測的有效性很大程度上取決于源領(lǐng)域與目標(biāo)領(lǐng)域之間的相關(guān)性程度以及所采用的遷移算法.已有的跨領(lǐng)域情感分類問題的主要解決思路有:
(1) 按照目標(biāo)領(lǐng)域中是否有帶標(biāo)記的數(shù)據(jù)(whether there is labeled data in the target domain),可以分為直推式和歸納式的跨領(lǐng)域情感分類方法:在歸納式條件下,目標(biāo)領(lǐng)域有少量的帶標(biāo)簽數(shù)據(jù),但是數(shù)量不足以訓(xùn)練一個好的情感分類器;在直推式的情況下,目標(biāo)領(lǐng)域中沒有任何帶標(biāo)簽數(shù)據(jù),相比較歸納式的情況更有挑戰(zhàn)性;
(2) 根據(jù)不同的情感遷移策略(sentiment transfer strategies),可以分為實例遷移方法、特征遷移方法、模型遷移方法、基于詞典的方法、聯(lián)合情感主題方法和基于圖模型方法等;
(3) 根據(jù)可用的源領(lǐng)域個數(shù)(available number of source domains),可以分為單源領(lǐng)域和多源領(lǐng)域的跨領(lǐng)域情感分類方法.
不同視角的跨領(lǐng)域文本情感分類代表性方法如圖1 所示.不同年度的跨領(lǐng)域文本情感分類代表性方法如圖2 所示.
Fig.1 Cross-domain text sentiment classification methods from different perspectives圖1 不同視角的跨領(lǐng)域文本情感分類方法
Fig.2 Timeline of cross-domain text sentiment classification methods圖2 不同年度的跨領(lǐng)域文本情感分類代表性方法
根據(jù)目標(biāo)領(lǐng)域有無可用的帶標(biāo)簽數(shù)據(jù),跨領(lǐng)域文本情感分類可以分為直推式的情感遷移方法(transductive sentiment transfer method)和歸納式的情感遷移方法(inductive sentiment transfer method),兩種方法的流程如圖3所示.
Fig.3 Schematic diagram of transductive and inductive cross-domain sentiment classification processes圖3 直推式和歸納式的跨領(lǐng)域文本情感分類流程示意圖
2.1.1 直推式情感遷移方法(transductive sentiment transfer method)
如圖3 所示:在目標(biāo)領(lǐng)域沒有任何帶標(biāo)簽數(shù)據(jù)的情況下,直推式情感遷移方法使用來自源領(lǐng)域的帶標(biāo)簽樣本訓(xùn)練情感分類器,然后遷移此情感分類器到另一個不同的目標(biāo)領(lǐng)域中.例如,2005 年,Anthony 等人[17]提出了4種適應(yīng)情感分類器到新領(lǐng)域(目標(biāo)領(lǐng)域)的策略,發(fā)現(xiàn)Na?ve Bayes-EM 算法能夠充分利用目標(biāo)領(lǐng)域不帶標(biāo)簽數(shù)據(jù)取得了最好的結(jié)果.楊文讓等人[26]選擇高可信度的目標(biāo)領(lǐng)域文本加入到訓(xùn)練集中,同時去除源領(lǐng)域距離“質(zhì)心”較遠(yuǎn)的文本,通過此過程,有效減少了領(lǐng)域分布差異,在Amazon 產(chǎn)品評論數(shù)據(jù)集上達(dá)到了74.6%的平均準(zhǔn)確率.為解決在沒有目標(biāo)領(lǐng)域數(shù)據(jù)的輔助下構(gòu)建高效分類器問題,Matthew 等人[78]結(jié)合領(lǐng)域詞典之間余弦相似度適應(yīng)性形式用于新的目標(biāo)領(lǐng)域有效模型構(gòu)建.吳瓊等人[70]首先根據(jù)源領(lǐng)域帶標(biāo)簽數(shù)據(jù)對目標(biāo)領(lǐng)域進(jìn)行分類,將得到的高置信度文本作為“源點(diǎn)”和“匯點(diǎn)”,再根據(jù)物理學(xué)熱傳導(dǎo)模型得到目標(biāo)領(lǐng)域不帶標(biāo)簽樣本最終的情感分.實驗結(jié)果表明,該方法在書籍、酒店和電腦評論數(shù)據(jù)集上實現(xiàn)了71.5%的平均分類準(zhǔn)確率.
2.1.2 歸納式情感遷移方法(inductive sentiment transfer method)
文本情感分類是一個領(lǐng)域依賴問題,然而許多領(lǐng)域中僅有少量的帶標(biāo)簽數(shù)據(jù)不足以支持訓(xùn)練有效的情感分類模型.如圖3 所示:與直推式的情況不同,在歸納式的條件下,源領(lǐng)域中有大量的帶標(biāo)簽數(shù)據(jù),目標(biāo)領(lǐng)域中有少量的帶標(biāo)簽數(shù)據(jù).在此條件下,跨領(lǐng)域文本情感分類的目標(biāo)是在源領(lǐng)域和目標(biāo)領(lǐng)域的帶標(biāo)簽數(shù)據(jù)的共同幫助下訓(xùn)練跨領(lǐng)域情感分類器.例如,趙傳君等人[2]提出了一種基于分組提升集成的跨領(lǐng)域情感分類方法.為了更有效地利用目標(biāo)領(lǐng)域的帶標(biāo)簽數(shù)據(jù),目標(biāo)領(lǐng)域文本初始標(biāo)簽算法(initial data labeling algorithm)首先利用少量人工標(biāo)注的目標(biāo)領(lǐng)域數(shù)據(jù),基于合成過抽樣技術(shù)產(chǎn)生一定量的虛擬數(shù)據(jù),得到新的數(shù)據(jù)集.在此基礎(chǔ)上,采用自適應(yīng)提升(Boot Strapping)方法獲得目標(biāo)領(lǐng)域更多的高可信度的帶標(biāo)簽數(shù)據(jù).再將源領(lǐng)域數(shù)據(jù)等量分割與目標(biāo)領(lǐng)域數(shù)據(jù)組合,在每個組合塊上進(jìn)行適應(yīng)性提升.最后將得到的多個分類器進(jìn)行線性集成,得到目標(biāo)領(lǐng)域上的分類器,在Amazon 產(chǎn)品評論數(shù)據(jù)集上實現(xiàn)了79.3%的平均準(zhǔn)確率.此外,Deshmukh 等人[25]首先抽取和分類源領(lǐng)域的觀點(diǎn)詞,使用目標(biāo)領(lǐng)域帶標(biāo)簽數(shù)據(jù)聯(lián)合二部圖聚類和改進(jìn)的最大熵模型預(yù)測目標(biāo)領(lǐng)域的觀點(diǎn)詞,在Amazon 產(chǎn)品評論數(shù)據(jù)集上實現(xiàn)了80.69%的平均準(zhǔn)確率.
2.2.1 實例遷移方法(instance transferring based method)
由于領(lǐng)域間的情感分布差異,在源領(lǐng)域中,只有部分訓(xùn)練數(shù)據(jù)對于目標(biāo)領(lǐng)域是有用的.實例遷移方法的思路是:根據(jù)對于目標(biāo)領(lǐng)域的重要性,對源領(lǐng)域數(shù)據(jù)進(jìn)行加權(quán)適應(yīng),用于訓(xùn)練目標(biāo)領(lǐng)域的情感分類模型.其中,權(quán)重選擇與相似度度量往往依賴經(jīng)驗知識.
例如,Robert 等人[61]提出了一種從源領(lǐng)域訓(xùn)練集中選擇與目標(biāo)領(lǐng)域最相似的樣本的領(lǐng)域自適應(yīng)方法,并在半監(jiān)督跨領(lǐng)域文本層次情感分類實驗評估了此方法.領(lǐng)域Di和Dj的JS(Jensen-Shannon)散度由Kullback-Leibler距離得到,見公式(1)和公式(2):
在此方法中,初始的源領(lǐng)域訓(xùn)練集大小由源領(lǐng)域和目標(biāo)領(lǐng)域的領(lǐng)域相似度和領(lǐng)域復(fù)雜性自動確定.他們在Multi-domain sentiment dataset v2.0 數(shù)據(jù)集上取得了73.4%的平均準(zhǔn)確率.
Xia 等人[28]提出了一種基于特征集成和樣本集成的聯(lián)合遷移策略.他們首先使用特征集成策略學(xué)習(xí)一個新的標(biāo)記函數(shù)重新計算新的特征,使用基于PCA 的特征選擇方法進(jìn)行實例適應(yīng),在Amazon4 種產(chǎn)品評論數(shù)據(jù)集實現(xiàn)了77.5%的平均準(zhǔn)確率.Xia 等人[29]還提出了基于PU 學(xué)習(xí)的實例選擇和實例權(quán)重方法.PU 學(xué)習(xí)首先學(xué)習(xí)一個目標(biāo)領(lǐng)域的選擇器,高概率值的樣本被選作訓(xùn)練數(shù)據(jù).校準(zhǔn)后的目標(biāo)領(lǐng)域權(quán)重被用作樣本權(quán)重訓(xùn)練一個基于最大加權(quán)似然樸素貝葉斯模型.在Movie 領(lǐng)域遷移到Multi-domain sentiment datasets 數(shù)據(jù)集達(dá)到了77.1%的平均準(zhǔn)確率,在Video 數(shù)據(jù)集遷移到12 個評論數(shù)據(jù)集取得了79.9%的平均準(zhǔn)確率.為了選擇對于目標(biāo)領(lǐng)域合適的源節(jié)點(diǎn),Lin 等人[30]提出了一種基于樹的回歸模型,該模型使用樹結(jié)構(gòu)化的領(lǐng)域表示,聯(lián)合了領(lǐng)域相似性和領(lǐng)域復(fù)雜度,預(yù)測從多個源節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的準(zhǔn)確性損失,在Amazon Electronics,Books 和Kitchen 數(shù)據(jù)集上實現(xiàn)了77.37%的平均遷移準(zhǔn)確率.Domeniconi 等人[31]通過馬爾可夫模型結(jié)合遷移學(xué)習(xí)和情感分類任務(wù),使用極性依賴的詞進(jìn)行分類取得了很好的結(jié)果,在Amazon4 種產(chǎn)品評論數(shù)據(jù)集上達(dá)到了75.88%的準(zhǔn)確率.
2.2.2 特征遷移方法(feature transferring based method)
情感在不同的領(lǐng)域中被不同的特征詞表達(dá),在源領(lǐng)域出現(xiàn)的情感詞可能不會出現(xiàn)目標(biāo)領(lǐng)域中,因此特征的分布差異阻礙了跨領(lǐng)域的情感遷移.特征遷移方法主要是基于特征映射的方法,旨在發(fā)現(xiàn)領(lǐng)域特定特征和領(lǐng)域共享特征之間的關(guān)聯(lián).在執(zhí)行領(lǐng)域適應(yīng)之前,一個重要的預(yù)處理步驟是選擇領(lǐng)域共享(樞紐)特征的集合.已有的跨領(lǐng)域情感分類實驗表明,適應(yīng)性的特征表示對于減少領(lǐng)域之間的差異是非常有效的.
例如,Blitzer 等人[79]使用源領(lǐng)域和目標(biāo)領(lǐng)域不帶標(biāo)簽的數(shù)據(jù)學(xué)習(xí)跨領(lǐng)域共享特征表示,提出了一種結(jié)構(gòu)一致化學(xué)習(xí)(structural correspondence learning,簡稱SCL)方法.領(lǐng)域共享(樞紐)特征被定義為有較高互信息的極性特征,SCL 的核心思想是:通過建立領(lǐng)域特定特征和共享特征的相關(guān)性,識別來自不同領(lǐng)域的特征相關(guān)性,使用領(lǐng)域共享表示訓(xùn)練的判別式模型可以更好地推廣到目標(biāo)領(lǐng)域.Yftah 等人[62]結(jié)合結(jié)構(gòu)一致化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)模型,首先學(xué)習(xí)輸入樣本領(lǐng)域共享特征的低維表示,再將低維表示用于學(xué)習(xí)此任務(wù)的學(xué)習(xí)算法.通過引入預(yù)訓(xùn)練的詞向量到模型中,利用相似的共享特征提高跨領(lǐng)域的泛化能力.魏現(xiàn)輝等人[68]改進(jìn)傳統(tǒng)的SimRank 算法,以領(lǐng)域間的共享特征作為橋梁構(gòu)建潛在的特征空間,將源領(lǐng)域和目標(biāo)領(lǐng)域的樣本映射到潛在的特征空間中,有效減少了源領(lǐng)域和目標(biāo)領(lǐng)域之間的分布差異.張博等人[32]結(jié)合傳統(tǒng)的典型相關(guān)性分析和特征遷移學(xué)習(xí)策略,分析領(lǐng)域特定特征和共享特征之間的關(guān)聯(lián),并選擇合適的基向量訓(xùn)練線性分類器.張玉紅等人[33]根據(jù)詞頻和對數(shù)似然比信息挖掘在源領(lǐng)域帶情感極性,且在目標(biāo)領(lǐng)域判別性較高的特征,構(gòu)建了不同領(lǐng)域之間的共享特征空間.
在領(lǐng)域共享(樞紐)特征(pivot features)作為橋梁的幫助下,Pan 等人[24]提出一種譜特征對齊(spectral feature alignment,簡稱SFA)算法對齊來自不同領(lǐng)域的領(lǐng)域特定特征.特征和領(lǐng)域之間的互信息建模見公式(3):
在此方法下,聚集的簇可以減少兩個領(lǐng)域的領(lǐng)域特定詞的差異,用于訓(xùn)練目標(biāo)領(lǐng)域的精確分類器.在Amazon 4 種領(lǐng)域評論數(shù)據(jù)集和SentDat 數(shù)據(jù)集上分別達(dá)到了77.71%和75.41%的平均準(zhǔn)確率.
類似地,Wang 等人[74]創(chuàng)造了情感相關(guān)索引(sentiment related index)衡量特定領(lǐng)域中不同的詞匯元素之間的關(guān)聯(lián),并提出了一種基于情感相關(guān)索引的跨領(lǐng)域情感分類算法,在RewData 數(shù)據(jù)集(Computer,Education 和Hotel)和DoubanData 數(shù)據(jù)集(Movie,Music 和Book)上達(dá)到了82.3%的平均準(zhǔn)確率.Wei 等人[34]提出了跨領(lǐng)域語義相關(guān)自動對應(yīng)方法,捕捉來自不同領(lǐng)域的相似語義特征.抽取源領(lǐng)域和目標(biāo)領(lǐng)域共同的前N個共享特征,構(gòu)建表達(dá)相似特征對并轉(zhuǎn)換為相似的情感特征表示,有效減少了領(lǐng)域情感差異性.Tareq 等人[80]使用條件概率聯(lián)合關(guān)聯(lián)度量源領(lǐng)域和目標(biāo)領(lǐng)域的遷移特征,利用樸素貝葉斯模型和3 種特征選擇方法(信息熵、比值比和卡方檢驗)應(yīng)用到跨領(lǐng)域情感分類任務(wù)中.Zhang 等人[75]提出了一種基于遷移學(xué)習(xí)的非負(fù)矩陣分解策略,用相似的特征簇遷移知識,通過連接相似的特征簇進(jìn)行情感分類.在相似的詞聚類矩陣和相似的約束加入到知識遷移函數(shù)中,可以應(yīng)用到跨語言和跨領(lǐng)域情感分類任務(wù)中.Zhang 等人[58]遷移源領(lǐng)域特征的極性到目標(biāo)領(lǐng)域,使用領(lǐng)域共享的特征作為橋梁.
2.2.3 模型遷移方法(model/parameter transferring based method)
基于模型或參數(shù)遷移的跨領(lǐng)域情感分類研究假設(shè)相關(guān)的文本情感分類任務(wù)的模型共享部分參數(shù)或超參數(shù)的先驗分布.已有的方法致力于利用源領(lǐng)域的模型提升目標(biāo)領(lǐng)域的表現(xiàn),主要解決兩個問題:(1) 共享模型中的哪些參數(shù);(2) 如何共享參數(shù),即選用何種方法實現(xiàn)模型參數(shù)的遷移.
例如,Bollegal 等人[23]將跨領(lǐng)域情感分類看作是嵌入式學(xué)習(xí)任務(wù),構(gòu)造了3 種目標(biāo)函數(shù),分別是共同特征的分布式屬性、源領(lǐng)域文本的標(biāo)簽約束信息、源領(lǐng)域和目標(biāo)領(lǐng)域不帶標(biāo)記樣本的幾何特性.為解決一個領(lǐng)域訓(xùn)練的分類器在不同的領(lǐng)域表現(xiàn)不好的問題,尤其是帶標(biāo)記數(shù)據(jù)的分布和不帶標(biāo)記數(shù)據(jù)的分布不一致的時候,Zhu等人[81]使用神經(jīng)網(wǎng)絡(luò)上的特征對齊(feature alignment)方法用于跨領(lǐng)域情感分類任務(wù),使用了基于SVD 分解的方法,見公式(4):
其中,Mm×n為文本矩陣,U和V為正交矩陣,Σm×n為對角矩陣.通過分解,可以有效地過濾掉噪聲特征.
Li 等人[35]針對跨領(lǐng)域文本情感分類問題提出了一種端到端的對抗記憶網(wǎng)絡(luò)框架,包括兩種參數(shù)共享記憶網(wǎng)絡(luò),分別是是情感分類和領(lǐng)域分類.通過聯(lián)合訓(xùn)練這兩種網(wǎng)絡(luò),使得選擇的特征能夠最小化情感分類錯誤率,同時獲得源領(lǐng)域和目標(biāo)領(lǐng)域的表示.為解決情感分類的領(lǐng)域適應(yīng)性問題,Bach 等人[36]提出了利用通用方法進(jìn)行特征學(xué)習(xí)和特征子空間映射,并將詞嵌入和典型相關(guān)性分析應(yīng)用到在跨領(lǐng)域情感分類任務(wù).Glorot 等人[37]提出了一種深度學(xué)習(xí)策略,解決情感分類器的領(lǐng)域適應(yīng)性問題.通過用一種堆疊去燥自編碼(stacked denoising autoencoders)獲得每篇評論的有意義的表示,在Amazon 4 種類型的產(chǎn)品評論實驗表明,用高層次特征訓(xùn)練的情感分類器要好于基準(zhǔn)方法.借鑒結(jié)構(gòu)一致化學(xué)習(xí)策略,Yu 等人[82]用神經(jīng)網(wǎng)絡(luò)架構(gòu)研究跨領(lǐng)域的情感分類問題,利用兩個輔助的任務(wù)提升句子嵌入在跨領(lǐng)域情感分類上的表現(xiàn),聯(lián)合學(xué)習(xí)句子嵌入和情感分類器的方法,在英文電影、相機(jī)、筆記本電腦和餐館數(shù)據(jù)集上達(dá)到了79.6%平均準(zhǔn)確率.
2.2.4 基于詞典的方法(lexicon based method)
已有的研究積累了大量的情感詞典資源,基于詞典的方法利用領(lǐng)域通用的情感詞典知識和領(lǐng)域特定的語料生成領(lǐng)域特定的情感詞典,以此解決跨領(lǐng)域的文本情感分類問題.例如,Mao 等人[83]提出了一種聯(lián)合情感詞典和機(jī)器學(xué)習(xí)的跨領(lǐng)域中文產(chǎn)品評論情感分類方法.首先適應(yīng)領(lǐng)域通用的詞典到書籍、酒店和電子產(chǎn)品領(lǐng)域中,然后根據(jù)情感詞、N元語法、統(tǒng)計信息和基于詞典方法的結(jié)果共16 個特征構(gòu)建分類器.通過使用不同的詞典和分類器評估提出的方法,在中文Hotel,Electronics 和Book 數(shù)據(jù)集上實現(xiàn)了86.8%的平均準(zhǔn)確率.
Dolores 等人[84]針對西班牙語酒店領(lǐng)域開發(fā)了一種無監(jiān)督極性分類系統(tǒng),引入領(lǐng)域獨(dú)立的詞典為SOL 和iSOL,旅游詞典為加入領(lǐng)域知識的eSOLHotel,并在酒店領(lǐng)域評估了這3 個情感詞典的分類表現(xiàn).Bollegala 等人[21]使用源領(lǐng)域的標(biāo)記數(shù)據(jù)、源領(lǐng)域和目標(biāo)領(lǐng)域未標(biāo)記的數(shù)據(jù)創(chuàng)建一個情感敏感的分布式同義詞庫,給出特征ui和文檔d的排序分score(ui,d),見公式(5):
他們使用同義詞庫的擴(kuò)展特征在分類器上進(jìn)行訓(xùn)練和測試,并在單源和多源領(lǐng)域、有監(jiān)督和無監(jiān)督的領(lǐng)域適應(yīng)和各種相似度度量方法進(jìn)行了實驗驗證,在Amazon 4 種領(lǐng)域數(shù)據(jù)集上達(dá)到81.91%的平均準(zhǔn)確率.
Rishabh 等人[38]使用多領(lǐng)域的不帶標(biāo)簽的評論和K-SVD 算法學(xué)習(xí)到一個基于稀疏表示的詞典,從而實現(xiàn)自學(xué)習(xí)的目標(biāo).給定一組樣例集Y,K-SVD 的目標(biāo)是找到一個詞典D和一個系數(shù)矩陣X,最小化表示誤差:
其中,γi表示矩陣X的某一行,為表示非0 的個數(shù).此方法在Amazon 4 種領(lǐng)域評論數(shù)據(jù)集實現(xiàn)了81.25%的平均準(zhǔn)確率.
類似地,Li 等人[39]從爛番茄(rotten tomatoes)網(wǎng)站和IMDB 論壇帶星級的電影評論中學(xué)習(xí)語言表示和能夠表達(dá)評論觀點(diǎn)的情感詞,提出了一種新的情感遷移機(jī)制:通過在源領(lǐng)域和目標(biāo)領(lǐng)域的詞-文本矩陣進(jìn)行受約束的非負(fù)矩陣分解,成功地遷移這些知識到目標(biāo)領(lǐng)域中.
2.2.5 聯(lián)合情感主題方法(sentiment-topic joint based method)
主題模型(topic model)是以非監(jiān)督學(xué)習(xí)的方式對文集的隱含語義結(jié)構(gòu)(latent semantic structure)進(jìn)行聚類(clustering)的統(tǒng)計模型[85],主題模型被用于自然語言處理中的語義分析(semantic analysis)和文本挖掘(text mining)問題,例如按主題對文本進(jìn)行收集、分類和降維等[86].聯(lián)合情感主題的方法假設(shè)源領(lǐng)域和目標(biāo)領(lǐng)域共享某些特定的主題,這些主題可以作為連接不同領(lǐng)域之間的橋梁.例如,產(chǎn)品評論的各個領(lǐng)域中往往都有“價格”(price)屬性,電子產(chǎn)品評論中都有“屏幕(screen)”和“電池(battery)”等屬性.
He 等人[87]通過改進(jìn)主題依賴聯(lián)合模型抽取極性依賴的主題,將這些主題加入到初始的特征空間中,利用擴(kuò)展的特征和信息增益標(biāo)準(zhǔn)進(jìn)行特征選擇,在跨領(lǐng)域情感分類任務(wù)上取得了很好的效果,此方法簡單且不需要困難的參數(shù)調(diào)試過程.相比較領(lǐng)域內(nèi)(in-domain)測試的結(jié)果,他們提出的Joint sentiment-topic(JST)模型在IMDB 的電影數(shù)據(jù)集和Amazon 4 種領(lǐng)域評論數(shù)據(jù)集達(dá)到了平均4.1%的平均適應(yīng)性損失.為了搭建領(lǐng)域間的橋梁,Zhou等人[40]提出了主題一致性遷移(topical correspondence transfer)算法.每篇文本被表示為詞-文本矩陣的形式,包含了領(lǐng)域特定主題和領(lǐng)域共享主題.共有的主題的一致性可以作為橋梁減少領(lǐng)域之間的差異性,在Amazon 4 種領(lǐng)域評論數(shù)據(jù)集上達(dá)到了79.43%的平均準(zhǔn)確率.Yang 等人[12]提出了一種Link-Bridged 主題模型,利用輔助連接網(wǎng)絡(luò)發(fā)現(xiàn)文本之間直接或者間接的共引關(guān)系,挖掘出的共引關(guān)系可以作為不同領(lǐng)域的連接橋梁.Suman 等人[88]針對社交流媒體和傳統(tǒng)媒體領(lǐng)域之間的實時遷移學(xué)習(xí),提出了一種可擴(kuò)展的SocialTransfer 模型.使用在線流LDA 模型學(xué)習(xí)社交流媒體的主題,利用來自于社交媒體和視頻領(lǐng)域抽取的主題構(gòu)建起中介主題空間.再使用譜學(xué)習(xí)(spectral learning)的方法學(xué)習(xí)跨領(lǐng)域的共享特征表示,最后通過更新遷移拉普拉斯矩陣(laplacian matrix)得到主題.源領(lǐng)域為10.2 million Twitter 數(shù)據(jù),目標(biāo)領(lǐng)域為5.7 million YouTube 數(shù)據(jù),在YouTube 的7 個領(lǐng)域上,實現(xiàn)了75.5%的評論準(zhǔn)確率.
Huang 等人[41]提出了一種主題相關(guān)適應(yīng)性提升(topic-related trAdaBoost)跨領(lǐng)域情感分類框架.他們認(rèn)為:主題分布捕捉文檔的領(lǐng)域信息,對于跨領(lǐng)域情感分類是有價值的.實驗結(jié)果表明:TR-TrAdaBoost 表示的文檔提升跨領(lǐng)域的表現(xiàn)和魯棒性,在Amazon 4 個領(lǐng)域評論數(shù)據(jù)集上達(dá)到了76.0%的平均準(zhǔn)確率.張慧等人[73]根據(jù)4 種評價對象:整體、硬件、軟件和服務(wù),每種評價對象構(gòu)建獨(dú)立的分類器,每個評價對象看作是一個獨(dú)立的視圖,使用協(xié)同學(xué)習(xí)(collaborative learning)的方法進(jìn)行跨領(lǐng)域情感分類任務(wù),在中文4 個領(lǐng)域(酒店(hotel)、筆記本(notebook)、家具(furniture)、數(shù)碼相機(jī)(digital camera))數(shù)據(jù)集上遷移到Hotel 和Notebook 領(lǐng)域達(dá)到了75.0%和59.0%的F值.
2.2.6 基于圖模型的方法(graph based method)
基于圖的算法被廣泛應(yīng)用于半監(jiān)督和跨領(lǐng)域的研究問題中,對于解決數(shù)據(jù)受限問題非常有效.基于圖模型的跨領(lǐng)域情感分類方法通過構(gòu)建不同領(lǐng)域之間的情感傳播圖,實現(xiàn)源領(lǐng)域到目標(biāo)領(lǐng)域的情感傳遞.在情感傳播圖中,節(jié)點(diǎn)為情感特征或者文檔,邊為他們之間的語義關(guān)系.節(jié)點(diǎn)之間的相似度越大,則具有較高的情感相似度;反之則越低.
例如,Arun 等人[89]提出了一種基于圖的遷移學(xué)習(xí)研究,使用用戶-文本-特征的三部圖從帶標(biāo)簽的樣本、用戶和關(guān)鍵詞特征到不帶標(biāo)記樣本中傳播情感信息,通過排除一致的用戶在不同的領(lǐng)域間具有不一致的行為解決“負(fù)遷移”問題.吳瓊等人[69]將源領(lǐng)域和目標(biāo)領(lǐng)域中文本和詞的4 種關(guān)系納入到隨機(jī)游走模型中,待算法收斂時得到文本穩(wěn)定的情感分,以此判斷目標(biāo)領(lǐng)域文本最終的情感傾向.此外,Wu 等人[71]將圖排序算法應(yīng)用到跨領(lǐng)域情感分類中,將源領(lǐng)域的精確標(biāo)簽和目標(biāo)領(lǐng)域的偽標(biāo)簽進(jìn)行迭代,最終得到測試文本的精確情感分,情感分的計算見公式(8):
其中,i=1,2,…,n,α+β=1,為歸一化的相似度,為情感分,為行歸一化后的鄰接矩陣.
Giacomo 等人[42]提出了一種基于馬爾可夫鏈理論的跨領(lǐng)域情感分類方法.基本的思想是對詞在語料中的語義分布信息進(jìn)行建模,首先將文檔語料表示為圖,每個不同的詞為一個結(jié)點(diǎn),不同的共現(xiàn)詞之間有一個連接.構(gòu)建馬爾可夫轉(zhuǎn)移矩陣,其中,狀態(tài)表示詞或者類別,從源領(lǐng)域的領(lǐng)域特定詞到目標(biāo)領(lǐng)域特定詞之間遷移學(xué)習(xí).在Amazon 4 種領(lǐng)域評論數(shù)據(jù)集上實,現(xiàn)了77.75%的平均準(zhǔn)確率.
Wu 等人[72]通過充分融合文本和詞的4 種關(guān)系,在不同的領(lǐng)域中遷移情感信息,提出了一種迭代的增強(qiáng)學(xué)習(xí)研究.文本(詞)的情感分由它相互關(guān)聯(lián)的文本和詞決定,更新后的文本(詞)的情感分同樣也會影響和它相互關(guān)聯(lián)的文本和詞.在Book,Hotel 和Notebook 數(shù)據(jù)集實現(xiàn)了75.2%的平均準(zhǔn)確率.Natalia 等人[43]將基于圖的標(biāo)簽傳播算法(label propagation algorithm)應(yīng)用到情感分類任務(wù)中.他們研究了修改的圖結(jié)構(gòu)和參數(shù)變化,比較了基于圖的算法在跨領(lǐng)域和半監(jiān)督的情況下的表現(xiàn),在Amazon 4 種領(lǐng)域數(shù)據(jù)集上達(dá)到了78.4%的平均準(zhǔn)確率.
以上方法僅從單個源領(lǐng)域遷移情感信息,當(dāng)源領(lǐng)域和目標(biāo)領(lǐng)域的特征分布有顯著不同時,適應(yīng)性表現(xiàn)會顯著下降[89].在存在多個源領(lǐng)域數(shù)據(jù)集的前提下,多源遷移學(xué)習(xí)方法提取的遷移知識已不再局限于單個源領(lǐng)域,而是來自于多個源領(lǐng)域[59].大部分多源跨領(lǐng)域情感分類研究主要專注于目標(biāo)領(lǐng)域數(shù)據(jù)樣本稀缺問題和如何利用多個源領(lǐng)域數(shù)據(jù),多采用基于實例遷移或者參數(shù)遷移的方法.
從實例遷移的角度看,Xu 等人[90]提出了一種多視角適應(yīng)性提升(multi-view adaboost)多源領(lǐng)域遷移學(xué)習(xí)算法.他們認(rèn)為:所有的源領(lǐng)域和目標(biāo)領(lǐng)域任務(wù)是成分視角,每個任務(wù)可以從不同的視角下學(xué)習(xí).此方法不僅利用了多個源領(lǐng)域的帶標(biāo)簽數(shù)據(jù)幫助目標(biāo)任務(wù)學(xué)習(xí),而且同步地考慮如何在不同視角下的遷移.Fang 等人[91]通過抽取在多個源領(lǐng)域標(biāo)簽的共享子空間,提出一種多標(biāo)簽共享子空間的多領(lǐng)域遷移學(xué)習(xí)方法.此方法轉(zhuǎn)換目標(biāo)領(lǐng)域的樣本到多標(biāo)簽樣本,能夠分析預(yù)測標(biāo)簽和多個源領(lǐng)域的關(guān)系.Sun 等人[44]提出了一種二階段領(lǐng)域適應(yīng)性方法(MDA),能夠從多個源領(lǐng)域中聯(lián)合加權(quán)數(shù)據(jù):第1 階段為邊際概率差異,第2 階段為條件概率差異.最小化條件概率的權(quán)重由同時計算多個源領(lǐng)域之間的潛在的交互作用,在Amazon 4 種領(lǐng)域評論數(shù)據(jù)集上實現(xiàn)了60.14%的平均準(zhǔn)確率.Hu 等人[45]提出了一種基于類分布的多源領(lǐng)域適應(yīng)性算法(MACD),類分布信息被用于從所有的源領(lǐng)域中選擇一些適應(yīng)性基分類器,選擇的“自標(biāo)簽”樣本根據(jù)源領(lǐng)域和目標(biāo)領(lǐng)域的相似度被動態(tài)地加入到訓(xùn)練數(shù)據(jù)中.最終使用類分布信息構(gòu)建集成分類器,在Amazon 4 種領(lǐng)域評論數(shù)據(jù)集上實現(xiàn)了79.75%的平均準(zhǔn)確率.Li等人[46]在多個源領(lǐng)域適應(yīng)到一個特定領(lǐng)域的情況下,提出了一種多標(biāo)簽一致訓(xùn)練框架.首先在多個領(lǐng)域的帶標(biāo)簽數(shù)據(jù)上使用不同的學(xué)習(xí)算法、訓(xùn)練數(shù)據(jù)和特征集訓(xùn)練基分類器,各種不同的規(guī)則聯(lián)合基分類器構(gòu)建多分類器系統(tǒng)框架,在Amazon 4 種領(lǐng)域評論數(shù)據(jù)集上達(dá)到了80.1%的準(zhǔn)確率.
從參數(shù)遷移的角度看,Tan 等人[92]定義了多視角和多源領(lǐng)域的遷移學(xué)習(xí),提出一種新算法協(xié)同利用不同視角和源領(lǐng)域的知識,通過不同源領(lǐng)域互相協(xié)同訓(xùn)練的方法,可以彌補(bǔ)不同領(lǐng)域之間的分布差異.Zhuang 等人[47]提出了一種多個源領(lǐng)域的遷移學(xué)習(xí)框架(CRA),在此框架中,利用自編碼器構(gòu)造從初始的樣本到隱含表示的特征映射,從源領(lǐng)域的數(shù)據(jù)中訓(xùn)練多個分類器,通過執(zhí)行基于熵一致正則化矩陣完成目標(biāo)領(lǐng)域樣本的預(yù)測.Wu 等人[48]在從不帶標(biāo)簽的目標(biāo)領(lǐng)域數(shù)據(jù)中詞的情感極性關(guān)系的幫助下,提出了一種基于情感圖的領(lǐng)域相似性度量方法,相似的領(lǐng)域通常會共享共同的情感詞和情感詞對,在Amazon 4 種領(lǐng)域評論數(shù)據(jù)集上實現(xiàn)了81.97%的平均準(zhǔn)確率.Yoshida 等人[93]提出了一種貝葉斯概率模型處理多個源領(lǐng)域和多個目標(biāo)領(lǐng)域的情況.在此模型中,每個詞有3 個要素:領(lǐng)域標(biāo)簽、領(lǐng)域共享/特定、詞的極性.從帶標(biāo)簽和不帶標(biāo)簽的文本中使用Gibbs 采樣推斷模型的參數(shù),同時能表明每個詞的極性是領(lǐng)域特定還是領(lǐng)域共享的.他們抽取出的領(lǐng)域共享詞有:正面great,good,best,excellent;負(fù)面bad,instead,actually,wrong;中性quite,long,right away.Electronics 領(lǐng)域的領(lǐng)域特定詞為small,light,soft,Kitchen 領(lǐng)域的領(lǐng)域特定詞為stainless,sturdy,fresh,healthy.趙傳君等人[94]從參數(shù)遷移和集成學(xué)習(xí)的角度,提出了一種基于集成深度遷移學(xué)習(xí)的多源跨領(lǐng)域文本情感分類方法,通過遷移學(xué)習(xí)實現(xiàn)源領(lǐng)域到目標(biāo)領(lǐng)域的模型遷移,最終通過集成學(xué)習(xí)方法聯(lián)合各基分類器輸出.
我們對傳統(tǒng)的領(lǐng)域適應(yīng)綜述中的代表性方法在亞馬遜英文DVDs,Books,Electronics 和Kitchen 等4 個領(lǐng)域的在線評論語料的結(jié)果進(jìn)行了展示,見表3.
由表3 可以發(fā)現(xiàn):相比較6 種單源跨領(lǐng)域文本情感分類方法,多源領(lǐng)域條件下的實例遷移和參數(shù)遷移方法均取得了較好的結(jié)果.這表明在多個源領(lǐng)域的條件下,充分利用多個源領(lǐng)域的數(shù)據(jù),可以有效提高跨領(lǐng)域情感分類的準(zhǔn)確率.多源領(lǐng)域優(yōu)勢在于可以利用多個源領(lǐng)域的信息訓(xùn)練更魯棒的模型,難點(diǎn)在于如何選擇合適的源領(lǐng)域和如何融合多個多領(lǐng)域的情感信息.
在跨領(lǐng)域文本情感分類研究初期,研究者多采用實例遷移和特征遷移的方法,這兩種方法較為直觀,具備良好的可解釋性.其中:實例遷移方法具有良好的理論支撐,有清晰的泛化誤差上界,但是此類方法在不同領(lǐng)域間差異較大時效果往往并不理想;特征遷移方法尋求領(lǐng)域通用情感特征,將源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)特征映射到統(tǒng)一的特征空間,可以有效減少不同領(lǐng)域表示上的差距.模型遷移要求不同領(lǐng)域訓(xùn)練的模型盡可能接近,由于深度遷移方法的興起,大多數(shù)模型遷移的方法結(jié)合深度神經(jīng)網(wǎng)絡(luò)模型,也是絕大多數(shù)跨領(lǐng)域情感分類研究工作的熱點(diǎn).在6 種方法中,基于詞典的方法取得了較好的結(jié)果,但是依賴于已有的情感詞典資源和人工勞動.聯(lián)合情感主題和基于圖模型的方法結(jié)合了傳統(tǒng)的主題模型和圖模型方法,也是解決跨領(lǐng)域文本情感分類的重要方法.
Table 3 Different sentiment transfer strategies,methods and classification effects表3 不同情感遷移策略、方法及其分類效果
深度學(xué)習(xí)模型通常是帶有很多隱藏層和參數(shù)的神經(jīng)網(wǎng)絡(luò),所以需要大量訓(xùn)練數(shù)據(jù)才能取得好的結(jié)果,否則非常容易過擬合[33].然而,標(biāo)注特定領(lǐng)域的大規(guī)模數(shù)據(jù)是非常困難的.近年來,遷移學(xué)習(xí)中的子領(lǐng)域深度遷移學(xué)習(xí)受到了廣泛關(guān)注和研究,特別是在圖像識別、自然語言處理等領(lǐng)域取得了很大成功[95].深度遷移學(xué)習(xí)通過共享源領(lǐng)域和目標(biāo)領(lǐng)域的模型結(jié)構(gòu)和部分參數(shù),將源領(lǐng)域中學(xué)到的特征表示遷移到目標(biāo)領(lǐng)域中,以此利用深度神經(jīng)網(wǎng)絡(luò)的可遷移性,提高目標(biāo)領(lǐng)域的任務(wù)表現(xiàn).深度遷移學(xué)習(xí)可以放松領(lǐng)域獨(dú)立同分布的假設(shè),有效減少目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù)的規(guī)模,還可以有效避免過度擬合現(xiàn)象.
已有的深度神經(jīng)網(wǎng)絡(luò)實驗表明,較淺的層往往學(xué)到的是領(lǐng)域通用特征.隨著網(wǎng)絡(luò)層數(shù)的逐漸加深,特征逐漸領(lǐng)域特定化,可遷移性也隨之降低.在網(wǎng)絡(luò)更高層次上計算的特征很大程度上依賴于特定的數(shù)據(jù)集和任務(wù)[98].深度遷移學(xué)習(xí)模型的遷移能力主要受到兩個因素的影響:(1) 深度模型在越深的層,其領(lǐng)域相關(guān)性越強(qiáng),即只能完成領(lǐng)域特定的任務(wù),而較淺的層可遷移性越高;(2) 模型在優(yōu)化過程中,層與層之間參數(shù)的優(yōu)化具有關(guān)聯(lián)性.因此在模型遷移時,需要固定淺層網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù),重新訓(xùn)練高層參數(shù),可以提高模型泛化性.
微調(diào)策略(fine-tuning)是一種有效的深度遷移學(xué)習(xí)技術(shù)[32].在深度遷移學(xué)習(xí)的背景下,對預(yù)訓(xùn)練的源領(lǐng)域深度神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)是學(xué)習(xí)特定任務(wù)常用的策略.微調(diào)策略的步驟主要有:首先訓(xùn)練源領(lǐng)域深度神經(jīng)網(wǎng)絡(luò),將它的前N層復(fù)制到目標(biāo)網(wǎng)絡(luò)的前N層,目標(biāo)網(wǎng)絡(luò)的剩下的其他層則隨機(jī)進(jìn)行初始化.在使用目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù)進(jìn)行誤差反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候有兩種策略:(1) 固定源領(lǐng)域遷移過來的模型和參數(shù),即在訓(xùn)練目標(biāo)任務(wù)時保持改變;(2) 執(zhí)行微調(diào)策略,即在訓(xùn)練過程中可以不斷調(diào)整其參數(shù)權(quán)重.
下面給出深度遷移學(xué)習(xí)的形式化定義:給定源領(lǐng)域DS和源任務(wù)TS,目標(biāo)領(lǐng)域DT和目標(biāo)任務(wù)TT,深度遷移學(xué)習(xí)致力于使用DS和TS中的知識,幫助提高DT中預(yù)測深度神經(jīng)網(wǎng)絡(luò)函數(shù)fT(·)的學(xué)習(xí).其中,D={X,P(X)},DS≠DT意味著源領(lǐng)域和目標(biāo)領(lǐng)域?qū)嵗煌琗S≠XT,或者源領(lǐng)域和目標(biāo)領(lǐng)域邊緣概率分布不同PS(X)≠PT(X).同理,T={Y,P(Y|X)},TS≠TT意味著源領(lǐng)域和目標(biāo)領(lǐng)域標(biāo)簽不同(YS≠YT),或者源領(lǐng)域和目標(biāo)領(lǐng)域條件概率分布不同(P(YS|XS)≠P(YT|XT)).
在文本特性社會媒體的跨領(lǐng)域情感分類任務(wù)中,需要深入理解語言表達(dá)的機(jī)理和情感遷移的機(jī)制.構(gòu)建大規(guī)模、高質(zhì)量的帶標(biāo)注數(shù)據(jù)集非常困難,而深度遷移學(xué)習(xí)可以顯著降低目標(biāo)領(lǐng)域?qū)?biāo)簽數(shù)據(jù)的需求,因此深度遷移學(xué)習(xí)被廣泛應(yīng)用于跨領(lǐng)域情感分類任務(wù).作為解決跨領(lǐng)域文本情感分類問題的新途徑和有效手段,深度遷移學(xué)習(xí)方法主要分為兩個步驟:首先,選取合適的深度情感語義組合方法;然后選擇合適的深度遷移學(xué)習(xí)算法,有效地遷移相關(guān)的情感知識.
我們沿用Tan 等人在文獻(xiàn)[95]中對深度遷移學(xué)習(xí)的分類方法,將深度遷移學(xué)習(xí)分為4 類:基于實例的深度遷移學(xué)習(xí)、基于映射的深度遷移學(xué)習(xí)、基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)和基于對抗的深度遷移學(xué)習(xí).我們從以上4 個角度對跨領(lǐng)域文本情感分類工作進(jìn)行總結(jié).
3.2.1 基于實例的深度遷移學(xué)習(xí)方法(instance-based deep transfer learning method)
類似于傳統(tǒng)的基于實例的情感遷移策略,基于實例的深度遷移學(xué)習(xí)在解決跨領(lǐng)域情感分類任務(wù)時,往往根據(jù)目標(biāo)領(lǐng)域的數(shù)據(jù)分布對源領(lǐng)域的樣本進(jìn)行加權(quán)權(quán)重適應(yīng),選擇部分高置信度樣本加入到目標(biāo)領(lǐng)域訓(xùn)練集中.例如,Dong 等人[96]通過引入有監(jiān)督額外數(shù)據(jù)的情感嵌入,將通用的線索加入到網(wǎng)絡(luò)的訓(xùn)練過程中.然后通過基于專用存儲器的組件將其饋送到模型中,在給定有限訓(xùn)練數(shù)據(jù)的前提下可以有更泛化的能力.提出的模型在Stanford sentiment treebank(SST)數(shù)據(jù)集上,在20%,50%和100%訓(xùn)練數(shù)據(jù)集的條件下,分別達(dá)到了85.06%,86.16%和86.99%的情感分類準(zhǔn)確率.
Sharma 等人[49]使用跨領(lǐng)域不改變其極性和顯著性表示的可遷移信息,用于跨領(lǐng)域文本情感分類任務(wù).具體地,他們提出了一種基于χ2檢驗和單詞上下文向量之間的余弦相似性新方法,識別跨領(lǐng)域保留重要單詞的極性.其中,χ2測試計算如公式(9)所示:
其中,為詞w在正面文檔中的出現(xiàn)次數(shù),為負(fù)面文章中的出現(xiàn)次數(shù),μw為在正面和負(fù)面文檔中出現(xiàn)的平均次數(shù).
Cui 等人[97]對僅適用于源領(lǐng)域標(biāo)記數(shù)據(jù)以及未標(biāo)記數(shù)據(jù)的不同策略進(jìn)行了比較研究,選擇無監(jiān)督域適應(yīng)(unsupervised domain adaptation,簡稱UDA)的領(lǐng)域共享特征執(zhí)行跨領(lǐng)域文本情感分類任務(wù).Khan 等人[66]將余弦相似性度量應(yīng)用于SentiWordNet 計算特征權(quán)重并生成修訂的情感分?jǐn)?shù),模型學(xué)習(xí)由支持向量機(jī)使用兩個實驗設(shè)置執(zhí)行,即單個源和多個目標(biāo)域以及多個源和單個目標(biāo)域.在9 個標(biāo)準(zhǔn)數(shù)據(jù)集上實現(xiàn)了85.05%的準(zhǔn)確率.Cummins 等人[98]通過提供額外的數(shù)據(jù)集,利用不同的詞袋模型輔助情感檢測.實驗結(jié)果表明,使用包含來自測試域和領(lǐng)域外數(shù)據(jù)集的信息的Bag-of-words 提取范例可以獲得系統(tǒng)性能的提升.源領(lǐng)域數(shù)據(jù)來自于包含237 clips的Music Review Dataset,目標(biāo)領(lǐng)域為包含359 個YouTube 視頻的Movie Review Dataset,在發(fā)展集上達(dá)到了80.7%的平均準(zhǔn)確率,在測試集上達(dá)到了79.8%的平均準(zhǔn)確率.
3.2.2 基于映射的深度遷移學(xué)習(xí)方法(mapping-based deep transfer learning method)
基于映射的深度遷移學(xué)習(xí)主要基于以下假設(shè):盡管源領(lǐng)域和目標(biāo)領(lǐng)域之間在原始的特征空間中存在分布差異,在源領(lǐng)域和目標(biāo)領(lǐng)域映射到新的特征空間后可能有相似的分布.度量不同領(lǐng)域距離的比較流行的方法是最大均值差異(maximum mean discrepancies,簡稱MMD)方法及其變體方法.MMD 方法是Borgwardt 等人[99]提出的一種邊際分布自適應(yīng)方法(marginal distribution adaption,簡稱MDA).MMD 將源領(lǐng)域和目標(biāo)領(lǐng)域的分布映射到再生核希爾伯特空間(reproducing kernel Hilbert space,簡稱RKHS)中,目的是減少源領(lǐng)域和目標(biāo)領(lǐng)域的邊際分布距離.Duan 等人[100]提出了使用多核MMD 方法和一種新的求解策略,提出了領(lǐng)域遷移多核學(xué)習(xí)方法(domain transfer multiple kernel learning,簡稱DTMKL).He 等人[63]通過最小化嵌入特征空間中源領(lǐng)域?qū)嵗湍繕?biāo)領(lǐng)域?qū)嵗g的距離,提出了一種領(lǐng)域自適應(yīng)半監(jiān)督學(xué)習(xí)框架(domain adaptive semi-supervised learning framework,簡稱DAS).Sarma 等人[101]提出了一種將通用嵌入廣度與領(lǐng)域特定嵌入的特異性相結(jié)合的方法,領(lǐng)域適應(yīng)的詞嵌入(Domain adapted word embeddings)由對齊相關(guān)的詞向量使用典型性相關(guān)分析(Canonical correlation analysis)或者非線性核典型性相關(guān)分析得到.
Shi 等人[51]提出了一種學(xué)習(xí)領(lǐng)域敏感和情感嵌入的新方法,該方法同時捕獲情感語義信息和單個單詞的領(lǐng)域敏感性,可以自動確定和生成領(lǐng)域通用嵌入和特定領(lǐng)域的嵌入.基于HL 和MPQA 情感詞典在Amazon 4 種領(lǐng)域評論數(shù)據(jù)集上達(dá)到了81.0%和79.8%的平均準(zhǔn)確率.
Wang 等人[76]提出了一種用于跨領(lǐng)域情感分類的軟組合遷移學(xué)習(xí)算法,將兩個非負(fù)矩陣三因子分解集成到一個聯(lián)合優(yōu)化框架中.對詞簇矩陣和簇關(guān)聯(lián)矩陣近似約束,從而使知識轉(zhuǎn)移具有適當(dāng)?shù)亩鄻有?在Amazon 多語言Books,DVD 和Music 這3 種產(chǎn)品評論數(shù)據(jù)集上實現(xiàn)了81.31%的平均準(zhǔn)確率.
Jia 等人[55]提出了基于關(guān)聯(lián)規(guī)則的詞對齊(words alignment based on association rules,簡稱WAAR)方法.通過學(xué)習(xí)領(lǐng)域之間的強(qiáng)關(guān)聯(lián)規(guī)則,可以在不同領(lǐng)域的領(lǐng)域特定詞之間建立間接映射關(guān)系,在一定程度上減少源領(lǐng)域和目標(biāo)領(lǐng)域之間的差異,并且可以訓(xùn)練更準(zhǔn)確的跨領(lǐng)域分類器.單詞作為領(lǐng)域共享特征的可能性的評估函數(shù)計算見公式(10):
Savitha 等人[102]提出了一種基于推文(Tweets)優(yōu)化主題適應(yīng)的詞擴(kuò)展模型(optimized topic adaptive word expansion,簡稱OTAWE).該算法從特定領(lǐng)域中選擇更可靠的未標(biāo)記推文,在共同的情感詞和混合帶標(biāo)簽的推文進(jìn)行主題適應(yīng),并在每次迭代中更新領(lǐng)域自適應(yīng)詞.
Gupta 等人[103]利用了半監(jiān)督和遷移學(xué)習(xí)方法提升低資源(low resource)情感分類任務(wù)的表現(xiàn).該方法通過嘗試提取密集特征表示和帶流形正則化的模型預(yù)訓(xùn)練,可以顯著提高情感分類系統(tǒng)的性能.提出的最優(yōu)的分類器f*為
其中,Hk為再生核希爾伯特空間(reproducible kernel Hilbert space,簡稱RHKS),V為損失函數(shù),為正則化損失,為額外的平滑損失控制,γA和γI為權(quán)重參數(shù).
雖然相應(yīng)的實例在原始特征空間中存在偏差,但可以映射到其他特征空間,對于源領(lǐng)域或者目標(biāo)領(lǐng)域是無偏差的.基于以上假設(shè),Zhou 等人[77]提出了一種混合遷移學(xué)習(xí)框架(hybrid heterogeneous transfer learning,簡稱HHTL),選擇偏向于源領(lǐng)域或者目標(biāo)領(lǐng)域的跨領(lǐng)域相應(yīng)的實例,在英語數(shù)據(jù)作為源領(lǐng)域和目標(biāo)領(lǐng)域時,達(dá)到了79.50%和78.46%的平均準(zhǔn)確率.
3.2.3 基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)方法(network-based deep transfer learning method)
基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)方法往往首先使用源領(lǐng)域大量帶標(biāo)簽樣本預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),然后將其網(wǎng)絡(luò)結(jié)構(gòu)和連接參數(shù)遷移到的新的目標(biāo)領(lǐng)域中,再使用目標(biāo)領(lǐng)域的少量帶標(biāo)簽數(shù)據(jù)微調(diào)整個或者部分神經(jīng)網(wǎng)絡(luò).例如,Zhao 等人[32]針對短文本跨領(lǐng)域文本情感分類任務(wù)提出了一種兩階段的雙向長短時記憶模型和參數(shù)遷移框架,首先利用源領(lǐng)域帶標(biāo)簽數(shù)據(jù)預(yù)訓(xùn)練雙向LSTM 網(wǎng)絡(luò),通過使用少量的目標(biāo)領(lǐng)域訓(xùn)練樣本共享網(wǎng)絡(luò)的底層參數(shù)和重新訓(xùn)練高層參數(shù),在目標(biāo)領(lǐng)域帶標(biāo)簽數(shù)據(jù)上進(jìn)行微調(diào).在中文Hotel,Notebook,Weibo 和Electronic 數(shù)據(jù)集上實現(xiàn)了77.5%的平均準(zhǔn)確率.
Manshu 等人[65]針對跨領(lǐng)域文本情感分類任務(wù),提出了融合先驗知識信息的分層注意網(wǎng)絡(luò)(hierarchical attention network with prior knowledge information,簡稱HANP).HANP 具有注意機(jī)制的分層表示層,因此可以捕獲與情感相關(guān)的重要單詞和句子,在Amazon 5 個領(lǐng)域Books,DVD,Electronics,Kitchen 和Video 數(shù)據(jù)集上達(dá)到了87.76%的平均準(zhǔn)確率.
為了有效地利用目標(biāo)領(lǐng)域標(biāo)記數(shù)據(jù),Peng 等人[50]引入一些目標(biāo)域標(biāo)記數(shù)據(jù)學(xué)習(xí)特定領(lǐng)域的信息,分別同時提取領(lǐng)域特定和不變表示,使用源領(lǐng)域和目標(biāo)領(lǐng)域標(biāo)記數(shù)據(jù)訓(xùn)練基于領(lǐng)域不變表示的分類器,在Amazon 4 種領(lǐng)域評論數(shù)據(jù)集上達(dá)到了81.88%的平均準(zhǔn)確率.
Yang 等人[64]提出了一種用于跨領(lǐng)域方面層次情感分類的注意力模型(neural attentive model for crossdomain aspect-level sentiment classification,簡稱NAACL),利用監(jiān)督深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢以及無監(jiān)督概率生成模型加強(qiáng)表征學(xué)習(xí).
Zhang 等人[52]提出了一種交互式注意力轉(zhuǎn)移網(wǎng)絡(luò)(interactive attention transfer network,簡稱IATN)用于跨領(lǐng)域文本情感分類任務(wù).IATN 提供了一種交互式注意力轉(zhuǎn)移機(jī)制,通過整合句子和方面的信息,可以更好地遷移情感.主要包括兩個關(guān)注網(wǎng)絡(luò),其中:一個是通過領(lǐng)域分類識別領(lǐng)域共同特征,另一個是通過使用共同特征作為橋梁從提取跨領(lǐng)域信息.生成注意力向量αi見公式(12):
Zhang 等人[54]引入了用于領(lǐng)域適應(yīng)場景中情感分析的Capsule 網(wǎng)絡(luò),此網(wǎng)絡(luò)利用膠囊網(wǎng)絡(luò)對內(nèi)在空間部分-整體關(guān)系進(jìn)行編碼,構(gòu)成領(lǐng)域不變知識,作為源域領(lǐng)域和目標(biāo)領(lǐng)域之間的橋梁.該方法還將語義規(guī)則納入膠囊網(wǎng)絡(luò),以增強(qiáng)綜合句子表示學(xué)習(xí).在Amazon 4 種領(lǐng)域評論數(shù)據(jù)集上實現(xiàn)了88.6%的平均準(zhǔn)確率.
Ji 等人[56]設(shè)計了一個Bifurcated-LSTM 網(wǎng)絡(luò),利用了基于注意力的LSTM、增強(qiáng)數(shù)據(jù)集和正交約束.該方法可以從源領(lǐng)域提取領(lǐng)域不變情感特征,在不同的目標(biāo)領(lǐng)域中執(zhí)行情感分析.在Amazon 的7 種領(lǐng)域的數(shù)據(jù)上達(dá)到了80.92%的跨領(lǐng)域情感分類平均準(zhǔn)確率.
3.2.4 基于對抗的深度遷移學(xué)習(xí)方法(adversarial learning-based deep transfer learning method)
為了實現(xiàn)源領(lǐng)域到目標(biāo)領(lǐng)域有效情感遷移,選取的特征應(yīng)該為目標(biāo)領(lǐng)域的情感分類任務(wù)有良好的辨識度,而對于源領(lǐng)域和目標(biāo)領(lǐng)域之間不可區(qū)分.基于此,基于對抗的深度遷移學(xué)習(xí)方法引入生成對抗網(wǎng)絡(luò)(generative adversarial networks,簡稱GAN)中的對抗技術(shù),找到適合于源領(lǐng)域和目標(biāo)領(lǐng)域的領(lǐng)域不變特征.
Zhang 等人[53]提出了分層注意力生成對抗網(wǎng)絡(luò)(hierarchical attention generative adversarial networks,簡稱HAGAN).通過交替地訓(xùn)練一個生成器(generative model)和一個判別器(discriminative model)生成一個文檔向量表示(document representation),它是情感可區(qū)分但是領(lǐng)域無法區(qū)分的.此外,HAGAN 模型應(yīng)用雙向門控循環(huán)單元(Bi-GRU)將單詞和句子的上下文信息編碼到文檔表示中,在Amazon 4 種評論數(shù)據(jù)集上實現(xiàn)了81.56%的平均準(zhǔn)確率.
Liu 等人[57]提出了一種基于模糊的領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)與自動編碼器(fuzziness based domain-adversarial neural network with auto-encoder,簡稱Fuzzy-DAAE).主要包括:(a) 自編碼,無監(jiān)督的神經(jīng)網(wǎng)絡(luò)隱含表示用于重構(gòu)初始化表示;(b) 領(lǐng)域分類器,即簡單的邏輯斯蒂回歸器(logistic regressor);(c) 情感分類器,拼接自編碼的表示h1和領(lǐng)域分類器的隱含表示h1作為情感分類器的輸入,最后是模糊情感分類器的輸出.為了引入更多目標(biāo)樣本的監(jiān)督信息,此模型根據(jù)其模糊性將未標(biāo)記的目標(biāo)樣本及其預(yù)測標(biāo)簽添加到原始訓(xùn)練數(shù)據(jù)中,然后重新訓(xùn)練整個模型.
除了以上工作,Omar 等人[104]在目標(biāo)領(lǐng)域中引入文本生成作為目標(biāo)領(lǐng)域中的帶標(biāo)簽數(shù)據(jù)集,并且比較了基于諸如LSTM,RNN 深度學(xué)習(xí)的文本生成和基于馬爾可夫鏈(Markov chain)的文本生成,在Kitchen 作為目標(biāo)領(lǐng)域數(shù)據(jù)集上達(dá)到了最高72.0%的準(zhǔn)確率.此外,Cai 等人[105]使用去噪自動編碼器提取具有魯棒性的更深層共享特征,使用基于Wasserstein 距離的領(lǐng)域?qū)购驼患s束組合以更好地提取不同領(lǐng)域的深度共享特征,用于跨領(lǐng)域文本情感分類任務(wù).
我們對深度遷移學(xué)習(xí)中的代表性方法在亞馬遜英文DVDs,Books,Electronics 和Kitchen 這4 個領(lǐng)域的在線評論語料的結(jié)果進(jìn)行了比較,分類效果見表4.
Table 4 Different sentiment transfer strategies,methods and classification effects表4 不同深度情感遷移方法及其分類效果
由表4 可以發(fā)現(xiàn),基于深度遷移學(xué)習(xí)的跨領(lǐng)域文本情感分類方法在Amazon 經(jīng)典數(shù)據(jù)集上均取得了較好的效果.可見,基于深度遷移學(xué)習(xí)的方法將是解決此問題以后的主流方法.相比較傳統(tǒng)的情感遷移方法,基于深度遷移學(xué)習(xí)的方法可以實現(xiàn)端到端的跨領(lǐng)域情感遷移任務(wù),具備更好的魯棒性和泛化能力.對應(yīng)不同的情感遷移策略,基于實例的深度遷移學(xué)習(xí)方法屬于實例遷移方法的范疇,基于映射的方法屬于特征遷移,基于網(wǎng)絡(luò)和對抗的深度遷移學(xué)習(xí)方法屬于模型遷移的范圍.基于實例的方法通過對源領(lǐng)域樣本加權(quán)訓(xùn)練,具備良好的可解釋性.基于映射的方法通過學(xué)習(xí)領(lǐng)域通用的特征表示減少領(lǐng)域之間的偏差,最終減少學(xué)習(xí)誤差,可以有效地提升網(wǎng)絡(luò)性能.在4 種方法中,基于網(wǎng)絡(luò)的方法取得了最好的效果,實現(xiàn)了最高88.6%的分類準(zhǔn)確率.這說明在大規(guī)模的情感數(shù)據(jù)上預(yù)訓(xùn)練模型,遷移到特定的小眾領(lǐng)域,可以有效地提升目標(biāo)領(lǐng)域的情感分類表現(xiàn).基于網(wǎng)絡(luò)的方法通過預(yù)訓(xùn)練可以有效地節(jié)約時間成本,在精度上也有很大優(yōu)勢.基于對抗的方法結(jié)合生成對抗式網(wǎng)絡(luò)模型,屬于較新的方法,是未來的重點(diǎn)研究方向之一.
盡管已有工作引入遷移學(xué)習(xí)或領(lǐng)域適應(yīng)機(jī)制解決跨領(lǐng)域文本情感分類任務(wù)取得了很大地成功,但在很多重要的問題的研究上還不夠完善和深入,從理論和技術(shù)上仍然有很多問題需要探索.本節(jié)分析了仍然存在的3點(diǎn)研究挑戰(zhàn),并指出了下一步可能的研究方向.
目前來說,跨領(lǐng)域文本情感分類的研究挑戰(zhàn)主要列舉如下.
(1) 由于不同領(lǐng)域間的分布差異,只有部分源領(lǐng)域的知識適合目標(biāo)領(lǐng)域分類任務(wù),若引入不相關(guān)的知識可能會導(dǎo)致負(fù)遷移,反而會降低目標(biāo)領(lǐng)域情感分類的準(zhǔn)確率,直接影響跨域?qū)W習(xí)的分類精度與效率.針對負(fù)遷移中的噪聲樣本和分類器問題,Xu 和Gui 等人[106,107]使用Rademacher 分布的總和來估計傳輸數(shù)據(jù)的類噪聲率,針對一組由噪聲數(shù)據(jù)的負(fù)面影響引起的弱分類器來學(xué)習(xí)基于訓(xùn)練誤差和類噪聲估計的整體強(qiáng)分類器.情感的“負(fù)遷移”是一個尚未得到完全解決的問題,選擇更合適的領(lǐng)域和樣本進(jìn)行情感知識的遷移,才能避免情感的“負(fù)遷移”現(xiàn)象發(fā)生;
(2) 不同領(lǐng)域之間的相似度通常依賴經(jīng)驗進(jìn)行衡量,缺乏統(tǒng)一有效的相似度度量方法.目前,跨領(lǐng)域文本情感分類僅局限于相似性較大的領(lǐng)域之間的遷移,如何實現(xiàn)相似性較低的領(lǐng)域之間或者源領(lǐng)域數(shù)據(jù)受限時的情感遷移,是一個值得注意的問題,需要選取更合適的情感領(lǐng)域距離度量準(zhǔn)則;
(3) 現(xiàn)有的跨領(lǐng)域情感分類的方法往往只針對單語言和單模態(tài)(文本)之間的遷移,現(xiàn)實條件下往往存在多個語言以及多個圖像、語音或者文本等多個模態(tài)的情感信息.然而不同語言和模態(tài)之間的特征空間是完全不同的,因此,如何實現(xiàn)異質(zhì)空間任務(wù)的情感遷移,是下一步重點(diǎn)需要解決的問題.
(1) 關(guān)注于情感遷移學(xué)習(xí)機(jī)制和情感內(nèi)部表達(dá)機(jī)理的研究.情感遷移學(xué)習(xí)機(jī)制主要是尋求領(lǐng)域不變性因素作為跨領(lǐng)域遷移的橋梁,包括句子級情感注意力遷移和句法結(jié)構(gòu)一致性學(xué)習(xí)等.另一方面,同時考慮邊際分布和語義分布的距離度量方法,可以更好地選擇源領(lǐng)域中對目標(biāo)領(lǐng)域分類有利的訓(xùn)練樣本;
(2) 關(guān)注于多個源領(lǐng)域條件下的跨領(lǐng)域情感分類研究.多源領(lǐng)域適應(yīng)可以從多個源領(lǐng)域獲取知識和經(jīng)驗,適應(yīng)到與源領(lǐng)域分布不同的目標(biāo)領(lǐng)域中.多個源領(lǐng)域之間的知識往往存在共性和交叉,有效利用和融合多個領(lǐng)域的情感知識,可以提高目標(biāo)領(lǐng)域分類的泛化性,較單個源領(lǐng)域的情感遷移有明顯的優(yōu)勢;
(3) 通過參數(shù)遷移和微調(diào)策略可以有效地遷移跨領(lǐng)域情感知識.相比較傳統(tǒng)的情感遷移方法,深度遷移學(xué)習(xí)方法在情感遷移效率和跨領(lǐng)域情感分類準(zhǔn)確率上有很大提升.其中,參數(shù)遷移技術(shù)可以將已經(jīng)訓(xùn)練好的模型參數(shù)遷移到新的模型幫助新模型訓(xùn)練,而在源領(lǐng)域模型基礎(chǔ)上的微調(diào)策略是非常有效的泛化手段;
(4) 有效的領(lǐng)域相似度衡量和常識知識的引入.目前,跨領(lǐng)域的情感分類僅局限于相似性較大的領(lǐng)域之間的遷移,如何實現(xiàn)相似性較低的領(lǐng)域之間或者源領(lǐng)域數(shù)據(jù)受限時的情感遷移,是一個值得研究的問題.源領(lǐng)域的知識往往是有限的,融合已有的先驗知識和相關(guān)的語言學(xué)知識,可以輔助和提升目標(biāo)領(lǐng)域的情感分類任務(wù)的效果.例如,通過引入知識圖譜知識,充分利用人工標(biāo)定和海量的無標(biāo)記數(shù)據(jù),將是未來非常有價值的研究思路;
(5) 跨領(lǐng)域的細(xì)粒度情感分類任務(wù)研究.傳統(tǒng)的跨領(lǐng)域文本情感分類往往是實現(xiàn)不同領(lǐng)域之間篇章級的情感遷移,較少關(guān)注于跨領(lǐng)域細(xì)粒度的句子(sentence)級、方面(aspect)級、評價對象(target)及其屬性的情感傾向任務(wù)研究.下一步可以研究篇章級的情感分類任務(wù)到細(xì)粒度情感遷移任務(wù),或者不同領(lǐng)域之間細(xì)粒度情感分類任務(wù)之間的情感遷移;
(6) 跨模態(tài)和多模態(tài)的情感遷移機(jī)制研究.現(xiàn)實條件下,往往存在圖像和語音等多個模態(tài)的情感信息,然而不同模態(tài)之間的特征空間是異構(gòu)的.Cummins 等人[98]針對跨模態(tài)的情感遷移進(jìn)行了有效探索.在未來的工作中,可以通過文本、圖像和聲音的跨模態(tài)特征學(xué)習(xí),將不同模態(tài)的特征映射到共同的語義空間中,充分利用多模態(tài)的情感知識,實現(xiàn)跨模態(tài)和多模態(tài)的情感分類目標(biāo);
(7) 引入在大規(guī)模語料上的預(yù)訓(xùn)練模型并結(jié)合特定的領(lǐng)域知識.在面臨特定領(lǐng)域的任務(wù)時,引入在大規(guī)模無監(jiān)督語料上預(yù)訓(xùn)練的語境化的嵌入表示,例如ELMo[108]、OpenAI GPT[109]、BERT[110]、基于全詞覆蓋(whole word masking)的中文BERT 預(yù)訓(xùn)練模型[111]、XLNet[112]等,在下游任務(wù)中,結(jié)合特定的領(lǐng)域知識和遷移學(xué)習(xí)技術(shù),如有監(jiān)督的微調(diào)等,完成特定領(lǐng)域的情感分類任務(wù).
跨領(lǐng)域文本情感分類可以彌補(bǔ)不同領(lǐng)域間情感分布差異,對提升情感分類的泛化性有重要意義,是情感分析的研究熱點(diǎn)和難點(diǎn)之一.本文綜述了跨領(lǐng)域文本情感分類的相關(guān)背景、現(xiàn)有技術(shù)和應(yīng)用,從目標(biāo)領(lǐng)域中有可用數(shù)據(jù)、不同的情感遷移策略和可用源領(lǐng)域的個數(shù)這3 個角度對已有的跨領(lǐng)域文本情感分類工作進(jìn)行了總結(jié).我們還重點(diǎn)介紹了深度遷移學(xué)習(xí)方法在跨領(lǐng)域文本情感分類中的應(yīng)用.最后總結(jié)了目前跨領(lǐng)域情感遷移面臨的主要挑戰(zhàn),并對其未來的研究方向進(jìn)行了展望,尤其是跨模態(tài)情感遷移、常識知識以及領(lǐng)域知識應(yīng)用于跨領(lǐng)域情感分類,可能是下一步的研究熱點(diǎn).