萬圣賢,蘭艷艷,郭嘉豐,程學(xué)旗
(1. 中國科學(xué)院計(jì)算技術(shù)研究所 中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國科學(xué)院大學(xué),北京 100190)
基于弱監(jiān)督預(yù)訓(xùn)練深度模型的微博情感分析
萬圣賢1,2,蘭艷艷1,2,郭嘉豐1,2,程學(xué)旗1,2
(1. 中國科學(xué)院計(jì)算技術(shù)研究所 中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國科學(xué)院大學(xué),北京 100190)
微博情感分析對于商業(yè)事務(wù)和政治選舉等應(yīng)用非常重要。傳統(tǒng)的做法主要基于淺層機(jī)器學(xué)習(xí)模型,對人工提取的特征有較大的依賴,而微博情感特征往往難以提取。深度學(xué)習(xí)可以自動(dòng)學(xué)習(xí)層次化的特征,并被用于解決情感分析問題。隨著新的深度學(xué)習(xí)技術(shù)的提出,人們發(fā)現(xiàn)只要提供足夠多的監(jiān)督數(shù)據(jù),就能訓(xùn)練出好的深度模型。然而,在微博情感分析中,通常監(jiān)督數(shù)據(jù)都非常少。微博中廣泛存在著弱監(jiān)督數(shù)據(jù)。該文提出基于弱監(jiān)督數(shù)據(jù)的“預(yù)訓(xùn)練—微調(diào)整”訓(xùn)練框架(distant pretrain-finetune),使用弱監(jiān)督數(shù)據(jù)對深度模型進(jìn)行預(yù)訓(xùn)練,然后使用監(jiān)督數(shù)據(jù)進(jìn)行微調(diào)整。這種做法的好處是可以利用弱監(jiān)督數(shù)據(jù)學(xué)習(xí)到一個(gè)初始的模型,然后利用監(jiān)督數(shù)據(jù)來進(jìn)一步改善模型并克服弱監(jiān)督數(shù)據(jù)存在的一些問題。我們在新浪微博數(shù)據(jù)上進(jìn)行的實(shí)驗(yàn)表明,這種做法可以在監(jiān)督數(shù)據(jù)較少的情況下使用深度學(xué)習(xí),并取得比淺層模型更好的效果。
情感分析;深度學(xué)習(xí);弱監(jiān)督;預(yù)訓(xùn)練-微調(diào)整
隨著互聯(lián)網(wǎng)的發(fā)展,人們越來越多的在網(wǎng)上表達(dá)自己對于各種商品或者政治人物的評價(jià)與看法,因此情感分析在商業(yè)事務(wù)及政治選舉等應(yīng)用中起到越來越重要的作用。目前情感分析領(lǐng)域效果最好的方法是監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)[1],常用的模型包括支持向量機(jī)(SVM)、邏輯回歸等。然而,這些模型通常都是淺層模型,淺層模型依賴于人工提取的特征,而且不能高效的表達(dá)數(shù)據(jù)中較為復(fù)雜的模式[2]。人類表達(dá)情感的方式是復(fù)雜的,常常包含否定、雙重否定及其他的語言模式,此外在微博中人們的語言表達(dá)也非常的不規(guī)范,因此微博情感特征往往很難人工提取。相對于淺層模型,深度學(xué)習(xí)可以自動(dòng)從原始數(shù)據(jù)中學(xué)習(xí)層次化的特征,能夠更高效的表達(dá)數(shù)據(jù)中包含的復(fù)雜模式。因此,深度學(xué)習(xí)方法在情感分析領(lǐng)域的應(yīng)用得到了廣泛關(guān)注[3-6]。
深度模型通常很難訓(xùn)練。Hinton等人[7]提出貪婪的逐層無監(jiān)督預(yù)訓(xùn)練(greedy layer-wise unsupervised pre-train)的方式,利用無監(jiān)督數(shù)據(jù)對深度模型進(jìn)行初始化,從而降低了深度模型的訓(xùn)練難度。近年來,隨著新的深度學(xué)習(xí)技術(shù)的不斷提出,比如rectifier激活函數(shù)及dropout訓(xùn)練方式等,人們發(fā)現(xiàn)只要監(jiān)督數(shù)據(jù)足夠多,就能訓(xùn)練出一個(gè)好的深度模型。然而,在微博情感分析領(lǐng)域,獲取大規(guī)??珙I(lǐng)域的監(jiān)督數(shù)據(jù)通常非常困難。因此,如何在少量監(jiān)督數(shù)據(jù)情況下有效發(fā)揮深度模型的優(yōu)勢完成情感分析任務(wù)仍然是一個(gè)研究難題。
互聯(lián)網(wǎng)上廣泛存在著弱監(jiān)督數(shù)據(jù)(distant supervision),比如,網(wǎng)絡(luò)用戶在發(fā)布文字的同時(shí)可能配上相應(yīng)的表情符號或者打分信息?;谶@些表情符號和用戶打分,我們可以大概判斷用戶發(fā)布的文字中所包含的情感傾向性。因此,弱監(jiān)督數(shù)據(jù)是很容易獲得的,數(shù)據(jù)規(guī)模也比較大。它們可以作為監(jiān)督數(shù)據(jù)的一種有效的補(bǔ)充。當(dāng)然,弱監(jiān)督數(shù)據(jù)也存在一些問題,首先,弱監(jiān)督數(shù)據(jù)中容易包含噪聲,其次,很多場景中的弱監(jiān)督數(shù)據(jù)大部分是不區(qū)分領(lǐng)域的,所以缺少領(lǐng)域特定的信息。因此,直接使用弱監(jiān)督數(shù)據(jù)訓(xùn)練得到的效果在具體領(lǐng)域的應(yīng)用上效果也不夠好。
為了結(jié)合弱監(jiān)督數(shù)據(jù)規(guī)模大和監(jiān)督數(shù)據(jù)精度高的優(yōu)點(diǎn)來訓(xùn)練深度模型,本文提出了基于弱監(jiān)督數(shù)據(jù)的“預(yù)訓(xùn)練—微調(diào)整”訓(xùn)練框架(distant pretrain-finetune, distant-PT-FT),首先使用弱監(jiān)督數(shù)據(jù)對深度模型進(jìn)行預(yù)訓(xùn)練,得到一個(gè)初始的深度模型,然后使用特定領(lǐng)域的少量監(jiān)督數(shù)據(jù)對深度模型進(jìn)行微調(diào)整。這種方法是Hinton等人提出的預(yù)訓(xùn)練思想[7]和弱監(jiān)督數(shù)據(jù)的結(jié)合,好處是既在深度模型的訓(xùn)練過程中有效利用了弱監(jiān)督信息,又在對深度模型進(jìn)行微調(diào)整的過程利用監(jiān)督數(shù)據(jù)進(jìn)一步改善模型,對弱監(jiān)督數(shù)據(jù)中包含的噪聲進(jìn)行更正的同時(shí)也引入了領(lǐng)域特定的信息。本文基于大規(guī)模的微博數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),并在人工標(biāo)注的數(shù)據(jù)集上進(jìn)行評價(jià)。我們發(fā)現(xiàn),由于引入了大規(guī)模的弱監(jiān)督信息,模型效果相對于只使用監(jiān)督數(shù)據(jù)取得了非常大的提升,本文提出的訓(xùn)練方式比簡單的混合這兩種監(jiān)督信息進(jìn)行訓(xùn)練的方式能進(jìn)一步發(fā)揮深度模型的優(yōu)勢,從而取得了更好的效果。
本文的組織如下: 第二節(jié)介紹常用的深度學(xué)習(xí)模型以及訓(xùn)練方法;第三節(jié)主要介紹我們提出的Distant-PT-FT框架;在第四節(jié)中,我們基于新浪微博數(shù)據(jù)進(jìn)行了相關(guān)實(shí)驗(yàn)并對結(jié)果進(jìn)行分析;第五節(jié)介紹情感分析與深度學(xué)習(xí)的相關(guān)工作;最后,對本文進(jìn)行總結(jié)。
深度學(xué)習(xí)是近年來興起的機(jī)器學(xué)習(xí)技術(shù),并在很多領(lǐng)域取得突破。常用的深度模型包括深度神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和堆疊自編碼器(stacked auto-encoder)等。本章主要介紹和本文最相關(guān)的深度學(xué)習(xí)技術(shù)。
2.1 深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)(DNN)是最常用的深度模型之一。DNN是一個(gè)層次化結(jié)構(gòu),一個(gè)K層的DNN包括輸入層(H1) 、隱藏層(H2~K-1)及輸出層(HK)。DNN的輸入層接收一個(gè)固定維度的向量x∈RnH1并輸出到下一層,其中,nHk表示第k層的節(jié)點(diǎn)數(shù)。隱藏層的輸入是上一層的輸出,其對輸入進(jìn)行一個(gè)線性變換然后再執(zhí)行逐元素的(element-wise)非線性函數(shù),也就是激活函數(shù),得到該層的輸出hk,傳統(tǒng)的激活函數(shù)包括雙曲正切(tanh)等,如式(1)所示。
hk=tanh (Wkhk-1+bk)
(1)
其中,Wk∈RnHkXnHk-1和bk∈RnHk×1是第k層的參數(shù)。輸出層是softmax層,輸出每個(gè)類別的概率,即式(2):
(2)
DNN通常使用隨機(jī)梯度下降(SGD)結(jié)合后向傳播(BP)的方式進(jìn)行訓(xùn)練。
在情感分析等常見文本分類任務(wù)中,每篇文檔可以先通過向量空間模型表達(dá)為一個(gè)固定維度的向量,然后輸入到DNN中,所以DNN輸入層的節(jié)點(diǎn)數(shù)就是所使用的詞表的長度,DNN的輸出層上的每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)類別,在本文中我們將微博情感分析任務(wù)定義為一個(gè)二分類問題,所以輸出層的維度是2。在本文的工作中,DNN是我們使用的基本深度模型。然而,本文提出的框架并不局限于此模型。
2.2 貪婪的逐層無監(jiān)督預(yù)訓(xùn)練
包括DNN在內(nèi)的很多深度模型的訓(xùn)練難度很高,一方面,訓(xùn)練過程求解的是一個(gè)非凸的優(yōu)化問題,容易陷入局部最優(yōu)解;另一方面,深度模型通常表達(dá)能力很強(qiáng),很容易過擬合。Hinton等人[7]提出貪婪的逐層無監(jiān)督預(yù)訓(xùn)練的算法,首先利用淺層的無監(jiān)督的受限玻爾茲曼機(jī)(RBM)從輸入層到輸出層逐層對深度模型的參數(shù)進(jìn)行預(yù)訓(xùn)練,從而將深度模型的參數(shù)初始化到一個(gè)合適的地方,然后再使用傳統(tǒng)的監(jiān)督訓(xùn)練方法對模型參數(shù)進(jìn)行進(jìn)一步的優(yōu)化,也就是微調(diào)整。分析表明,利用無監(jiān)督的數(shù)據(jù)對深度模型的訓(xùn)練起到了很好的正則作用[8]。這種方法降低了深度學(xué)習(xí)模型的訓(xùn)練難度,使得深度模型取得更好的效果,在早期的深度學(xué)習(xí)中起到了重要的作用。
2.3rectifier和dropout
近年來,新的深度學(xué)習(xí)技術(shù)被不斷提出,Glorot等人[9]提出使用rectifier函數(shù)作為激活函數(shù),rectifier的函數(shù)形式是f(x)=max (0,x)。rectifier相對于tanh、logistic等傳統(tǒng)激活函數(shù),在優(yōu)化上更有優(yōu)勢,它能使SGD過程中參數(shù)的梯度更好的后向傳播。此外,Hinton等人[10]還提出了dropout的訓(xùn)練方式,在訓(xùn)練中隨機(jī)對網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行丟棄(drop),這種方式可以有效的減輕神經(jīng)網(wǎng)絡(luò)的過擬合。
人們發(fā)現(xiàn),只要監(jiān)督數(shù)據(jù)足夠多,直接使用rectifier結(jié)合dropout就能訓(xùn)練出好的深度模型,而不需要進(jìn)行無監(jiān)督預(yù)訓(xùn)練過程[9]。然而,在情感分析中,監(jiān)督數(shù)據(jù)通常較為稀缺,但是大規(guī)模弱監(jiān)督數(shù)據(jù)則容易獲得。弱監(jiān)督數(shù)據(jù)和監(jiān)督數(shù)據(jù)有著同樣的格式,可以使用同樣的訓(xùn)練方法(rectifier和dropout)進(jìn)行深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,但是,弱監(jiān)督數(shù)據(jù)并不能直接替代監(jiān)督數(shù)據(jù)。因此,本文將預(yù)訓(xùn)練的思想和弱監(jiān)督數(shù)據(jù)結(jié)合起來,提出了基于弱監(jiān)督數(shù)據(jù)的“預(yù)訓(xùn)練—微調(diào)整”框架。
在微博情感分析的場景中,監(jiān)督數(shù)據(jù)通常比較稀缺。一方面,精確的人工標(biāo)注的監(jiān)督數(shù)據(jù)往往獲取代價(jià)較大;另一方面,情感分析還面臨一個(gè)領(lǐng)域適應(yīng)問題,主要是因?yàn)榍楦械谋磉_(dá)在不同的領(lǐng)域有不同的模式,不同領(lǐng)域之間情感詞的使用可能有很大的不同,而且同一個(gè)情感詞在不同領(lǐng)域可能表達(dá)完全相反的情感,這要求我們針對不同的領(lǐng)域標(biāo)注不同的數(shù)據(jù)。這些因素都給大規(guī)模獲取監(jiān)督數(shù)據(jù)帶來很大的困難。為了解決這個(gè)問題,很多工作提出使用弱監(jiān)督數(shù)據(jù)[11-16]。
弱監(jiān)督數(shù)據(jù)是指數(shù)據(jù)的監(jiān)督信息并不是由嚴(yán)格的人工標(biāo)注得到的,而是通過一些其他的相關(guān)信息推斷出來的。比如,在微博客網(wǎng)站中,網(wǎng)站提供表情符號的功能,用戶發(fā)布文字消息的時(shí)候常常伴隨著一個(gè)表達(dá)內(nèi)心情緒的表情符號,通過表情符號我們可以推斷文字所表達(dá)的情感極性;在商品評論網(wǎng)站中,用戶評論信息也常常伴隨著商品評分,根據(jù)評分也可以推斷用戶評論的情感極性。這種數(shù)據(jù)在互聯(lián)網(wǎng)上大量存在,獲取難度比人工標(biāo)注的數(shù)據(jù)低很多,因此可以輕易地獲得大規(guī)模的弱監(jiān)督數(shù)據(jù)。于是,我們可以考慮使用大規(guī)模的弱監(jiān)督數(shù)據(jù)來訓(xùn)練深度模型。
然而,弱監(jiān)督數(shù)據(jù)也存在一些問題。首先,這些數(shù)據(jù)包含大量的噪聲,這些噪聲會(huì)對模型的訓(xùn)練帶來很大的負(fù)面影響;其次,這些數(shù)據(jù)通常比較雜亂,沒有針對特定的情感領(lǐng)域,所以也沒有體現(xiàn)領(lǐng)域特定的信息。因此,單獨(dú)使用弱監(jiān)督數(shù)據(jù)進(jìn)行模型訓(xùn)練并不能取得足夠好的效果。
為了有效的利用大量的弱監(jiān)督數(shù)據(jù)及每個(gè)領(lǐng)域中少量的監(jiān)督數(shù)據(jù)進(jìn)行深度模型的訓(xùn)練,本文借鑒了第三節(jié)中介紹的預(yù)訓(xùn)練策略,提出了基于弱監(jiān)督數(shù)據(jù)的“預(yù)訓(xùn)練-微調(diào)整”訓(xùn)練框架(distantPT-FT)。之前的預(yù)訓(xùn)練方法是基于無監(jiān)督數(shù)據(jù)的,只能利用數(shù)據(jù)本身的一些結(jié)構(gòu)信息。distantPT-FT使用弱監(jiān)督數(shù)據(jù)來進(jìn)行預(yù)訓(xùn)練: 首先基于弱監(jiān)督數(shù)據(jù)訓(xùn)練得到初始的深度模型,然后在此模型的基礎(chǔ)上再使用每個(gè)領(lǐng)域特定的監(jiān)督數(shù)據(jù)進(jìn)行微調(diào)整。弱監(jiān)督數(shù)據(jù)和監(jiān)督數(shù)據(jù)有著同樣的格式,可以采用和監(jiān)督數(shù)據(jù)一樣的訓(xùn)練方法。因此,distantPT-FT框架的實(shí)現(xiàn)就是先使用弱監(jiān)督數(shù)據(jù)對模型訓(xùn)練到一定程度后,再采用監(jiān)督數(shù)據(jù)繼續(xù)進(jìn)行訓(xùn)練,具體算法見算法1。此外,由于弱監(jiān)督數(shù)據(jù)量非常大,因此不需要再進(jìn)行無監(jiān)督數(shù)據(jù)的預(yù)訓(xùn)練。
算法1distant PT-FT
輸入: 弱監(jiān)督數(shù)據(jù)Dd,監(jiān)督數(shù)據(jù)Ds。
輸出: 模型參數(shù)θ。
1. 隨機(jī)初始化參數(shù)θrand,使用Dd訓(xùn)練得到θd。
2. 使用θd作為參數(shù)初始化及參數(shù)先驗(yàn),使用Ds訓(xùn)練得到θ。
3. 返回θ。
此外,為了更好的利用預(yù)訓(xùn)練得到的初始模型,我們也提出了另一種模型參數(shù)正則化的方式。正則化是機(jī)器學(xué)習(xí)中用于控制模型過擬合的方法,從概率的角度,正則化可以認(rèn)為是一種對于模型參數(shù)的先驗(yàn)知識。通常使用的正則包括L2正則(也稱為權(quán)重衰減,weightdecay)。L2正則意味著人們對模型參數(shù)的先驗(yàn)知識是模型參數(shù)服從高斯分布。通常我們認(rèn)為該高斯分布的均值是0,方差是通過超參數(shù)來手工調(diào)整的。參數(shù)的優(yōu)化目標(biāo)為式(3)。
(3)
其中,θ為模型參數(shù)。在distantPT-FT框架中,我們提出以預(yù)訓(xùn)練階段得到的模型參數(shù)作為微調(diào)整階段模型參數(shù)的高斯先驗(yàn)的均值,也就是期望約束微調(diào)整階段的參數(shù)不要偏離預(yù)訓(xùn)練階段得到的參數(shù)太遠(yuǎn)。實(shí)驗(yàn)中,我們把兩種L2正則方式結(jié)合使用,也就是優(yōu)化目標(biāo)為式(4)。
(4)
其中,θd為弱監(jiān)督數(shù)據(jù)預(yù)訓(xùn)練得到的模型初始參數(shù)。
本節(jié)先介紹我們使用的微博數(shù)據(jù)集,然后介紹DNN的參數(shù)設(shè)置及不同的基準(zhǔn)方法。在第一個(gè)實(shí)驗(yàn)中我們將對比各種模型和訓(xùn)練方式的效果,最后展示了數(shù)據(jù)規(guī)模對結(jié)果的影響。
4.1 數(shù)據(jù)集
我們從新浪微博中收集了從2013-05-01到2013-06-30兩個(gè)月的消息數(shù)據(jù),共 2億條消息。為了獲取弱監(jiān)督信息,我們使用新浪微博提供的表情符號。新浪微博提供了幾十種不同的表情符號,表達(dá)人類各種各樣的情緒。這里我們把情感分析定義為一個(gè)二分類問題,也就是給定一條微博判斷其情感是正傾向還是負(fù)傾向。因此我們手工提取了20個(gè)具有較明確的正、負(fù)情感傾向的表情符號,見表1。我們從所有消息中隨機(jī)選取了160萬條(正、負(fù)各80萬條)包含正、負(fù)傾向表情符號的消息作為我們的弱監(jiān)督數(shù)據(jù)集。
表1 收集弱監(jiān)督數(shù)據(jù)時(shí)使用的表情符號
為了評價(jià)實(shí)驗(yàn)結(jié)果,我們手工標(biāo)注了5 000條微博,主要包括“三星”、“翡翠”和“保險(xiǎn)”三個(gè)領(lǐng)域。每一條消息由三個(gè)標(biāo)注者進(jìn)行標(biāo)注并最終投票決定。然而,某些領(lǐng)域存在正、負(fù)類別嚴(yán)重不平衡的問題。最終,我們使用“三星”這個(gè)領(lǐng)域來進(jìn)行評價(jià),這個(gè)領(lǐng)域共包含了1 700條正、負(fù)類別平衡的標(biāo)注數(shù)據(jù)。我們把標(biāo)注數(shù)據(jù)隨機(jī)劃分成800條、400條和500條,分別作為訓(xùn)練集、驗(yàn)證集和測試集。
我們首先使用ICTCLAS*http://ictclas.nlpir.org/對以上所有的消息進(jìn)行了分詞。然后采用和文獻(xiàn)[3]類似的方式,根據(jù)單詞的文檔頻率(document frequency)選取在整個(gè)數(shù)據(jù)集中出現(xiàn)最頻繁的5 000個(gè)單詞作為詞表,將文檔表示為一個(gè)5 000維的二值向量,如果單詞在文檔中出現(xiàn),則該單詞對應(yīng)的維度的值為1,否則為0。
4.2 參數(shù)設(shè)置
我們使用的網(wǎng)絡(luò)結(jié)構(gòu)為[5 000, 200, 200, 200, 2],也就是輸入層有5 000個(gè)節(jié)點(diǎn),三個(gè)隱層各有200個(gè)節(jié)點(diǎn),輸出層有兩個(gè)節(jié)點(diǎn)。這是一種常用的網(wǎng)絡(luò)結(jié)構(gòu),由于更大的隱層節(jié)點(diǎn)數(shù)會(huì)給計(jì)算量帶來很大的增加,而在初始實(shí)驗(yàn)中,我們發(fā)現(xiàn)隱層節(jié)點(diǎn)數(shù)設(shè)置到200以后,模型的效果并沒有明顯的改善,因此我們并沒有使用更大的網(wǎng)絡(luò)。
我們使用SGD結(jié)合BP的方式來對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,每批數(shù)據(jù)的大小(batch size)設(shè)置為10,輸入層不采用dropout,所有隱層的dropout概率設(shè)置為0.5。學(xué)習(xí)速率是根據(jù)驗(yàn)證集的效果動(dòng)態(tài)調(diào)整的,在預(yù)訓(xùn)練階段每訓(xùn)練10 000批數(shù)據(jù)或者在微調(diào)整階段每訓(xùn)練完一遍所有監(jiān)督數(shù)據(jù)之后,如果驗(yàn)證集效果變差,則對學(xué)習(xí)速率進(jìn)行衰減(乘以0.8)。在預(yù)訓(xùn)練階段結(jié)束后,我們根據(jù)驗(yàn)證集上的最好效果,選擇相應(yīng)的模型再繼續(xù)進(jìn)行微調(diào)整階段的訓(xùn)練。我們對模型參數(shù)同時(shí)采用了前述的兩種L2正則方式。這些超參數(shù)都是根據(jù)驗(yàn)證集進(jìn)行調(diào)節(jié)的,預(yù)訓(xùn)練階段和微調(diào)整階段使用的是不同的超參數(shù)。
4.3 基準(zhǔn)方法
為了驗(yàn)證distant PT-FT的效果,我們選擇了一些基準(zhǔn)方法進(jìn)行對比。從模型的角度,我們選擇線性SVM和LR作為基準(zhǔn)模型,這些都是情感分類中常用的模型,我們使用了LIBLINEAR*http://www.csie.ntu.edu.tw/~cjlin/liblinear/的模型實(shí)現(xiàn)。從訓(xùn)練方式的角度,我們對比了以下四種訓(xùn)練方式。
(1) label: 只使用監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練。
(2) distant: 只使用弱監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練。
(3) label+distant: 把弱監(jiān)督數(shù)據(jù)和監(jiān)督數(shù)據(jù)直接合并作為訓(xùn)練數(shù)據(jù),由于弱監(jiān)督數(shù)據(jù)和監(jiān)督數(shù)據(jù)的規(guī)模差別太大,我們按一定倍數(shù)復(fù)制監(jiān)督數(shù)據(jù),復(fù)制的倍數(shù)也是作為超參數(shù)進(jìn)行人工調(diào)整的。
(4) distant PT-FT: 本文提出的基于弱監(jiān)督數(shù)據(jù)的“預(yù)訓(xùn)練—微調(diào)整”訓(xùn)練框架。
以上前三種訓(xùn)練方式都分別針對所有模型進(jìn)行訓(xùn)練,最后一種方式用于訓(xùn)練DNN。我們使用分類準(zhǔn)確率作為評價(jià)指標(biāo),即式(5)。
(5)
4.4 實(shí)驗(yàn)結(jié)果分析
不同模型及訓(xùn)練方式的情感分類準(zhǔn)確率如圖1所示。我們發(fā)現(xiàn)單獨(dú)使用弱監(jiān)督數(shù)據(jù)直接訓(xùn)練得到的模型已經(jīng)取得了和小規(guī)模監(jiān)督數(shù)據(jù)相近的準(zhǔn)確率,這說明在缺少監(jiān)督數(shù)據(jù)的情況下,弱監(jiān)督數(shù)據(jù)的確是一個(gè)有效的替代。然而,從另外一個(gè)角度來看,雖然使用了大量的弱監(jiān)督數(shù)據(jù),模型效果依然只相當(dāng)于少量的監(jiān)督數(shù)據(jù)的,這也說明弱監(jiān)督數(shù)據(jù)存在很大的噪聲,其質(zhì)量比起監(jiān)督數(shù)據(jù)還有較大的差距。
圖1 不同模型及訓(xùn)練方式的情感分類準(zhǔn)確率
在只使用監(jiān)督數(shù)據(jù)的時(shí)候,LR、SVM和DNN的效果差別不大,而DNN的表達(dá)能力強(qiáng)很多,因此在小規(guī)模數(shù)據(jù)情況下,DNN的優(yōu)勢并沒有得到充分發(fā)揮。然而,在只使用弱監(jiān)督數(shù)據(jù)的情況下,盡管數(shù)據(jù)規(guī)模很大,DNN的效果提升依然不明顯,我們認(rèn)為這是由弱監(jiān)督數(shù)據(jù)和目標(biāo)領(lǐng)域數(shù)據(jù)之間存在的差異,以及弱監(jiān)督數(shù)據(jù)中存在的噪聲導(dǎo)致的,深層模型由于具有較強(qiáng)的擬合能力,反而可能過分?jǐn)M合了弱監(jiān)督數(shù)據(jù)中存在的噪聲,而簡單的模型抗噪聲能力更強(qiáng)。
盡管弱監(jiān)督數(shù)據(jù)和監(jiān)督數(shù)據(jù)單獨(dú)訓(xùn)練的結(jié)果都不是太好,但是如果我們把兩者合并起來訓(xùn)練,不管是淺層模型還是深度學(xué)習(xí)模型效果都能有很大的提升,所以,弱監(jiān)督數(shù)據(jù)和監(jiān)督數(shù)據(jù)各有利弊,兩者可以有效的相互輔助。
在使用了本文提出的distantPT-FT訓(xùn)練框架之后,DNN的效果進(jìn)一步得到提升并更加顯著的超過了淺層模型。這說明在微調(diào)整的過程中,監(jiān)督數(shù)據(jù)對深度模型的訓(xùn)練起到了很大的作用,能夠幫助克服深度模型對噪聲等其他因素的過擬合,從而提升了深度模型的效果。這種方式和直接把弱監(jiān)督數(shù)據(jù)及監(jiān)督數(shù)據(jù)混合到一起之后進(jìn)行訓(xùn)練的方式相比,盡管利用了同樣的信息,但是效果卻有很大不同,因此,distantPT-FT框架可以更好的利用這兩種數(shù)據(jù)。
總的來說,distantPT-FT訓(xùn)練框架對深度模型有很大的效果提升,而且在大規(guī)模數(shù)據(jù)的情況下,深度模型的效果明顯優(yōu)于淺層模型。
4.5 數(shù)據(jù)規(guī)模對結(jié)果的影響
本節(jié)中,我們分析數(shù)據(jù)的不同規(guī)模對最終結(jié)果的影響。我們先使用所有的弱監(jiān)督數(shù)據(jù),觀察不同監(jiān)督數(shù)據(jù)規(guī)模的影響,然后,我們使用所有的監(jiān)督數(shù)據(jù),觀察不同弱監(jiān)督數(shù)據(jù)規(guī)模的影響,實(shí)驗(yàn)結(jié)果見圖2。
在圖2(a)中,不管在有沒有弱監(jiān)督數(shù)據(jù)的情況下,監(jiān)督數(shù)據(jù)量的增加都能穩(wěn)定的提升最終效果,這說明為了得到較高的準(zhǔn)確率,監(jiān)督數(shù)據(jù)的作用是弱監(jiān)督數(shù)據(jù)無法替代的。在監(jiān)督數(shù)據(jù)較少的情況下,弱監(jiān)督數(shù)據(jù)的作用是很大的,利用了弱監(jiān)督信息的模型效果明顯高于僅使用監(jiān)督數(shù)據(jù)的模型。
圖2 數(shù)據(jù)規(guī)模對結(jié)果的影響
在圖2(b)中,我們發(fā)現(xiàn)在僅僅使用弱監(jiān)督數(shù)據(jù)的情況下,隨著數(shù)據(jù)規(guī)模的增長,DNN的表現(xiàn)并不是非常穩(wěn)定。然而,在結(jié)合了監(jiān)督數(shù)據(jù)之后,DNN的最終效果隨著弱監(jiān)督數(shù)據(jù)規(guī)模的增長而穩(wěn)定增長,這也說明監(jiān)督數(shù)據(jù)的引入可以有效的克服弱監(jiān)督數(shù)據(jù)可能引入的噪聲等問題,從而能夠更好的利用大規(guī)模的弱監(jiān)督數(shù)據(jù)。
為了解決情感分析中獲取監(jiān)督數(shù)據(jù)困難的問題,Go等人[11]首先提出使用推特上的弱監(jiān)督數(shù)據(jù)來訓(xùn)練情感分析模型,發(fā)現(xiàn)弱監(jiān)督數(shù)據(jù)是情感分析模型很好的訓(xùn)練數(shù)據(jù)源。緊接著又涌現(xiàn)出一批基于弱監(jiān)督數(shù)據(jù)的情感分析工作[12-15],這些工作都是直接利用弱監(jiān)督數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),文獻(xiàn)[16]指出弱監(jiān)督數(shù)據(jù)存在大量噪聲的問題,并嘗試結(jié)合使用弱監(jiān)督數(shù)據(jù)與監(jiān)督數(shù)據(jù),他們使用監(jiān)督數(shù)據(jù)訓(xùn)練一個(gè)用于情感分析的語言模型,然后使用弱監(jiān)督數(shù)據(jù)對語言模型進(jìn)行平滑。
近年來,深度學(xué)習(xí)越來越多的被應(yīng)用于文本表達(dá)學(xué)習(xí)[17-18]及情感分析[3-4,6,9,19]。文獻(xiàn)[3]采用了堆疊自編碼器作為特征提取器并在無監(jiān)督的數(shù)據(jù)上進(jìn)行訓(xùn)練,基于抽取到的特征利用SVM進(jìn)行分類,實(shí)驗(yàn)發(fā)現(xiàn)深度模型抽取到的特征具有更好的跨領(lǐng)域性。文獻(xiàn)[4]使用DBN結(jié)合主動(dòng)學(xué)習(xí)的策略進(jìn)行情感分類。文獻(xiàn)[9]首次將rectifier節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)用于情感分析,并取得很好的效果。這幾個(gè)工作仍然是基于無監(jiān)督的數(shù)據(jù)進(jìn)行特征提取或者預(yù)訓(xùn)練。文獻(xiàn)[6,19]中嘗試?yán)萌醣O(jiān)督數(shù)據(jù)進(jìn)行深度模型的訓(xùn)練,文獻(xiàn)[6]利用弱監(jiān)督信息指導(dǎo)DBN進(jìn)行文檔表達(dá)學(xué)習(xí),學(xué)習(xí)得到的表達(dá)可以作為特征用于情感分類。文獻(xiàn)[19]利用弱監(jiān)督信息指導(dǎo)單詞表達(dá)的學(xué)習(xí),讓學(xué)到的單詞表達(dá)可以包含情感信息。
深度模型越來越廣泛的被用于包括圖像和語音識別在內(nèi)的很多應(yīng)用中,并取得當(dāng)前最好效果。訓(xùn)練深度模型在情感分析領(lǐng)域面臨的問題是很難得到大規(guī)模的監(jiān)督數(shù)據(jù)。為解決該問題,本文提出了基于弱監(jiān)督數(shù)據(jù)的“預(yù)訓(xùn)練-微調(diào)整”訓(xùn)練框架,首先使用弱監(jiān)督數(shù)據(jù)預(yù)訓(xùn)練深度模型,然后再使用監(jiān)督數(shù)據(jù)對其進(jìn)行微調(diào)整?;诖笠?guī)模微博數(shù)據(jù)的實(shí)驗(yàn)表明,使用本文提出的訓(xùn)練方式, 能夠更好的結(jié)合弱監(jiān)督和監(jiān)督這兩種數(shù)據(jù)的優(yōu)勢, 使深度模型取得比淺層模型更好的效果。
目前,DNN這種通用的深度模型在情感分析上的效果并沒有很大的突破,其中一個(gè)重要的原因是這些深度模型并沒有針對單詞序列進(jìn)行建模,模型的輸入都是基于詞袋模型假設(shè)的。下一步,我們考慮將本文提出的訓(xùn)練框架應(yīng)用在其他建模了單詞序列的深度模型中。
[1]BoPang,LillianLee.Opinionminingandsentimentanalysis[J].FoundationsandTrends(R)inInformationRetrieval, 2008, 2(1-2): 1-135.
[2]YoshuaBengio.LearningdeeparchitecturesforAI[J].Foundationsandtrends(R)inMachineLearning, 2009, 2(1):1-127.
[3]XavierGlorot,AntoineBordes,YoshuaBengio.Domainadaptationforlarge-scalesentimentclassification:Adeeplearningapproach[C]//ProceedingsofICML, 2011:513-520.
[4]ShusenZhou,QingcaiChen,XiaolongWang.Activedeeplearningmethodforsemi-supervisedsentimentclassification[C]//ProceedingsofCOLING, 2010:1515-1523.
[5]RichardSocher,AlexPerelygin,JeanYWurew,etal.RecursivedeepmodelsforsemanticcompositionalityoverasentimentTreebank[C]//ProceedingsofEMNLP, 2013: 1631-1642.
[6]DuyuTang,BingQin,TingLiu,etal.LearningsentencerepresentationforemotionclassificationonmicroblogsNat[C]//ProceedingsofNaturalLanguageProcessingandChineseComputing, 2013:212-223.
[7]GeoffreyE.Hinton,RuslanR.Salakhutdinov.Reducingthedimensionalityofdatawithneuralnetworks[J].Science, 2006, 313(5786):504-507.
[8]DumitruErhan,PierreAntoineManzagol,YoshuaBengio,etal.TheDifficultyofTrainingDeepArchitecturesandtheEffectofUnsupervisedPre-Training[C]//ProceedingsofAISTATS, 2009:153-160.
[9]XavierGlorot,AntoineBordes,YoshuaBengio.DeepSparseRectifierNeuralNetworks[C]//ProceedingsofAISTATS,2011:315-323.
[10]GeoffreyEHinton,NitishSrivastava,AlexKrizhevsky,etal.Improvingneuralnetworksbypreventingco-adaptationoffeaturedetectors[arXiv]. 2012.arXivpreprintarXiv:1207.0580.
[11]AlecGo,RichaBhayani,LeiHuang.Twittersentimentclassificationusingdistantsupervision[R].CS224NProjectReport:Stanford, 2009.
[12]LucianoBarbosa,JunlanFeng.Robustsentimentdetectionontwitterfrombiasedandnoisydata[C]//Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics, 2010:36-44.
[13]DmitryDavidov,OrenTsur,AriRappoport.Enhancedsentimentlearningusingtwitterhashtagsandsmileys[C]//Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics, 2010:241-249.
[14]JichangZhao,LiDong,JunjieWu,etal.Moodlens:anemoticon-basedsentimentanalysissystemforchinesetweets[C]//ProceedingsofKDD, 2012:1528-1531.
[15]AlexanderPak,PatrickParoubek.TwitterasaCorpusforSentimentAnalysisandOpinionMining[C]//ProceedingsofLREc, 2010:1320-1326.
[16]KunLinLiu,WuJunLi,MinyiGuo.Emoticonsmoothedlanguagemodelsfortwittersentimentanalysis[C]//ProceedingsofAAAI, 2012:1678-1684.
[17]Marc’AurelioRanzato,MartinSzummer.Semi-supervisedlearningofcompactdocumentrepresentationswithdeepnetworks[C]//ProceedingsofICML, 2008:792-799.
[18]RuslanSalakhutdinov,GeoffreyHinton.Semantichashing[J].InternationalJournalofApproximateReasoning, 2009, 50(7):969-978.
[19]DuyuTang,FuruWei,NanYang,etal.LearningSentiment-SpecificWordEmbeddingforTwitterSentimentClassification[C]//ProceedingsofACL, 2014:1555-1565.
PretrainDeepModelsbyDistantSupervisionforWeiboSentimentAnalysis
WAN Shengxian1,2, LAN Yanyan1,2, GUO Jiafeng1,2, CHENG Xueqi1,2
(1. CAS Key Laboratory of Network Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;2. University of Chinese Academy of Sciences, Beijing 100190, China)
Sentiment analysis (SA) is important in many applications such as commercial business and political election. The state-of-the-art methods of SA are based on shallow machine learning models. These methods are heavily dependent on feature engineering, however, the features for Weibo SA are difficult to be extracted manually. Deep learning (DL) can learn hierarchical representations from raw data automatically and has been applied for SA. Recently proposed DL techniques shown that one can train deep models successfully given enough supervised data. However, in Weibo SA, supervised data are usually too scarce. It is easy to obtain large scale distant supervision data in Weibo. In this paper, we proposed to pre-train deep models by distant supervision and used supervised data to fine-tune the deep models. This approach could take the advantages of distant supervision to learn good initial models while using supervised data to improve the models and to correct the errors brought by distant supervision. Experimental results on Sina Weibo dataset show that we can train deep models with small scale supervised data and obtain better results than shallow models.
sentiment analysis; deep learning; distant supervision; pretrain-finetune
萬圣賢(1989—),博士研究生,主要研究領(lǐng)域?yàn)槲谋就诰蚺c深度學(xué)習(xí)。
蘭艷艷(1982—),博士,副研究員,主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)機(jī)器學(xué)習(xí)、排序?qū)W習(xí)和信息檢索。
郭嘉豐(1980—),博士,副研究員,主要研究領(lǐng)域?yàn)樾畔z索與數(shù)據(jù)挖掘。
1003-0077(2017)03-0191-07
2014-09-15定稿日期: 2015-12-10
973基金項(xiàng)目(2014CB34040401,2012CB316303);國家自然科學(xué)基金(61232010,61472401,61433014,61425016,61203298);中國科學(xué)院青年創(chuàng)新促進(jìn)會(huì)(20144310,2016102)
TP391
: A