孫尚迪, 顧曉東
(復(fù)旦大學(xué) 電子工程系, 上海 200433)
基于線性核極限學(xué)習(xí)機(jī)的情感分類
孫尚迪, 顧曉東
(復(fù)旦大學(xué) 電子工程系, 上海 200433)
隨著網(wǎng)絡(luò)電影數(shù)據(jù)庫和電子商務(wù)網(wǎng)站的流行,用戶的評論彰顯出越來越大的價(jià)值。因此,意見挖掘或情感分析是目前自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一。情感分類是一個(gè)具有代表性的情感分析應(yīng)用,支撐向量機(jī)(Support Victor Machine, SVM)通常被用作為該應(yīng)用的基準(zhǔn)分類方法。首次將線性核極限學(xué)習(xí)機(jī)(線性核ELM)應(yīng)用于情感分類,并在常用的情感分類和主觀/客觀分類數(shù)據(jù)集上,比較了不同的詞條加權(quán)策略情況下線性核ELM和SVM的分類性能。實(shí)驗(yàn)結(jié)果顯示線性核ELM在大數(shù)據(jù)集(10000 樣本)上有著更高的分類準(zhǔn)確率率,在較小數(shù)據(jù)集(2000樣本)上和SVM相當(dāng)。進(jìn)一步的,我們建立了自己的亞馬遜智能手機(jī)評論集(Amazon Smartphone Review,ASR)--由產(chǎn)品評論構(gòu)成的非平衡數(shù)據(jù)集(1731 正面樣本,830負(fù)面樣本)。比較結(jié)果顯示線性核ELM在不平衡數(shù)據(jù)集上也是一個(gè)具有競爭力的情感分類方法。
情感分類; 詞條加權(quán); 支撐向量機(jī); 極限學(xué)習(xí)機(jī); 線性核
互聯(lián)網(wǎng)已經(jīng)深入到人們生活的各個(gè)方面,從個(gè)人購物到家庭娛樂,從日常出行到旅游度假,從移動(dòng)支付到金融投資,互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)給我們的生活帶來了極大的便利。提供網(wǎng)上購物服務(wù)的有Amazon、淘寶等網(wǎng)站;提供電影資訊的有IMDb(Internet Movie Database)、時(shí)光網(wǎng)等網(wǎng)站。這些網(wǎng)站通常會(huì)鼓勵(lì)用戶在購買某一件商品或觀看某一部電影之后對商品或電影進(jìn)行評價(jià)。隨著用戶數(shù)的不斷增加,評論數(shù)量呈指數(shù)式增長,這些評論就成為了其他用戶是否購買這件商品或觀看這部電影的重要依據(jù)。但這大量的評論反而造成了用戶閱讀的不便,用戶不會(huì)花費(fèi)大量的時(shí)間去閱讀這些冗余的評論并尋找有用的信息。從這些海量的非結(jié)構(gòu)化的評論數(shù)據(jù)中挖掘出用戶感興趣的信息的過程稱之為意見挖掘或情感分析,這也是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的交叉領(lǐng)域。情感分類則是一個(gè)具有代表性的情感分析任務(wù),它將評論依據(jù)情感傾向分為正面評論和負(fù)面評論或依據(jù)主客觀性將評論分為主觀評論和客觀評論等,給予用戶直觀的參考。
在本文中,首次提出將具有線性核的極限學(xué)習(xí)機(jī)(線性核ELM)作為分類器應(yīng)用于情感分類并在Cornell電影評論數(shù)據(jù)集(包含2000個(gè)樣本)、Cornell主客觀數(shù)據(jù)集(包含10000個(gè)樣本)上對比了線性核ELM和標(biāo)準(zhǔn)分類方法SVM的分類準(zhǔn)確率,結(jié)果顯示在小樣本數(shù)據(jù)集中,他們的分類性能相近;在大樣本數(shù)據(jù)集中,線性核ELM的表現(xiàn)要優(yōu)于SVM。此外,我們從Amazon上獲取了大量智能手機(jī)評論,建立了一個(gè)全新的數(shù)據(jù)集且正面評論與負(fù)面評論的數(shù)量不相等。在這個(gè)非平衡的數(shù)據(jù)集上,線性核ELM也有不錯(cuò)的分類準(zhǔn)確率。
盡管語言學(xué)和自然語言處理(Natural Language Processing, NLP)都有著悠久的歷史,但在 2000 年前針對意見和情感的研究卻少之又少。在2000年之前,存在一些對暗喻、情感形容詞、主觀詞、觀點(diǎn)詞的研究。對于意見和情感的早期研究出現(xiàn)在2000至2002年之間[1]。情感分析和意見挖掘兩個(gè)詞最早出現(xiàn)于2003年[2-3]。此后,該領(lǐng)域成為了充滿活力的研究領(lǐng)域。情感分析不僅推動(dòng)了機(jī)器學(xué)習(xí)在自然語言處理領(lǐng)域的進(jìn)一步應(yīng)用和發(fā)展,同時(shí)也對那些受人們情感和意見影響的管理學(xué)、政治學(xué)、經(jīng)濟(jì)學(xué)和社會(huì)學(xué)有著深遠(yuǎn)影響。
情感分類是情感分析的重要組成部分,若我們預(yù)先設(shè)定正面情感用標(biāo)簽“1”來表示,負(fù)面情感用標(biāo)簽“0”來表示,則對于以下的兩句話:The iPhone’s call quality is good和The battery life is short. 顯然,前者是正面情感應(yīng)判定標(biāo)簽為1,后者為負(fù)面情感應(yīng)判定標(biāo)簽為0。所以情感分類實(shí)質(zhì)上是訓(xùn)練神經(jīng)網(wǎng)絡(luò)或者機(jī)器學(xué)習(xí)算法,使之能夠判定新的句子或者篇章屬于哪類情感。
情感分類可以從3個(gè)層級進(jìn)行研究:
文檔級:這個(gè)層級的分類是對整個(gè)文檔進(jìn)行正面和反面情感的分類。這個(gè)層級的分析假定每一個(gè)文檔表達(dá)的情感是唯一的,情感的分類較為粗糙。
句子級:這個(gè)層級的分類是對文檔中的每一句話的正面和反面情感進(jìn)行分類。這個(gè)層級的分析判斷每個(gè)句子表達(dá)的情感,比文檔級別的分類更加精細(xì)。
特征級:這個(gè)層級的分類不僅要判斷每一個(gè)短句的情感,還要找到每一個(gè)情感所描述的具體對象[4]。這個(gè)層級的分析將找出產(chǎn)品或電影的所有特征,更加細(xì)粒度地展示每一個(gè)特征所對應(yīng)的情感表達(dá),進(jìn)一步的,還能對每個(gè)特征進(jìn)行意見總結(jié)以更直觀的將評論信息呈現(xiàn)給用戶。
情感分類的分類器可以采用支撐向量機(jī)(Support Vector Machine, SVM)、神經(jīng)元網(wǎng)絡(luò)(Neural Network, NN)、決策樹(Decision Tree, DT)、樸素貝葉斯(Na?ve Bayes, NB)等。在這些分類器中,SVM因其較快的分類速度和領(lǐng)先的分類精度而被廣泛得用于情感分類的任務(wù)中。SVM是情感分類任務(wù)的基準(zhǔn)方法[5]。自大數(shù)據(jù)的概念成為研究的潮流之后,在圖像和語音領(lǐng)域獲得極大成功的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)也被用在了情感分類中[6],并取得了和SVM分類相近的準(zhǔn)確率。
極限學(xué)習(xí)機(jī)(Extreme Machine Learning, EML)是一個(gè)快速的學(xué)習(xí)分類算法。它具有單隱層的前饋網(wǎng)絡(luò)結(jié)構(gòu),最早由Huang等人在2004年提出[7]。在圖像分類和圖像識別領(lǐng)域,EML已經(jīng)被證明是一個(gè)行之有效的分類算法,并在一些數(shù)據(jù)集上獲得了最優(yōu)的分類準(zhǔn)確率[8]。另一方面,將文本數(shù)據(jù)向量化通常都采用詞袋模型(Bag of Word, BoW),不同于圖像,文本數(shù)據(jù)向量化后往往具有很高的維數(shù),線性分類器對于超高維的數(shù)據(jù)會(huì)有較快的分類速度,因此,本文采用具有線性核的極限學(xué)習(xí)機(jī)作為情感分類任務(wù)的分類器。
2.1 ELM的學(xué)習(xí)算法
一個(gè)標(biāo)準(zhǔn)的單隱層前饋神經(jīng)元網(wǎng)絡(luò)(Single Layer Feedforward Neural Network, SLFNs)可以通過調(diào)節(jié)隱層節(jié)點(diǎn)的連接權(quán)值來預(yù)測或估計(jì)任意的連續(xù)目標(biāo)函數(shù)f(x)。一個(gè)具有l(wèi)個(gè)隱層神經(jīng)元,且神經(jīng)元激活函數(shù)為g(x)的單隱層前饋神經(jīng)元網(wǎng)絡(luò)可以數(shù)學(xué)建模為式(1)。
(1)
其中,wi是連接輸入神經(jīng)元和第i個(gè)隱層神經(jīng)元的權(quán)值;βi是連接第i個(gè)隱層神經(jīng)元和輸出神經(jīng)元的權(quán)值;yj是ELM算法對應(yīng)于輸入樣本xj的輸出分類結(jié)果。
假定有N個(gè)輸入樣本對(xj,dj),xj∈Rn,dj∈Rm,即輸入為n維向量,輸出為m維向量,其中dj是每一個(gè)輸入樣本應(yīng)屬的類別標(biāo)簽。在理想情況下,學(xué)習(xí)算法的誤差應(yīng)為零,即ELM算法的輸出yj=dj,則算法可以用矩陣的形式表征為式(2),
(2)
其中,
為隱藏層的輸出矩陣。
式(2)的最小二乘解為式(3)。
(3)
其中,H+是H的廣義逆矩陣。在實(shí)際編程實(shí)現(xiàn)時(shí),采用如下公式來計(jì)算H的廣義逆矩陣為式(4)。
(4)
其中,C為可調(diào)參數(shù)。
2.2 線性核
根據(jù)Huang等人的證明[9],隱層神經(jīng)元的連接權(quán)值不需要經(jīng)過反饋調(diào)節(jié),也可以正確估計(jì)目標(biāo)函數(shù)f(x)。由于訓(xùn)練過程不需要進(jìn)行權(quán)值的調(diào)節(jié),所以ELM算法的訓(xùn)練速度要快于傳統(tǒng)的SFLNs。
在式(1)中,wi和bi可以隨機(jī)初始化且不需要在后續(xù)進(jìn)行調(diào)節(jié)。整個(gè)算法所需要計(jì)算的參數(shù)只有β。但是隨機(jī)賦予初始值會(huì)造成實(shí)驗(yàn)結(jié)果的不穩(wěn)定性,我們考慮指定初始值;另一方面,SVM在用于情感分類時(shí),往往采用線性核。因?yàn)榫€性核對于文本的高維特征(文本的特征往往達(dá)到幾千維)有比較好的分類效果,故本文將線性核的概念應(yīng)用于ELM算法。在初始化時(shí),我們將wi設(shè)為xj,bi設(shè)為0(設(shè)為其他任意常數(shù)并不影響結(jié)果)。用于情感分類的、具有線性核的極限學(xué)習(xí)機(jī)(線性核ELM)算法步驟如下:
給定訓(xùn)練集:
測試集:
即訓(xùn)練樣本集的大小為n×N,測試樣本集的大小為n×M,每一列為一個(gè)樣本,每個(gè)樣本n維。標(biāo)簽dj在實(shí)驗(yàn)中為1維向量,其數(shù)值為0或1,即訓(xùn)練集教師矩陣D大小為1×N。
Step1:設(shè)w=xtrain,b=0,g(x)=x。
Step4:在測試階段,計(jì)算測試輸出,
本文的實(shí)驗(yàn)在3個(gè)不同的數(shù)據(jù)集上進(jìn)行,數(shù)據(jù)集的統(tǒng)計(jì)情況,如表1所示。
表1 三個(gè)數(shù)據(jù)集的統(tǒng)計(jì)情況
3.1 RT-2K
RT-2K是標(biāo)準(zhǔn)Cornell電影評論數(shù)據(jù)集(Cornell Movie Review dataset),它由Pang和Lee在2004年公開發(fā)表。RT-2k的數(shù)據(jù)來自IMDb,由1000篇正面評價(jià)文檔和1000篇負(fù)面評價(jià)文檔構(gòu)成。
3.2 Subj
Subj是主觀/客觀數(shù)據(jù)集(Subjective/Objective dataset),它同樣由Pang和Lee在2004年公開發(fā)表。Subj的數(shù)據(jù)由5000句正面評論和5000句負(fù)面評論構(gòu)成,前者來自電影評論網(wǎng)站Rotten Tomatoes,后者來自IMDb。
3.3 ASR
ASR是亞馬遜智能手機(jī)評論數(shù)據(jù)集(Amazon smartphone review),它是我們自己從亞馬遜上獲得的未公開數(shù)據(jù)集。它包含30萬條智能手機(jī)評論。我們手動(dòng)標(biāo)注了其中2561句的情感類別。此外,我們預(yù)定義了12個(gè)產(chǎn)品特征{電池、價(jià)格、運(yùn)行速度、外觀、話筒、屏幕、存儲(chǔ)容量、無線網(wǎng)絡(luò)、大小、重量、通話質(zhì)量、相機(jī)},所有的2561句話都屬于以上預(yù)定義特征中的一個(gè)或多個(gè),同時(shí)每句話也都標(biāo)注了正面或負(fù)面的情感標(biāo)簽。所以,ASR既可以被用于句子級別的情感分類,也可以被用于特征級別的情感分類和意見總結(jié)。ASR的詳細(xì)統(tǒng)計(jì)情況,如表2所示。
表2 ASR數(shù)據(jù)集的統(tǒng)計(jì)情況
在文本中,我們只將ASR數(shù)據(jù)集用于句子級別的情感分類,與前兩個(gè)數(shù)據(jù)集不同,ASR是一個(gè)非平衡數(shù)據(jù)集(1731句正面情感和830句負(fù)面情感),它可以衡量分類器的魯棒性。
在傳統(tǒng)的自然語言處理任務(wù)比如話題分類(topic categorization)和信息檢索(information retrieval)中,都采用了詞袋模型,在本文中繼續(xù)沿用這個(gè)模型。詞袋模型,也稱為向量空間模型(vector space model, VSM),它將一篇文檔或者一句話表征為一個(gè)高維向量,向量的長度即為所有訓(xùn)練樣本中不同詞條的個(gè)數(shù),即字典的大小。每一個(gè)維度上向量的值表示該詞條在這篇文檔或這句話中出現(xiàn)的次數(shù)。在實(shí)驗(yàn)中,我們采用了布爾數(shù)值(Boolean),即用1代表該詞條出現(xiàn)(無論出現(xiàn)幾次),用0代表該詞條沒有出現(xiàn)。這樣,每篇文檔或每句句子都被轉(zhuǎn)化成了一個(gè)維數(shù)很高且每個(gè)維度上為1或0的空間向量。每個(gè)數(shù)據(jù)集向量的具體長度見表1。
自從Joachim在1998年成功得將SVM作為分類用于處理文本任務(wù)后[10],具有線性核的SVM就一直是文本分類相關(guān)領(lǐng)域的基準(zhǔn)方法,且在詞袋模型作為文本特征的前提下,SVM有著非常高的分類準(zhǔn)確率[11]。本文也采用其作為比較對象。
4.1 全局詞條加權(quán)策略
全局詞條加權(quán)是為了評估每個(gè)詞條的重要性,以給予每個(gè)詞條不同的權(quán)值,讓對分類產(chǎn)生較大影響的詞條有更高的權(quán)值進(jìn)而提高分類的準(zhǔn)確率。為了避免實(shí)驗(yàn)的偶然性,我們采用了3種詞條加權(quán)策略用以測試SVM和線性核LEM的分類穩(wěn)定性,如表3所示。
上表中,N為訓(xùn)練集中文檔或句子的總數(shù);N+/N-為在訓(xùn)練集中表達(dá)正面/負(fù)面情感的文檔或句子數(shù);a/c為在正面/負(fù)面的文檔或句子中包含詞條ti的文檔或句子數(shù)目。
表3 不同的全局加權(quán)策略
4.2 實(shí)驗(yàn)結(jié)果與分析
本文在3個(gè)各有特點(diǎn)的數(shù)據(jù)集上對線性核ELM和SVM的分類性能做了比較。SVM算法采用L2正則化和L2損失函數(shù),并由LIBLINEAR[14]來實(shí)現(xiàn)。線性核ELM的實(shí)現(xiàn)基于Huang的源代碼,并在代碼基礎(chǔ)上增加了線性核。所有的實(shí)驗(yàn)采用10折交叉驗(yàn)證以最大程度的避免偶然性。且在實(shí)驗(yàn)中,對于SVM和ELM的系數(shù)C,進(jìn)行了2-8~28之間的參數(shù)尋優(yōu)。實(shí)驗(yàn)的評價(jià)指標(biāo)為分類準(zhǔn)確率。
4.2.1 小數(shù)據(jù)集RT-2K的實(shí)驗(yàn)結(jié)果
RT-2K數(shù)據(jù)集是屬于文檔級別的分類數(shù)據(jù)集,是將文檔分為正面情感文檔和負(fù)面情感文檔。文檔總數(shù)2000篇,屬于較小數(shù)據(jù)集。在這個(gè)數(shù)據(jù)集上,SVM和線性核ELM有著相近的分類結(jié)果。在IDF加權(quán)策略下,線性核ELM比SVM準(zhǔn)確率略高(+0.35%),但是在其他加權(quán)策略下,SVM的效果略好。線性核ELM在IDF加權(quán)下達(dá)到最高的分類準(zhǔn)確率,SVM在DBIDF加權(quán)下達(dá)到最高的分類準(zhǔn)確率。總體上,二者在這個(gè)小數(shù)據(jù)集上的表現(xiàn)沒有太大差別(平均0.04%的差距)。具體結(jié)果,如表4所示。
表4 RT-2K數(shù)據(jù)集實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)
表4中,‘+’表示線性核ELM的準(zhǔn)確率高于SVM。
4.2.2 大數(shù)據(jù)集Subj.的實(shí)驗(yàn)結(jié)果
Subj.數(shù)據(jù)集是屬于句子級別的分類數(shù)據(jù)集,是將句子分為正面情感句子和負(fù)面情感句子。句子總數(shù)10 000句,屬于較大數(shù)據(jù)集。在這個(gè)數(shù)據(jù)集上,線性核ELM在4種情況下的準(zhǔn)確率均高于SVM(分別為+0.70%、+0.82%、+0.67%、+0.79%)。二者均在DBIDF加權(quán)策略下達(dá)到最高的分類準(zhǔn)確率??傮w上,線性核ELM在這個(gè)大數(shù)據(jù)集上的表現(xiàn)超過SVM,平均準(zhǔn)確率前者比后者高了0.77%,如表5所示:
表5 Subj.數(shù)據(jù)集實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)
4.2.3 非平衡數(shù)據(jù)集ASR的實(shí)驗(yàn)結(jié)果
本文中,ASR數(shù)據(jù)集被用于句子級別的情感分類。在這個(gè)非平衡數(shù)據(jù)集上(1 731句正面情感和830句負(fù)面情感),線性核ELM依然是很有效的一個(gè)分類器。二者均在IDF加權(quán)策略下達(dá)到最高的分類準(zhǔn)確率??傮w上,二者在這個(gè)非平衡數(shù)據(jù)集上的分類性能相差無幾,線性核ELM只略高于SVM的效果(0.14%),如表6所示。
表6 ASR數(shù)據(jù)集實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)
在本文中,將經(jīng)過線性核改造的ELM應(yīng)用于情感分類。在3個(gè)具有不同特點(diǎn)數(shù)據(jù)集上,比較了線性核ELM和SVM在情感分類任務(wù)上的分類準(zhǔn)確率。結(jié)果顯示二者的分類效果在小數(shù)據(jù)集上基本相同。在大數(shù)據(jù)集上,線性核ELM比基準(zhǔn)方法SVM有更好的表現(xiàn)。此外,提供了一個(gè)新的數(shù)據(jù)集,該數(shù)據(jù)集不僅可以用于本文的情感分類,也可用于特征級別的多分類,同時(shí)它也可以用于測試分類器在非平衡數(shù)據(jù)集上的分類性能。也發(fā)現(xiàn)在不同的數(shù)據(jù)集上,最優(yōu)的詞條加權(quán)策略并不相同。
在未來的工作中,將在更大的數(shù)據(jù)集上測試線性核ELM的性能,并且將嘗試基于特征級別的意見總結(jié)。
[1] Turney P D. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th annual meeting on association for computational linguistics. 會(huì)議地址, 2002: 417-424.
[2] Nasukawa T, Yi J. Sentiment analysis: Capturing favorability using natural language processing[C]//Proceedings of the 2nd international conference on Knowledge capture. ACM, 2003: 70-77.
[3] Dave K, Lawrence S, Pennock D M. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews[C]//Proceedings of the 12th international conference on World Wide Web. ACM, 2003: 519-528.
[4] Hu M, Liu B. Mining opinion features in customer reviews[C]// Proceedings of the Nineteenth National Conference on Artificial Intelligence. AAAI, 2004: 755-760.
[5] Wang S, Manning C D. Baselines and bigrams: Simple, good sentiment and topic classification[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, Jeju Island, Korea. Association for Computational Linguistics, 2012: 90-94.
[6] Kim Y. Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar. Association for Computational Linguistics, 2014: 1746-1751.
[7] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C]//Proceedings. 2004 IEEE International Joint Conference on Neural Networks, 2004. IEEE, 2004, 2: 985-990.
[8] Tang J, Deng C, Huang G B. Extreme learning machine for multilayer perceptron[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(4): 809-821.
[9] Huang G B, Chen L, Siew C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE Transactions on Neural Networks, 2006, 17(4): 879-892.
[10] Joachims T. Text categorization with support vector machines: Learning with many relevant features[C]//European conference on machine learning, Chemnitz, Germany. Springer Berlin Heidelberg, 1998: 137-142.
[11] Leopold E, Kindermann J. Text categorization with support vector machines. How to represent texts in input space?[J]. Machine Learning, 2002, 46(1-3): 423-444.
[12] Sparck Jones K. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Documentation, 1972, 28(1): 11-21.
[13] Paltoglou G, Thelwall M. A study of information retrieval weighting schemes for sentiment analysis[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Uppsala, Sweden. Association for Computational Linguistics, 2010: 1386-1395.
[14] Fan R E, Chang K W, Hsieh C J, et al. LIBLINEAR: A library for large linear classification[J]. The Journal of Machine Learning Research, 2008, 9: 1871-1874.
Sentiment Classification Based on Extreme Learning Machine with Linear Kernel
Sun Shangdi,Gu Xiaodong
(Department of Electronic Engineering,Fudan University,Shanghai 200433,China)
With the popularity of Internet movie databases and e-commerce websites, the reviews of users show the growing value. Thus, opinion mining or sentiment analysis is one of the hot research topics in the field of natural language processing (NLP) and machine learning (ML) at present. Sentiment classification is a representative sentiment analysis application and support vector machines (SVM) is usually used as a baseline method. In this paper, linear kernel extreme learning machine (linear kernel ELM) has been applied first to the sentiment classification, and the linear kernel ELM classier is compared with SVM through different term weighting schemes using widely used sentiment and subjectivity/objective datasets. The experimental results show that the linear kernel ELM classification accuracy is higher in large dataset (10000 samples) and it is roughly the same as SVM in small dataset (2000 samples). Furthermore, we build our dataset (Amazon smartphone review, ASR) which is an unbalanced dataset of product reviews (1731 positive samples, 830 negative samples). The comparison results show that the linear kernel ELM is also a competitive sentiment classification approach for unbalanced dataset.
Sentiment Classification; Term Weighting; Support Vector Machine; Extreme Learning Machine; Linear Kernel
國家自然科學(xué)基金資助項(xiàng)目(61371148)
孫尚迪(1991-),男,溫州人,復(fù)旦大學(xué)電子工程系,碩士研究生,研究方向:神經(jīng)網(wǎng)絡(luò),機(jī)器學(xué)習(xí),上海 200433 顧曉東(1970-),男,南通人,復(fù)旦大學(xué)電子工程系,博士,教授,研究方向:人工神經(jīng)網(wǎng)絡(luò),模式識別,上海 200433
1007-757X(2017)01-0001-04
TP311
A
2016.06.21)