王永昌,朱立谷
(1.中國傳媒大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,北京 100024;2.石家莊學(xué)院,石家莊 050000)
隨著Web 2.0時(shí)代的到來,網(wǎng)民已經(jīng)成為活躍的內(nèi)容提供者。用戶是任何組織的中心焦點(diǎn),基于用戶數(shù)據(jù)的大數(shù)據(jù)分析在預(yù)測(cè)正確策略方面非常重要。因此對(duì)于社交網(wǎng)絡(luò)用戶數(shù)據(jù)的研究是當(dāng)今時(shí)代的趨勢(shì)之一。社交媒體進(jìn)一步加速了這一巨大轉(zhuǎn)變,并為他們的用戶配備工具和數(shù)字資源,幫助他們產(chǎn)生創(chuàng)造性和生動(dòng)的內(nèi)容。了解用戶生成的內(nèi)容是輿情分析和輿情監(jiān)測(cè)的重要組成部分。
在流行的社交門戶網(wǎng)站中,Twitter一直是吸引眾多研究者關(guān)注的熱點(diǎn),如預(yù)測(cè)民主選舉事件、消費(fèi)品牌、電影票房、股票市場(chǎng)、名人知名度等。Twitter擁有超過313百萬個(gè)月活躍用戶,每天有超過5億條推特,已經(jīng)成為一個(gè)組織和個(gè)人的金礦,在維護(hù)和增強(qiáng)他們的聲譽(yù)方面有很強(qiáng)的社會(huì)、政治或經(jīng)濟(jì)利益的影響力。情感分析為這些組織提供了實(shí)時(shí)監(jiān)控不同社交媒體站點(diǎn)的能力。情感分析是自動(dòng)檢測(cè)文本分段是否包含情感或自定內(nèi)容的過程,它還可以確定文本的極性。目前的方法使用文字的字面意義來分類成正或負(fù),從而執(zhí)行情感分析。理解情感分析的目標(biāo)和相對(duì)意義是很重要的。例如,“喬布斯是不可預(yù)測(cè)的”,當(dāng)“喬布斯”是一部電影時(shí),它會(huì)被認(rèn)為是一種積極的情感,如果“喬布斯”是一個(gè)人的名字,那么它不一定是真的。Twitter實(shí)體分類旨在將Twitter的情感極性歸類為正、負(fù)或中性。Twitter通常由不完整、嘈雜、結(jié)構(gòu)不好的句子、不規(guī)則的表達(dá)、不完善的詞和非詞典術(shù)語組成。在特征選擇之前,應(yīng)用一系列預(yù)處理(例如,去除停止詞、移除URL、替換否定)來減少噪聲量。在現(xiàn)有方法中廣泛地進(jìn)行情感分析的研究主要集中在新情感特征的提取上,特別是基于機(jī)器學(xué)習(xí)的方法[1-4]。然而,很少有研究關(guān)注預(yù)處理方法對(duì)Twitter實(shí)體分析性能的影響,本文重點(diǎn)研究了提高Twitter情感分析性能的各種預(yù)處理方法。
本文分析了各種預(yù)處理方法對(duì)情感分類的影響,包括基于支持向量機(jī)(SVM)、樸素貝葉斯、最大熵和基于人工神經(jīng)網(wǎng)絡(luò)的監(jiān)督分類方法。我們使用四種經(jīng)典分類模型和基于Mapreduce的分布式分類模型來識(shí)別Twitter數(shù)據(jù)集上的情感極性。實(shí)驗(yàn)結(jié)果表明,我們提出的方法在經(jīng)過模型參數(shù)調(diào)優(yōu)之后,分類性能得到改善,在保證分類性能的同時(shí)也提高了效率。本文的第一節(jié)對(duì)Twitter情感分析進(jìn)行了簡單介紹。第二節(jié)中討論相關(guān)研究和背景。第三節(jié)提出了一種新的方法,并利用Twitter數(shù)據(jù)上進(jìn)行特征與情感分析。第四節(jié)給出了評(píng)價(jià)方法及實(shí)驗(yàn)結(jié)果分析。最后,在第五節(jié)中進(jìn)行了總結(jié)與討論。
文本預(yù)處理可以減少文本中的噪聲,有助于提高分類器的性能,加快分類過程。為了識(shí)別Twitter的情感極性,大多數(shù)現(xiàn)有的方法應(yīng)用文本預(yù)處理(例如,POS,去除URL,擴(kuò)展縮寫詞,替換否定提及,堵塞,去除停止詞)以減少推文中的噪聲量。典型的Twitter數(shù)據(jù)預(yù)處理流程如圖1所示。Marko[5]探討文本預(yù)處理在電影評(píng)論情感分析中的作用。實(shí)驗(yàn)結(jié)果表明,在預(yù)處理后,情感特征的準(zhǔn)確度可以通過適當(dāng)?shù)奶卣骱捅硎镜玫斤@著的改善。Pang[6]研究了不同的停止詞去除方法對(duì)推特的極性分類的影響以及刪除停止詞是否影響Twitter情感分類的性能。他們將六種不同的停止詞識(shí)別方法應(yīng)用到六個(gè)不同的Twitter數(shù)據(jù)集上,并進(jìn)行了觀察。如何去除停止詞影響兩種監(jiān)督情緒分類方法。他們通過觀察漲落對(duì)數(shù)據(jù)稀疏程度、分類特征的步長大小及其分類性能的影響來評(píng)估去停詞的影響。使用預(yù)編譯的停止詞列表對(duì)Twitter情感分類方法的性能產(chǎn)生負(fù)面影響。Adam[7]發(fā)現(xiàn)預(yù)處理導(dǎo)致原始特征空間的顯著性降低。經(jīng)過預(yù)處理后,詞匯量減少了62%。然而,他們沒有討論對(duì)Twitter情感分類的性能的影響。Bakliwal[8]探討了預(yù)處理方法對(duì)Twitter情感分類的影響。他們?cè)u(píng)估了URL、否定、重復(fù)字母、詞干和詞綴化的影響。在斯坦福Twitter情感數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,當(dāng)URL特征保留、否定變換和重復(fù)字母歸一化被采用時(shí),情感分類準(zhǔn)確度增加,但是當(dāng)應(yīng)用詞干和去詞法化時(shí),情感分類精度降低。Saif[9]評(píng)估了二進(jìn)制Twitter情感分類任務(wù)中URL、停止詞、重復(fù)字母、否定、首字母縮略詞和數(shù)字的準(zhǔn)確性。實(shí)驗(yàn)表明,情感分類的準(zhǔn)確度在擴(kuò)展縮寫詞和替換否定詞后有所提高,但在刪除URL、刪除號(hào)和移除停止詞時(shí)幾乎沒有變化。
圖1 Twitter數(shù)據(jù)預(yù)處理流程
一些研究者利用機(jī)器學(xué)習(xí)算法在社會(huì)網(wǎng)絡(luò)分析和情感分析方面進(jìn)行了研究工作并取得了良好的效果,常用的分類算法包括下列幾種:
1)樸素貝葉斯:樸素貝葉斯是一種簡單的基于貝葉斯規(guī)則的概率模型,它具有獨(dú)立的特征選擇能力,在文本分類中有很好的應(yīng)用[10]。樸素貝葉斯并不限制要處理的類或?qū)傩缘臄?shù)量。漸近樸素貝葉斯是訓(xùn)練階段最快的學(xué)習(xí)算法。本文利用多項(xiàng)式樸素貝葉斯模型[11]。類C *被分配給推特d,如公式1和公式2所示:
C *=argMaxCPNB(C|D)
(1)
(2)
其中,f代表一個(gè)特征,ni(d)代表在twitter d中發(fā)現(xiàn)的特征f的數(shù)量,n表示總特征的數(shù)目。參數(shù)P(C)和P(f|c)是通過極大似然估計(jì)獲得的[12]。為了處理在訓(xùn)練階段遇到的未知單詞,我們使用K=1的拉普拉斯平滑算法來分配相等的概率。
2)最大熵:最大熵分類(Maximum Entropy,簡稱ME)是另一種在許多自然語言處理應(yīng)用中被證明是成功的方法。ME在標(biāo)準(zhǔn)文本分類中有時(shí)優(yōu)于樸素貝葉斯,但這種現(xiàn)象并非在所有情況下都成立。ME提供了滿足給定約束的統(tǒng)一分類模型[13]。該模型表示如下:
(3)
其中,c是一個(gè)類,d是一個(gè)Twitter,λ是權(quán)重向量,Z(d)是一個(gè)歸一化函數(shù),f(i,c)是具有特征fi的類C的特征函數(shù),定義如下所示:
(4)
在實(shí)驗(yàn)中我們使用高斯迭代十次迭代來獲得足夠的權(quán)重精度。
3)支持向量機(jī)
支持向量機(jī)(SVM)在文本分類領(lǐng)域中被證明具有很高的效率,并且通常比樸素貝葉斯分類器提供更好的準(zhǔn)確度。支持向量機(jī)遵循著求給定數(shù)據(jù)的最大超平面的思想。
支持向量機(jī)最初是針對(duì)線性可分情況下的二類模式分類問題而提出的。給定訓(xùn)練樣本集T={(x1,y1),,,(x2,y2)},其中Xi∈Rn,yi∈ {-1,1}是類標(biāo),問題歸結(jié)為求一個(gè)能把兩類數(shù)據(jù)點(diǎn)分開的線性決策函數(shù)f(x)=〈w.x〉+b,其中Xi∈Rn,b∈R,在滿足約束yi[〈w.xi〉+b]>=±1的前提下最大化間隔,如圖2所示。
圖2 最大間隔超平面示意圖
我們使用帶有線性核函數(shù)的NLTK -SVM API,所有參數(shù)設(shè)置為默認(rèn)值。我們使用輸入數(shù)據(jù)作為大小m的向量集合。向量中的每個(gè)記錄表示一個(gè)特征。以單詞特征提取器為例,在推特中的單詞被認(rèn)為是一個(gè)特征。如果該特征存在,則值為1,否則值為0。為了避免數(shù)據(jù)縮放和提高整體速度,我們使用特征表現(xiàn),而不是使用特征計(jì)數(shù)。
4)人工神經(jīng)網(wǎng)絡(luò):人工神經(jīng)網(wǎng)絡(luò)依賴于從輸入數(shù)據(jù)的線性組合導(dǎo)出特征的思想,并將輸出建模為這些特征的非線性函數(shù)[14]。這導(dǎo)致了人工神經(jīng)網(wǎng)絡(luò)成為機(jī)器學(xué)習(xí)系統(tǒng)中最流行和最有效的形式之一。我們采用前饋神經(jīng)網(wǎng)絡(luò)來提高其先進(jìn)的學(xué)習(xí)能力。在各種前饋網(wǎng)絡(luò)中,BPN被認(rèn)為是最好的,它仍然是最有用的網(wǎng)絡(luò)之一。經(jīng)驗(yàn)表明隱藏層一般是一個(gè)或兩個(gè)。
由后向傳播訓(xùn)練的前饋網(wǎng)絡(luò)算法如算法1所示。
算法1 由后向傳播訓(xùn)練的前饋網(wǎng)絡(luò)算法
我們實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)的所有優(yōu)化設(shè)置、隱神經(jīng)元數(shù)目、系統(tǒng)學(xué)習(xí)率等,并從輸出層實(shí)現(xiàn)正負(fù)值的輸出項(xiàng)。
雖然上述這些方法在分類準(zhǔn)確性方面是令人滿意的,但未考慮擴(kuò)展目標(biāo)以及算法效率,缺乏文本預(yù)處理對(duì)Twitter情感分類影響的正確而深入的分析。針對(duì)這一差距,本文重點(diǎn)研究了文本預(yù)處理在不同類型特征和機(jī)器學(xué)習(xí)分類上對(duì)兩類分類任務(wù)中的Twitter數(shù)據(jù)集的影響,并提出了帶有MPCA的SVM的文本分類模型。
為了處理維數(shù)災(zāi)難,我們需要對(duì)數(shù)據(jù)進(jìn)行降維。降維實(shí)質(zhì)上是從給定值n維數(shù)據(jù)集x中選擇m個(gè)特征。我們使用Python的NoMAPI提供的默認(rèn)參數(shù)。將PCA應(yīng)用于混合特征抽取器的特征向量,并將簡化的數(shù)據(jù)集作為訓(xùn)練集提供給支持向量機(jī)。
主成分分析(PCA)的核心思想是減少由大量相關(guān)變量組成的數(shù)據(jù)集的維數(shù),同時(shí)盡可能地保留數(shù)據(jù)集中存在的變量[15]。這是通過將原始數(shù)據(jù)轉(zhuǎn)換成一組新的變量,即主成分來實(shí)現(xiàn)的,這些變量是不相關(guān)的并且是有序的,以便前幾個(gè)特征向量保留了所有原始變量中的大部分變化。PCA的計(jì)算過程如算法2所示:
算法2 主成分分析(PCA)算法
對(duì)于大集合的數(shù)據(jù)集,PCA算法在某些情況下變得難以處理。而MapReduce是用于大數(shù)據(jù)處理的編程模型。在MapReduce模型中,底層的運(yùn)行時(shí)系統(tǒng)在機(jī)大規(guī)模集群上進(jìn)行自動(dòng)的并行計(jì)算。通常情況下,基于MapReduce的計(jì)算包含兩個(gè)主要階段:map階段和reduce階段,對(duì)應(yīng)于map函數(shù)和reduce函數(shù)。在第一階段中,輸入數(shù)據(jù)由map函數(shù)處理,產(chǎn)生一些中間結(jié)果在第二階段中作為reduce函數(shù)的輸入。用戶只需要在map函數(shù)和reduce函數(shù)中設(shè)計(jì)計(jì)算方法,而不必關(guān)心它們之間的通信細(xì)節(jié)。
我們知道,矩陣相乘是可以并行執(zhí)行的,所以我們開發(fā)了一個(gè)基于MapReduce的分布式PCA算法,我們稱之為MPCA。
該算法的詳細(xì)描述如算法3所示。
為了減少原始特征空間的維數(shù),PCA被用于尋找投影方向,這是最小均方誤差對(duì)原始數(shù)據(jù)的最有效表示。定義FC={FC1,F(xiàn)CN2,…,F(xiàn)CN}為特征矩陣,其中N是目標(biāo)數(shù)據(jù)集上的樣本數(shù)。協(xié)方差矩陣C定義為
C(x)=φ(x)*φT(x)
(5)
其中φ(x)表示數(shù)據(jù)的原始矩陣,φT(x)表示原矩陣的轉(zhuǎn)置。協(xié)方差矩陣C利用均值偏差對(duì)訓(xùn)練域和測(cè)試域進(jìn)行數(shù)據(jù)歸一化。投影權(quán)重可以通過協(xié)方差矩陣奇異值分解(SVD)得到一個(gè)正交特征向量矩陣,并且是一個(gè)具有特征值的對(duì)角矩陣。將特征值按降序排序以選擇主成分。
算法3 基于Mapreduce的PCA算法(MPCA)
支持向量機(jī)可以在任務(wù)轉(zhuǎn)移過程中實(shí)現(xiàn)全局優(yōu)化,提高數(shù)據(jù)分類的準(zhǔn)確性。
本算法流程就是用主成分分析(PCA)對(duì)數(shù)據(jù)集進(jìn)行降維,得到數(shù)據(jù)的特征向量。對(duì)于任意一個(gè)樣本數(shù)據(jù),將樣本數(shù)據(jù)向特征向量投影,得到的投影系數(shù)作為樣本的特征表示。使用支持向量機(jī)(SVM)對(duì)這些不同的投影系數(shù)向量分類,來進(jìn)行分類識(shí)別,經(jīng)過mapreduce排序得到主成分特征,并由SVM實(shí)現(xiàn)最終分類。該算法的算法模型如圖3所示。
圖3 基于Mapreduce 的PCA-SVM模型
為了簡化PCA的排序工作,我們實(shí)現(xiàn)了基于Mapreduce的矩陣運(yùn)算,如圖3所示的主成分因子。它可以逆轉(zhuǎn)原始?xì)w一化系數(shù)ω。隨后,我們可以計(jì)算系數(shù)向量ω和原始?xì)w一化索引向量的內(nèi)積,用g(x)表示,其中x表示歸一化原始索引數(shù)據(jù)下的正索引。在此之后,我們只需要使用Mapreduce計(jì)算歸一化的原始索引值及其系數(shù)的內(nèi)積以獲得g(x),這大大簡化了排序任務(wù)。
文本分類器的性能評(píng)價(jià)主要是通過語料庫上的具體實(shí)驗(yàn)結(jié)果來評(píng)判。常用的分類器性能評(píng)價(jià)的指標(biāo)有:準(zhǔn)確率、召回率和F-measure值。
準(zhǔn)確率和召回率這兩個(gè)指標(biāo)是文本分類中使用最廣泛的評(píng)價(jià)指標(biāo)[16]。精確率(Precision)是指在分類器判為該類的樣本中,真正屬于該類的樣本所占的比例,考查的是分類的正確性;召回率(Recall)指分類器正確判斷為該類的樣本數(shù)與屬于該類的樣本總數(shù)之比,主要是考查分類的完備性。對(duì)于文檔類中的每一個(gè)類別,使用列聯(lián)表來計(jì)算準(zhǔn)確率和召回率。表1為一個(gè)列聯(lián)表示。
表1 二值分類連列表
于是,準(zhǔn)確率和召回率分別定義為:
(6)
(7)
準(zhǔn)確率和召回率不是獨(dú)立的,它們經(jīng)常是此消彼長的關(guān)系,即通常為了獲得比較高的召回率,準(zhǔn)確率會(huì)下降;反之亦然。所以單獨(dú)評(píng)價(jià)很多時(shí)候并不能真正說明一種方法的分類性能。Van Rijsbergen提出的F-measure值綜合考慮召回率和準(zhǔn)確率來對(duì)分類器進(jìn)行整體評(píng)價(jià)。其中最常用的是F1指標(biāo),其公式為:
(8)
本實(shí)驗(yàn)的硬件環(huán)境是一臺(tái)計(jì)算機(jī),其CPU為Intel Core i7-4510@2.60GHZ,內(nèi)存為8GB,硬盤容量為2T。軟件環(huán)境包括Win10專業(yè)版操作系統(tǒng)和開源軟件WEKA以及Hadoop。WEKA和Hadoop都是免費(fèi)的,非商業(yè)的,用Java編寫的開源軟件,WEKA可用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法調(diào)試,而Hadoop則用于開發(fā)基于Mapreduce 的分布式應(yīng)用。在我們的實(shí)驗(yàn)中,我們使用WEKA3.7.12以及Hadoop2.6。
在不同的上下文中,預(yù)處理可能有不同的影響。本文研究了預(yù)處理對(duì)情感分析使用的不同Twitter數(shù)據(jù)集的影響。SGHT-Twitter情感測(cè)試(STS測(cè)試)數(shù)據(jù)集由GO等人引入,它已被手動(dòng)注釋并包含177個(gè)負(fù)值、182個(gè)正值和139個(gè)中性推文。雖然StanfordTwitter測(cè)試集相對(duì)較小,但它已被廣泛應(yīng)用于針對(duì)不同的評(píng)估任務(wù)。SeaVal2014數(shù)據(jù)集是在SealVal2014 TASK95中提供的,該數(shù)據(jù)集由11042條Twitter組成,其已被標(biāo)注為正、負(fù)和中性標(biāo)簽。由TelWalet等人構(gòu)建的情感強(qiáng)度Twitter DataSet(SS Twitter)由4242個(gè)帶有正面和負(fù)面情緒強(qiáng)度的微博標(biāo)記組成。情緒評(píng)估數(shù)據(jù)集(SE Twitter)是由Sacha Narr等人提出的,該數(shù)據(jù)集由6745個(gè)推文,情感標(biāo)簽已被人工標(biāo)注。
為了評(píng)估各種預(yù)處理方法的效果,我們?cè)赟GHT-Twitter,StanfordTwitter,SS Twitter,SE Twitter這四種數(shù)據(jù)集上分別使用四種經(jīng)典的分類方法以及我們?cè)O(shè)計(jì)的SVM+MPCA分類模型,將5種預(yù)處理方法應(yīng)用于情感分類,并通過在WEKA平臺(tái)上的測(cè)試,得到相應(yīng)的分類指標(biāo),分別如表2-表6所示。
表2 樸素貝葉斯在四種數(shù)據(jù)集上的分類性能
表3 最大熵在四種數(shù)據(jù)集上的分類性能
表4 支持向量機(jī)在四種數(shù)據(jù)集上的分類性能
表5 BPN在四種數(shù)據(jù)集上的分類性能
表6 SMV+MPCA在四種數(shù)據(jù)集上的分類性能
從表2和表3可以看出樸素貝葉斯方法和最大熵方法在SGHT-Twitter數(shù)據(jù)集和SE Twitter數(shù)據(jù)集上的分類性能指標(biāo)是一樣的,而在StanfordTwitter數(shù)據(jù)集和SS Twitter上略有差別,但綜合來看也基本持平。表4和表5的數(shù)據(jù)說明支持向量機(jī)方法和BPN方法的分類性能也基本接近,但對(duì)比表2和表3來看,兩種方法均優(yōu)于樸素貝葉斯方法和最大熵方法。但這種優(yōu)勢(shì)是以計(jì)算開銷為代價(jià)的,因?yàn)閺挠?xùn)練模型到得到結(jié)果的耗時(shí)來看,支持向量機(jī)方法和BPN方法要比樸素貝葉斯方法和最大熵方法慢很多。表6則表明我們?cè)O(shè)計(jì)的分類模型僅在SS Twitter數(shù)據(jù)集上不及前者,而在其它三個(gè)數(shù)據(jù)集上均優(yōu)于上述四種方法。與此同時(shí),由于我們采用了基于Mapreduce的分布式計(jì)算模型,從而大大減少了計(jì)算開銷,能夠在保證提供分類性能的同時(shí)更加高效。
對(duì)于在SS Twitter數(shù)據(jù)集上的性能不佳,我們認(rèn)為對(duì)同一種分類模型而言,由于不同的參數(shù)設(shè)置可能在針對(duì)不同數(shù)據(jù)集上形成性能上的差別。因此,我們?cè)赪EKA平臺(tái)上進(jìn)行了參數(shù)調(diào)整和優(yōu)化。
在WEKA平臺(tái)的分類器選項(xiàng)中我們選擇SMO算法,SMO算法是針對(duì)求解SVM問題的Lagrange對(duì)偶問題開發(fā)的高效算法。我們算法選項(xiàng)中的ε值改為2.0,numFlold改為2,toleranceParameter改為0.003,核函數(shù)選擇RBF kernel,然后重新啟動(dòng)訓(xùn)練過程,得到的性能結(jié)果如表7所示。
表7 參數(shù)優(yōu)化后的SMV+MPCA在SS Twitter 數(shù)據(jù)集上的分類性能
表7的結(jié)果可以看出,通過參數(shù)優(yōu)化后,我們的算法模型在SS Twitter數(shù)據(jù)集上的三項(xiàng)性能指標(biāo)均有提升。為了直觀比較幾種算法的性能差別,我們將這幾種算法在SS Twitter數(shù)據(jù)集上的分類結(jié)果通過WEKA平臺(tái)繪制了ROC曲線,如圖4所示。
圖4 各種算法在SS Twitter數(shù)據(jù)集上的分類ROC曲線
從圖4給出的ROC曲線可以看出,我們?cè)O(shè)計(jì)的分類算法模型(MPCA+SVM)相對(duì)于其他傳統(tǒng)算法而言,其ROC曲線下的面積最大,說明取得了很好的效果。同時(shí)也可以看出在經(jīng)過參數(shù)調(diào)優(yōu)后,使得原本在SS Twitter數(shù)據(jù)集上性能表現(xiàn)一般到有很大提升,說明了本算法模型具有很好的適應(yīng)性和擴(kuò)展性,實(shí)驗(yàn)結(jié)果令人滿意。
本文研究了五種不同的文本預(yù)處理方法對(duì)Twitter中情感極性分類的影響。我們使用傳統(tǒng)的四種分類器以及我們所設(shè)計(jì)的MPCA+SVM的算法模型在4個(gè)不同的Twitter數(shù)據(jù)集進(jìn)行了一系列的實(shí)驗(yàn),并在WEKA平臺(tái)上驗(yàn)證了幾種預(yù)處理方法對(duì)Twitter數(shù)據(jù)集的有效性。實(shí)驗(yàn)結(jié)果表明,樸素貝葉斯方法和最大熵方法分類性能接近,支持向量機(jī)(SVM)和前饋人工神經(jīng)網(wǎng)絡(luò)(ANN)方法的性能也基本一致,并且效果均優(yōu)于前兩種分類器,但這種優(yōu)越是以復(fù)雜的計(jì)算和較長的實(shí)驗(yàn)耗時(shí)為代價(jià)的。而我們?cè)O(shè)計(jì)的算法模型在保證性能提升的同時(shí),通過設(shè)計(jì)基于Mapreduce分布式PCA計(jì)算,解決了因復(fù)雜計(jì)算所帶來的時(shí)間消耗問題。針對(duì)本方法在SS Twitter數(shù)據(jù)集上性能表現(xiàn)一般,我們經(jīng)過了參數(shù)優(yōu)化并重新進(jìn)行測(cè)試,結(jié)果顯示各項(xiàng)性能指標(biāo)均有較大提升,說明我們的方法具有良好的適應(yīng)性,實(shí)驗(yàn)的整體效果是令人滿意的。在下一步的工作中,我們會(huì)針對(duì)Twitter或其他微博情感分類任務(wù),研究適合不同類別的預(yù)處理方法和特征模型。