解仲秋
(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)
隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)媒體作為一種新型的信息傳播形式,正成為表達(dá)公眾情感、暢通社會(huì)交流、凝聚公眾智慧的重要渠道。互聯(lián)網(wǎng)作為一種新型的媒體,由于具有自由、開放、互動(dòng)等特點(diǎn),比報(bào)紙、廣播、電視及其他媒體更容易吸引公眾參與輿論討論。
對(duì)于熱門話題與緊急情況,眾多的互聯(lián)網(wǎng)用戶通過網(wǎng)絡(luò)渠道表達(dá)其觀點(diǎn)。新聞評(píng)論、BBS 與博客已成為互聯(lián)網(wǎng)用戶傳播和表達(dá)公眾信息的主要方式。當(dāng)前,中國正處于社會(huì)轉(zhuǎn)型的關(guān)鍵時(shí)期,網(wǎng)絡(luò)輿情的影響力越來越大。若無法正確識(shí)別或引導(dǎo)出現(xiàn)偏見或負(fù)面輿論,將會(huì)構(gòu)成極大的公共安全威脅。大學(xué)生是我國網(wǎng)民的主體,大學(xué)生對(duì)社會(huì)問題的參與度高,極易受到新思想的影響。因此,有效收集、監(jiān)測(cè)與分析網(wǎng)絡(luò)中大學(xué)生輿情成為亟待解決的重要問題[1]。
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)作為動(dòng)態(tài)處理大量數(shù)據(jù)的有效工具[2]。文中借助這兩項(xiàng)工具研究了網(wǎng)絡(luò)輿情熱點(diǎn)檢測(cè),對(duì)各種民意的相互作用結(jié)構(gòu)進(jìn)行自然分組,并進(jìn)行全面、及時(shí)的描述,實(shí)現(xiàn)了動(dòng)態(tài)監(jiān)測(cè)熱點(diǎn)意見。
在網(wǎng)絡(luò)環(huán)境下,輿情信息來源于評(píng)論、BBS、博客與各式聊天軟件[3],不同的信息來源具有不同的特征。系統(tǒng)框架如圖1 所示。首先,使用Web 搜尋器獲取有關(guān)網(wǎng)絡(luò)數(shù)據(jù)的最新信息,在刪除重復(fù)的url后,將數(shù)據(jù)以Html 源文件的形式存儲(chǔ)到硬盤中[4]。隨后預(yù)處理源文件,將Html 文件轉(zhuǎn)換為文本,提取信息主體與文件的網(wǎng)頁地址,并發(fā)布時(shí)間、作者等信息[5]。在此基礎(chǔ)上通過字典對(duì)提取的數(shù)據(jù)進(jìn)行分析,得到文本信息的特征集合,提取關(guān)鍵詞并統(tǒng)計(jì)關(guān)鍵詞的出現(xiàn)頻率[6]。使用專業(yè)詞典與關(guān)鍵詞進(jìn)行比較,并提取相關(guān)事件,形成輿情信息數(shù)據(jù)庫。最終,根據(jù)所需的類型、發(fā)布時(shí)間、源出處等實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情的實(shí)時(shí)監(jiān)控。
圖1 輿情研判系統(tǒng)框架
該系統(tǒng)涉及的關(guān)鍵技術(shù)包括Web 爬蟲技術(shù)[7]、主題詞提取技術(shù)[8]、自動(dòng)文本分類技術(shù)[9]。
文中設(shè)計(jì)的Web 爬蟲策略基于無主題搜索的廣度優(yōu)先[10]與深度優(yōu)先策略[11]。基于深度優(yōu)先策略,Web 爬蟲程序搜索含有起始頁面的所有頁面。然后,選擇一個(gè)鏈接頁面,繼續(xù)爬完此頁面上的所有鏈接頁面?;谏疃葍?yōu)先策略,Web 爬蟲程序從起始頁面開始,遍歷到所有鏈接的子鏈接,一直處理到網(wǎng)頁目錄盡頭。隨后,Web 爬蟲程序繼續(xù)跟隨下一個(gè)起始頁面。廣度優(yōu)先策略可以保證網(wǎng)絡(luò)爬蟲并行處理,提高數(shù)據(jù)搜尋效率;深度優(yōu)先策略確保數(shù)據(jù)挖掘成本。文中根據(jù)需求混合使用兩種網(wǎng)絡(luò)爬蟲的搜索策略,以提高鏈接的準(zhǔn)確性,減少計(jì)算時(shí)空復(fù)雜性。
主題詞提取技術(shù)的關(guān)鍵要點(diǎn)包括通用分詞與POS 標(biāo)記、識(shí)別與多詞短語分組的新字符串、同義詞與近義詞的合并、基于結(jié)構(gòu)和統(tǒng)計(jì)信息的關(guān)鍵詞提取[12]。
文中使用中國科學(xué)院ICTCLIS 系統(tǒng)構(gòu)建通用分詞與POS 標(biāo)記技術(shù),并使用統(tǒng)計(jì)算法對(duì)關(guān)鍵詞進(jìn)行詞頻分析[13]??紤]到互聯(lián)網(wǎng)語言中存在較多新詞與未知詞,文中通過計(jì)算相鄰詞組串的互信息,選擇超過某個(gè)閾值的單詞作為候選單詞[14]。
在上文建立的識(shí)別框架下,系統(tǒng)需提取輿情數(shù)據(jù)的特征。選擇過程基于文檔頻率,通過互信息或信息增益的方法以減少單詞的數(shù)量,從而獲得有用的信息。在網(wǎng)絡(luò)文本意見的分類過程中,將區(qū)分某種文本意見的重要單詞提取出來(定義為功能單詞),在檢測(cè)網(wǎng)絡(luò)意見熱點(diǎn)時(shí)使用,這些詞稱為功能單詞[16]。
功能單詞有兩種功能:全字功能與詞干功能,全字功能從文中按原樣提取,詞干功能只提取詞組的詞干??紤]到輿情檢測(cè)與分析的完整性和準(zhǔn)確性,文中使用全字功能。通過使用常用術(shù)語加權(quán)TFIDF,結(jié)合術(shù)語頻率(TF),乘以反向文檔頻率(IDF),用于衡量一個(gè)詞組的信息性。文中使用K-means 聚類與SVM 分類器對(duì)Web 文本進(jìn)行分類。
K-means 是解決聚類問題時(shí)最樸素的無監(jiān)督學(xué)習(xí)算法之一。其算法流程如圖2 所示。
圖2 K-means算法流程
算法通過預(yù)先設(shè)置的一定數(shù)量的聚類(假設(shè)k個(gè)聚類)對(duì)給定數(shù)據(jù)集進(jìn)行分類。定義k個(gè)質(zhì)心,這些質(zhì)心隨機(jī)存在于多維空間中。為保證聚類的準(zhǔn)確性,將k個(gè)質(zhì)心放置在盡可能遠(yuǎn)的距離。在一次迭代的基礎(chǔ)上,重新計(jì)算k個(gè)新質(zhì)心,將其作為上一步所產(chǎn)生簇的重心,然后依據(jù)相同數(shù)據(jù)集點(diǎn)與最近的新質(zhì)心之間的距離重新進(jìn)行運(yùn)算。經(jīng)過上述迭代,直至k個(gè)質(zhì)心不再移動(dòng)位置為止。文中使用的目標(biāo)函數(shù)如式(1)所示。
式中,J是在數(shù)據(jù)點(diǎn)與聚類中心之間的距離度量,表征了n個(gè)數(shù)據(jù)點(diǎn)到其各自聚類中心的距離度量。
運(yùn)算周期內(nèi)獲得的互聯(lián)網(wǎng)輿論,通過特征選擇與降維,如式(2)所示。
其中,Di表示文本輿情,Ti表示特征,wj表示特征權(quán)重。式(2)用作K-means 聚類輸入的數(shù)據(jù)集,該數(shù)據(jù)集將被聚集成k組,每個(gè)聚類的中心主題是最接近集群理論中心的熱點(diǎn)。
由于網(wǎng)絡(luò)輿論熱點(diǎn)的數(shù)量尚不確定,因此是一個(gè)多分類問題。文中通過非線性函數(shù)將輸入空間轉(zhuǎn)化為高維空間。在高維空間中,構(gòu)造線性判別函數(shù)以實(shí)現(xiàn)對(duì)原始文本空間的非線性判別,得到分類決策函數(shù)f(x)如式(3)所示。
其中,k(xi,x)為選擇徑向基函數(shù),作為內(nèi)積核函數(shù),其形式如式(4)所示。
該節(jié)還使用SVM 來實(shí)現(xiàn)熱點(diǎn)預(yù)測(cè),為預(yù)測(cè)當(dāng)前時(shí)間段的輿情熱點(diǎn)分布,將最近時(shí)間段獲得的歷史數(shù)據(jù)輸入到SVM 模型中。在此基礎(chǔ)上,使用K-means 方法與當(dāng)前時(shí)間段的聚類結(jié)果監(jiān)督學(xué)習(xí)工具的SVM 輸出。訓(xùn)練后的SVM 通過輸入從當(dāng)前數(shù)據(jù)中獲得的數(shù)據(jù),來對(duì)下一個(gè)時(shí)間段進(jìn)行預(yù)測(cè)。假設(shè)當(dāng)前時(shí)間段是si,輸入si的表征向量,并將輸出設(shè)置為K-means 的聚類結(jié)果。在此基礎(chǔ)上訓(xùn)練SVM,最終得到si時(shí)刻的預(yù)測(cè)值。
硬件體系結(jié)構(gòu)如圖3 所示??傮w上分為服務(wù)器端與客戶端,通過TCP/IP 協(xié)議進(jìn)行通信??蛻舳酥饕钶d遠(yuǎn)程控制器應(yīng)用程序,允許用戶使用自然語言規(guī)范與鼠標(biāo)等控件調(diào)用命令。此外,用戶可以選擇在客戶端使用麥克風(fēng)與揚(yáng)聲器,通過語音命令對(duì)系統(tǒng)進(jìn)行調(diào)控。服務(wù)器端由Mentor 與Mitsubishi 服務(wù)器組成,Mentor 服務(wù)器使用Pentium III 450/ 128 Mb PC 直接控制,Mitsubishi 服務(wù)器使用Pentium II 400/128 Mb Windows NT PC。每個(gè)服務(wù)器可以共享一些模塊,包含對(duì)象的數(shù)據(jù)庫保存在單個(gè)計(jì)算機(jī)中,并由屬于該項(xiàng)目的任何服務(wù)器共享。
圖3 硬件系統(tǒng)結(jié)構(gòu)
為了評(píng)估該方法對(duì)文本數(shù)據(jù)的分類結(jié)果,下面分別使用宏平均精度、宏平均召回率與宏平均F1 量度3個(gè)參數(shù)進(jìn)行評(píng)價(jià),其形式分別如式(5)~(7)所示。
Macro_P是系統(tǒng)所有預(yù)測(cè)的正確分類占實(shí)際正確數(shù)據(jù)的比例,可由Macro_P=TP/(TP+FP)得出。Macro_R是預(yù)測(cè)的正確數(shù)據(jù)占所有實(shí)際正確數(shù)據(jù)的比例,可由Macro_R=TP/(TP+FN)得出。Macro_F1是精度與召回率的諧波平均值,可由式(7)得出。
為驗(yàn)證K-means 的聚類效果,文中選取來自互聯(lián)網(wǎng)論壇網(wǎng)站的數(shù)據(jù),內(nèi)容包括財(cái)經(jīng)、人文、生活、娛樂等。
K-means 算法的一個(gè)不足是需要預(yù)設(shè)k。因此,文中的K-means 聚類分析針對(duì)一組k個(gè)值,計(jì)算出相同的向量空間模型所需的介于5~10 之間的k值。表1 給出了不同k值下的VSM(向量空間模型)值。分析表1 可知,該方法足以獲得良好的準(zhǔn)確性。在輿情監(jiān)控的應(yīng)用場(chǎng)景下,選取k=9 時(shí)以獲得最佳聚類效果。K-means 聚類效果如表2 所示。
表1 不同k值下算法效果實(shí)驗(yàn)
表2 K-means聚類實(shí)驗(yàn)
文中從表3 給出的6 個(gè)不同類別Web 文本中選擇1 000 個(gè)文檔,通過篩選,使用其中692 個(gè)文檔用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),120 個(gè)文檔用于測(cè)試。
表3 分類測(cè)試的Web文本數(shù)據(jù)庫
由于中文文本中單詞之間未有明顯的空格,因此,首先需要對(duì)文檔加注標(biāo)點(diǎn)符號(hào)。在刪去停用詞與輔助詞減少了文本無用特征后,采用TFIDF 構(gòu)建識(shí)別構(gòu)架輸入功能,得出表4 所示的特征維度。最終的分類實(shí)驗(yàn)結(jié)果如表5 所示。對(duì)比可知,5 類文本信息下SVM 的Macro_F1 度量優(yōu)于K-means。
表4 文本特征維度
表5 兩種方法的F1量度實(shí)驗(yàn)結(jié)果
文中設(shè)計(jì)了一個(gè)互聯(lián)網(wǎng)輿情研判檢測(cè)與分析模型。根據(jù)網(wǎng)絡(luò)輿情的文本屬性,引入VSM來表達(dá)文本輿論。根據(jù)實(shí)際應(yīng)用場(chǎng)景,從一些新網(wǎng)站中選取文本語料庫。對(duì)收集的文本文檔進(jìn)行K-means 聚類與SVM 分類,通過實(shí)驗(yàn)結(jié)果證明了該方法的有效性。
此外,未來工作的研究方向如下:深入開展網(wǎng)絡(luò)輿情檢測(cè)研究,細(xì)化文中互聯(lián)網(wǎng)輿情研判方法的每個(gè)步驟,以加強(qiáng)對(duì)高校輿情的引導(dǎo),預(yù)防輿情危機(jī)的出現(xiàn)。建設(shè)動(dòng)態(tài)監(jiān)視技術(shù),既能夠?qū)崟r(shí)監(jiān)視網(wǎng)站,又可以省去時(shí)間、經(jīng)濟(jì)成本高昂的數(shù)據(jù)清理工作。此外,網(wǎng)絡(luò)輿情檢測(cè)不能止步于詞頻分析,如何確定聚類算法的最優(yōu)k值、如何提高海量數(shù)據(jù)的處理速度,也是未來工作的主要研究內(nèi)容。