劇雷鳴, 楊俊成
(1. 南陽理工學(xué)院 軟件學(xué)院, 南陽 473000; 2. 河南工業(yè)職業(yè)技術(shù)學(xué)院 電子信息工程系, 南陽 473000)
?
基于支持向量機(jī)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測
劇雷鳴1, 楊俊成2
(1. 南陽理工學(xué)院 軟件學(xué)院, 南陽 473000; 2. 河南工業(yè)職業(yè)技術(shù)學(xué)院 電子信息工程系, 南陽 473000)
熱點(diǎn)話題是一種人們在網(wǎng)絡(luò)上表達(dá)自己意見和看法方法的重要方式,針對網(wǎng)絡(luò)熱點(diǎn)話題的變化特點(diǎn),為了解決當(dāng)前網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型存在預(yù)測精度低、預(yù)測結(jié)果不穩(wěn)定的難題,設(shè)計(jì)了一種基于支持向量機(jī)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型。收集網(wǎng)絡(luò)熱點(diǎn)話題數(shù)據(jù),并對數(shù)據(jù)進(jìn)行預(yù)處理,采用支持向量機(jī)建立網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型,采用VC++ 6.0實(shí)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)話題的仿真實(shí)驗(yàn),改善了網(wǎng)絡(luò)熱點(diǎn)話題的預(yù)測效果,而且可以滿足網(wǎng)絡(luò)熱點(diǎn)話題在線需求,具有一定的實(shí)際應(yīng)用價值。
熱點(diǎn)話題; 網(wǎng)絡(luò)輿情; 支持向量機(jī); 仿真測試
近些年,隨著Internet應(yīng)用深入,上網(wǎng)的人數(shù)日益增加,Internet成為人們交流和溝通一個主要的場所。熱點(diǎn)話題是指網(wǎng)民對某個問題發(fā)表自己的看法,由于網(wǎng)絡(luò)的開放性,人們可以自由發(fā)表自己的想法,使得熱點(diǎn)話題傳播速度十分的快,而人們對熱點(diǎn)話題的傳播直接影響話題擴(kuò)散的速度和影響范圍[1]。如果一個負(fù)面熱點(diǎn)話題在網(wǎng)絡(luò)進(jìn)行快速傳播,那么會對國家、社會穩(wěn)定發(fā)生干擾,嚴(yán)重時可能引起“事件”,因此對網(wǎng)絡(luò)熱點(diǎn)話題進(jìn)行建模和預(yù)測,對熱點(diǎn)話題進(jìn)行正確的引導(dǎo),具有十分現(xiàn)實(shí)的研究意義[2,3]。
網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測問題引起了人們的廣泛關(guān)注,它們對網(wǎng)絡(luò)熱點(diǎn)話題的發(fā)現(xiàn)、檢測、預(yù)測等過程進(jìn)行了廣泛而深入的研究,取得取一系列的研究結(jié)果,出現(xiàn)了許多與網(wǎng)絡(luò)熱點(diǎn)話題有關(guān)的預(yù)測模型[4]。最初人們采用線性回模型對網(wǎng)絡(luò)熱點(diǎn)話題進(jìn)行預(yù)測,其基于大量的歷史樣本數(shù)據(jù)對模型的參數(shù)進(jìn)行擬合,并將網(wǎng)絡(luò)熱點(diǎn)話題的款來變化趨勢進(jìn)行預(yù)測[5],然而網(wǎng)絡(luò)熱點(diǎn)話題變化不太規(guī)則,不僅具有一定的規(guī)律性,同時具有一定的隨機(jī)性,因此其網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測結(jié)果極不穩(wěn)定,導(dǎo)致網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測結(jié)果可靠性低[6]。隨后出現(xiàn)了基于采用時間分析的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型,主要有:指數(shù)平滑算法、移動平均滑動算法等[7,8],它們從網(wǎng)絡(luò)熱點(diǎn)話題數(shù)據(jù)中挖掘話題的變化趨勢,從而實(shí)現(xiàn)將來網(wǎng)絡(luò)熱點(diǎn)話題變化態(tài)勢的預(yù)測,它們只能對網(wǎng)絡(luò)熱點(diǎn)話題的周期性變化趨勢性進(jìn)行預(yù)測,也是屬于線性建模方法,因此預(yù)測精度有時也比較低,具有十分明顯的局限性[9]。隨著現(xiàn)代統(tǒng)計(jì)理論的不斷發(fā)展,出現(xiàn)了神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型,獲得了比其它模型更高的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測精度[10]。然而在實(shí)際應(yīng)用中,神經(jīng)網(wǎng)絡(luò)需要許多網(wǎng)絡(luò)熱點(diǎn)話題樣本,而網(wǎng)絡(luò)熱點(diǎn)話題剛開始發(fā)現(xiàn)時,歷史樣本少,這樣預(yù)測結(jié)果會出現(xiàn)過擬合;支持向量機(jī)沒有神經(jīng)網(wǎng)絡(luò)“大樣本”的條件限制,但是當(dāng)樣本規(guī)模比較大時,其學(xué)習(xí)速度比較慢,影響網(wǎng)絡(luò)熱點(diǎn)話題在線預(yù)測要求[11,12]。
為了提高網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測精度,針對當(dāng)前網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型的局限性,提出了基于支持向量機(jī)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型(PSO-SVM),對支持向量機(jī)參數(shù)選擇問題進(jìn)行解決,并通過仿真實(shí)驗(yàn)對其性進(jìn)能進(jìn)行驗(yàn)證性測試。
1.1 支持向量機(jī)
對于訓(xùn)練集:T={(xi,yi),i=1,2,…n},xi∈Rm表示輸入,yi表示輸出,n是樣本的數(shù)量,通過一定的訓(xùn)練過程建立函數(shù)f(x),使全部樣本都符合yi=f(xi),當(dāng)解的空間為D維時,那么線性回歸函數(shù)為式(1)。
(1)
要對全部樣本進(jìn)行建模與預(yù)測,那么需要求滿足如下約束條件為式(2)。
(2)
(3)
對min(||w||)直接進(jìn)行求解十分困難,為此,引入Lagrange函數(shù),即式(4)。
(4)
式中,ai≥0為Lagrange系數(shù)。
對式(4)進(jìn)行求偏導(dǎo)數(shù),可以得到其對偶問題為式(5)。
(5)
(6)
b*可以通過αi(yi(wTxi+b)-1)=0得到,那么支持向量機(jī)的最優(yōu)決策函數(shù)為式(7)。
(7)
當(dāng)預(yù)測問題為一個非線性問題時,引入非線性變換Φ變?yōu)榫€性問題,通常引入核函數(shù)實(shí)現(xiàn)非線性變換,其可以描述為式(8)。
K(xi,xj)=<Φ(xi)·Φ(xj)>
(8)
當(dāng)前的核函數(shù)很多,本文選擇徑向基函數(shù),其定義為式(9)。
(9)
當(dāng)引入核函數(shù)后還是非線性問題時,引入松弛變量ξi,i=1,…,n,那么目標(biāo)函數(shù)就變?yōu)槭?10)。
(10)
式中,C為懲罰因子。
通過引入K(xi,xj)和ξi后,支持向量機(jī)能夠根據(jù)對偶規(guī)劃進(jìn)行求解,具體如式(11)。
(11)
1.2 粒子群算法
(12)
(13)
Step1:收集網(wǎng)絡(luò)熱點(diǎn)話題歷史數(shù)據(jù),并對數(shù)據(jù)進(jìn)行歸一化處理,具體為式(14)。
(14)
網(wǎng)絡(luò)熱點(diǎn)話題經(jīng)過歸一化后,值均處于[0, 1]的范圍內(nèi),這樣可以減少網(wǎng)絡(luò)熱點(diǎn)話題的值變化太大帶來的負(fù)面影響。
Step3:將第一組參數(shù)用于支持向量機(jī)對網(wǎng)絡(luò)熱點(diǎn)話題進(jìn)行學(xué)習(xí),建立相應(yīng)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型,并計(jì)算它們的適應(yīng)度值,具體為式(15)。
(15)
Step4:根據(jù)適應(yīng)度值對粒子進(jìn)行排序,并確定當(dāng)前個體和群體的最佳位置分別為:[piC(0),piσ(0)]和[giC(0),giσ(0)]。
Step5:根據(jù)式(12)和(13)更新粒子的狀態(tài),得到下一代粒子群。
Step6:迭代次數(shù)增加。
Step7:如果不滿足終止條件,就返回Step3,繼續(xù)尋找最優(yōu)的粒子群位置:
綜合上述可知,本文模型的工作流程如圖1所示。
圖1 PSO-SVM的網(wǎng)絡(luò)熱點(diǎn)預(yù)測模型工作流程
3.1 “習(xí)馬會”的數(shù)據(jù)
采用熱點(diǎn)話題“習(xí)馬會”作為應(yīng)用對象,選擇VC++6.0實(shí)現(xiàn)PSO-SVM,實(shí)驗(yàn)數(shù)據(jù)如圖2所示。
圖2 “習(xí)馬會”話題的數(shù)據(jù)
選擇最后50數(shù)據(jù)作為測試集,選擇標(biāo)準(zhǔn)支持向量機(jī)(SVM)、RBF神經(jīng)網(wǎng)絡(luò)、線性回歸以及指數(shù)平滑算法建立網(wǎng)絡(luò)熱點(diǎn)話題對模型。
3.2 結(jié)果與分析
采用PSO算法確定SVM的參數(shù)C=175.32和σ=20.59,從而建立相應(yīng)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型,50個測試樣本的預(yù)測結(jié)果如圖3所示。
圖3 PSO-LSVM的“習(xí)馬會”預(yù)測結(jié)果
從圖3知,PSO-SVM可以描述“習(xí)馬會”話題的變化趨勢,預(yù)測結(jié)果可信度高。
所有模型的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測精度如表1所示。
表1 “習(xí)馬會”話題的預(yù)測結(jié)果
從表1可知知道:
(1) 線性回歸以及指數(shù)平滑算法的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測精度低,這表明預(yù)測值與實(shí)際值之間的誤差較大,它們屬于線性建模方法,無法全面、客觀的反映網(wǎng)絡(luò)熱點(diǎn)話題的變化趨勢,缺陷十分明顯。
(2) RBF神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測精度要高于線性回歸以及指數(shù)平滑算法,但是RBF神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果不穩(wěn)定,而支持向量機(jī)的學(xué)習(xí)時間長,有一定的局限性。
(3) PSO-SVM的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測精度最高,而且網(wǎng)絡(luò)熱點(diǎn)話題的建模速度最快,網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測結(jié)果具有十分明顯的優(yōu)勢。
3.3 模型的通用性測試
為了分析PSO-SVM的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型的穩(wěn)定性和可靠性,選擇2016年的網(wǎng)絡(luò)熱點(diǎn)話題作為實(shí)驗(yàn)對象,測試其通用性,得到的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測精度如表2所示。
表2 網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型的通用性測試
對表2的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測精度進(jìn)行分析可以發(fā)現(xiàn),PSO-SVM的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測精度均超過了90%,遠(yuǎn)遠(yuǎn)超過網(wǎng)絡(luò)流量話題預(yù)測精度的實(shí)際要求85%,實(shí)驗(yàn)結(jié)果明,PSO-SVM可以應(yīng)用于各種各樣的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測中,具有較高的實(shí)際應(yīng)用價值。
熱點(diǎn)話題研究是當(dāng)前研究的重點(diǎn),為了提高網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測精度,提出基于支持向量機(jī)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型。首先收集網(wǎng)絡(luò)熱點(diǎn)話題數(shù)據(jù),并對數(shù)據(jù)進(jìn)行預(yù)處理,然后采用支持向量機(jī)建立網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測模型,最后采用VC++ 6.0實(shí)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)話題的仿真實(shí)驗(yàn),該模型改善了網(wǎng)絡(luò)熱點(diǎn)話題的預(yù)測效果,可以滿足網(wǎng)絡(luò)熱點(diǎn)話題在線需求。
[1] Wu Peng, Li Si Kun. Social Network Analysis Layout Algorithm under Ontology Model[J]. Journal of Software, 2011, 6(7): 1321-1328.
[2] Liu Zhi Yuan, Cheng Xin Xiong. Mining the interests of Chinese microbloggers via keyword extraction [J]. Frontier of Computer Science in China, 2012, 6(2): 76-87.
[3] 姚清耘,劉功申,李翔.基于向量空間模型的文本聚類算法[J].計(jì)算機(jī)工程,2008,34(18),39-41.
[4] 周耀明,李弼程.一種自適應(yīng)網(wǎng)絡(luò)輿情演化建模方法[J]. 數(shù)據(jù)采集與處理,2013,28(1):69-75.
[5] 錢愛玲,瞿彬彬,盧炎生,等. 多時間序列關(guān)聯(lián)規(guī)則分析的論壇輿情趨勢預(yù)測[J]. 南京航空航天大學(xué)學(xué)報,2012,44(6):904-910.
[6] 劉金嶺,王新功,周泓.基于手機(jī)短信信息流的熱點(diǎn)事件識別[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(10):200 - 204.
[7] 陳挺,劉嘉勇,夏天,等. 基于平板型Web 論壇的信息抽取技術(shù)[J]. 成都信息工程學(xué)院學(xué)報, 2009, 24(1):22-26.
[8] 方薇,何留進(jìn),宋良圖. 因特網(wǎng)上輿情傳播的預(yù)測建模和仿真研究[J].計(jì)算機(jī)科學(xué),2012,39(2):203-207.
[9] 魯明羽,姚曉娜,魏善嶺. 基于模糊聚類的網(wǎng)絡(luò)熱點(diǎn)話題檢測[J]. 大連海事大學(xué)學(xué)報: 自然科學(xué)版, 2008 ,34(4):52-58.
[10] 張一文,齊佳音,方濱興,等. 基于貝葉斯網(wǎng)絡(luò)建模的非常規(guī)危機(jī)事件網(wǎng)絡(luò)輿情預(yù)警研究[J]. 圖書情報工作,2012,56(2):76-80.
[11] 劉勘,李晶,劉萍. 基于馬爾可夫鏈的輿情熱度趨勢分析[J]. 計(jì)算機(jī)工程與應(yīng)用, 2011, 47(36): 170-173.
[12] 王巍,楊武,齊海鳳. 基于多中心模型的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)算法[J]. 南京理工大學(xué)學(xué)報(自然科學(xué)版), 2009, 33(4): 422-426.
Network Hot Topic Forecasting Based on Support Vector Machine
Ju Leiming, Yang Juncheng
(1. Shool of Software, Nanyang Institute of Technology, Nanyang 473000, China;2. Department of Computer Engineering, Henan Polytechnic Institute, Nanyang 473000, China)
Hot topic is a the important way for people to express their opinions and methods in the network. According to the characteristics of the hot topic of the network, in order to solve the current problems that hot topic of the network prediction models are low prediction accuracy, the prediction results are unstable, this paper designs a network hot topic prediction model based on support vector machine. First, the hot topic of the network data are collect and preprocessed, and then support vector machine is used to establish a network hot topic prediction model, finally using VC++ 6.0 to achieve the hot topic of the network simulation. The model improves the prediction effect of the hot topic of the network, and can meet the demand of network hot topic online, and also has certain practical application value.
Hot topic; Network public opinion; Support vector machine; Simulation test
南陽市科技攻關(guān)項(xiàng)目(KJGG51)
劇雷鳴(1982-),男,本科,助教,研究方向:軟件工程。 楊俊成(1982-),男,碩士,講師,研究方向:人工智能嵌入式系統(tǒng)。
1007-757X(2017)07-0030-03
TP391
A
2017.04.09)