趙雨恒 管 青 姜 馳
(中國地質(zhì)大學(xué)(北京)信息工程學(xué)院,北京 100083)
為了獲得競爭優(yōu)勢,礦企從業(yè)人員必須及時了解并響應(yīng)大眾對礦產(chǎn)企業(yè)的輿論[1]。傳統(tǒng)的人工獲取大眾輿情的方法存在以下問題。
(1)大眾評價過度零碎且“個性化”
不一樣的礦產(chǎn)資源在需要量、經(jīng)濟收益等領(lǐng)域出現(xiàn)差別,公眾的評價趨向于“個性化”。高管需要每日核查公眾對各網(wǎng)站的評價,人工成本大,易出差錯。
(2)對關(guān)鍵輿論不夠的預(yù)警信息和追蹤
礦產(chǎn)資源開發(fā)設(shè)計存有一些漏洞,當要求提升時,資源進到一定時間時,一部分漏洞會加快曝露,并突發(fā)性新的漏洞[2]。通常會導(dǎo)致財產(chǎn)損失,乃至危害礦山開采生態(tài)體系的總體均衡。
(3)評論優(yōu)劣和大眾情緒難以得到客觀點評
手動式匯總和區(qū)別很有可能會因為信息內(nèi)容有誤而造成戰(zhàn)略決策不正確。
因為以上礦山公司搜集公眾評價的不夠,文中搜集某大型企業(yè)的“中國五礦”點評,運用數(shù)字模型和計算方式完成分析,發(fā)掘公眾對熱點話題的客觀感情發(fā)展趨勢,為礦產(chǎn)從業(yè)人員緊緊圍繞企業(yè)輿論給予安全可靠的根據(jù)。
可依據(jù)不一樣的工作標準,Word2Vec可以設(shè)定最后單詞向量的層面[3],結(jié)果單詞向量具備能加性,可以用來表明Word2Vec單詞向量的總數(shù):vec(Actor)-vec(Actress)=vec(Man)-vec(Woman)Word2Vec中含有連續(xù)詞袋模型(CBOW)和Skip-gram。假設(shè)某個待推測的詞是wi,則其前后詞信息為Context(wi)={wi-c'…,wi-1',wi+1,…,wi+c}其中C為前后單詞的個數(shù),wi出現(xiàn)的概率可表示為P=P(wj|Context(wi))。
知識工程法[4]必須事前搭建有收剖析的文本的各個領(lǐng)域的情感詞典。完成環(huán)節(jié):即將研究的句子分成單詞,解析xml句子中的單詞,分辨單詞是不是發(fā)生在情感詞典中。統(tǒng)計分析評定詞典中產(chǎn)生的單詞和句子中的部位,各自開展水平詞解決和否定詞處理,并依據(jù)具體文本測算權(quán)重值。更細膩的情感趨向剖析要恰當解決文章內(nèi)容中的表情圖、感嘆句、反問句等。最終求合,獲得文章內(nèi)容的情感分值。
基于Word2Vec擴展的LDA的文本表示,假設(shè)礦產(chǎn)企業(yè)相關(guān)評論文本集由N篇評論文本{d1,d2,…,dN}組成,任一篇文本都包含k個主題{z1,z2,…,zK},則礦產(chǎn)企業(yè)相關(guān)評論文本集D可表示為
在其中,ZjiZji等同于第i段文本中的第j段主題幾率,n相當于語料庫尺寸,即n篇文本。
與此同時,根據(jù)Skip-gram來練習詞向量,可以假定單詞空間向量維為K '。假如全部文本都包括M個詞{w1,w2,w3,…,wm}以及k特性,則文本就可以被表明出來。
實驗的訓(xùn)練集是采用了與“礦山公司”有關(guān)的16186篇評論性文章。本實驗較為了基于Word2Vec拓展的LDA+SKM、基 于Word2Vec拓 展 的LDA+優(yōu) 化SKM、Word2Vec+SKM、VSM+SKM、傳統(tǒng)式LDA+SKM,比對五組實驗結(jié)果,如表1所顯示。
表1 五種組合算法對比實驗評估結(jié)果
BosonNLP全自動搭建成來源于新浪微博、新聞報道、社區(qū)論壇等數(shù)據(jù)庫的上百萬條情感標識數(shù)據(jù)信息。最先解決要研究的文本中文分詞,隨后反復(fù)文本中的每一個詞,在詞典中搜索該詞的情感分值,隨后累計文本中產(chǎn)生的全部詞的情感分值,假如在詞典中找不著文本中的詞,則算為零。全部文本都如上處理,獲得了持續(xù)的文本情感評定分值。
實驗數(shù)據(jù)選用“中國五礦”礦企的新浪微博等平臺的評論文本,文本預(yù)備處理后,12805個文本任意應(yīng)用2000個做為檢測集,剩余的10805個作為訓(xùn)練集。各自應(yīng)用BosonNLP和HowNet評定字典,依據(jù)礦山公司行業(yè)的詞開展拓展,對評論文本開展打分,確定最好閥值后,對全部文本開展評定進行情感歸類。如圖2所示。
上述3組對比實驗的實驗結(jié)果如表2所示。
表2 3組對比實驗評估結(jié)果
此項實證分析為各個平臺設(shè)計了專業(yè)的網(wǎng)絡(luò)爬蟲,每日手動式獲得全新的輿論數(shù)據(jù)信息。應(yīng)用Sqlalchemy庫文件的create_engine函數(shù)將數(shù)據(jù)庫連接到Python專用工具,提取“中國五礦”企業(yè)需要的評論文本。使用詞云可視化各平臺對同一個礦企的點評,屆時還可看到不同平臺對同一個礦企的評價。如圖3所示。
從圖4可以看得出,針對“中國五礦”礦企全部平臺的文本分析,全部平臺的評論中含有47%的負面評論。
對于話題檢驗方式與情感分析方式的融合非常清晰的反映在“中國五礦”企業(yè)的輿論文本分析中,這二者的運用合理緩解了礦企的輿論搜集和分析每日任務(wù)中具有的三個難點:
定向網(wǎng)絡(luò)爬蟲程序的開發(fā)設(shè)計一定程度解決了大家點評零碎、“個性化”產(chǎn)生的輿論信息收集耗費人力資源問題。從業(yè)者不需再手動式采集大眾評價,只需運作網(wǎng)絡(luò)爬蟲,將全部輿論文本定期升級儲存在數(shù)據(jù)庫系統(tǒng)中。
“重點輿論的預(yù)警和追蹤”問題一定程度上被整體話題檢測所解決。礦產(chǎn)從業(yè)者無須再人工制作歸納搜集的信息內(nèi)容,只用將全部評論文本鍵入到話題檢測方式進行練習,并自動聚類分析每個話題類型以及濃度值。
“企業(yè)優(yōu)劣和大眾情緒無法獲得客觀性點評”的問題一定程度上被整體情感分析所解決。從業(yè)人員不用看大眾評論來分辨情感趨向,只需將要研究的評論文本鍵入小型神經(jīng)網(wǎng)絡(luò),就可自動檢索其情感趨向。
本文使用基于Word2Vec的輿論分析與預(yù)測技術(shù),開展輿論文本話題檢驗、輿論文本的情感分析,以"中國五礦"礦企為例子,為礦企給予了進行輿論分析和避開輿論風險的方法。