• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LDA的中國少數(shù)民族網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的探究①

      2014-12-24 06:04:38弓盼王嘉梅楊小偉
      科技創(chuàng)新導(dǎo)報(bào) 2014年30期
      關(guān)鍵詞:情感分析

      弓盼+王嘉梅+楊小偉

      摘 要:隨著民族地區(qū)信息化建設(shè)的不斷推進(jìn),中國少數(shù)民族語言網(wǎng)絡(luò)輿情研究也逐漸引起了大家的關(guān)注,文本分類和情感分析模塊是輿情系統(tǒng)的重要組成部分。傳統(tǒng)的文本分類方法主要通過統(tǒng)計(jì)字面上的詞語重復(fù)次數(shù),而對(duì)于文字背后的語義關(guān)聯(lián)考慮甚少。該文重點(diǎn)介紹了一種基于LDA模型在少數(shù)民族語言(以彝文為例)網(wǎng)絡(luò)輿情信息情感分析方面的應(yīng)用,對(duì)文字隱含的主題進(jìn)行建模,通過挖掘少數(shù)民族網(wǎng)頁上的輿情信息所蘊(yùn)含的主題,以及對(duì)這些主題進(jìn)行情感分析,在事件全面爆發(fā)之前,采取應(yīng)急措施。

      關(guān)鍵詞:主題模型 ?網(wǎng)絡(luò)輿情系統(tǒng) ?情感分析

      中圖分類號(hào):G212 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)10(c)-0185-02

      LDA inquiry-based Chinese minority network public opinion monitoring system

      GONG Pan ? WANG Jiamei ? YANG Xiaowei

      (Yunnan Minzu University, Electrical and Information Engineering, Kunming,Yunnan,650500,China)

      Abstract:With the development of ethnic areas of information technology, the Chinese minority language network public opinion research has gradually attracted everyone's attention, text classification and sentiment analysis module is an important part of public opinion of the system. Traditional text classification methods, mainly through word repetitions statistics literally, and semantic association little consideration for the text behind. This article focuses on the LDA model based on minority languages ??(with Yi for example) the application of information network public opinion sentiment analysis aspects of the theme of the text implied modeling, data mining minorities through public opinion on a web page that contains the theme, as well as sentiment analysis of these topics, before the incident broke out, Bian take emergency measures.

      Key Words:Topic model;network public opinion;the detection system

      目前,支持少數(shù)民族語言文字的計(jì)算機(jī)軟件的應(yīng)用范圍逐漸擴(kuò)大,越來越多的少數(shù)民族人口開始接觸、熟悉網(wǎng)絡(luò),使得互聯(lián)網(wǎng)迅速成為我國少數(shù)民族地區(qū)人口表達(dá)自身意愿、共享民族文化、彼此交流信息的重要媒介。采用科學(xué)的理論方法,進(jìn)行中國少數(shù)民族語言網(wǎng)絡(luò)輿情信息的分析和研究,不僅是政府在現(xiàn)如今的大數(shù)據(jù)時(shí)代下實(shí)現(xiàn)科學(xué)、民主決策的基本需要,更是保證少數(shù)民族地區(qū)穩(wěn)定、繁榮的重要條件。目前,云南境內(nèi)影響力較大的少數(shù)民族官方網(wǎng)站比較少,信息及輿論導(dǎo)向能力相對(duì)比較薄弱。有些網(wǎng)站論壇甚至轉(zhuǎn)載境外不實(shí)信息,加以報(bào)道,在一定范圍內(nèi)造成了極為惡劣的影響。民族語言新聞信息,特別是時(shí)政類信息的傳播對(duì)國家安全存在極大的隱患。因此,做好網(wǎng)絡(luò)輿情信息研究工作、正確領(lǐng)導(dǎo)社會(huì)輿論、加強(qiáng)網(wǎng)上輿論斗爭(zhēng)是防止勢(shì)力滲透,建設(shè)穩(wěn)定、團(tuán)結(jié)、和諧社會(huì)的迫切需要。

      傳統(tǒng)判斷兩個(gè)文本相似性的方法主要是通過統(tǒng)計(jì)的方法,查看這兩個(gè)文本中共同出現(xiàn)的詞語數(shù),如TF-IDF等,但是這種方法并沒有考慮到文字背后可能存在的語義關(guān)聯(lián),兩個(gè)文本當(dāng)中,共同出現(xiàn)的詞語或許很少甚至沒有,但這兩個(gè)文本卻是相似的。所以在進(jìn)行文本相關(guān)性判斷的時(shí)候,需要考慮到文本的語義,而主題模型則是語義挖掘的利器,LDA就是其中比較有效的一種模型。

      以LDA(Latent Dirichlet Allocation)模型[1]為代表的主題模型是近年來文本挖掘領(lǐng)域的一個(gè)熱門研究方向。該模型具有優(yōu)秀的降維能力以及良好的擴(kuò)展性,并且能夠針對(duì)復(fù)雜系統(tǒng)進(jìn)行建模。利用主題建模挖掘出的主題能夠幫助人們進(jìn)一步理解海量文本所隱藏的語義,從而完成文本分類、話題檢測(cè)和關(guān)聯(lián)判斷等多方面的文本挖掘任務(wù)。彝文在少數(shù)民族語言當(dāng)中具有典型性和代表性,該文以云南跨境民族語言—彝文為例,將LDA模型應(yīng)用于彝文網(wǎng)絡(luò)輿情信息情感分析系統(tǒng)當(dāng)中,對(duì)于潛在的語義進(jìn)行探索。

      1 LDA模型研究

      1.1 概率主題模型的提出

      主題模型(Topic Modeling)成為近年來文本挖掘領(lǐng)域的熱點(diǎn)之一,它能夠發(fā)現(xiàn)文本與詞語之間的潛在語義關(guān)系(即主題)——通過將文本看成是一組主題的混合分布,而主題又是詞語的概率分布,從而將高維度的向量空間映射到低維度的空間。即“文本-詞語”映射為“文本-主題”和“主題-詞語”,從而有效地提高了文本信息處理的性能。endprint

      現(xiàn)在,計(jì)算機(jī)還不具備人腦的結(jié)構(gòu),對(duì)于自然語言的理解仍然存在一定的困難,所以需將無結(jié)構(gòu)的自然語言文本轉(zhuǎn)化為可以供計(jì)算機(jī)進(jìn)行識(shí)別的特征文本。向量空間模型(VSM)是20世紀(jì)60年代提出的一種文本表示模型,它將文檔表示成特征元素的集合,來表示自然語言,但其沒有體現(xiàn)詞語在文檔中出現(xiàn)的頻率,之后,基于詞頻統(tǒng)計(jì)的TF方法被提出。20世紀(jì)80年代,研究人員在TF的基礎(chǔ)上進(jìn)行改進(jìn),又提出TF-IDF(詞頻-逆文檔頻率)技術(shù),該技術(shù)思想簡(jiǎn)單,容易理解,被廣泛應(yīng)用。但是,該技術(shù)無法捕捉文本內(nèi)部與文本間的統(tǒng)計(jì)特征,并且不能解決同義詞/多義詞的問題,因此精確度不是很高。

      于1990年,Deerwester等人提出潛在語義分析LSA(Latent Semantic Analysis)模型,用于挖掘文本與詞語之間所隱含的潛在語義關(guān)聯(lián)[2]。其理論基礎(chǔ)是數(shù)學(xué)中的奇異值矩陣分解(SVD)技術(shù)。其優(yōu)點(diǎn)在于,它能夠?qū)υ~-文檔之間的關(guān)聯(lián)關(guān)系進(jìn)行降維,進(jìn)而減少了存儲(chǔ)規(guī)模,但是在計(jì)算時(shí),迭代次數(shù)非常多,復(fù)雜度呈三次方急劇增長。

      鑒于LSA存在的一些缺點(diǎn),Hofmann等人于1999年提出了一種基于概率的潛在語義分析PLSA(Probabilistic Latent Semantic Analysis)模型。該模型通過引入概率統(tǒng)計(jì)的思想,避免了SVD的大量復(fù)雜度。但是隨著文本和詞的個(gè)數(shù)的增加,模型變得越來越龐大;EM算法需要進(jìn)行反復(fù)迭代,因此計(jì)算量也很大。于是,Blei等人于2003年提出一種新的主題模型LDA(Latent Dirichlet Allocation),它是一個(gè)層次貝葉斯模型,將模型的參數(shù)也看作是隨機(jī)變量,從而引入控制參數(shù)的參數(shù),實(shí)現(xiàn)徹底的“概率化”。

      1.2 相關(guān)工作

      中國少數(shù)民族語言文字分類很多,彝文就是其中的一種,由于計(jì)算機(jī)目前還無法理解自然語言,所以需將無結(jié)構(gòu)的自然語言文本轉(zhuǎn)化為可供計(jì)算機(jī)識(shí)別的特征文本。而語料庫是存儲(chǔ)于計(jì)算機(jī)中,并可利用計(jì)算機(jī)進(jìn)行智能分析的語言素材的總體,是語言文字信息處理工作的基礎(chǔ)。因此,建設(shè)大型的彝文基礎(chǔ)語料庫,不僅為彝語語言文字規(guī)范和標(biāo)準(zhǔn)的制定提供可靠的數(shù)據(jù),也為之后進(jìn)行的文本分類和情感分析工作奠定了基礎(chǔ)。在參考了漢語的既有分類語料庫的基礎(chǔ)上,結(jié)合已有的彝文語料,該文把彝文文本分類語料庫分為七類,分別為色情、軍事、化學(xué)醫(yī)療、信息科技、政治、宗教民俗。圖1是其中的一部分。

      1.3 模型建立

      1.3.1 LDA模型

      潛在狄里克雷分布(簡(jiǎn)稱LDA)是文本生成模型中的一種,其基本思想是文本是由潛變量確定的主題隨機(jī)混合而成的,而這些主題又可以表示為詞語的分布。

      給定一個(gè)文檔集合,LDA將每個(gè)文檔表示為一個(gè)主題集合,每個(gè)主題是一個(gè)多項(xiàng)式分布,用來捕獲詞之間的相關(guān)信息。如圖2所示,包含詞、主題和文檔三層結(jié)構(gòu)。其中θ是一個(gè)主題向量,向量的每一列表示每個(gè)主題在文檔出現(xiàn)的概率,該向量為非負(fù)歸一化向量;N表示要生成的文檔的詞語的個(gè)數(shù),W表示生成的詞語W。z表示所選擇的主題,最外層的α和β是語料層次的參數(shù),方框表示反復(fù)進(jìn)行的過程,箭頭表示采樣工作,從圖中可以看出,只需要采樣一次就能夠產(chǎn)生整個(gè)語料。

      1.3.2 ?LDA生成文檔

      LDA方法使生成的文檔可以包含多個(gè)主題,該模型需要首先選定一個(gè)主題向量θ,從而確定每個(gè)主題被選擇的概率p(θ)。然后在生成每個(gè)詞語的時(shí)候,從主題分布向量θ中選擇一個(gè)主題z,表示給定θ時(shí),主題z的概率分布,具體為θ的值。按主題z的單詞概率分布再生成一個(gè)詞語W,p(W|z)表示給定z時(shí)W的分布,可以看成一個(gè)k×v的矩陣,k為主題的個(gè)數(shù),v為詞語的個(gè)數(shù),每行表示這個(gè)主題對(duì)應(yīng)的單詞的概率分布,即主題z所包含的各個(gè)詞的概率,通過這個(gè)概率分布,按一定的概率生成每個(gè)詞語。其圖模型如圖3所示。

      通過對(duì)LDA生成模型的討論,可以知道LDA模型主要是通過給定的輸入彝文語料庫中學(xué)習(xí)訓(xùn)練兩個(gè)控制參數(shù)和β,確定了這兩個(gè)控制參數(shù)就確定了模型,便可以用來生成文本。其中和β分別對(duì)應(yīng)以下信息:

      α:主題概率p(θ)需要一個(gè)向量參數(shù),即Dirichlet分布參數(shù),從而生成一個(gè)主題θ向量;

      β:各個(gè)主題對(duì)應(yīng)的詞語概率分布矩陣p(W|z)。

      從上圖可知LDA的聯(lián)合概率為:

      (1)

      1.3.3 參數(shù)估計(jì)

      對(duì)文本的建模主要就是計(jì)算α和β兩個(gè)參數(shù)??梢圆捎脴O大似然估計(jì),找出一對(duì)α和β,使得似然函數(shù)值達(dá)到最大。可通過EM算法學(xué)習(xí)出α和β,在求解過程中,遇到后驗(yàn)概率p(θ,z|w)無法直接求解,需要找到一個(gè)似然函數(shù)下界來近似求解,每次E-step輸入α和β,再計(jì)算似然函數(shù),經(jīng)過M-step使這個(gè)似然函數(shù)達(dá)到最大化,算出和β,不斷迭代,直到其收斂。

      2 主題模型在彝文文本情感分析中的應(yīng)用

      文本情感分析,又稱意見挖掘(Opinion Mining),指對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程;屬于計(jì)算語言學(xué)的范疇,涉及到機(jī)器學(xué)習(xí)[3]、數(shù)據(jù)挖掘、自然語言處理等多個(gè)研究領(lǐng)域。與客觀性文本不同的是,主觀色彩濃厚的信息往往蘊(yùn)含著大眾輿論對(duì)問題的看法,對(duì)政府部門具有十分重要的參考價(jià)值,例如:政府各部門需要全面掌握大眾對(duì)其所管轄區(qū)域的新聞事件的思想動(dòng)態(tài),如果采用人工方式來收集和分析這些海量信息,顯然成本高、效率低并且困難,通過利用計(jì)算機(jī)將非結(jié)構(gòu)化的文本進(jìn)行分類[4]和提取的文本情感分析技術(shù)(Text Sentiment Analysis)應(yīng)運(yùn)而生。通過挖掘網(wǎng)頁所蘊(yùn)含的主題,以及分析這些主題的情感偏好,來提高文本情感分析的性能。

      從技術(shù)實(shí)現(xiàn)的角度,LDA及其擴(kuò)展模型可以直接應(yīng)用于用戶評(píng)論文本挖掘中?;诖?,有些研究人員提出從“詞語-句子-段落-文檔”角度進(jìn)行多粒度劃分的方法。從系統(tǒng)設(shè)計(jì)的角度,基于主題模型的文本情感分析系統(tǒng)主要包括以下部分:信息采集與預(yù)處理(如網(wǎng)頁爬取、去噪處理、彝文分詞、停用詞處理等)、主題抽取、情感詞抽取(彝文電子詞典已經(jīng)建立)、主題的情感分類或評(píng)分、主題情感摘要生成(方便用戶直接了解主題)、系統(tǒng)評(píng)測(cè)等。

      3 結(jié)語

      盡管現(xiàn)階段我國少數(shù)民族語言網(wǎng)絡(luò)輿情研究系統(tǒng)并不多,但是從推進(jìn)少數(shù)民族地區(qū)的民主管理和社會(huì)穩(wěn)定的長遠(yuǎn)需求來看,進(jìn)行少數(shù)民族語言網(wǎng)絡(luò)輿情領(lǐng)域的理論研究,開發(fā)能夠進(jìn)行智能分析的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),對(duì)維護(hù)國家民族地區(qū)社會(huì)的繁榮和穩(wěn)定具有非常重要的現(xiàn)實(shí)意義。該文將LDA主題模型應(yīng)用到少數(shù)民族語言網(wǎng)絡(luò)輿情信息情感分析當(dāng)中,來對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行深入分析,對(duì)政府部門做出貢獻(xiàn)。

      參考文獻(xiàn)

      [1] 翁偉,王厚峰.基于LDA的關(guān)鍵詞抽取方法[C]//第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集,2010.

      [2] 周博,岑榮偉,劉奕群,等.一種基于文檔相似度的檢索結(jié)果重排序方法[J].中文信息學(xué)報(bào),2010,24(3):1849-1859.

      [3] C.C.Chang,C.J.Lin.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.

      [4] 奉國和.文本分類性能評(píng)價(jià)研究[J].情報(bào)雜志,2011,30(8):66-70.

      [5] Wintersong.臺(tái)灣大學(xué)NTUSD-簡(jiǎn)體中文情感極性詞典[DB/OL].[2011-10-25].http://www.datatang.com/data/11837.endprint

      現(xiàn)在,計(jì)算機(jī)還不具備人腦的結(jié)構(gòu),對(duì)于自然語言的理解仍然存在一定的困難,所以需將無結(jié)構(gòu)的自然語言文本轉(zhuǎn)化為可以供計(jì)算機(jī)進(jìn)行識(shí)別的特征文本。向量空間模型(VSM)是20世紀(jì)60年代提出的一種文本表示模型,它將文檔表示成特征元素的集合,來表示自然語言,但其沒有體現(xiàn)詞語在文檔中出現(xiàn)的頻率,之后,基于詞頻統(tǒng)計(jì)的TF方法被提出。20世紀(jì)80年代,研究人員在TF的基礎(chǔ)上進(jìn)行改進(jìn),又提出TF-IDF(詞頻-逆文檔頻率)技術(shù),該技術(shù)思想簡(jiǎn)單,容易理解,被廣泛應(yīng)用。但是,該技術(shù)無法捕捉文本內(nèi)部與文本間的統(tǒng)計(jì)特征,并且不能解決同義詞/多義詞的問題,因此精確度不是很高。

      于1990年,Deerwester等人提出潛在語義分析LSA(Latent Semantic Analysis)模型,用于挖掘文本與詞語之間所隱含的潛在語義關(guān)聯(lián)[2]。其理論基礎(chǔ)是數(shù)學(xué)中的奇異值矩陣分解(SVD)技術(shù)。其優(yōu)點(diǎn)在于,它能夠?qū)υ~-文檔之間的關(guān)聯(lián)關(guān)系進(jìn)行降維,進(jìn)而減少了存儲(chǔ)規(guī)模,但是在計(jì)算時(shí),迭代次數(shù)非常多,復(fù)雜度呈三次方急劇增長。

      鑒于LSA存在的一些缺點(diǎn),Hofmann等人于1999年提出了一種基于概率的潛在語義分析PLSA(Probabilistic Latent Semantic Analysis)模型。該模型通過引入概率統(tǒng)計(jì)的思想,避免了SVD的大量復(fù)雜度。但是隨著文本和詞的個(gè)數(shù)的增加,模型變得越來越龐大;EM算法需要進(jìn)行反復(fù)迭代,因此計(jì)算量也很大。于是,Blei等人于2003年提出一種新的主題模型LDA(Latent Dirichlet Allocation),它是一個(gè)層次貝葉斯模型,將模型的參數(shù)也看作是隨機(jī)變量,從而引入控制參數(shù)的參數(shù),實(shí)現(xiàn)徹底的“概率化”。

      1.2 相關(guān)工作

      中國少數(shù)民族語言文字分類很多,彝文就是其中的一種,由于計(jì)算機(jī)目前還無法理解自然語言,所以需將無結(jié)構(gòu)的自然語言文本轉(zhuǎn)化為可供計(jì)算機(jī)識(shí)別的特征文本。而語料庫是存儲(chǔ)于計(jì)算機(jī)中,并可利用計(jì)算機(jī)進(jìn)行智能分析的語言素材的總體,是語言文字信息處理工作的基礎(chǔ)。因此,建設(shè)大型的彝文基礎(chǔ)語料庫,不僅為彝語語言文字規(guī)范和標(biāo)準(zhǔn)的制定提供可靠的數(shù)據(jù),也為之后進(jìn)行的文本分類和情感分析工作奠定了基礎(chǔ)。在參考了漢語的既有分類語料庫的基礎(chǔ)上,結(jié)合已有的彝文語料,該文把彝文文本分類語料庫分為七類,分別為色情、軍事、化學(xué)醫(yī)療、信息科技、政治、宗教民俗。圖1是其中的一部分。

      1.3 模型建立

      1.3.1 LDA模型

      潛在狄里克雷分布(簡(jiǎn)稱LDA)是文本生成模型中的一種,其基本思想是文本是由潛變量確定的主題隨機(jī)混合而成的,而這些主題又可以表示為詞語的分布。

      給定一個(gè)文檔集合,LDA將每個(gè)文檔表示為一個(gè)主題集合,每個(gè)主題是一個(gè)多項(xiàng)式分布,用來捕獲詞之間的相關(guān)信息。如圖2所示,包含詞、主題和文檔三層結(jié)構(gòu)。其中θ是一個(gè)主題向量,向量的每一列表示每個(gè)主題在文檔出現(xiàn)的概率,該向量為非負(fù)歸一化向量;N表示要生成的文檔的詞語的個(gè)數(shù),W表示生成的詞語W。z表示所選擇的主題,最外層的α和β是語料層次的參數(shù),方框表示反復(fù)進(jìn)行的過程,箭頭表示采樣工作,從圖中可以看出,只需要采樣一次就能夠產(chǎn)生整個(gè)語料。

      1.3.2 ?LDA生成文檔

      LDA方法使生成的文檔可以包含多個(gè)主題,該模型需要首先選定一個(gè)主題向量θ,從而確定每個(gè)主題被選擇的概率p(θ)。然后在生成每個(gè)詞語的時(shí)候,從主題分布向量θ中選擇一個(gè)主題z,表示給定θ時(shí),主題z的概率分布,具體為θ的值。按主題z的單詞概率分布再生成一個(gè)詞語W,p(W|z)表示給定z時(shí)W的分布,可以看成一個(gè)k×v的矩陣,k為主題的個(gè)數(shù),v為詞語的個(gè)數(shù),每行表示這個(gè)主題對(duì)應(yīng)的單詞的概率分布,即主題z所包含的各個(gè)詞的概率,通過這個(gè)概率分布,按一定的概率生成每個(gè)詞語。其圖模型如圖3所示。

      通過對(duì)LDA生成模型的討論,可以知道LDA模型主要是通過給定的輸入彝文語料庫中學(xué)習(xí)訓(xùn)練兩個(gè)控制參數(shù)和β,確定了這兩個(gè)控制參數(shù)就確定了模型,便可以用來生成文本。其中和β分別對(duì)應(yīng)以下信息:

      α:主題概率p(θ)需要一個(gè)向量參數(shù),即Dirichlet分布參數(shù),從而生成一個(gè)主題θ向量;

      β:各個(gè)主題對(duì)應(yīng)的詞語概率分布矩陣p(W|z)。

      從上圖可知LDA的聯(lián)合概率為:

      (1)

      1.3.3 參數(shù)估計(jì)

      對(duì)文本的建模主要就是計(jì)算α和β兩個(gè)參數(shù)。可以采用極大似然估計(jì),找出一對(duì)α和β,使得似然函數(shù)值達(dá)到最大??赏ㄟ^EM算法學(xué)習(xí)出α和β,在求解過程中,遇到后驗(yàn)概率p(θ,z|w)無法直接求解,需要找到一個(gè)似然函數(shù)下界來近似求解,每次E-step輸入α和β,再計(jì)算似然函數(shù),經(jīng)過M-step使這個(gè)似然函數(shù)達(dá)到最大化,算出和β,不斷迭代,直到其收斂。

      2 主題模型在彝文文本情感分析中的應(yīng)用

      文本情感分析,又稱意見挖掘(Opinion Mining),指對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程;屬于計(jì)算語言學(xué)的范疇,涉及到機(jī)器學(xué)習(xí)[3]、數(shù)據(jù)挖掘、自然語言處理等多個(gè)研究領(lǐng)域。與客觀性文本不同的是,主觀色彩濃厚的信息往往蘊(yùn)含著大眾輿論對(duì)問題的看法,對(duì)政府部門具有十分重要的參考價(jià)值,例如:政府各部門需要全面掌握大眾對(duì)其所管轄區(qū)域的新聞事件的思想動(dòng)態(tài),如果采用人工方式來收集和分析這些海量信息,顯然成本高、效率低并且困難,通過利用計(jì)算機(jī)將非結(jié)構(gòu)化的文本進(jìn)行分類[4]和提取的文本情感分析技術(shù)(Text Sentiment Analysis)應(yīng)運(yùn)而生。通過挖掘網(wǎng)頁所蘊(yùn)含的主題,以及分析這些主題的情感偏好,來提高文本情感分析的性能。

      從技術(shù)實(shí)現(xiàn)的角度,LDA及其擴(kuò)展模型可以直接應(yīng)用于用戶評(píng)論文本挖掘中。基于此,有些研究人員提出從“詞語-句子-段落-文檔”角度進(jìn)行多粒度劃分的方法。從系統(tǒng)設(shè)計(jì)的角度,基于主題模型的文本情感分析系統(tǒng)主要包括以下部分:信息采集與預(yù)處理(如網(wǎng)頁爬取、去噪處理、彝文分詞、停用詞處理等)、主題抽取、情感詞抽?。ㄒ臀碾娮釉~典已經(jīng)建立)、主題的情感分類或評(píng)分、主題情感摘要生成(方便用戶直接了解主題)、系統(tǒng)評(píng)測(cè)等。

      3 結(jié)語

      盡管現(xiàn)階段我國少數(shù)民族語言網(wǎng)絡(luò)輿情研究系統(tǒng)并不多,但是從推進(jìn)少數(shù)民族地區(qū)的民主管理和社會(huì)穩(wěn)定的長遠(yuǎn)需求來看,進(jìn)行少數(shù)民族語言網(wǎng)絡(luò)輿情領(lǐng)域的理論研究,開發(fā)能夠進(jìn)行智能分析的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),對(duì)維護(hù)國家民族地區(qū)社會(huì)的繁榮和穩(wěn)定具有非常重要的現(xiàn)實(shí)意義。該文將LDA主題模型應(yīng)用到少數(shù)民族語言網(wǎng)絡(luò)輿情信息情感分析當(dāng)中,來對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行深入分析,對(duì)政府部門做出貢獻(xiàn)。

      參考文獻(xiàn)

      [1] 翁偉,王厚峰.基于LDA的關(guān)鍵詞抽取方法[C]//第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集,2010.

      [2] 周博,岑榮偉,劉奕群,等.一種基于文檔相似度的檢索結(jié)果重排序方法[J].中文信息學(xué)報(bào),2010,24(3):1849-1859.

      [3] C.C.Chang,C.J.Lin.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.

      [4] 奉國和.文本分類性能評(píng)價(jià)研究[J].情報(bào)雜志,2011,30(8):66-70.

      [5] Wintersong.臺(tái)灣大學(xué)NTUSD-簡(jiǎn)體中文情感極性詞典[DB/OL].[2011-10-25].http://www.datatang.com/data/11837.endprint

      現(xiàn)在,計(jì)算機(jī)還不具備人腦的結(jié)構(gòu),對(duì)于自然語言的理解仍然存在一定的困難,所以需將無結(jié)構(gòu)的自然語言文本轉(zhuǎn)化為可以供計(jì)算機(jī)進(jìn)行識(shí)別的特征文本。向量空間模型(VSM)是20世紀(jì)60年代提出的一種文本表示模型,它將文檔表示成特征元素的集合,來表示自然語言,但其沒有體現(xiàn)詞語在文檔中出現(xiàn)的頻率,之后,基于詞頻統(tǒng)計(jì)的TF方法被提出。20世紀(jì)80年代,研究人員在TF的基礎(chǔ)上進(jìn)行改進(jìn),又提出TF-IDF(詞頻-逆文檔頻率)技術(shù),該技術(shù)思想簡(jiǎn)單,容易理解,被廣泛應(yīng)用。但是,該技術(shù)無法捕捉文本內(nèi)部與文本間的統(tǒng)計(jì)特征,并且不能解決同義詞/多義詞的問題,因此精確度不是很高。

      于1990年,Deerwester等人提出潛在語義分析LSA(Latent Semantic Analysis)模型,用于挖掘文本與詞語之間所隱含的潛在語義關(guān)聯(lián)[2]。其理論基礎(chǔ)是數(shù)學(xué)中的奇異值矩陣分解(SVD)技術(shù)。其優(yōu)點(diǎn)在于,它能夠?qū)υ~-文檔之間的關(guān)聯(lián)關(guān)系進(jìn)行降維,進(jìn)而減少了存儲(chǔ)規(guī)模,但是在計(jì)算時(shí),迭代次數(shù)非常多,復(fù)雜度呈三次方急劇增長。

      鑒于LSA存在的一些缺點(diǎn),Hofmann等人于1999年提出了一種基于概率的潛在語義分析PLSA(Probabilistic Latent Semantic Analysis)模型。該模型通過引入概率統(tǒng)計(jì)的思想,避免了SVD的大量復(fù)雜度。但是隨著文本和詞的個(gè)數(shù)的增加,模型變得越來越龐大;EM算法需要進(jìn)行反復(fù)迭代,因此計(jì)算量也很大。于是,Blei等人于2003年提出一種新的主題模型LDA(Latent Dirichlet Allocation),它是一個(gè)層次貝葉斯模型,將模型的參數(shù)也看作是隨機(jī)變量,從而引入控制參數(shù)的參數(shù),實(shí)現(xiàn)徹底的“概率化”。

      1.2 相關(guān)工作

      中國少數(shù)民族語言文字分類很多,彝文就是其中的一種,由于計(jì)算機(jī)目前還無法理解自然語言,所以需將無結(jié)構(gòu)的自然語言文本轉(zhuǎn)化為可供計(jì)算機(jī)識(shí)別的特征文本。而語料庫是存儲(chǔ)于計(jì)算機(jī)中,并可利用計(jì)算機(jī)進(jìn)行智能分析的語言素材的總體,是語言文字信息處理工作的基礎(chǔ)。因此,建設(shè)大型的彝文基礎(chǔ)語料庫,不僅為彝語語言文字規(guī)范和標(biāo)準(zhǔn)的制定提供可靠的數(shù)據(jù),也為之后進(jìn)行的文本分類和情感分析工作奠定了基礎(chǔ)。在參考了漢語的既有分類語料庫的基礎(chǔ)上,結(jié)合已有的彝文語料,該文把彝文文本分類語料庫分為七類,分別為色情、軍事、化學(xué)醫(yī)療、信息科技、政治、宗教民俗。圖1是其中的一部分。

      1.3 模型建立

      1.3.1 LDA模型

      潛在狄里克雷分布(簡(jiǎn)稱LDA)是文本生成模型中的一種,其基本思想是文本是由潛變量確定的主題隨機(jī)混合而成的,而這些主題又可以表示為詞語的分布。

      給定一個(gè)文檔集合,LDA將每個(gè)文檔表示為一個(gè)主題集合,每個(gè)主題是一個(gè)多項(xiàng)式分布,用來捕獲詞之間的相關(guān)信息。如圖2所示,包含詞、主題和文檔三層結(jié)構(gòu)。其中θ是一個(gè)主題向量,向量的每一列表示每個(gè)主題在文檔出現(xiàn)的概率,該向量為非負(fù)歸一化向量;N表示要生成的文檔的詞語的個(gè)數(shù),W表示生成的詞語W。z表示所選擇的主題,最外層的α和β是語料層次的參數(shù),方框表示反復(fù)進(jìn)行的過程,箭頭表示采樣工作,從圖中可以看出,只需要采樣一次就能夠產(chǎn)生整個(gè)語料。

      1.3.2 ?LDA生成文檔

      LDA方法使生成的文檔可以包含多個(gè)主題,該模型需要首先選定一個(gè)主題向量θ,從而確定每個(gè)主題被選擇的概率p(θ)。然后在生成每個(gè)詞語的時(shí)候,從主題分布向量θ中選擇一個(gè)主題z,表示給定θ時(shí),主題z的概率分布,具體為θ的值。按主題z的單詞概率分布再生成一個(gè)詞語W,p(W|z)表示給定z時(shí)W的分布,可以看成一個(gè)k×v的矩陣,k為主題的個(gè)數(shù),v為詞語的個(gè)數(shù),每行表示這個(gè)主題對(duì)應(yīng)的單詞的概率分布,即主題z所包含的各個(gè)詞的概率,通過這個(gè)概率分布,按一定的概率生成每個(gè)詞語。其圖模型如圖3所示。

      通過對(duì)LDA生成模型的討論,可以知道LDA模型主要是通過給定的輸入彝文語料庫中學(xué)習(xí)訓(xùn)練兩個(gè)控制參數(shù)和β,確定了這兩個(gè)控制參數(shù)就確定了模型,便可以用來生成文本。其中和β分別對(duì)應(yīng)以下信息:

      α:主題概率p(θ)需要一個(gè)向量參數(shù),即Dirichlet分布參數(shù),從而生成一個(gè)主題θ向量;

      β:各個(gè)主題對(duì)應(yīng)的詞語概率分布矩陣p(W|z)。

      從上圖可知LDA的聯(lián)合概率為:

      (1)

      1.3.3 參數(shù)估計(jì)

      對(duì)文本的建模主要就是計(jì)算α和β兩個(gè)參數(shù)。可以采用極大似然估計(jì),找出一對(duì)α和β,使得似然函數(shù)值達(dá)到最大??赏ㄟ^EM算法學(xué)習(xí)出α和β,在求解過程中,遇到后驗(yàn)概率p(θ,z|w)無法直接求解,需要找到一個(gè)似然函數(shù)下界來近似求解,每次E-step輸入α和β,再計(jì)算似然函數(shù),經(jīng)過M-step使這個(gè)似然函數(shù)達(dá)到最大化,算出和β,不斷迭代,直到其收斂。

      2 主題模型在彝文文本情感分析中的應(yīng)用

      文本情感分析,又稱意見挖掘(Opinion Mining),指對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程;屬于計(jì)算語言學(xué)的范疇,涉及到機(jī)器學(xué)習(xí)[3]、數(shù)據(jù)挖掘、自然語言處理等多個(gè)研究領(lǐng)域。與客觀性文本不同的是,主觀色彩濃厚的信息往往蘊(yùn)含著大眾輿論對(duì)問題的看法,對(duì)政府部門具有十分重要的參考價(jià)值,例如:政府各部門需要全面掌握大眾對(duì)其所管轄區(qū)域的新聞事件的思想動(dòng)態(tài),如果采用人工方式來收集和分析這些海量信息,顯然成本高、效率低并且困難,通過利用計(jì)算機(jī)將非結(jié)構(gòu)化的文本進(jìn)行分類[4]和提取的文本情感分析技術(shù)(Text Sentiment Analysis)應(yīng)運(yùn)而生。通過挖掘網(wǎng)頁所蘊(yùn)含的主題,以及分析這些主題的情感偏好,來提高文本情感分析的性能。

      從技術(shù)實(shí)現(xiàn)的角度,LDA及其擴(kuò)展模型可以直接應(yīng)用于用戶評(píng)論文本挖掘中。基于此,有些研究人員提出從“詞語-句子-段落-文檔”角度進(jìn)行多粒度劃分的方法。從系統(tǒng)設(shè)計(jì)的角度,基于主題模型的文本情感分析系統(tǒng)主要包括以下部分:信息采集與預(yù)處理(如網(wǎng)頁爬取、去噪處理、彝文分詞、停用詞處理等)、主題抽取、情感詞抽取(彝文電子詞典已經(jīng)建立)、主題的情感分類或評(píng)分、主題情感摘要生成(方便用戶直接了解主題)、系統(tǒng)評(píng)測(cè)等。

      3 結(jié)語

      盡管現(xiàn)階段我國少數(shù)民族語言網(wǎng)絡(luò)輿情研究系統(tǒng)并不多,但是從推進(jìn)少數(shù)民族地區(qū)的民主管理和社會(huì)穩(wěn)定的長遠(yuǎn)需求來看,進(jìn)行少數(shù)民族語言網(wǎng)絡(luò)輿情領(lǐng)域的理論研究,開發(fā)能夠進(jìn)行智能分析的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),對(duì)維護(hù)國家民族地區(qū)社會(huì)的繁榮和穩(wěn)定具有非常重要的現(xiàn)實(shí)意義。該文將LDA主題模型應(yīng)用到少數(shù)民族語言網(wǎng)絡(luò)輿情信息情感分析當(dāng)中,來對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行深入分析,對(duì)政府部門做出貢獻(xiàn)。

      參考文獻(xiàn)

      [1] 翁偉,王厚峰.基于LDA的關(guān)鍵詞抽取方法[C]//第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集,2010.

      [2] 周博,岑榮偉,劉奕群,等.一種基于文檔相似度的檢索結(jié)果重排序方法[J].中文信息學(xué)報(bào),2010,24(3):1849-1859.

      [3] C.C.Chang,C.J.Lin.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.

      [4] 奉國和.文本分類性能評(píng)價(jià)研究[J].情報(bào)雜志,2011,30(8):66-70.

      [5] Wintersong.臺(tái)灣大學(xué)NTUSD-簡(jiǎn)體中文情感極性詞典[DB/OL].[2011-10-25].http://www.datatang.com/data/11837.endprint

      猜你喜歡
      情感分析
      基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究
      面向應(yīng)用比較的用戶評(píng)論挖掘工具的設(shè)計(jì)與實(shí)現(xiàn)
      基于微博文本的情感傾向分析
      軟件工程(2016年12期)2017-04-14 02:05:53
      基于word2vec擴(kuò)充情感詞典的商品評(píng)論傾向分析
      基于語義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
      基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      在線評(píng)論情感屬性的動(dòng)態(tài)變化
      歌曲《我的深情為你守候》的情感分析與演唱詮釋
      莲花县| 新安县| 灵丘县| 鸡泽县| 铜梁县| 曲周县| 东至县| 杭锦后旗| 晋宁县| 广宗县| 马龙县| 聂拉木县| 浪卡子县| 平原县| 凤冈县| 舞阳县| 育儿| 孝昌县| 东宁县| 庄浪县| 隆化县| 扎囊县| 资源县| 洛扎县| 蓬安县| 稷山县| 潜江市| 彰武县| 连山| 泸州市| 公安县| 济阳县| 仙游县| 观塘区| 富裕县| 五寨县| 安仁县| 江北区| 鄂州市| 苍南县| 陈巴尔虎旗|