• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)輿情分析中的文本聚類(lèi)算法

    2014-12-31 00:00:00孟東霞李靜
    數(shù)字化用戶(hù) 2014年11期

    【摘 要】隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)逐漸成為社會(huì)輿情表達(dá)和傳播的主要載體。由于網(wǎng)絡(luò)信息具有傳播速度快、數(shù)據(jù)量大、隱蔽性強(qiáng)等特點(diǎn),只有借助計(jì)算機(jī)技術(shù)才能夠?qū)崿F(xiàn)有效、全面、快速的網(wǎng)絡(luò)輿情分析系統(tǒng)。為了更好地了解和實(shí)現(xiàn)網(wǎng)絡(luò)輿情系統(tǒng)中話(huà)題發(fā)現(xiàn)和熱點(diǎn)檢測(cè)的功能,本文主要介紹文本聚類(lèi)的一些算法、技術(shù)和研究現(xiàn)狀。

    【關(guān)鍵詞】網(wǎng)絡(luò)輿情 文本聚類(lèi)

    1 引言

    網(wǎng)絡(luò)輿情分析和預(yù)警系統(tǒng)通過(guò)對(duì)互聯(lián)網(wǎng)中的各類(lèi)信息,包括各大論壇、百度貼吧、微博等進(jìn)行24小時(shí)監(jiān)控,實(shí)時(shí)采集話(huà)題性強(qiáng)、時(shí)效性新的各類(lèi)內(nèi)容和消息。系統(tǒng)架構(gòu)主要包括輿情信息采集、信息預(yù)處理、信息分析、輿情信息上報(bào)四個(gè)模塊。輿情分析模塊主要對(duì)處理后的網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行分析、挖掘,以實(shí)現(xiàn)熱點(diǎn)話(huà)題和敏感信息的識(shí)別和跟蹤。文本聚類(lèi)作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,由于不需要進(jìn)行訓(xùn)練,并且不需要預(yù)先對(duì)網(wǎng)絡(luò)文本手工標(biāo)注類(lèi)別,因此具有較高的靈活性和自動(dòng)化處理能力,成為網(wǎng)絡(luò)輿情分析系統(tǒng)中組織文本信息、挖掘熱點(diǎn)話(huà)題的主要技術(shù)手段。

    2 關(guān)鍵技術(shù)和算法

    進(jìn)行文本聚類(lèi)之前,首要問(wèn)題是對(duì)文本內(nèi)容建立文本信息特征,即使用特定形式的特征向量(T1, V1, T2, V2, …, Tm, Vm)來(lái)表示文檔,其中Ti表示特征詞,由分詞后獲取,Vi表示第i個(gè)詞在文檔中的權(quán)重,m表示特征詞的個(gè)數(shù)。確定信息特征的常用技術(shù)是:先對(duì)文本信息進(jìn)行詞性標(biāo)注、語(yǔ)義標(biāo)注等預(yù)處理,構(gòu)建統(tǒng)計(jì)詞典,然后對(duì)文本進(jìn)行分詞處理和特征詞權(quán)重的確定。計(jì)算權(quán)重的方法包括布爾權(quán)重、詞頻權(quán)重和TFI-DF權(quán)重三種。布爾權(quán)重是最簡(jiǎn)單的表示方法,若第i個(gè)特征詞在本篇文檔中出現(xiàn),則其權(quán)重為1,否則為0;詞頻權(quán)重將第i個(gè)特征詞在本篇文檔中的出現(xiàn)概率作為對(duì)應(yīng)的權(quán)值;TFI-DF權(quán)值由兩部分組成,一部分是TF,表示一個(gè)詞在本篇文本中出現(xiàn)的次數(shù),即詞頻。另一部分IDF表示所有文本中有多少篇包含了這個(gè)詞,即逆向文檔頻率,通常由公式IDFi=log((1+|D|)/|Di|)計(jì)算得到,其中|D|表示文本總數(shù),|Di|表示包含第i個(gè)關(guān)鍵詞的文本數(shù)量。TFI-DF的權(quán)值就是由TF和IDF相乘得到,被證明是最有效的確定特征詞權(quán)重的方法。

    由于在建立文本信息特征的過(guò)程中,許多關(guān)鍵詞構(gòu)成了海量特征詞集合,因此導(dǎo)致了文檔特征向量維數(shù)的增加,在影響計(jì)算效率的同時(shí),也為稀疏文本向量的區(qū)分和比較帶來(lái)困難。因此,在對(duì)文本進(jìn)行聚類(lèi)處理之前,應(yīng)對(duì)文本信息特征向量進(jìn)行縮減。通常的方法是對(duì)所有特征詞的權(quán)重排序,選取預(yù)定數(shù)目的最佳特征詞作為結(jié)果的特征子集。特征詞的個(gè)數(shù)以及權(quán)值評(píng)價(jià)標(biāo)準(zhǔn)需要根據(jù)具體問(wèn)題來(lái)分析決定。第二種常用方法是由網(wǎng)絡(luò)信息的特點(diǎn)決定的,網(wǎng)絡(luò)信息一般帶有標(biāo)題,并且在標(biāo)題中總結(jié)概括了正文的主要內(nèi)容,因此也可將標(biāo)題內(nèi)容表示為文本信息特征。此外,在對(duì)正文統(tǒng)計(jì)特征詞時(shí),可以只針對(duì)具有實(shí)際意義的名詞和動(dòng)詞,這既減少了特征詞數(shù)量,也保留了關(guān)鍵信息。將標(biāo)題向量的相似度和正文向量的相似度進(jìn)行加權(quán)求和就得到了兩篇文本的相似度。

    完成以上步驟后,就將文檔表示成向量空間中的一個(gè)點(diǎn),然后通過(guò)計(jì)算點(diǎn)之間的距離來(lái)對(duì)文本進(jìn)行聚類(lèi)。相似度是定義聚類(lèi)算法的基礎(chǔ),它主要用來(lái)比較衡量?jī)蓚€(gè)對(duì)象的相似程度。在網(wǎng)絡(luò)輿情分析中,兩個(gè)文本特征對(duì)象的相似度量標(biāo)準(zhǔn)對(duì)大多數(shù)聚類(lèi)算法都是必不可少的。計(jì)算相似度的方法有多種,在文本向量計(jì)算中一般使用余弦相似度公式,而在幾何中常用歐幾里得距離。余弦相似度不會(huì)放大數(shù)據(jù)對(duì)象重要部分的作用,而歐幾里得距離的度量方法則在一定程度上放大了較大元素誤差在距離測(cè)度中的作用。目前,文本聚類(lèi)的方法大致可以分為兩種類(lèi)型:層次聚類(lèi)法和平面劃分法。

    層次聚類(lèi)法將所有文本的特征向量組織成一棵聚類(lèi)的樹(shù),有自底向上的凝聚型和自頂向下的分裂型兩種。凝聚型開(kāi)始將所有文本向量作為一個(gè)單獨(dú)的對(duì)象,然后不斷相繼合并相似的對(duì)象和類(lèi)簇,直到到達(dá)終止條件或者合并為一個(gè)類(lèi)簇。分裂型的聚類(lèi)方法過(guò)程與之相反,開(kāi)始將所有文本向量置于同一個(gè)類(lèi)簇中,然后通過(guò)不斷迭代將類(lèi)簇分解為更小的類(lèi)簇,直到到達(dá)終止條件或者每個(gè)向量在單獨(dú)的一個(gè)類(lèi)簇中。常用的層次凝聚法包括Single-link和group-average方法。

    平面劃分法中有兩個(gè)經(jīng)典算法:k平均值算法和k中心點(diǎn)算法。K平均值算法首先把所有文本特征隨機(jī)地分配到k個(gè)非空的類(lèi)中,然后根據(jù)類(lèi)中所有的文本特征計(jì)算每個(gè)類(lèi)的平均值,并用該平均值表示相應(yīng)的類(lèi),根據(jù)每個(gè)對(duì)象到各個(gè)類(lèi)中心的距離,將其重新分配到與它最接近的類(lèi)中。重復(fù)執(zhí)行計(jì)算和分配步驟,直到不再有新的分配發(fā)生。K中心點(diǎn)算法隨機(jī)選擇k個(gè)文本特征對(duì)象作為初始的類(lèi)中心點(diǎn),然后對(duì)每一組非中心對(duì)象j和中心對(duì)象i,計(jì)算i被j替代的總代價(jià),若代價(jià)<0,i被替換,然后根據(jù)所有非中心點(diǎn)到中心點(diǎn)的距離重新分配非中心點(diǎn)的所屬類(lèi)。重復(fù)執(zhí)行替換和分配的過(guò)程直到不再有新的分配發(fā)生。

    針對(duì)網(wǎng)絡(luò)輿情分析中用到的聚類(lèi)算法,有很多研究者提出了改進(jìn)和優(yōu)化方案。為了更好地發(fā)現(xiàn)熱點(diǎn)話(huà)題,提出了兩層聚類(lèi)算法,其設(shè)計(jì)思路是先確定每日熱點(diǎn)簇,然后再利用增量聚類(lèi)算法發(fā)現(xiàn)熱點(diǎn)事件。也有研究結(jié)合K-means聚類(lèi)算法和基于密度的聚類(lèi)算法的優(yōu)點(diǎn),改進(jìn)了K-means算法中隨機(jī)選取初始聚類(lèi)中心的問(wèn)題。此外,基于主題的聚類(lèi)方法是檢測(cè)熱點(diǎn)新聞的一個(gè)研究思路,有研究提出對(duì)新聞主題或新聞事件等具有較強(qiáng)表達(dá)能力的文本域進(jìn)行加權(quán)處理以突出該主題或事件,然后再對(duì)無(wú)序的網(wǎng)絡(luò)輿情信息進(jìn)行聚類(lèi)處理,達(dá)到熱點(diǎn)話(huà)題探測(cè)的目的。應(yīng)用LDA、LSI等主題模型進(jìn)行新聞聚類(lèi)是當(dāng)前發(fā)現(xiàn)新聞主題的重要研究方向。

    3 總結(jié)

    在互聯(lián)網(wǎng)輿情的監(jiān)控和預(yù)警系統(tǒng)中,經(jīng)常用到文本聚類(lèi)算法作為話(huà)題發(fā)現(xiàn)、熱點(diǎn)檢測(cè)、內(nèi)容導(dǎo)航等應(yīng)用的關(guān)鍵步驟,國(guó)內(nèi)外學(xué)者對(duì)其開(kāi)展了大量研究,提出了很多有用的技術(shù)和算法。本文簡(jiǎn)單介紹了文本聚類(lèi)中的關(guān)鍵技術(shù)、算法,和目前的研究現(xiàn)狀。

    參考文獻(xiàn):

    [1]劉星星,何婷婷.熱點(diǎn)事件發(fā)現(xiàn)及事件內(nèi)容特征自動(dòng)抽取研究. 華中師范大學(xué). 2009.

    [2]王偉,徐鑫.基于聚類(lèi)的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)及分析.現(xiàn)代圖書(shū)情報(bào)技術(shù),2009(3).

    [3]張?jiān)?,馮博琴.利用標(biāo)簽的層次化搜索結(jié)果聚類(lèi)方法.西安交通大學(xué)學(xué)報(bào),2009,43(4):18-21.

    [4]陳榮雷.文本聚類(lèi)算法綜述, 計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2011.

    [5]李巖,婁云.文本聚類(lèi)算法在輿情分析中的應(yīng)用, 電子設(shè)計(jì)工程,2013,21(1).

    課題:河北省社科聯(lián)民生調(diào)研課題,課題編號(hào):201401336

    延吉市| 西藏| 西城区| 古蔺县| 台中市| 绿春县| 绩溪县| 贵溪市| 任丘市| 邻水| 嘉义市| 九寨沟县| 柳林县| 赞皇县| 宁国市| 巧家县| 南皮县| 连江县| 县级市| 南郑县| 清苑县| 绍兴市| 沅陵县| 九龙县| 陇南市| 共和县| 高清| 和平区| 湖州市| 新津县| 麻江县| 开阳县| 晴隆县| 凌云县| 富顺县| 高清| 崇明县| 廊坊市| 探索| 通渭县| 伊宁县|