• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多特征融合的新聞聚類相似度計算方法

    2018-01-02 08:44:50李俊峰
    軟件 2017年12期
    關(guān)鍵詞:文檔新聞報道標(biāo)簽

    李俊峰

    (北京郵電大學(xué)網(wǎng)絡(luò)技術(shù)研究院,北京 100876)

    多特征融合的新聞聚類相似度計算方法

    李俊峰

    (北京郵電大學(xué)網(wǎng)絡(luò)技術(shù)研究院,北京 100876)

    隨著網(wǎng)絡(luò)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為了最重要的新聞媒介。網(wǎng)絡(luò)上的新聞報道能廣泛傳播,對社會有著深刻的影響。因此互聯(lián)網(wǎng)新聞事件的監(jiān)督和挖掘分析,對政府,企業(yè)有著巨大的價值。在進(jìn)行新聞報道分析的時候,最為重要的任務(wù)之一就是把網(wǎng)絡(luò)上類別雜亂,來源廣泛的新聞進(jìn)行識別和歸類。新聞歸類主要是基于通用的聚類的方法,其中一項基本的技術(shù)就是新聞報道相似度計算。

    根據(jù)需求不同,新聞聚類類別可以是一個事件,或者是一領(lǐng)域。本文針對事件的新聞報道聚類,提出了一種混合特征的相似度計算方法。采用了 Tf-Idf和n-gram結(jié)合的向量空間模型來得到文本相似度,再通過規(guī)則識別出新聞文本中的時間,地點等關(guān)鍵信息,進(jìn)行關(guān)鍵信息匹配度計算,最后再把兩個相似度結(jié)合作為最終匹配度。實驗表明,混合特征的方法明顯提高了事件聚類的準(zhǔn)召率。

    計算機應(yīng)用技術(shù);話題發(fā)現(xiàn);聚類;文本相似度

    0 引言

    隨著互聯(lián)網(wǎng)的發(fā)展和普及,網(wǎng)絡(luò)上信息體量呈指數(shù)增長,深刻影響了人們的生活的各方面。同時越來越多的媒體都利用互聯(lián)網(wǎng)通過論壇、博客、微博等平臺發(fā)表新聞和評論,事件經(jīng)網(wǎng)絡(luò)傳播,能迅速得引起大量民眾關(guān)注,形成網(wǎng)絡(luò)熱點。在這種情況下,對互聯(lián)網(wǎng)新聞報道的監(jiān)督和分析無疑對企業(yè)和政府有著巨大的用處。然而相對的,互聯(lián)網(wǎng)上的信息大多是沒有經(jīng)過整合的,更為雜亂,不利于分析和整合。因此在做互聯(lián)網(wǎng)新聞報道分析,挖掘的時候,往往需要利用一些技術(shù)對新聞報道,話題進(jìn)行聚合,歸并。

    根據(jù)需求不同,聚類類別可以是一個事件[1],或者是一領(lǐng)域。本文針對事件的新聞報道聚類,提出了一種混合特征的相似度計算方法。新聞報道的聚合,即把報道內(nèi)容,報道事件相同的事件聚集在一起,所使用的技術(shù)核心是基于文本的聚類技術(shù)。常用的話題聚類方法有k-means,single-pass。在特征挖掘方面,文獻(xiàn)[2]則引入了凝聚層次聚類來提升聚類效果。文獻(xiàn)[3]提出了了基于標(biāo)簽的話題發(fā)現(xiàn)方法,根據(jù)Twitter中的hashtag的變化趨勢來發(fā)掘話題。無論使用哪種聚類方法,計算報道相似度都是聚類基礎(chǔ),需要深入地挖掘特征來計算。計算報道相似度的策略對聚類的精確度有著極大地影響,本文從特征挖掘的角度出發(fā),提出了融合多種特征的報道相似度方法,提高聚類的精確度。

    1 報道文本聚類方法

    聚類,即將數(shù)據(jù)對象分組成為多個類或者簇,在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。常用的聚類方法有混合高斯算法 GMM,k-means,層次聚類,single-pass聚類,譜聚類[4]。其中混合高斯算法GMM,k-means,譜聚類需要事先確定聚類類別 K。層次聚類,single-pass聚類則是通過相似度的閾值來劃分類別。

    在新聞報道文本聚類的場景下,聚類的目的是將報道事件對象相同的文本聚合在一起,這種情況下聚類的類別也就是事件的個數(shù),是無法通過經(jīng)驗來事先估計得到的。因此在針對新聞報道做事件內(nèi)容聚類的時候,采用HAC層次聚類,single-pass聚類這些基于相似度閾值,而不需要確定類別數(shù)量的方法更為合適。

    1.1 Single-pass聚類

    Single-Pass算法又稱單通道法或單遍法,是一種增量聚類方法。Single-Pass算法需要按一定順序依次讀取數(shù)據(jù),每次讀取的新樣本都和已有的類別進(jìn)行比較,如果與其中的某一類匹配,則歸到這一類中,否則創(chuàng)建新類[5]。

    設(shè)新聞報道的樣本集合為 D = {d1, d2, d3,…,dk,…, dn},初始類集合C為空集,具體步驟如下:

    第一步:從數(shù)據(jù)集讀入一個新的樣本di

    第二步:以這個樣本構(gòu)建一個新的類Ck

    第三步:計算它與類集合中每個類之間的距離,并選擇與它相似度最大的簇 Cj。如果 Ck和 Cj的相似度大于一定閾值F,合并Ck到類Cj中;否則,把Ck加入類集合C中。

    第四步:重復(fù)一,二,三步直到所有數(shù)據(jù)處理完畢。

    1.2 凝聚層次聚類模型

    層次聚類算法(Hierarchical Clustering,簡稱HAC)又稱為樹聚類算法,它使用數(shù)據(jù)的聯(lián)接規(guī)則,透過一種層次架構(gòu)方式,反復(fù)將數(shù)據(jù)進(jìn)行分裂或聚合,以形成一個層次序列的聚類問題解[6]。層次聚類可分為凝聚的,分裂的兩種方案。凝聚的層次聚類,就是首先把每對象設(shè)為一個類別,再根據(jù)條件迭代合并。分裂的層次聚類則相反,首先把所有對象歸為同一個類別,再迭代地去分裂類別。

    在本文中采用凝聚層次聚類模型,設(shè)新聞報道的樣本集合為D={d1, d2, d3,…, dk,…, dn}聚類的基本步驟[7]就是:

    第一步:把每個樣本自身歸為一類,設(shè)類集合為C={C1, C2, C3,…, Ci,…, Cn},初始時每個類的元素只有一個,即Ci={di}。

    第二步:計算兩兩之間的相似度分?jǐn)?shù),Sij=Sim{Ci,Cj}。

    第三步:選擇出結(jié)果中最大相似度分?jǐn)?shù)Sij對應(yīng)的兩個類 Ci和 Cj,把他們合并為一個新類 C′=Ci∪Cj,此時類別集合變?yōu)?C={C1, C2, C3,…, Ci,…, Cn-1}。

    第四步:重復(fù)二,三步直到所有樣本點都?xì)w為一類,或者最大相似度Sij小于一定的閾值F。

    Single-pass和凝聚層級聚類都使用于無法確定類別數(shù)量K的聚類的情況,都適合用于新聞報道的聚類,但是兩者的使用場景也有所不同。Single-pass是增量聚類,適合用于進(jìn)行實時的聚類,數(shù)據(jù)需要有一定的時序?qū)傩?,方法簡單但是聚類精確度不高。而層級聚類HAC則是非增量的聚類方法,計算復(fù)雜度高,但是一般情況下精確度也比較好。

    2 新聞報道文本相似度計算

    相似度的計算是聚類的基礎(chǔ),在本文主要考慮文本信息,根據(jù)文本提取特征計算相似度。提取文本特征最常用的處理方法就是建立基于 TF-IDF的向量空間模型。

    2.1 向量空間模型

    向量空間模型(Vector Space Model,簡稱VSM)的基本思想是以向量來表示文本,用空間距離體現(xiàn)語義相似度[8]。對一篇新聞文檔 D,其向量可表示為式(1):

    其中ti表示第i個特征,取值為0或1,wi則代表這個特征對應(yīng)的特征權(quán)重。

    對于向量化后的特征,最常用計算相似度方法就是余弦相似度,表示為式(2):

    2.1.1 TF-IDF

    TF-IDF(term frequency-inverse document frequency)是一種常用的文本處理中的權(quán)重計算方法[9],TF意思是詞頻(Term Frequency),IDF意思是逆向文件頻率(Inverse Document Frequency)。其思想就是,在一篇文檔中,某個字詞的重要性和它在本文檔出現(xiàn)的次數(shù)成正比,和它在語料庫出現(xiàn)的總頻率成反比。

    詞頻(Term Frequency)計算公式如式(3)所示:

    其中nij是詞在文檔中的出現(xiàn)次數(shù),而分母則是在文檔中包含的總字詞數(shù)。

    逆向文件頻率(Inverse Document Frequency)計算公式如式(4)所示:

    其中|D|為語料庫中的文件總數(shù)。如果用TFIDF于計算新文檔,且此文檔時包含詞語 如果該詞語不在原語料庫中,就會導(dǎo)致被除數(shù)為零。此時可以把分母項加1,做平滑處理,公式變?yōu)槭剑?):

    最終的TF-IDF值為式(6):

    在特定文檔內(nèi)的高詞頻,以及該在整個文件集合中的低文檔頻率的詞語,能得到高權(quán)重的TF-IDF值。因此,TF-IDF傾向于過濾掉過于常見的詞語,保留重要的詞語。

    TF-IDF是基于詞頻角度挖掘的文本特征,忽略了詞之間的鄰近順序等重要信息,沒有完全提取原有文檔的語義特征,因此本文將n-gram語言模型也結(jié)合在一起,挖掘更多的特征。

    2.1.2 n-gram語言模型

    語言模型就是用來計算一個句子的概率的模型,即 P(W1, W2,…Wk)。n-gram 模型也稱為 n-1階馬爾科夫模型,它有一個有限歷史假設(shè):當(dāng)前詞的出現(xiàn)概率僅僅與前面n-1個詞相關(guān)。

    n-gram在特征提取中,則可以看做提取當(dāng)前詞語與后繼 n-1個詞語所組成的短語[10]。例如使用2-gram,設(shè)文檔為D = {w1, w2, w3},wi為其中的詞,則可以提取出特征詞組合T = {w1w2,w2w3}。

    n-gram實質(zhì)上枚舉了所有可能的組合,但是其中有大量組合是非法的,這樣直接使用會加大模型的空間復(fù)雜度,并且影響相似度計算,因此必須要做詞組的過濾。通常的方法就是基于詞頻進(jìn)行過濾,對于詞組頻率小于一定閾值的直接舍棄。

    例如“現(xiàn)場濃煙滾滾,消防官兵到達(dá)后開始緊急救火,由于火勢較大,多部門聯(lián)合指揮滅火行動。事故原因和人員傷亡情況有待進(jìn)一步調(diào)查?!?,當(dāng)使用n-gram提取時,可以提取出“事故原因”,“人員傷亡”,“滅火行動”,“濃煙滾滾”,“消防官兵”等詞組特征。

    2.1.3 向量空間特征組合

    設(shè)原始分詞后為,句子的詞向量為:

    n為語料庫詞數(shù)量,當(dāng)ti=1,代表本句中包含這個詞,ti=0則為不包含。

    設(shè)通過公式(6)計算得到的特征的 TFIDF權(quán)重向量為(未出現(xiàn)的詞直接置0):

    在n-gram提取和過濾處理后,得到句子的詞組向量為:

    n為語料庫詞數(shù)量,當(dāng)ti=1,代表本句中包含這個詞組,ti=0則為不包詞組。對n-gram的詞組也進(jìn)行TFIDF值計算,得到得到TFIDF權(quán)重向量為:

    最后權(quán)重向量特征可以合并在一起,得到組合的特征向量,即為:

    文本相似度則取特征向量的余弦值,表示為:

    2.2 關(guān)鍵信息點匹配

    部分描述的空間向量模型主要是基于詞,詞組特征進(jìn)行建模,但是對于新聞報道類聚合的相似度計算,除了單純的詞,詞組特征還有一些特有的信息點可以提取。新聞和報道一般都會包含時間,地點,人物等等要素,統(tǒng)一件事件,無論用什么方法去描述,它的這些要素都是不變的。因此這些關(guān)系的信息點可以看做比較顯著特征,可以做單獨處理,進(jìn)行更為細(xì)致的匹配。本文主要對時間和地點進(jìn)行匹配,在進(jìn)行相應(yīng)的相似度計算。

    2.2.1 時間關(guān)鍵詞匹配

    在時間關(guān)鍵詞匹配中,由于文本中的時間信息是非格式化的,無法直接去匹配,需要首先進(jìn)行時間詞識別,按一定的規(guī)則模板抽取出其中的時間信息。時間關(guān)鍵詞可分為表示年月日的日期關(guān)鍵詞Td,和表示小時或者時段的時刻關(guān)鍵詞Tt,分別進(jìn)行提取。

    對于日期關(guān)鍵詞,具體分為以下幾類:

    數(shù)字類,例如“12日”,“7月2日”:對于此類使用模板進(jìn)行正則匹配提取,例如“*月*日”,其中“*”代表通配符。

    相對日期,例如“昨天”,“明天”:對于此類的關(guān)鍵詞不多,所以可以直接使用關(guān)鍵詞匹配。

    在抓取新聞文本的時候基本都可以得到新聞的發(fā)布時間,對于相對日期,可以通過簡單的日期加運算得到具體的時間。

    對于時刻關(guān)鍵詞,分為以下幾類:

    數(shù)字類,例如“8點12分”,“十時十二分”:對于此類使用模板進(jìn)行正則匹配提取,例如“*點*分”。

    模糊時刻,例如“上午”,“下午”:對于此類的關(guān)鍵詞不多,所以可以直接使用關(guān)鍵詞匹配。在記錄的時候同時歸一化為一定的時間范圍,例如上午對應(yīng)8-12點。

    在識別時間詞后,根據(jù)時間詞計算匹配。設(shè)文檔集合為D = {D1, D2, D3,…,Dk,…,Dn},對其中兩文檔Di和Dj,對應(yīng)的日期詞,時刻詞分別為Tdi和Tdj,Tti和Ttj。采用以下策略計算時間詞匹配相似度St。

    第一步:初始化St= 0。

    第二步:如果日期詞Tdi或者Tdj有一個缺省,直接到第三步。否則對日期詞進(jìn)行匹配,如果Tdi=Tdj,則匹配得分累加為St=St+St1;如果不匹配,這令St=St-St1,并直接結(jié)束。

    第三步:如果時刻詞 Tti或者 Ttj有一個缺省,直接結(jié)束。否則對時刻詞進(jìn)行匹配,如果 Tti=Ttj,則匹配得分累加為 St=St+St2;如果不匹配,這令St=St-St2。如果含有模糊時刻詞,且匹配成功(即落在時刻段范圍內(nèi)),則匹配得分累加為St=St+St3;如果不匹配,這令St=St-St3。

    其中St1,St2,St3,為三個匹配分?jǐn)?shù),本文中取0.4,0.4,0.2。

    2.2.2 地點關(guān)鍵詞匹配

    地點關(guān)鍵詞種類比較多,有“上?!保氨本边@類的省市地點詞,也有“商場”,“工廠”等場所詞,還可以是“101號公路”等等更具體的地點詞。由于很多地點詞存在歧義,而省市地點詞一般比較固定,因此在本文只選擇省市地點詞做匹配。

    地點關(guān)鍵詞提?。菏紫雀鶕?jù)中國省,市名,以及對應(yīng)的區(qū)建立3層級詞表。格式為:

    北京(省級)-北京(市級)-海淀區(qū)(區(qū)級)

    通過詞匹配提取文中的地點詞,得到3個層級的地點詞,省Pp,市Pc和區(qū)Pa。如果匹配不到則設(shè)為空,如果省級信息為空,市級信息非空,則根據(jù)層級關(guān)系填充省信息。

    設(shè)文檔集合為 D = {D1, D2, D3,…, Dk,…, Dn},對其中兩文檔Di和Dj,對應(yīng)的省,市,區(qū)關(guān)鍵詞分別為 Ppi和 Ppj,Pci和 Pcj,Pdi和 Pdj。采用以下策略計算地點詞匹配相似度St。

    第一步:初始化Sp= 0

    第二步:匹配省級,如果Ppi,Ppj都不缺?。喝绻?Ppi==Ppj,則 Sp=Sp+Sp1;否則 Sp=Sp-Sp1,直接結(jié)束;

    第三步:匹配市級,如果Pci,Pcj都不缺?。喝绻?Pci==Pcj,則 Sp=Sp+Sp2;否則 Sp=Sp-Sp2,直接結(jié)束;

    第四步:匹配區(qū)級,如果Pdi,Pdj都不缺?。喝绻?Pdi==Pdj,則 Sp=Sp+Sp3;否則 Sp=Sp-Sp3,其中 Sp1,Sp2,Sp3,為三個匹配分?jǐn)?shù),本文中取 0.2,0.5,0.3。

    2.3 混合特征相似度計算

    結(jié)合向量空間模型中的詞和ngram特征,以及關(guān)鍵信息點匹配的特征,得到總的文本相似度公式為:

    其中α,β,δ為權(quán)重參數(shù),本文中取0.7,0.15,0.15。

    3 實驗

    為了驗證混合特征聚類方法的有效性,使用網(wǎng)絡(luò)爬蟲,基于微博的檢索功能,抓取了新浪微博上面大約2000條關(guān)于電梯故障或事故的新聞報道,并進(jìn)行人工標(biāo)注,歸類新聞。在實驗中n-gram的n值取 2。在經(jīng)過分詞,去停用詞處理后,分別使用基于TF-IDF的向量空間模型,TF-IDF和2-gram的向量空間模型,混合VSM和信息點匹配的策略進(jìn)行報道相似度的計算。計算出相似度后,使用凝聚層次聚類HAC的方法進(jìn)行聚類。

    在評價聚類結(jié)果的時候,采用一般信息檢索常用的標(biāo)準(zhǔn):準(zhǔn)確率,召回率。準(zhǔn)確率,召回率計算方法可表示:

    其中Pi為實際類標(biāo)記為i樣本,Ci為機器標(biāo)記為i的樣本。

    在評價聚類的時候涉及一個標(biāo)簽對應(yīng)的問題:在人工標(biāo)注的時候標(biāo)記的編號,和程序自動聚類時候打的編號需要一一對應(yīng)。這里基于人工標(biāo)簽,采用貪心地方法進(jìn)行對應(yīng),這時準(zhǔn)召率計算方法如下:

    標(biāo)簽匹配:設(shè)人工標(biāo)簽的類標(biāo)簽為 L={L1, L2,L3…},程序聚類的類標(biāo)簽為M={M1, M2, M3…},令L∩M={}。對于每一個人工標(biāo)簽的類Li,遍歷其中的樣本,找出其中數(shù)量最多的程序標(biāo)注類Mk,然后把 Mk映射到 Li。例如,設(shè)第 Li個人工標(biāo)注類中程序標(biāo)注類標(biāo)簽為{1,2,3,2,2},其中樣本數(shù)量最多的程序標(biāo)注類對應(yīng)的標(biāo)簽為 2,則人工標(biāo)簽 Li與程序標(biāo)簽2對齊,把程序類標(biāo)簽2映射到Li上。按此策略處理所有人工標(biāo)簽類,直到每個都找到匹配。每個程序標(biāo)簽的類不一定能匹配上人工標(biāo)簽類,這種情況會在計算召回率的時候受到懲罰。

    計算準(zhǔn)確率:Ci為人工標(biāo)注類為i的樣本個數(shù),Pi∩Ci則為這些樣本中映射為 i的程序標(biāo)注類的樣本數(shù)量,即準(zhǔn)確率為一個人工標(biāo)注類里面最大程序標(biāo)注類數(shù)量的的占比。例如,設(shè)第 i個人工標(biāo)注類中程序標(biāo)注類標(biāo)簽為{1,2,3,2,2},人工標(biāo)注類Ci數(shù)量為 5,其中樣本數(shù)量最多的程序標(biāo)注類對應(yīng)的標(biāo)簽為2,即人工標(biāo)簽i與程序標(biāo)簽2對齊,程序標(biāo)簽2數(shù)量為3,因此準(zhǔn)確率為3/5=60%。

    計算召回率:設(shè)Pi為類標(biāo)簽映射為i程序標(biāo)注類的樣本個數(shù),Pi∩Ci則為這些樣本中人工標(biāo)注類為i的樣本個數(shù)。例如,設(shè)標(biāo)簽映射為2的程序標(biāo)注類中人工標(biāo)注類標(biāo)簽為{1,2,2,2,2},程序標(biāo)注映射為2的類的樣本總數(shù)量為5,其中人工標(biāo)簽為2的樣本數(shù)量為 4,因此準(zhǔn)確率為 4/5=80%。如果一個程序標(biāo)注類沒有映射,即沒有匹配上人工標(biāo)注類,則令召回率為0。

    基于凝聚層次聚類的算法需要事先確定聚類閾值 T,因此實驗中設(shè)置不同的閾值 T分別對基于TFIDF,基于TFIDF+2gram,基于混合特征的三種相似度計算方法進(jìn)行實驗,得到實驗數(shù)據(jù)如表1所示.

    在實驗中閾值比較大時,準(zhǔn)確率變得很高,因為當(dāng)閾值過大的時候,劃分為一個類的標(biāo)準(zhǔn)變得很嚴(yán)格,一個類的樣本變得很小,準(zhǔn)確率保持比較高,但是同時召回率會降低。

    從實驗可以看出,加入n-gram詞組后的向量空間模型一定程度上提升了聚類效果,通過分析差異樣本時發(fā)現(xiàn)n-gram提取的一些詞組,類似于“購物中心”,”腰椎骨折”,”廢棄工地”,比較起“購物”,“中心”,”腰椎”,“骨折”等詞來看有更強的區(qū)別度,能對聚類有很大幫助。與基于單獨的TFIDF模型相比,基于n-gram和TFIDF組合的模型隨T曲線中,峰值出現(xiàn)比較早,這是因為2-gram的詞組比單詞匹配的頻率要更低,而余弦值總是在0~1之間,所以基于n-gram和TFIDF組合的模型計算出來的相似度總體偏低,用比較小的閾值T可以得到更好的效果。

    表1 聚類準(zhǔn)確率Tab.1 Accuracy rate

    表2 聚類召回率Tab.2 Recall rate

    采用向量空間模型和信息點匹配結(jié)合的混合特征模型得到了最好的效果,對召回率的提升最為明顯,另外受閾值影響產(chǎn)生的波動比較小,更有魯棒性。因為基于詞和基于信息點的特征匹配可以很好地互補:對于時間,地點這些信息點沒有缺失的情況下,一旦匹配上相似度會很大,從而可以保證精準(zhǔn)召回。而在這些特定信息缺少的情況下,向量空間模型可以從語義上進(jìn)行補充。

    4 結(jié)論

    本文提出了一種使用混合特征進(jìn)行新聞報道聚類的方法,在傳統(tǒng)的基于TFIDF的向量空間特征上加入了n-gram特征;并針對新聞報道的特點提取了關(guān)鍵信息點,把信息點匹配和向量空間模型進(jìn)行組合,從而可以使用多種特征計算相似度。實驗結(jié)果表明,采用混合特征能明顯地提高新聞報道聚類效果。

    [1] Li B. Research on Topic Detection and Tracking[J].Computer Engineering & Applications, 2003.

    [2] Cui A, Zhang M, Liu Y, et al. Discover breaking events with popular hashtags in twitter[C].

    [3] Yang Y, Pierce T, Carbonell J. A study of retrospective and on-line event detection.

    [4] Everitt B. Cluster analysis[J]. Quality & Quantity, 1980,14(1): 75-100.

    [5] 稅儀冬, 瞿有利, 黃厚寬. 周期分類和Single-Pass聚類相結(jié)合的話題識別與跟蹤方法[J]. 北京交通大學(xué)學(xué)報, 2009,33(5): 85-89.Yi-Dong Shui, You-Li Qu, Hou-Kuan Huang. A New Topic Detection and Tracking Approach Combining Periodic Classification and Single-Pass Clustering. Journal of Beijing Jiaotong University [J] , 2009, 33(5): 85-89.

    [6] 孫吉貴, 劉杰, 趙連宇. 聚類算法研究[J]. 軟件學(xué)報, 2008,19(1):48-61.SUN Ji-Gui, LIU Jie, ZHAO Lian-Yu. Clustering Algorithms Research. Journal of Software, Vol.19, No.1, January 2008,pp. 48-61.

    [7] Johnson S C. Hierarchical clustering schemes[J]. Psychometrika,1967, 32(3): 241-254.

    [8] 龐劍鋒, 卜東波. 基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[J]. 計算機應(yīng)用研究, 2001, 18(9): 23-26.PANG Jian-feng, BU Dong-bo, BAI Shuo. Research and Implementation of Text Categorization System Based on VSM[J].Application Research of Computers, 2001, 18(9): 23-26.

    [9] Shi C Y, Chao-Jun X U, Yang X J. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009.

    [10] Urnkranz J F. A Study Using n-gram Features for Text Categorization[J]. Oesterreichisches Forschungsinstitut Artificial Intelligence, 1998, 3.

    A Similarity Calculation for News Clustering with Mixed

    LI Jun-feng
    (Institute of Network Technology, Beijing University of Posts and Telecommunications, Beijing 100876, China)

    With the development of network technology,Internet have become the most important news media.The news in the Internet could be widespread and have profound influence on the society. Thus, the analysis and supervision of online news is valuable to government and company. One of the most important tasks in the analysis of online news and reports is identifying and classifying those news and reports. News and reports classifying base on general classification technologies, and a basic technology of them is the computation of news similarity.

    The "class" in news classification could be an event or a field, according to different requirements. In the thesis, a algorithm of computing news and report similarity for events clustering with mixed feature is designed. This method apply both Tf-Idf and n-gram in vector space model (VSM). Furthermore, it abstracts some key information of news,such as time and place, calculating key information similarity using those information. In the end,combe those two similarity as final similarity. The experiment show that this method improve the accuracy and recall rate though mixing features.

    Computer application technology; Topic detection; Clustering; Text similarity

    TP391.3

    A

    10.3969/j.issn.1003-6970.2017.12.032

    本文著錄格式:李俊峰. 多特征融合的新聞聚類相似度計算方法[J]. 軟件,2017,38(12):170-174

    李俊峰(1992-),男,研究生,研究方向:自然語言處理。

    猜你喜歡
    文檔新聞報道標(biāo)簽
    有人一聲不吭向你扔了個文檔
    淺析如何在新聞報道中彰顯以人為本
    活力(2019年15期)2019-09-25 07:22:10
    無懼標(biāo)簽 Alfa Romeo Giulia 200HP
    車迷(2018年11期)2018-08-30 03:20:32
    不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
    海峽姐妹(2018年3期)2018-05-09 08:21:02
    基于RI碼計算的Word復(fù)制文檔鑒別
    標(biāo)簽化傷害了誰
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    深化“走轉(zhuǎn)改”在新聞報道中踐行群眾路線
    新聞傳播(2015年21期)2015-07-18 11:14:22
    如何讓新聞報道鮮活起來
    新聞傳播(2015年9期)2015-07-18 11:04:11
    新聞報道要求真實的細(xì)節(jié)描寫
    新聞傳播(2015年13期)2015-07-18 11:00:41
    9热在线视频观看99| 建设人人有责人人尽责人人享有的| 日韩大片免费观看网站| 夫妻午夜视频| 男女国产视频网站| 午夜免费鲁丝| 亚洲自偷自拍图片 自拍| 在线 av 中文字幕| 99热全是精品| 久久人人97超碰香蕉20202| 黄色 视频免费看| 国产精品久久久久久精品古装| 久久免费观看电影| 成在线人永久免费视频| 免费高清在线观看日韩| 久久国产精品大桥未久av| 婷婷色综合www| 国产欧美日韩一区二区三 | 五月天丁香电影| 男女边吃奶边做爰视频| 高清黄色对白视频在线免费看| 欧美av亚洲av综合av国产av| 久久这里只有精品19| 人成视频在线观看免费观看| 大香蕉久久网| 热re99久久国产66热| 日本猛色少妇xxxxx猛交久久| 中文字幕人妻熟女乱码| 成人黄色视频免费在线看| 亚洲一卡2卡3卡4卡5卡精品中文| 欧美激情高清一区二区三区| 99热国产这里只有精品6| 久久精品国产亚洲av涩爱| 午夜免费成人在线视频| 亚洲五月色婷婷综合| 好男人视频免费观看在线| 亚洲欧美成人综合另类久久久| 亚洲av欧美aⅴ国产| 80岁老熟妇乱子伦牲交| 国产高清视频在线播放一区 | 欧美激情高清一区二区三区| 美女午夜性视频免费| 亚洲第一av免费看| 18禁观看日本| 韩国高清视频一区二区三区| 免费观看人在逋| 免费观看人在逋| 国产精品秋霞免费鲁丝片| 一级毛片电影观看| 午夜日韩欧美国产| 日韩中文字幕欧美一区二区 | 日韩人妻精品一区2区三区| 午夜av观看不卡| 如日韩欧美国产精品一区二区三区| 日韩制服骚丝袜av| 欧美大码av| 午夜福利影视在线免费观看| 韩国高清视频一区二区三区| 午夜福利视频在线观看免费| 一区二区日韩欧美中文字幕| 国产三级黄色录像| 精品福利永久在线观看| 国产熟女午夜一区二区三区| 青春草视频在线免费观看| 免费在线观看日本一区| 日本一区二区免费在线视频| 亚洲黑人精品在线| 丝袜美腿诱惑在线| 国产免费福利视频在线观看| 性色av乱码一区二区三区2| 亚洲少妇的诱惑av| 国产爽快片一区二区三区| 久热爱精品视频在线9| 亚洲 欧美一区二区三区| av网站在线播放免费| 国产熟女午夜一区二区三区| 午夜av观看不卡| 又大又黄又爽视频免费| 菩萨蛮人人尽说江南好唐韦庄| 日韩中文字幕视频在线看片| 免费久久久久久久精品成人欧美视频| 中文欧美无线码| 亚洲精品日韩在线中文字幕| 久久人妻熟女aⅴ| 欧美人与善性xxx| avwww免费| 亚洲国产看品久久| 国产色视频综合| 午夜福利在线免费观看网站| 亚洲精品美女久久av网站| 久久精品aⅴ一区二区三区四区| 赤兔流量卡办理| 蜜桃在线观看..| 久久天堂一区二区三区四区| 国产午夜精品一二区理论片| 人人妻,人人澡人人爽秒播 | 一本久久精品| 久久精品久久精品一区二区三区| 色综合欧美亚洲国产小说| 一本—道久久a久久精品蜜桃钙片| 成人黄色视频免费在线看| 亚洲伊人久久精品综合| 爱豆传媒免费全集在线观看| 久久影院123| 不卡av一区二区三区| 女人高潮潮喷娇喘18禁视频| 亚洲国产日韩一区二区| 99国产综合亚洲精品| 波多野结衣av一区二区av| 狠狠精品人妻久久久久久综合| 国产精品免费视频内射| 手机成人av网站| 丰满饥渴人妻一区二区三| av在线app专区| 国产精品香港三级国产av潘金莲 | 久久久久精品国产欧美久久久 | 大片电影免费在线观看免费| 免费在线观看日本一区| 2018国产大陆天天弄谢| 精品国产乱码久久久久久小说| 亚洲av成人精品一二三区| 后天国语完整版免费观看| 中文欧美无线码| 欧美黄色淫秽网站| 国产男女内射视频| 真人做人爱边吃奶动态| 精品少妇一区二区三区视频日本电影| 久久久亚洲精品成人影院| 天堂中文最新版在线下载| 大香蕉久久成人网| 777米奇影视久久| 啦啦啦在线免费观看视频4| 日本欧美国产在线视频| 日韩制服丝袜自拍偷拍| 国产精品二区激情视频| 国产成人影院久久av| 日韩av免费高清视频| 午夜福利影视在线免费观看| 十八禁高潮呻吟视频| 色94色欧美一区二区| 日本午夜av视频| 9色porny在线观看| 日韩 亚洲 欧美在线| 亚洲第一av免费看| 你懂的网址亚洲精品在线观看| 亚洲欧洲国产日韩| 日本av手机在线免费观看| 亚洲欧美中文字幕日韩二区| 亚洲专区中文字幕在线| 国产在线观看jvid| 色网站视频免费| 99精品久久久久人妻精品| 多毛熟女@视频| 老司机影院成人| 91字幕亚洲| 巨乳人妻的诱惑在线观看| av欧美777| 人体艺术视频欧美日本| 成在线人永久免费视频| 人体艺术视频欧美日本| 大陆偷拍与自拍| 美女大奶头黄色视频| 亚洲免费av在线视频| 国产精品 欧美亚洲| 亚洲伊人久久精品综合| 亚洲七黄色美女视频| 国产成人精品无人区| 天天操日日干夜夜撸| 日韩av不卡免费在线播放| 欧美精品一区二区免费开放| 亚洲人成电影免费在线| 国产精品国产三级专区第一集| 成人黄色视频免费在线看| 日本午夜av视频| 嫁个100分男人电影在线观看 | 无限看片的www在线观看| 一区二区三区激情视频| 亚洲三区欧美一区| 每晚都被弄得嗷嗷叫到高潮| 午夜精品国产一区二区电影| 午夜福利视频在线观看免费| 亚洲久久久国产精品| 亚洲九九香蕉| 欧美老熟妇乱子伦牲交| 熟女av电影| 99精国产麻豆久久婷婷| 麻豆国产av国片精品| 人人妻人人澡人人看| 可以免费在线观看a视频的电影网站| √禁漫天堂资源中文www| 久久 成人 亚洲| 成年人午夜在线观看视频| 精品国产超薄肉色丝袜足j| 国产日韩欧美在线精品| 九草在线视频观看| 99精国产麻豆久久婷婷| 欧美精品一区二区大全| 欧美精品一区二区免费开放| 午夜老司机福利片| 日本猛色少妇xxxxx猛交久久| 人人妻人人添人人爽欧美一区卜| 免费在线观看日本一区| 少妇猛男粗大的猛烈进出视频| 女性被躁到高潮视频| 国产欧美日韩一区二区三区在线| 欧美精品高潮呻吟av久久| 欧美人与善性xxx| 欧美精品一区二区大全| av片东京热男人的天堂| 久久久久久久久免费视频了| 手机成人av网站| 国产日韩欧美在线精品| 中文字幕另类日韩欧美亚洲嫩草| 精品福利永久在线观看| 国产一区二区激情短视频 | 欧美精品高潮呻吟av久久| 曰老女人黄片| 久久精品国产综合久久久| 九草在线视频观看| 电影成人av| 可以免费在线观看a视频的电影网站| xxxhd国产人妻xxx| 91九色精品人成在线观看| 久久中文字幕一级| 亚洲一区二区三区欧美精品| 亚洲人成电影免费在线| 国产精品欧美亚洲77777| av天堂久久9| 久久久精品94久久精品| 高清欧美精品videossex| 国产成人系列免费观看| 国产欧美日韩精品亚洲av| 国产高清不卡午夜福利| 亚洲五月婷婷丁香| 国产视频首页在线观看| 少妇猛男粗大的猛烈进出视频| 曰老女人黄片| 亚洲国产精品国产精品| 欧美老熟妇乱子伦牲交| 久久中文字幕一级| 少妇人妻久久综合中文| 精品一区二区三区av网在线观看 | 人妻一区二区av| 国产成人精品无人区| 亚洲欧美成人综合另类久久久| 久久国产亚洲av麻豆专区| 午夜激情av网站| 成年av动漫网址| 亚洲第一av免费看| 最近最新中文字幕大全免费视频 | 亚洲成人免费av在线播放| 国产精品久久久人人做人人爽| 免费在线观看完整版高清| 交换朋友夫妻互换小说| 爱豆传媒免费全集在线观看| 99九九在线精品视频| 老司机在亚洲福利影院| 天堂俺去俺来也www色官网| 新久久久久国产一级毛片| 亚洲精品美女久久av网站| a级毛片在线看网站| 日本色播在线视频| 国产成人免费观看mmmm| 久久午夜综合久久蜜桃| 国产精品久久久久成人av| 纯流量卡能插随身wifi吗| 国产精品麻豆人妻色哟哟久久| 国产欧美日韩一区二区三 | 精品亚洲成a人片在线观看| 午夜免费成人在线视频| 精品国产国语对白av| 午夜视频精品福利| 久久精品人人爽人人爽视色| 精品国产一区二区久久| 午夜91福利影院| 免费在线观看影片大全网站 | 香蕉丝袜av| 高清av免费在线| 激情视频va一区二区三区| 男的添女的下面高潮视频| 欧美黄色淫秽网站| 一级a爱视频在线免费观看| 欧美变态另类bdsm刘玥| 69精品国产乱码久久久| av天堂久久9| 久久久久久免费高清国产稀缺| 婷婷成人精品国产| 欧美国产精品一级二级三级| 国产精品一区二区在线不卡| 亚洲精品日本国产第一区| 午夜两性在线视频| 亚洲av在线观看美女高潮| 老司机影院毛片| 欧美黄色淫秽网站| 欧美人与性动交α欧美软件| 精品国产一区二区三区四区第35| 国产免费福利视频在线观看| 国产精品亚洲av一区麻豆| 中文精品一卡2卡3卡4更新| www.熟女人妻精品国产| 高清不卡的av网站| 欧美亚洲日本最大视频资源| 一区二区日韩欧美中文字幕| 美女大奶头黄色视频| 首页视频小说图片口味搜索 | 国产精品一区二区精品视频观看| 黑人巨大精品欧美一区二区蜜桃| 国产av精品麻豆| 国产精品免费大片| 在现免费观看毛片| 久久人人97超碰香蕉20202| 亚洲,欧美精品.| 人成视频在线观看免费观看| 国产成人91sexporn| 亚洲精品国产av成人精品| 日韩 欧美 亚洲 中文字幕| 国产黄频视频在线观看| 咕卡用的链子| a级片在线免费高清观看视频| 亚洲人成电影观看| 色播在线永久视频| 两个人免费观看高清视频| 老司机影院毛片| 精品一区二区三区四区五区乱码 | www.自偷自拍.com| 最近最新中文字幕大全免费视频 | 国产不卡av网站在线观看| 99热国产这里只有精品6| 美国免费a级毛片| 男人添女人高潮全过程视频| 国产高清不卡午夜福利| 午夜老司机福利片| 欧美国产精品va在线观看不卡| 男女无遮挡免费网站观看| 亚洲美女黄色视频免费看| 丝袜美足系列| 久久久精品免费免费高清| 亚洲国产av新网站| 丝袜脚勾引网站| 亚洲精品美女久久av网站| 国产亚洲欧美精品永久| 悠悠久久av| 国产女主播在线喷水免费视频网站| 看免费av毛片| 国产精品国产三级国产专区5o| 午夜福利,免费看| 99热国产这里只有精品6| 我要看黄色一级片免费的| 久久久国产欧美日韩av| 成人亚洲精品一区在线观看| 人人妻人人澡人人看| 色播在线永久视频| 搡老岳熟女国产| 1024视频免费在线观看| 两个人看的免费小视频| 美女视频免费永久观看网站| 国产高清不卡午夜福利| 国产成人欧美在线观看 | 国产老妇伦熟女老妇高清| 久久毛片免费看一区二区三区| 人成视频在线观看免费观看| 黄片播放在线免费| 欧美成人午夜精品| 91麻豆精品激情在线观看国产 | 人妻 亚洲 视频| 欧美亚洲 丝袜 人妻 在线| 黄片播放在线免费| 欧美 日韩 精品 国产| 夫妻性生交免费视频一级片| 免费观看a级毛片全部| 激情五月婷婷亚洲| 99热全是精品| 性高湖久久久久久久久免费观看| 成人国产av品久久久| 国产精品久久久av美女十八| 成在线人永久免费视频| 免费久久久久久久精品成人欧美视频| 国产亚洲一区二区精品| 宅男免费午夜| 国产成人影院久久av| 黄片播放在线免费| 亚洲精品一区蜜桃| 欧美亚洲 丝袜 人妻 在线| 咕卡用的链子| 一本一本久久a久久精品综合妖精| 777米奇影视久久| 99久久人妻综合| 麻豆av在线久日| 久久综合国产亚洲精品| 亚洲 国产 在线| 你懂的网址亚洲精品在线观看| 黑人猛操日本美女一级片| 久久国产精品男人的天堂亚洲| 亚洲一卡2卡3卡4卡5卡精品中文| 一区二区三区乱码不卡18| 国产欧美日韩一区二区三 | 婷婷色麻豆天堂久久| 国产精品久久久久成人av| 黄色视频不卡| 中文字幕最新亚洲高清| 欧美av亚洲av综合av国产av| 日本av免费视频播放| 亚洲精品第二区| 最近最新中文字幕大全免费视频 | 久久天躁狠狠躁夜夜2o2o | 人妻 亚洲 视频| 麻豆国产av国片精品| av电影中文网址| 欧美日本中文国产一区发布| 18禁裸乳无遮挡动漫免费视频| 每晚都被弄得嗷嗷叫到高潮| 精品福利永久在线观看| 人妻人人澡人人爽人人| 国产一区二区三区综合在线观看| 一边亲一边摸免费视频| 欧美 日韩 精品 国产| 久久天躁狠狠躁夜夜2o2o | 黑丝袜美女国产一区| 免费久久久久久久精品成人欧美视频| 亚洲中文字幕日韩| 香蕉丝袜av| 欧美精品av麻豆av| av线在线观看网站| 久久免费观看电影| 少妇猛男粗大的猛烈进出视频| 亚洲国产毛片av蜜桃av| 日韩伦理黄色片| 久热爱精品视频在线9| 老司机影院毛片| 9色porny在线观看| 久久国产精品男人的天堂亚洲| 国产精品偷伦视频观看了| 欧美性长视频在线观看| 一二三四社区在线视频社区8| 一级片'在线观看视频| 天堂俺去俺来也www色官网| av有码第一页| 欧美大码av| 80岁老熟妇乱子伦牲交| 国产成人av教育| 秋霞在线观看毛片| 视频区欧美日本亚洲| 日韩中文字幕视频在线看片| 欧美 日韩 精品 国产| 满18在线观看网站| 亚洲av电影在线观看一区二区三区| 在线亚洲精品国产二区图片欧美| 免费高清在线观看日韩| 两个人看的免费小视频| 欧美精品高潮呻吟av久久| 69精品国产乱码久久久| 97精品久久久久久久久久精品| 丝袜美足系列| 青青草视频在线视频观看| 999久久久国产精品视频| 亚洲欧美一区二区三区黑人| 国产成人免费无遮挡视频| 亚洲人成网站在线观看播放| 国产精品秋霞免费鲁丝片| 韩国高清视频一区二区三区| 永久免费av网站大全| 一本综合久久免费| 一二三四社区在线视频社区8| 亚洲精品国产一区二区精华液| 少妇粗大呻吟视频| 婷婷色麻豆天堂久久| 91老司机精品| 国产亚洲精品第一综合不卡| 最黄视频免费看| 下体分泌物呈黄色| 亚洲人成77777在线视频| 国产片内射在线| 免费黄频网站在线观看国产| 国产欧美日韩综合在线一区二区| 五月天丁香电影| 国产有黄有色有爽视频| 我的亚洲天堂| 男女无遮挡免费网站观看| 国产成人免费观看mmmm| 一二三四在线观看免费中文在| 久久久国产精品麻豆| 亚洲精品国产色婷婷电影| 国产一区有黄有色的免费视频| 国产欧美日韩综合在线一区二区| 美女国产高潮福利片在线看| 国产一区二区三区综合在线观看| av又黄又爽大尺度在线免费看| 亚洲 国产 在线| 十八禁人妻一区二区| 久热爱精品视频在线9| 国产福利在线免费观看视频| 国产在视频线精品| 亚洲,欧美,日韩| 婷婷丁香在线五月| 亚洲成人免费av在线播放| 极品人妻少妇av视频| 精品少妇一区二区三区视频日本电影| 老司机影院毛片| av国产精品久久久久影院| 两个人免费观看高清视频| 精品久久久久久电影网| 久久精品久久久久久久性| 国产精品 国内视频| 又黄又粗又硬又大视频| 夫妻性生交免费视频一级片| 欧美日韩视频高清一区二区三区二| 亚洲精品久久成人aⅴ小说| 女人精品久久久久毛片| av在线app专区| 少妇人妻 视频| 纯流量卡能插随身wifi吗| 美女主播在线视频| 精品亚洲乱码少妇综合久久| 激情五月婷婷亚洲| 人人妻人人澡人人爽人人夜夜| 欧美日韩av久久| 欧美日韩视频精品一区| av在线老鸭窝| 国产成人欧美在线观看 | 午夜视频精品福利| 1024视频免费在线观看| 一本大道久久a久久精品| 视频区欧美日本亚洲| 亚洲情色 制服丝袜| 另类亚洲欧美激情| 婷婷色综合大香蕉| 午夜两性在线视频| 最近最新中文字幕大全免费视频 | 1024视频免费在线观看| 久久精品国产a三级三级三级| 免费久久久久久久精品成人欧美视频| www.av在线官网国产| 亚洲一区中文字幕在线| 日韩伦理黄色片| 午夜福利乱码中文字幕| 欧美中文综合在线视频| 男女无遮挡免费网站观看| 日本wwww免费看| 男人舔女人的私密视频| 青草久久国产| 丝袜脚勾引网站| 1024视频免费在线观看| 久久精品亚洲熟妇少妇任你| 精品免费久久久久久久清纯 | 成年人免费黄色播放视频| 伦理电影免费视频| 国产91精品成人一区二区三区 | 波野结衣二区三区在线| 又紧又爽又黄一区二区| 国产精品一区二区在线观看99| a 毛片基地| 操出白浆在线播放| 成人午夜精彩视频在线观看| 美女福利国产在线| 久久久亚洲精品成人影院| 久久久久久人人人人人| 熟女少妇亚洲综合色aaa.| av视频免费观看在线观看| 久久久精品94久久精品| 精品视频人人做人人爽| av又黄又爽大尺度在线免费看| 精品亚洲成a人片在线观看| 桃花免费在线播放| 美女中出高潮动态图| 亚洲国产欧美在线一区| 91成人精品电影| 日本vs欧美在线观看视频| 久久久国产欧美日韩av| av网站在线播放免费| 国产真人三级小视频在线观看| 一本色道久久久久久精品综合| 最近手机中文字幕大全| 曰老女人黄片| 少妇裸体淫交视频免费看高清 | 国产免费视频播放在线视频| 考比视频在线观看| 人成视频在线观看免费观看| 久久精品久久精品一区二区三区| 久久久精品免费免费高清| 国产片内射在线| 国产一卡二卡三卡精品| 爱豆传媒免费全集在线观看| 久久国产精品男人的天堂亚洲| svipshipincom国产片| 男女床上黄色一级片免费看| 欧美精品啪啪一区二区三区 | 少妇 在线观看| 久久性视频一级片| 王馨瑶露胸无遮挡在线观看| 人人妻人人澡人人爽人人夜夜| 可以免费在线观看a视频的电影网站| 97精品久久久久久久久久精品| 大型av网站在线播放| 成年人午夜在线观看视频| 亚洲av欧美aⅴ国产| 亚洲国产欧美网| 午夜福利免费观看在线| 国产免费视频播放在线视频| 日本黄色日本黄色录像| 国产一区二区 视频在线| 久久国产精品大桥未久av| 曰老女人黄片| 51午夜福利影视在线观看| 99国产精品一区二区三区| 视频区欧美日本亚洲| 欧美精品啪啪一区二区三区 | a级毛片黄视频| 99re6热这里在线精品视频| 99热网站在线观看| 亚洲精品一区蜜桃| 天天操日日干夜夜撸| 亚洲三区欧美一区| 免费在线观看黄色视频的| 婷婷成人精品国产| 18禁黄网站禁片午夜丰满|