• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種融合詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息的短文本建模方法

    2016-11-08 08:33:44馬慧芳曾憲桃李曉紅
    計算機應(yīng)用與軟件 2016年10期
    關(guān)鍵詞:詞項短文文檔

    馬慧芳 曾憲桃 李曉紅 贠 寧

    (西北師范大學(xué)計算機科學(xué)與工程學(xué)院 甘肅 蘭州 730070)

    ?

    一種融合詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息的短文本建模方法

    馬慧芳曾憲桃李曉紅贠寧

    (西北師范大學(xué)計算機科學(xué)與工程學(xué)院甘肅 蘭州 730070)

    傳統(tǒng)文本表示方法通?;谠~袋模型,而詞袋模型是基于文本中詞項之間是相互獨立的假設(shè)。最近也提出一些通過詞共現(xiàn)來獲取詞項之間關(guān)系的統(tǒng)計分析方法,卻忽略了詞項之間的隱含語義。為了解決傳統(tǒng)文本表示方法詞袋模型對文本語義的忽略問題,提出一種融合詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息的短文本建模方法。通過詞語之間的內(nèi)聯(lián)及外聯(lián)關(guān)系耦合得到詞語關(guān)聯(lián)關(guān)系,充分挖掘了顯示和隱含的語義信息;同時以關(guān)聯(lián)關(guān)系作為初始詞語相似度,迭代計算詞語之間及文本之間的相似度,改善了短文本的表示。實驗證明,該方法顯著地提高了短文本聚類的性能。

    內(nèi)聯(lián)關(guān)系外聯(lián)關(guān)系詞語相似度文本相似度短文本相似度

    0 引 言

    近年來隨著社交網(wǎng)絡(luò)的興起,短信、微博等短文本形式的信息量急劇增長。短文本的出現(xiàn)給文本的研究也帶來了新的挑戰(zhàn):首先,短文本篇幅短小,往往不能提供足夠的統(tǒng)計信息;其次,在社交網(wǎng)絡(luò)中,縮寫詞廣泛地使用,新單詞不斷地創(chuàng)建,這也給獲取短文本的語義信息帶來很大的挑戰(zhàn)。傳統(tǒng)的文本表示方法詞袋模型忽略文本詞語間的上下文聯(lián)系,將文本表示成一個空間向量VSM(VectorSpaceModel)[1],用TF-IDF(詞頻及逆文檔頻率)作為其權(quán)值,該方法在長文本的研究中取得了不錯的效果。但若將此方法簡單地運用在短文本上,得到的數(shù)據(jù)集矩陣往往出現(xiàn)高維稀疏的問題。

    為了更多地獲取詞語間的語義信息,近年來提出了各種改進的方法,主要分為兩大類:一類是擴充短文本特征空間,代表性的工作包括基于統(tǒng)計分析挖掘語義信息的上下文向量模型[2,3];還有通過外部知識庫來加強短文本語義信息的,如使用Wordnet[4]、維基百科[5]等。這些方法僅僅簡單地考慮文本中詞語的共現(xiàn)關(guān)系,同時還存在外部知識庫與文本內(nèi)容間不匹配的問題,也仍將忽略大量隱含的語義信息。另一類是通過關(guān)鍵詞技術(shù)來提煉短文本語義信息。有利用很少的詞提升短文本分類的方法[6],但是如何獲取關(guān)鍵詞卻是非常困難的。同時,雖然關(guān)鍵詞在語義上能精簡短文本表示,但從統(tǒng)計學(xué)的角度看,關(guān)鍵詞技術(shù)將短文本短小的特征進一步加劇,同樣不利于短文本模型的構(gòu)建。

    為了克服傳統(tǒng)文本模型的缺陷,本文在耦合詞項關(guān)系[7,8]及語義信息和統(tǒng)計分析相結(jié)合[9]的啟發(fā)下,提出一種融合詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息的短文本建模方法。具體地,首先利用詞語間內(nèi)聯(lián)及外聯(lián)關(guān)系計算耦合關(guān)系作為初始詞語相似度;然后迭代計算詞語以及文本之間的相似度,直到其結(jié)果收斂為止;最后由詞語間相似度構(gòu)造出相似性矩陣。本文方法不僅通過耦合關(guān)系充分挖掘文本詞語間的語義信息,同時迭代計算詞語之間以及文本之間的相似度,改善了短文本的表示。因此,構(gòu)造的短文本模型能顯著提高短文本聚類的性能。流程如圖1所示。

    圖1 程序流程

    1 相關(guān)工作

    1.1文本表示模型

    文本集D通常被表示成D={d1,d2,…,dM},其中di表示文檔集中的一個文檔,并且每個文檔di都被表示成一個空間向量:

    (1)

    其中:ti是文檔集中出現(xiàn)的某個詞語,M是文本集D中的文本的總數(shù),N是文本集D中所有不重復(fù)出現(xiàn)的單詞的總數(shù)。TF是詞頻,它是指單詞在給定文檔中出現(xiàn)的次數(shù)。IDF以出現(xiàn)某個單詞的文本數(shù)為參數(shù)來構(gòu)建單詞的權(quán)重,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到。公式如下:

    (2)

    其中:ni表示出現(xiàn)單詞ti的文檔數(shù)目。為了綜合考慮詞對單篇文檔的重要程度及其在整個文檔集中的區(qū)分能力,通常將TF和IDF綜合起來作為空間向量的權(quán)值。

    文本集D就被表示成一個M×N維的矩陣W。W的行代表文本集D中的文檔,列代表文檔集中的詞項。

    1.2關(guān)聯(lián)詞信息

    傳統(tǒng)向量空間模型忽略詞語間的上下文關(guān)系,但是詞語間關(guān)系對充分挖掘文本蘊含的內(nèi)容、擴充文本表示模型具有至關(guān)重要的作用。本文將關(guān)聯(lián)詞信息定義為兩種,如圖2所示。

    圖2 關(guān)聯(lián)詞類型

    圖中分別表示兩篇文檔,黑色點表示兩篇文檔中共有的詞項,實線框內(nèi)表示關(guān)聯(lián)詞關(guān)系的兩種模式。左圖表示詞項在同一篇文檔中的關(guān)聯(lián)關(guān)系,稱之為詞語的內(nèi)聯(lián)關(guān)系;右圖表示詞項在不同文檔中的關(guān)聯(lián)關(guān)系,稱為詞語的外聯(lián)關(guān)系。詳細(xì)的關(guān)聯(lián)關(guān)系定義如下:

    定義1(內(nèi)聯(lián)關(guān)系)若兩個詞語在同一篇文檔中共現(xiàn),則這兩個詞語具有內(nèi)聯(lián)關(guān)系,如圖3左部所示。

    圖3 內(nèi)聯(lián)及外聯(lián)關(guān)系示意圖

    圖中詞ti和tk在d1中共現(xiàn),tj和tk在d2中共現(xiàn),因此ti和tk、tj和tk之間是有內(nèi)聯(lián)關(guān)系的。根據(jù)Jaccard相似度[10]計算得出ti和tk的共現(xiàn)關(guān)系:

    (3)

    其中:ti、tk和tj都是文檔集中的某個詞項,i、j、k均小于N;W表示文本集D的矩陣,Wxi和Wxk分別代表詞ti和tk在文檔dx中的TF-IDF的權(quán)值。|H|表示集合H={x|(Wxi≠0)∪(Wxk≠0)}中的元素個數(shù),如果集合H為空則CoR(ti,tk)=0。

    為了得出實際需要的內(nèi)聯(lián)關(guān)系,利用條件概率將共現(xiàn)關(guān)系規(guī)范化到[0,1]之間,公式如下:

    (4)

    定義2(外聯(lián)關(guān)系)在兩篇不同文檔中,若d1和d2中的詞與共有詞中的同一個詞共現(xiàn),則這兩個詞具有外聯(lián)關(guān)系,如圖3右部所示。

    圖中詞ti和詞tk在d1中共現(xiàn),詞tj和詞tk在d2中共現(xiàn),通過詞tk可以把詞ti和詞tj關(guān)聯(lián)起來。詞ti和詞tj通過關(guān)聯(lián)詞tk聯(lián)系的外聯(lián)關(guān)系定義如下:

    R_IeR(ti,tj|tk)=min(IaR(ti,tk),IaR(tj,tk))

    (5)

    其中:IaR(ti,tk)和IaR(tj,tk)分別代表詞ti和詞tk、詞tj和詞tk的內(nèi)聯(lián)關(guān)系。

    考慮數(shù)據(jù)集中所有能將詞ti和詞tj聯(lián)系起來的關(guān)聯(lián)詞,求得詞ti和詞tj的最終外聯(lián)關(guān)系并將其規(guī)范化到[0,1]之間,公式如下:

    (6)

    其中:|L|是集合L={tk|(IaR(tk,ti)>0)∩(IaR(tk,tj)>0)}中的元素個數(shù),如果L為空則定義IeR(ti,tj)=0。

    2 文本相似度

    2.1耦合詞項關(guān)系

    上文中詞語間內(nèi)聯(lián)關(guān)系表征兩個詞在同一篇文檔中的相關(guān)性大小,而詞語的外聯(lián)關(guān)系挖掘出兩個詞不在同一篇文檔中出現(xiàn)但可能相關(guān)的特性。所以,通過綜合詞語的內(nèi)外聯(lián)關(guān)系,可以充分挖掘出詞語間全部的語義信息,得出耦合詞項關(guān)系(CR):

    (7)

    其中:α∈[0,1]是決定內(nèi)聯(lián)關(guān)系權(quán)重的參數(shù),IaR(ti,tj)和IeR(ti,tj)分別代表詞ti和詞tj的內(nèi)聯(lián)和外聯(lián)關(guān)系。

    詞語間初始相似度矩陣SCR(i,j)=CR(ti,tj),SCR(i,j)的值在0~1之間,0表明兩個詞之間是完全沒有關(guān)系的,1表示兩個詞是完全一樣的。SCR(i,j)的值越高,兩個詞之間的相似度越高。

    2.2迭代計算詞項之間,文本之間的相似度

    基于耦合詞項關(guān)系得出的詞語之間的相似度,對于文檔集中的任意兩個短文本片段d1和d2的相似度被定義成:

    (8)

    其中:

    sim(wj,wk)=SCR(j,k)

    同樣地,基于兩個短文本片段的相似度,可以重新定義兩個詞之間的相似度:

    (9)

    其中:

    由上面的計算可以看出,如果兩個詞在多篇文檔中共現(xiàn)或者在相似的文檔中出現(xiàn),則認(rèn)為它們在概念上很相似。

    前面的式(8)、式(9)中,Sjk由詞語之間的相似度得到,Tik則由文本片段之間的相似度得到??梢钥闯觯谋局g的相似度和詞語之間的相似度是相互依賴并且循環(huán)計算的,因此文本之間相似度和詞語之間相似度的計算可以通過迭代算法來求解,迭代的函數(shù)定義如下:

    sim(l)(d1,d2)=(1-λ)sim(l-1)(d1,d2)+

    (10)

    sim(l)(w1,w2)=(1-λ)sim(l-1)(w1,w2)+

    (11)

    其中:參數(shù)λ是阻尼系數(shù),取值在 0~1之間,l表示第l次迭代計算,式(10)和式(11)中的λ可以取不同的值(在本文的實驗中為了簡便計算就取了相同的值,都為0.5)。

    迭代計算詞語及文本相似度直到它們的值收斂。理論上是無法保證式(10)和式(11)是收斂的,因此在實際求解時,每次迭代后都把參數(shù)λ的值減少20%以加快迭代速度。

    2.3構(gòu)建相似性矩陣

    (12)

    (13)

    (14)

    由于每個詞和它本身肯定是相似的,因此上式中加號左邊的結(jié)果包含的所有元素都是非零的。此外,假設(shè)語料庫中至少存在兩個詞是相似的,這就可以保證加號右邊的結(jié)果是一個非零的矩陣。由于短文本片段中出現(xiàn)的所有詞都存在一定的語義相似性,所以文本向量中的元素都是非零的。因此,映射之后,每個短文本的空間向量都將不再那么稀疏。

    (15)

    其中:dnew是新來文本的空間向量,di是文本庫中已經(jīng)存在的文本向量。

    3 實 驗

    3.1數(shù)據(jù)集

    本部分實驗數(shù)據(jù)采用20個新聞組的共20 000篇短文本片段[11]。由于是網(wǎng)頁數(shù)據(jù),所以首先對其進行去標(biāo)簽處理,然后去除停用詞,最終得到實驗可用的數(shù)據(jù)。依據(jù)本文提出的方法對實驗數(shù)據(jù)進行建模,最后使用k-means[12]聚類算法和hardmo-VMF[9]算法對實驗數(shù)據(jù)進行聚類處理。其中k-means算法是聚類中最經(jīng)典的方法,而hardmo-VMF是文獻[9]中使用的一種較為高效的算法,所以本文選取這兩種算法進行實驗。并且對照原始數(shù)據(jù)的類別屬性分析短文本模型的性能。

    3.2評價指標(biāo)

    本文將采用三個指標(biāo)來評價聚類的性能:純度(Purity)[13]、F值、歸一化互信息NMI(NormalizedmutualInformation)[14]。

    (16)

    其中:k表示k個聚類。

    F值是綜合準(zhǔn)確率(precision)和召回率(recall)的一個綜合評價指標(biāo),定義如下:

    (17)

    其中precision表示所有聚類中正確聚類的比例,recall表示所有相似文本中正確聚類的比例。

    NMI是聚類與數(shù)據(jù)集標(biāo)簽之間互信息和聚類與預(yù)先存在類別的熵值的平均值的比值:

    (18)

    其中C表示聚類的隨機變量,L表示數(shù)據(jù)集中預(yù)先存在類的隨機變量。I(C;L)是聚類與數(shù)據(jù)集標(biāo)簽之間互信息:

    (19)

    H(C)和H(L)分別是C和L的信息熵值:

    (20)

    |Ci|、|lj|和|Ci|∩|lj|分別是簇Ci和類別lj的數(shù)量,以及Ci和lj中共同的文檔數(shù)。

    上面的三個聚類指標(biāo)的取值都規(guī)范化在[0,1]之間,并且可以發(fā)現(xiàn)其值都是越高越好。

    3.3實驗結(jié)果及分析

    實驗比較了關(guān)聯(lián)關(guān)系融合迭代計算方法(本文方法)與傳統(tǒng)的TF-IDF方法、文獻[7]耦合詞項關(guān)系(關(guān)聯(lián)關(guān)系)方法、文獻[8]中提出的TSemSim算法和文獻[9]中提出的迭代計算的方法。

    其中TF-IDF方法是最經(jīng)典的文本建模方法,忽略了詞項之間的語義信息;文獻[7]耦合詞項考慮詞語之間的內(nèi)外聯(lián)關(guān)系,較充分地挖掘了短文本語義信息;文獻[8]在TF-IDF的基礎(chǔ)上結(jié)合語義信息,并對短文本集進行一定程度的降維處理;文獻[9]則是在Wordnet單詞網(wǎng)絡(luò)的基礎(chǔ)上求初始詞語相似度,再結(jié)合統(tǒng)計信息。

    如表1和表2所示,是TF-IDF、關(guān)聯(lián)關(guān)系、TSemSim算法、迭代計算方法以及本文方法五種不同方法的聚類結(jié)果。分別統(tǒng)計出兩種不同的聚類算法在純度、F值、歸一化互信息上的實驗結(jié)果。

    表1 k-means聚類算法結(jié)果

    表2 hard mo-VMF聚類算法結(jié)果

    從表1中可以看出,傳統(tǒng)的TF-IDF方法無論是在純度、F值、還是歸一化互信息上的實驗結(jié)果都明顯地低于其他方法。主要的原因在于詞頻及逆文檔頻率把文本詞語都假定為相互獨立的,僅僅簡單地考慮詞語在文檔中出現(xiàn)的頻率,此外也沒有添加其他任何信息,所以聚類的結(jié)果相對較差。接下來是關(guān)聯(lián)關(guān)系的方法,它在詞袋模型的基礎(chǔ)上考慮了文本詞語的內(nèi)外聯(lián)關(guān)系,較充分地挖掘了短文本顯示的和隱含的語義信息,所以聚類的性能提升了,但還是要比其他三種方法的性能低。原因在于其他三種方法不僅考慮了短文本的語義信息,還或多或少地結(jié)合或者使用統(tǒng)計學(xué)的方法。雖然關(guān)聯(lián)關(guān)系較詞頻逆文檔的方法已經(jīng)顯示出了一定的優(yōu)越性,但該方法表示出的短文本仍然還存在文本矩陣高維稀疏的問題。

    接下來分析另外三種方法的聚類結(jié)果。TSemSim算法和迭代計算方法的結(jié)果相近,但總體來說迭代計算的方法要比TSemSim算法的性能稍好一些。這是由于TSemSim算法雖然對文本集進行降維處理,使用了一定的統(tǒng)計學(xué)方法,但是迭代計算的方法通過迭代函數(shù)使得短文本的特征空間不再稀疏,這對短文本相似度的計算是非常有用的。而本文的方法在性能上要比其他方法都好,這是由于在語義挖掘方面使用詞項關(guān)系,將短文本的語義信息表示得較充分。同時融合迭代計算的統(tǒng)計信息,改善了短文本的特征空間,優(yōu)化其表示。這樣在計算短文本相似性上能夠更加準(zhǔn)確,自然地,聚類的性能得到了提高。

    表2用hardmo-VMF聚類算法比較各種不同方法的性能。從表中可以看出,雖然各種方法在不同算法下的結(jié)果不一樣,但是三種不同方法的優(yōu)劣性是不變的。這也可以看出本文方法在性能上的優(yōu)勢。

    總結(jié)來說,短文本由于其短小的固有特性,在對短文本的建模處理中,不僅要考慮短文本的語義,更需要使用統(tǒng)計學(xué)的方法解決短文本集矩陣高維稀疏的問題。本文提出的融合詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息的方法將兩者結(jié)合得較好,所以相對于其他方法表現(xiàn)出更好的性能。

    接下來實驗驗證了α參數(shù)不同取值對本文方法的影響。

    如圖4所示是參數(shù)α取不同值時,本文方法的短文本模型在三個不同聚類指標(biāo)上的性能變化曲線圖。

    圖4 α取值和本文方法的性能

    α參數(shù)表征的是詞語關(guān)聯(lián)關(guān)系中內(nèi)聯(lián)關(guān)系所占的權(quán)重。從圖中可以看到,三個不同評價指標(biāo)的曲線走勢差不多都是先隨著α的增大而增大,然后隨著α的增大而減小。在α的某一個中間取值時會取得峰值。這說明內(nèi)外聯(lián)關(guān)系的不同權(quán)重會對詞語間的關(guān)聯(lián)關(guān)系產(chǎn)生較大的影響。當(dāng)α取值為0時,完全忽略了詞語的內(nèi)聯(lián)關(guān)系,而當(dāng)α取值為1時又完全忽略了詞語的外聯(lián)關(guān)系,所以在曲線的兩端都表現(xiàn)出短文本模型較差的性能。因此,選取合適的參數(shù)α對本文的短文本模型也顯得至關(guān)重要。

    4 結(jié) 語

    針對短文本研究帶來的一些挑戰(zhàn),本文將詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息相結(jié)合用于短文本建模。方法主要分三步:首先由詞項之間的耦合關(guān)系求出初始詞語相似度,然后迭代計算詞語之間及短文本之間的相似度,最后構(gòu)造相似性矩陣。實驗證明,本文的方法在短文本聚類的性能上明顯優(yōu)于其他方法。

    同時解決偶然詞共現(xiàn)情況對詞語內(nèi)外聯(lián)關(guān)系的影響,以及如何決定內(nèi)外聯(lián)關(guān)系在詞語關(guān)聯(lián)關(guān)系中各占的權(quán)重可以成為后續(xù)工作的研究點。

    [1]GuptaV,LehalGS.Asurveyoftextminingtechniquesandapplications[J].JournalofEmergingTechnologiesinWebIntelligence,2009,1(1):60-76.

    [2]BillhardtH,BorrajoD,MaojoV.Acontextvectormodelforinformationretrieval[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2002,53(3):236-249.

    [3]KalogeratosA,LikasA.Textdocumentclusteringusingglobaltermcontextvectors[J].KnowledgeandInformationSystems,2012,31(3):455-474.

    [4]HothoA,StaabS,StummeG.Wordnetimprovestextdocumentclustering[C]//ProceedingsoftheSemanticWebWorkshopatthe26thAnnualInternationalSpecialInterestGrouponInformationRetrieva(SIGIR)Conference,Toronto,Canada,2003.NewYork:AssociationforComputingMachinery,2003:541-544.

    [5]HuJ,FangLJ,CaoY,etal.EnhancingtextclusteringbyleveragingWikipediasemantics[C]//Proceedingsofthe31stAnnualInternationalACMSpecialInterestGrouponInformationRetrieva(ACMSIGIR)ConferenceonResearchandDevelopmentinInformationRetrieval,Singapore,2008.NewYork:AssociationforComputingMachinery,2008:179-186.

    [6]AixinSun.ShortTextClassificationUsingVeryFewWords[C]//Proceedingsofthe35thAnnualInternationalACMSpecialInterestGrouponInformationRetrieva(ACMSIGIR)ConferenceonResearchandDevelopmentinInformationRetrieval,Portland,Oregon,USA,2012.NewYork:AssociationforComputingMachinery,2012:1145-1146.

    [7]ChengX,MiaoDQ,WangC,etal.CoupledTerm-TermRelationAnalysisforDocumentClustering[C]//Proceedingsofthe2013InternationalJointConferenceonNeuralNetworks,Dallas,TXUSA,2013:1-8.

    [8] 黃承慧,印鑒,侯昉.一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J].計算機學(xué)報,2011,34(5):856-864.

    [9]LiuWY,QuanXJ,FengM,etal.Ashorttextmodelingmethodcombiningsemanticandstatisticalinformation[J].InformationSciences,2010,180(20):4031-4041.

    [10]BollegalaD,MatsuoY,IshizukaM.Measuringsemanticsimilaritybetweenwordsusingwebsearchengines[C]//Proceedingsofthe16thInternationalConferenceonWorldWideWeb(WWW2007),Banff,Canada.NewYork:ACM,2007:757-766.

    [11]LangK.Newsweeder,Learningtofilternetnews[C]//ProceedingsoftheTwelfthInternationalConferenceonMachineLearning,TahoeCity,California,USA.USA:MorganKaufmann,1995:331-339.

    [12]MacQueenJ.Somemethodsforclusteringandanalysisofmultivariateobservations[C]//ProceedingsofthefifthBerkeleySymposiumonMathematicalStatisticsandProbability,1967.Berkeley:UniversityofCaliforniaPress,1967,1:281-297.

    [13]ZhaoY,KarypisG.Criterionfunctionsfordocumentclustering:Experimentsandanalysis[R].TechnicalreportUniversityofMinnesota,2001.

    [14]AlexanderStrehl,JoydeepGhosh.Clusterensemblesaknowledgereuseframeworkforcombiningmultiplepartitions[J].JournalofMachineLearningResearch,2003,3(3):583-617.

    ASHORTTEXTMODELLINGMETHODFUSINGCORRELATIONOFLEXICALITEMSANDSTATISTICINFORMATION

    MaHuifangZengXiantaoLiXiaohongYunNing

    (CollegeofComputerScienceandEngineering,NorthwestNormalUniversity,Lanzhou730070,Gangsu,China)

    Traditionaltextrepresentationmethodsareusuallybasedonthemodelofbagofwords,whilethismodelisbasedontheassumptionthatthelexicalitemsareindependenteachotherinthetext.Recentlythestatisticalanalysismethodsarealsopresentedwhichobtaintherelationsbetweenlexicalitemsbywordco-occurrences,butignoretheimpliedsemanticsbetweenlexicalitems.Inordertoovercometheneglectingproblemofthebagofwordsmodeloftraditionaltextrepresentationmethodsontextsemantics,thispaperpresentsashorttextsmodellingmethodwhichfusesthelexicalitemscorrelationandthestatisticsinformation.Itobtainstermscorrelationthroughcouplingtheintra-relationandinter-relationbetweenterms,whichfullyinvestigatestheexplicitandimpliedsemanticinformation;meanwhileitemploysthecorrelationastheinitialtermssimilarity,anditerativelycalculatesthesimilaritiesbetweentermsandtexts,thusimprovestherepresentationoftheshorttext.Experimentsshowthatthismethodsignificantlyimprovestheperformanceofshorttextclustering.

    Intra-relationInter-relationTermsimilarityTextsimilarityShorttextsimilarity

    2015-05-18。國家自然科學(xué)基金項目(61363058,6116 3039);甘肅省自然科學(xué)基金青年科技基金項目(145RJZA232);中國科學(xué)院計算技術(shù)研究所智能信息處理重點實驗室開放基金項目(IIP2014-4)。馬慧芳,副教授,主研領(lǐng)域:人工智能,數(shù)據(jù)挖掘與機器學(xué)習(xí)。曾憲桃,本科生。李曉紅,講師。贠寧,本科生。

    TP

    ADOI:10.3969/j.issn.1000-386x.2016.10.007

    猜你喜歡
    詞項短文文檔
    有人一聲不吭向你扔了個文檔
    KEYS
    自然種類詞項二難、卡茨解決與二維框架
    Keys
    基于RI碼計算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    短文改錯
    短文改錯
    不讓他人隨意下載Google文檔
    電腦迷(2012年4期)2012-04-29 06:12:13
    英語詞項搭配范圍及可預(yù)見度
    国产精品久久久久久精品电影小说| 久久久久久久久大av| 国产伦在线观看视频一区| 亚洲av不卡在线观看| 久久久久精品性色| 久久久久精品性色| 亚洲四区av| 亚洲,一卡二卡三卡| 有码 亚洲区| 国产精品秋霞免费鲁丝片| 又大又黄又爽视频免费| 91aial.com中文字幕在线观看| av网站免费在线观看视频| 免费av不卡在线播放| 亚洲人成网站在线观看播放| 妹子高潮喷水视频| 少妇 在线观看| 99九九在线精品视频 | 国产成人a∨麻豆精品| 天美传媒精品一区二区| 9色porny在线观看| 夫妻午夜视频| 伦理电影免费视频| 9色porny在线观看| 搡老乐熟女国产| a级毛片免费高清观看在线播放| 女人精品久久久久毛片| 国产成人91sexporn| 日韩中字成人| 精品一区二区免费观看| 亚洲综合色惰| 一边亲一边摸免费视频| 啦啦啦在线观看免费高清www| 亚洲精品色激情综合| 亚洲av.av天堂| 一本色道久久久久久精品综合| 色吧在线观看| 日韩三级伦理在线观看| 九色成人免费人妻av| www.色视频.com| 观看av在线不卡| 免费播放大片免费观看视频在线观看| 日本与韩国留学比较| 亚洲精品日韩av片在线观看| 五月伊人婷婷丁香| 婷婷色综合大香蕉| 少妇丰满av| 少妇人妻久久综合中文| 九九久久精品国产亚洲av麻豆| 精品一区二区免费观看| 又大又黄又爽视频免费| 极品人妻少妇av视频| 国产一区二区三区av在线| av卡一久久| 久久鲁丝午夜福利片| 综合色丁香网| 亚洲色图综合在线观看| 国产精品秋霞免费鲁丝片| 99热国产这里只有精品6| 最新中文字幕久久久久| 亚洲欧洲国产日韩| 精品久久久久久电影网| 久久久久视频综合| 日本猛色少妇xxxxx猛交久久| 欧美精品国产亚洲| 少妇的逼好多水| 青春草亚洲视频在线观看| 欧美日韩视频高清一区二区三区二| av国产精品久久久久影院| 高清不卡的av网站| 插逼视频在线观看| 自线自在国产av| av黄色大香蕉| 国产高清三级在线| 美女中出高潮动态图| 午夜影院在线不卡| 美女中出高潮动态图| 18+在线观看网站| 国产成人freesex在线| 伦理电影大哥的女人| 国产有黄有色有爽视频| 人妻夜夜爽99麻豆av| 男女啪啪激烈高潮av片| 午夜日本视频在线| 只有这里有精品99| 99热网站在线观看| 亚洲自偷自拍三级| av免费在线看不卡| 久久久精品94久久精品| 久久午夜综合久久蜜桃| 亚洲色图综合在线观看| 在线观看免费高清a一片| av国产久精品久网站免费入址| 亚洲四区av| 国产亚洲一区二区精品| 在线亚洲精品国产二区图片欧美 | 在线免费观看不下载黄p国产| 黄色视频在线播放观看不卡| 少妇熟女欧美另类| 精品99又大又爽又粗少妇毛片| 亚洲av在线观看美女高潮| 又爽又黄a免费视频| 成人综合一区亚洲| 国产精品人妻久久久久久| 十八禁网站网址无遮挡 | 国产免费视频播放在线视频| 王馨瑶露胸无遮挡在线观看| 中文乱码字字幕精品一区二区三区| 久久久久国产精品人妻一区二区| 国产亚洲一区二区精品| 精品人妻一区二区三区麻豆| 久久狼人影院| 欧美激情国产日韩精品一区| www.av在线官网国产| 国产精品久久久久久久电影| 伊人亚洲综合成人网| 亚洲美女黄色视频免费看| 精品一区二区免费观看| 久久久国产一区二区| 国产亚洲午夜精品一区二区久久| 一级毛片久久久久久久久女| 成人无遮挡网站| 麻豆精品久久久久久蜜桃| 国产爽快片一区二区三区| 久久久a久久爽久久v久久| 人人妻人人看人人澡| 女人久久www免费人成看片| 天天操日日干夜夜撸| 一区在线观看完整版| 亚洲精品色激情综合| 在线观看美女被高潮喷水网站| 成人无遮挡网站| 亚洲精品第二区| 日日啪夜夜爽| 日日摸夜夜添夜夜添av毛片| 国产精品一区二区在线观看99| 大话2 男鬼变身卡| 亚洲精品日韩av片在线观看| 九色成人免费人妻av| 国产成人免费无遮挡视频| 少妇熟女欧美另类| 精品人妻一区二区三区麻豆| 熟女av电影| 国产免费福利视频在线观看| 亚洲精品自拍成人| 九九久久精品国产亚洲av麻豆| 国产精品欧美亚洲77777| 在线观看免费高清a一片| 久久久久国产精品人妻一区二区| 中文字幕免费在线视频6| 成人综合一区亚洲| 国产成人freesex在线| 久久国产精品大桥未久av | av卡一久久| 国产片特级美女逼逼视频| 纯流量卡能插随身wifi吗| 日韩一区二区视频免费看| h日本视频在线播放| 人妻夜夜爽99麻豆av| 国产 一区精品| 国产国拍精品亚洲av在线观看| 嫩草影院新地址| 国产精品久久久久久精品电影小说| 国产欧美日韩一区二区三区在线 | 老女人水多毛片| 国产伦理片在线播放av一区| 人人妻人人澡人人爽人人夜夜| 2022亚洲国产成人精品| 亚洲国产精品专区欧美| 亚洲av电影在线观看一区二区三区| 国产免费一区二区三区四区乱码| 国产精品久久久久成人av| 久久精品久久久久久久性| 免费黄频网站在线观看国产| 亚洲国产精品999| 夜夜看夜夜爽夜夜摸| 丝瓜视频免费看黄片| 精品99又大又爽又粗少妇毛片| 久久这里有精品视频免费| 免费看光身美女| 亚洲精品视频女| 精品久久久久久电影网| 国产精品女同一区二区软件| 国产av国产精品国产| 丰满少妇做爰视频| 秋霞在线观看毛片| 涩涩av久久男人的天堂| 人妻一区二区av| 国产精品久久久久久久电影| 中文欧美无线码| 爱豆传媒免费全集在线观看| 黄色怎么调成土黄色| 99久国产av精品国产电影| 亚洲人成网站在线播| 亚洲性久久影院| 大香蕉久久网| 亚洲精品aⅴ在线观看| av免费观看日本| 色哟哟·www| 亚洲色图综合在线观看| 少妇人妻精品综合一区二区| 亚洲精品乱码久久久v下载方式| 日日摸夜夜添夜夜添av毛片| 夜夜看夜夜爽夜夜摸| av免费观看日本| 各种免费的搞黄视频| 午夜福利视频精品| 国产亚洲一区二区精品| 精品一区二区三卡| 波野结衣二区三区在线| av在线观看视频网站免费| 少妇的逼好多水| 大片免费播放器 马上看| 秋霞在线观看毛片| 亚洲av成人精品一区久久| www.av在线官网国产| 久久久午夜欧美精品| 色吧在线观看| 一二三四中文在线观看免费高清| 老司机影院成人| 乱人伦中国视频| 人妻一区二区av| 男女边摸边吃奶| 亚洲精品乱久久久久久| 色视频在线一区二区三区| 国产美女午夜福利| 观看免费一级毛片| 色94色欧美一区二区| 亚洲美女黄色视频免费看| 2018国产大陆天天弄谢| 国产成人a∨麻豆精品| 免费看av在线观看网站| 国产伦精品一区二区三区四那| 看十八女毛片水多多多| 日韩av在线免费看完整版不卡| 女人精品久久久久毛片| 久久影院123| 日韩免费高清中文字幕av| 99热这里只有是精品在线观看| 国产亚洲av片在线观看秒播厂| 在线精品无人区一区二区三| 亚洲第一区二区三区不卡| 久久国产乱子免费精品| 久久久国产一区二区| 在线观看免费高清a一片| 国内精品宾馆在线| 丝瓜视频免费看黄片| 不卡视频在线观看欧美| 精品人妻偷拍中文字幕| 国内揄拍国产精品人妻在线| 在线观看国产h片| 男人和女人高潮做爰伦理| 香蕉精品网在线| 亚洲人成网站在线观看播放| 亚洲成人av在线免费| 日韩伦理黄色片| 久久久久人妻精品一区果冻| 美女内射精品一级片tv| 免费看av在线观看网站| 久久这里有精品视频免费| 全区人妻精品视频| 亚洲美女视频黄频| 久久综合国产亚洲精品| 日本欧美国产在线视频| 老女人水多毛片| 成年美女黄网站色视频大全免费 | 美女主播在线视频| 日本爱情动作片www.在线观看| 黄色视频在线播放观看不卡| 国产淫语在线视频| 国产黄片美女视频| 视频区图区小说| 日本av手机在线免费观看| 久久99热6这里只有精品| 人人妻人人看人人澡| 国产极品天堂在线| 精品久久国产蜜桃| 亚洲,一卡二卡三卡| 丰满饥渴人妻一区二区三| 国产免费又黄又爽又色| 天天操日日干夜夜撸| 97超视频在线观看视频| 国模一区二区三区四区视频| 十八禁高潮呻吟视频 | 一级毛片久久久久久久久女| 亚洲精品第二区| 国产成人一区二区在线| 2022亚洲国产成人精品| 97在线视频观看| 丝袜脚勾引网站| 国产av一区二区精品久久| 久久热精品热| 伦理电影免费视频| 99热全是精品| a级片在线免费高清观看视频| 午夜福利网站1000一区二区三区| av又黄又爽大尺度在线免费看| 久久久久久久亚洲中文字幕| 一级毛片黄色毛片免费观看视频| av免费在线看不卡| 嫩草影院新地址| 国产黄色视频一区二区在线观看| 国产在线一区二区三区精| av视频免费观看在线观看| 这个男人来自地球电影免费观看 | 免费观看a级毛片全部| 黄色毛片三级朝国网站 | 久久久久久伊人网av| 婷婷色综合www| 午夜影院在线不卡| 日韩一本色道免费dvd| av一本久久久久| 免费黄网站久久成人精品| 国产成人精品无人区| 亚洲国产精品一区三区| 精品亚洲成a人片在线观看| 如日韩欧美国产精品一区二区三区 | 国产一区二区在线观看日韩| 美女视频免费永久观看网站| 久久久午夜欧美精品| 亚洲欧美中文字幕日韩二区| 永久免费av网站大全| 99久久精品国产国产毛片| 少妇高潮的动态图| 毛片一级片免费看久久久久| 国产成人freesex在线| a级毛片免费高清观看在线播放| 男人添女人高潮全过程视频| 自拍欧美九色日韩亚洲蝌蚪91 | 狂野欧美激情性xxxx在线观看| 国产精品麻豆人妻色哟哟久久| 人人妻人人澡人人看| 亚洲精品456在线播放app| 亚洲精品久久久久久婷婷小说| 男人爽女人下面视频在线观看| 九九在线视频观看精品| 大片免费播放器 马上看| 国产在线免费精品| 黄色毛片三级朝国网站 | 99久国产av精品国产电影| 国产高清不卡午夜福利| 一区二区三区免费毛片| 成人亚洲欧美一区二区av| 美女内射精品一级片tv| 国产男女超爽视频在线观看| 久久午夜福利片| www.av在线官网国产| 在线观看美女被高潮喷水网站| 熟女av电影| 亚洲精品国产成人久久av| av专区在线播放| 国产精品人妻久久久影院| 日日啪夜夜爽| 爱豆传媒免费全集在线观看| 成人美女网站在线观看视频| 啦啦啦在线观看免费高清www| 在线观看一区二区三区激情| 中文精品一卡2卡3卡4更新| 在线观看一区二区三区激情| 中文精品一卡2卡3卡4更新| 成人美女网站在线观看视频| 自拍欧美九色日韩亚洲蝌蚪91 | 18禁在线播放成人免费| 伦精品一区二区三区| 久久综合国产亚洲精品| 99re6热这里在线精品视频| 色视频在线一区二区三区| 欧美高清成人免费视频www| 午夜激情久久久久久久| 大又大粗又爽又黄少妇毛片口| 亚洲一级一片aⅴ在线观看| 中文字幕人妻熟人妻熟丝袜美| 美女主播在线视频| 香蕉精品网在线| 一区在线观看完整版| 欧美日韩亚洲高清精品| 久久国产乱子免费精品| 天堂俺去俺来也www色官网| 日产精品乱码卡一卡2卡三| 日韩一区二区三区影片| 中文欧美无线码| 国产精品国产三级国产专区5o| 久久免费观看电影| 在线观看www视频免费| av在线观看视频网站免费| 国产 精品1| 亚洲av国产av综合av卡| 麻豆成人午夜福利视频| av网站免费在线观看视频| 亚洲人与动物交配视频| 亚洲精品视频女| 秋霞在线观看毛片| 亚洲精品日韩av片在线观看| 美女视频免费永久观看网站| 免费观看a级毛片全部| 嘟嘟电影网在线观看| 欧美bdsm另类| 亚洲美女搞黄在线观看| 一区在线观看完整版| 亚洲国产欧美日韩在线播放 | 欧美 日韩 精品 国产| 深夜a级毛片| 嘟嘟电影网在线观看| 69精品国产乱码久久久| 国产欧美日韩一区二区三区在线 | 午夜福利视频精品| 久久女婷五月综合色啪小说| 亚洲四区av| 寂寞人妻少妇视频99o| 婷婷色综合www| 全区人妻精品视频| 精品一区二区三区视频在线| 91午夜精品亚洲一区二区三区| a 毛片基地| 天天操日日干夜夜撸| 精品人妻熟女av久视频| 国产黄色免费在线视频| 久久精品久久久久久久性| 久久99蜜桃精品久久| 亚洲精品中文字幕在线视频 | 国产乱来视频区| 中文欧美无线码| 纯流量卡能插随身wifi吗| 搡女人真爽免费视频火全软件| 精品人妻一区二区三区麻豆| 自拍欧美九色日韩亚洲蝌蚪91 | 91精品国产国语对白视频| 欧美最新免费一区二区三区| 最近手机中文字幕大全| 久久久亚洲精品成人影院| 51国产日韩欧美| 男人舔奶头视频| 在线观看www视频免费| 少妇被粗大猛烈的视频| av黄色大香蕉| 国产国拍精品亚洲av在线观看| 另类亚洲欧美激情| 黄色怎么调成土黄色| 色94色欧美一区二区| 插阴视频在线观看视频| 久久久亚洲精品成人影院| 99热这里只有是精品在线观看| 3wmmmm亚洲av在线观看| 涩涩av久久男人的天堂| 免费av中文字幕在线| 18+在线观看网站| 国产黄片视频在线免费观看| 成人亚洲精品一区在线观看| 国内精品宾馆在线| 国产黄色免费在线视频| 精品99又大又爽又粗少妇毛片| 久久久久久久久大av| 精品久久久噜噜| 噜噜噜噜噜久久久久久91| 久久精品国产亚洲av涩爱| 18禁在线无遮挡免费观看视频| 国产熟女欧美一区二区| 亚洲精品第二区| 国产有黄有色有爽视频| 少妇的逼好多水| 人人妻人人看人人澡| 久久久久久久精品精品| av福利片在线观看| 人妻少妇偷人精品九色| 亚洲美女黄色视频免费看| 丝瓜视频免费看黄片| 黑人高潮一二区| 赤兔流量卡办理| 国产综合精华液| 波野结衣二区三区在线| 久久久久网色| 少妇人妻一区二区三区视频| 亚洲精品乱码久久久v下载方式| 亚洲国产欧美在线一区| 久久久欧美国产精品| 日本爱情动作片www.在线观看| 最近中文字幕2019免费版| 国产淫片久久久久久久久| 自拍偷自拍亚洲精品老妇| 人妻系列 视频| 日韩精品有码人妻一区| 国产色婷婷99| 黄色怎么调成土黄色| 久久女婷五月综合色啪小说| 黄色视频在线播放观看不卡| 国产 一区精品| 国产亚洲av片在线观看秒播厂| 国产男女内射视频| 免费大片黄手机在线观看| 亚洲综合精品二区| 亚洲av国产av综合av卡| 亚洲图色成人| 国产精品三级大全| 大香蕉久久网| 色婷婷久久久亚洲欧美| 中文欧美无线码| 久久精品国产鲁丝片午夜精品| 一级a做视频免费观看| 在线精品无人区一区二区三| 最后的刺客免费高清国语| av网站免费在线观看视频| 婷婷色av中文字幕| 日韩三级伦理在线观看| 日日摸夜夜添夜夜添av毛片| 一区二区三区乱码不卡18| 国内少妇人妻偷人精品xxx网站| 如何舔出高潮| 中国三级夫妇交换| 午夜免费男女啪啪视频观看| 美女内射精品一级片tv| 日韩人妻高清精品专区| 高清毛片免费看| 欧美精品国产亚洲| 久久鲁丝午夜福利片| 亚洲欧美清纯卡通| 街头女战士在线观看网站| 高清在线视频一区二区三区| 成人特级av手机在线观看| 久久久久久久久久久免费av| 下体分泌物呈黄色| 国内揄拍国产精品人妻在线| 精品视频人人做人人爽| 91久久精品国产一区二区成人| 男女免费视频国产| 晚上一个人看的免费电影| 亚洲精品色激情综合| 少妇的逼水好多| 美女内射精品一级片tv| 男女啪啪激烈高潮av片| 亚洲av在线观看美女高潮| 日本猛色少妇xxxxx猛交久久| 岛国毛片在线播放| 水蜜桃什么品种好| 日韩精品有码人妻一区| 欧美变态另类bdsm刘玥| 亚洲精品国产色婷婷电影| 成人午夜精彩视频在线观看| 黑人猛操日本美女一级片| 亚洲欧洲日产国产| 国产亚洲av片在线观看秒播厂| 如日韩欧美国产精品一区二区三区 | 日韩电影二区| 日韩伦理黄色片| 99热这里只有精品一区| 成人黄色视频免费在线看| 久热久热在线精品观看| 国产真实伦视频高清在线观看| 在线免费观看不下载黄p国产| 在线天堂最新版资源| 久久97久久精品| 91精品一卡2卡3卡4卡| 黑人高潮一二区| 丝瓜视频免费看黄片| av播播在线观看一区| 亚洲精品中文字幕在线视频 | 久久99热这里只频精品6学生| 80岁老熟妇乱子伦牲交| a级毛片免费高清观看在线播放| 免费看不卡的av| 九色成人免费人妻av| videos熟女内射| 免费观看a级毛片全部| 久久精品夜色国产| 天堂中文最新版在线下载| 国产成人a∨麻豆精品| 国产在线视频一区二区| 国产高清国产精品国产三级| 赤兔流量卡办理| √禁漫天堂资源中文www| 午夜免费观看性视频| xxx大片免费视频| 超碰97精品在线观看| 国产av码专区亚洲av| 黑人猛操日本美女一级片| 老熟女久久久| 最新的欧美精品一区二区| 春色校园在线视频观看| 人妻一区二区av| 国产一区亚洲一区在线观看| 三级国产精品片| 亚洲电影在线观看av| 少妇裸体淫交视频免费看高清| 一个人免费看片子| 亚洲熟女精品中文字幕| 日本欧美国产在线视频| 99国产精品免费福利视频| 丰满人妻一区二区三区视频av| 超碰97精品在线观看| 人妻夜夜爽99麻豆av| 嫩草影院入口| 亚洲无线观看免费| 十分钟在线观看高清视频www | 中文字幕制服av| 久久久亚洲精品成人影院| 精品国产国语对白av| 伦精品一区二区三区| 久久人人爽人人爽人人片va| 国产91av在线免费观看| 最新的欧美精品一区二区| 一区二区三区乱码不卡18| 99re6热这里在线精品视频| 2018国产大陆天天弄谢| 欧美成人午夜免费资源| 欧美亚洲 丝袜 人妻 在线| av不卡在线播放| 人妻制服诱惑在线中文字幕| 国产精品三级大全| 丁香六月天网| 精品国产乱码久久久久久小说| 免费黄色在线免费观看| 全区人妻精品视频| 最近中文字幕高清免费大全6| 久久婷婷青草| 亚洲国产欧美在线一区| 国产日韩欧美亚洲二区|