• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種頻率增強(qiáng)的語句語義相似度計(jì)算*

    2013-03-19 11:08:00廖志芳邱麗霞謝岳山樊曉平
    關(guān)鍵詞:度值近義詞反義詞

    廖志芳,邱麗霞,謝岳山,樊曉平

    (1.中南大學(xué)軟件學(xué)院,湖南長沙 410002; 2.中南大學(xué)信息科學(xué)與工程學(xué)院,湖南長沙 410075;3.湖南財(cái)政經(jīng)濟(jì)學(xué)院,湖南長沙 410086)

    文本相似度[1]是表示兩個(gè)或多個(gè)文本之間匹配程度的一個(gè)度量參數(shù),相似度越大,說明對比的內(nèi)容相似程度越高,反之越低.文本相似度計(jì)算廣泛應(yīng)用于文本挖掘、Web信息搜索和機(jī)器翻譯等,是自然語言處理中的一個(gè)重要研究領(lǐng)域[2].在長文本句子相似度計(jì)算中,主要分析相同的句子并且將句子分類[1];在圖像修復(fù)中,根據(jù)嵌入圖像的描述文字進(jìn)行修復(fù)可以達(dá)到更高的精度[3],在web內(nèi)容進(jìn)行搜索時(shí),計(jì)算web頁面中的語句相似度能夠更加有效地推薦搜索結(jié)果[4].

    當(dāng)前的文本相似度計(jì)算包括詞語相似度計(jì)算,語句相似度計(jì)算等,詞語相似度計(jì)算是指詞語之間在語義上的相似度計(jì)算,狹義地說,是指從字面上來計(jì)算兩個(gè)詞語之間的相似度[5],其研究方法主要包括利用語義詞典以及詞典中數(shù)據(jù)的樹狀層次結(jié)構(gòu)關(guān)系,來計(jì)算詞語之間的語義相似度值;其次是利用統(tǒng)計(jì)學(xué)中的概率分布思想,結(jié)合語料庫,通過詞語在語料庫中出現(xiàn)的頻率來反應(yīng)詞語間的相似度.第一類方法的基礎(chǔ)是語義詞典庫,根據(jù)義原或者詞語本身構(gòu)成的樹狀結(jié)構(gòu),來得到詞語的相似度值,這類方法的一個(gè)較明顯的缺點(diǎn)是詞典庫中經(jīng)常存在一些沒有登錄或記錄的詞匯.第二類方法的基礎(chǔ)是語料庫,該方法中假定當(dāng)詞語所在的上下文環(huán)境相似時(shí),詞語之間才是相似的.但是這個(gè)方法中的一個(gè)缺陷是有時(shí)語料庫中的詞語頻率函數(shù)并不滿足某種概率分布[6].

    但是,單純的詞語之間語義相似度計(jì)算還不足以滿足日常需要,人們在平常的工作生活中,接觸到的通常是以文本形式出現(xiàn)的信息,因此,詞語語義相似度計(jì)算還需要過渡到語句語義相似度計(jì)算層面上.在語義相似度計(jì)算方法中,主要包括將詞性和詞序結(jié)合的方法[7]、依存樹法、編輯距離方法和基于HowNet的方法[8]等,我們從復(fù)雜度、詞語權(quán)重信息、同義詞反義詞、數(shù)據(jù)稀疏、語義信息、語句結(jié)構(gòu)和算法可行度進(jìn)行分析發(fā)現(xiàn),這些方法并不能完全滿足這些因素.

    在以往的文本或者長句相似度匹配中,可以通過上下文關(guān)系中推斷出文本的語義,但是在短句中,由于詞匯量的問題,以往的語句相似度計(jì)算法在短句中的語義相似度計(jì)算中有效性不高[9],因而文本中短句中相似度計(jì)算,如5~25個(gè)詞語組成的不講究語法的短句,已逐漸成為自然語言處理中的一個(gè)重要領(lǐng)域.

    本文將HowNet作為語義詞典庫,HowNet是由董振東先生創(chuàng)立,HowNet的描述對象是漢語詞語和英語詞語所代表的概念,它揭示了概念之間以及概念屬性之間的復(fù)雜關(guān)系,并以此構(gòu)成一個(gè)組織龐大、內(nèi)容豐富的知識庫.

    1 詞語相似度計(jì)算

    在HowNet中,詞語由多個(gè)概念描述,概念由義原描述,在計(jì)算詞語相似度之前,需要先計(jì)算義原之間的相似度以及概念之間的相似度.本文在計(jì)算義原相似度時(shí)將同時(shí)考慮義原距離和義原深度.

    1.1 HowNet結(jié)構(gòu)

    HowNet中義原之間按照上下位關(guān)系構(gòu)成樹狀結(jié)構(gòu),義原樹便是本文進(jìn)行語句語義相似度計(jì)算的數(shù)據(jù)結(jié)構(gòu)基礎(chǔ),其樹結(jié)構(gòu)如圖1所示.

    圖1 義原樹狀結(jié)構(gòu)Fig.1 Sememe tree structure

    1.2 義原相似度計(jì)算

    按照通常的定義,義原距離定義為兩個(gè)義原之間最短路徑上邊的條數(shù)之和.通常我們先計(jì)算義原的距離,然后再將距離函數(shù)轉(zhuǎn)換成義原的相似度[5].義原相似度與義原距離滿足:

    1)兩個(gè)義原,若其中某個(gè)義原不存在于義原樹中,或兩個(gè)義原在兩棵不同的義原樹里,此時(shí)規(guī)定,義原之間的距離為+∞.

    2)兩個(gè)義原同處于一棵義原樹中,此時(shí)規(guī)定,義原距離等于兩者之間最短路徑上邊的條數(shù)之和.

    3)義原相似度關(guān)于義原距離是單調(diào)遞減函數(shù).

    定義1 設(shè)p1,p2是兩個(gè)義原,l是兩個(gè)義原之間的距離,其相似度值記為f1(l),則有:

    其中α>0是一個(gè)可調(diào)節(jié)的參數(shù),指數(shù)函數(shù)的設(shè)計(jì)能夠很好地滿足上述三個(gè)條件.

    按照通常的定義,義原深度定義為兩個(gè)義原之間的最近公共父節(jié)點(diǎn)到義原樹樹根節(jié)點(diǎn)的層次數(shù).義原相似度與義原深度滿足:

    1)義原與其本身的深度值等于該義原節(jié)點(diǎn)到樹根節(jié)點(diǎn)的層次數(shù),其相似度為1.

    2)兩個(gè)義原,如果均不在同一棵義原樹或者其中一個(gè)義原在6棵義原樹中無法找到,則規(guī)定義原深度為0.

    3)義原相似度關(guān)于義原深度是單調(diào)遞增函數(shù).

    定義2 設(shè)p1,p2是兩個(gè)義原,T1,T2分別是該義原節(jié)點(diǎn)到義原樹根節(jié)點(diǎn)所經(jīng)過的義原集合,T1∩T2表示兩個(gè)集合中的公共節(jié)點(diǎn)部分,則p1,p2之間的深度就是集合T1∩T2中元素的個(gè)數(shù),相似度的計(jì)算公式定義如下:

    其中h是義原的深度,β>0是可調(diào)節(jié)的參數(shù).

    由上文的介紹可知,義原相似度與義原距離和義原深度都密切相關(guān),最終的義原相似度用sim(p1,p2)來表示,則有:

    其中α>0,β>0分別是義原距離和義原深度的可調(diào)節(jié)參數(shù).公式(3)表明,在計(jì)算義原相似度時(shí)同時(shí)考慮了義原距離和深度,能夠更充分地利用義原樹狀結(jié)構(gòu)中包含的義原信息.

    1.3 概念相似度計(jì)算

    在HowNet中,概念是由多個(gè)義原組成的知識描述語言來描述的,所以,可由義原之間的相似度計(jì)算為基礎(chǔ),進(jìn)而得到概念之間的相似度計(jì)算.

    HowNet的概念描述式中,包含第一基本義原描述式、其他獨(dú)立義原描述式、關(guān)系義原描述式以及符號義原描述式這4種類型的描述.下面分別介紹如何計(jì)算這4類描述式的相似度.

    1.3.1 第一基本義原描述式

    概念知識描述式中的第一個(gè)義原描述式便是第一基本獨(dú)立義原.這部分相似度用sim1(S1,S2)來表示,并且按照上述公式(3)進(jìn)行計(jì)算,即:

    1.3.2 其他獨(dú)立義原描述式

    其他獨(dú)立義原是概念知識描述式中,在第一義原之后,關(guān)系義原或符號義原之前的所有獨(dú)立的義原或具體詞.這部分相似度用sim2(S1,S2)來表示,由于描述式涉及到多個(gè)獨(dú)立義原或具體詞,計(jì)算比較復(fù)雜,在本文中遵循以下的約定:

    1)獨(dú)立義原與具體詞之間的相似度一般取一個(gè)較小的正數(shù)γ.

    2)具體詞之間的相似度,若詞相同,相似度為1,若詞不同,相似度為0.

    3)獨(dú)立義原之間的相似度按照公式(1)計(jì)算.

    假設(shè)T1=(p11,p12,…,p1s),T2=(p21,p22,…,p2t)分別是概念S1,S2的其他獨(dú)立義原集合.首先計(jì)算義原p1i與p2j(i=1,2,…,size(T1);j=1,2,…,size(T2))之間相似度的最大值maxk,并記錄下取最大值時(shí)兩個(gè)集合中的義原位置索引index1和index2,然后在獨(dú)立義原集合中將位置索引值為index1和index2的兩個(gè)義原刪除,這時(shí),一趟循環(huán)結(jié)束.以后的每趟循環(huán)都按上述步驟進(jìn)行,直到其中某個(gè)獨(dú)立義原集合個(gè)數(shù)為零為止,循環(huán)次數(shù)等于min(s,t),最終,其他獨(dú)立義原描述式的相似度計(jì)算公式為:

    其中s,t分別是概念S1和S2的獨(dú)立義原個(gè)數(shù),δ>0是可調(diào)節(jié)的參數(shù),計(jì)算時(shí)一般取δ=0.2.

    1.3.3 關(guān)系義原描述式

    在概念的知識描述式中,含有“=”符號以及“=”符號之后其他描述符號之前的所有描述.在計(jì)算這部分相似度時(shí),首先要進(jìn)行分組,將相同key值的關(guān)系義原分為一組.

    假設(shè)map1和map2分別是概念S1,S2的關(guān)系義原集合,對于map1和map2中,每一對key值相同的兩個(gè)value集合list1和list2,根據(jù)“其他獨(dú)立義原描述式”的sim2(S1,S2)進(jìn)行計(jì)算,得到相似度值simk(k=1,…,cnt),其中cnt表示相同key值對的個(gè)數(shù).最終sim3(S1,S2)的計(jì)算公式為:

    其中size表示map1與map2的鍵值對個(gè)數(shù)之和,δ>0是可調(diào)節(jié)的參數(shù),計(jì)算時(shí)通常取δ=0.2.

    1.3.4 符號義原描述式

    符號義原是在概念的知識描述式中,含有#%$*+&@?!這些符號的義原.符號義原之間的相似度計(jì)算也需要先將類型相同的義原歸為一組.用sim4(S1,S2)表示符號義原的相似度,其計(jì)算步驟與關(guān)系義原的計(jì)算步驟相同,計(jì)算公式按照公式(6).

    根據(jù)上述介紹的計(jì)算步驟,最終,HowNet概念之間的相似度計(jì)算公式為:

    其中βi>0(i=1,2,3,4)是可調(diào)節(jié)的參數(shù),并且β1+β2+β3+β4=1,β1≥β2≥β3≥β4,由于第一基本義原反應(yīng)了概念的最主要特征,所以權(quán)值β1一般取值大于0.5.βi(i=1,2,3,4)取值逐漸變小說明在計(jì)算概念相似度時(shí),前一種描述式對后面的描述式有約束作用,同時(shí)也體現(xiàn)了4種描述式對相似度值的貢獻(xiàn)程度越來越小.

    1.4 詞語相似度計(jì)算

    HowNet中的詞語一般由一個(gè)或多個(gè)概念來進(jìn)行描述.詞語相似度計(jì)算可由概念相似度計(jì)算得到,以下定義3解釋了最終詞語相似度計(jì)算公式.

    定義3 假設(shè)W1和W2是HowNet中的兩個(gè)詞語,W1含有m個(gè)概念S11,S12,…,S1m,W2含有n個(gè)概念S21,S22,…,S2n,則W1和W2的相似度計(jì)算公式為:

    公式(8)表示,HowNet詞語之間的最終相似度等于兩個(gè)詞語所有概念間相似度的最大值,將詞語之間相似度計(jì)算歸結(jié)為概念之間的相似度計(jì)算.

    2 短句中的語義相似度計(jì)算

    通過文獻(xiàn)分析,在以前的詞語相似度計(jì)算算法中,沒有考慮語句中不同詞語對相似度值的不同貢獻(xiàn),所有詞語在相似度計(jì)算中的權(quán)重均為1,其計(jì)算結(jié)果缺乏合理性[10].

    本文對語句相似度算法進(jìn)行適當(dāng)?shù)母倪M(jìn),將詞語在語料庫中的頻率函數(shù)引入到語句相似度計(jì)算中,為語句中的不同詞語在計(jì)算語句相似度時(shí)賦予不同的權(quán)重.對于一個(gè)詞語,如果在語料庫中出現(xiàn)的次數(shù)越多,則其在整個(gè)語句中所占有的權(quán)重或者說對語句整體起到的作用會(huì)越低,比如“這些”、“我們”、“這個(gè)”等詞語,相反,在語料庫中出現(xiàn)次數(shù)越少的詞語在語句中所應(yīng)占有的權(quán)重越大.

    2.1 語料庫中詞語的頻率計(jì)算

    語料庫中含有大量的文本,這些文本通常經(jīng)過整理,并按照一定的格式進(jìn)行存儲(chǔ).本文采用1998年1月份的人民日報(bào)標(biāo)注語料庫[7](簡稱PFR語料庫),該語料庫是由北京大學(xué)計(jì)算語言學(xué)研究所和富士通研究開發(fā)中心有限公司共同制作的,它被作為原始數(shù)據(jù)應(yīng)用于大量的研究和論文中.

    假設(shè)N是PFR語料庫中收錄的所有詞語個(gè)數(shù),那么,詞語(word)的頻率計(jì)算式為freq(word)=n/N,其中n表示詞語word在語料庫中出現(xiàn)的總次數(shù).我們設(shè)計(jì)指數(shù)函數(shù)I(word)=e-λlog(n+1)/log(N+1),將該函數(shù)作為詞語在整個(gè)語句中的權(quán)重系數(shù)引入到最終的語句相似度計(jì)算中,該函數(shù)滿足如下3個(gè)條件:

    條件1:I(word)關(guān)于語料庫中詞語的頻率是單調(diào)遞減函數(shù),頻率越大,I(word)值越小,反之越大.

    條件2:指數(shù)函數(shù)的設(shè)計(jì)意在將權(quán)重值控制在[0,1]之間,并且也能滿足條件1.

    條件3:語料庫中詞語頻率越大,該詞語在語句中的權(quán)重越小,即對語句之間的語義相似度值貢獻(xiàn)越小.

    對于上述頻率函數(shù)I(word),例如語句“我們這個(gè)商城的計(jì)算機(jī)價(jià)格很便宜”,在PFR語料庫中,我們/2027,這個(gè)/628,商城/23,計(jì)算機(jī)/75,價(jià)格/107,便宜/25.可以看出,詞語“我們”和“這個(gè)”出現(xiàn)的次數(shù)較多,分別為2 027次和628次.根據(jù)人們所擁有的知識,這兩個(gè)詞語在整個(gè)語句中所占有的語義權(quán)重應(yīng)該較小,而詞語“商城”、“計(jì)算機(jī)”、“價(jià)格”、“便宜”這些詞語出現(xiàn)的次數(shù)較少,同時(shí)它們也代表著語句的主干,在整個(gè)語句語義中占有較重要的地位,本文中設(shè)計(jì)的詞語頻率函數(shù)正好符合這一規(guī)律.

    2.2 短句中語義相似度計(jì)算實(shí)現(xiàn)

    目前的語句相似度計(jì)算算法中,由于沒有分別考慮語句中不同詞語對相似度的不同貢獻(xiàn),導(dǎo)致語句相似度計(jì)算結(jié)果存在一定的不合理性.例如,對于相似性較高的語句,其計(jì)算結(jié)果值偏低,而對于相似性較低的語句,其計(jì)算結(jié)果值卻偏高.為了更好地解決這個(gè)缺陷,本文將2.1中介紹的詞語頻率函數(shù)引入到語句相似度計(jì)算公式中.

    定義4 設(shè)Sen1,Sen2是兩個(gè)待計(jì)算相似度的中文語句,如果Sen1中有m個(gè)詞語W11,W12,…,W1m,Sen2中有n個(gè)詞語W21,W22,…,W2n,那么語句Sen1和Sen2之間的語義相似度計(jì)算公式為:

    其中I(W)=e-λlog(num+1)/log(N+1),num表示詞語W在PFR語料庫中的次數(shù),N表示PFR語料庫中詞語的總數(shù).s等于W1i與W2j(j=1,…,n)取相似度最大值時(shí)j的值,t等于W1i(i=1,…,m)與W2j取相似度最大值時(shí)i的值,λ>0是可調(diào)節(jié)的參數(shù).

    公式(9)表示,語句之間的相似度值最終由詞語之間相似度加權(quán)構(gòu)成.頻率函數(shù)I(w)的值決定著詞語w對語句相似度值的貢獻(xiàn)度大小,I(w)越大,表明詞語w在語句相似度值中所占的比重越大,反之越小.

    在利用公式(9)進(jìn)行語句語義相似度計(jì)算之前,需要對語句進(jìn)行分詞操作.本文采用開源的paoding中文分詞組件對語句進(jìn)行詞語切分,paoding分詞具有速度快、分詞準(zhǔn)確率高等優(yōu)點(diǎn),能夠較好地滿足本文中對分詞的要求.

    本文在綜合考慮義原距離和深度的條件下計(jì)算義原相似度,進(jìn)而計(jì)算概念相似度,然后計(jì)算詞語相似度.在語句相似度計(jì)算改進(jìn)部分,本文引入了語料庫,為每個(gè)詞語在語句相似度計(jì)算時(shí)賦予了不同的權(quán)重,充分體現(xiàn)了不同詞語對相似度值的不同貢獻(xiàn)程度,最終語句相似度的計(jì)算結(jié)果更為合理,同時(shí)也與人們的主觀判斷更為接近.至此,本文研究了以HowNet為語義詞典庫,來進(jìn)行語句語義相似度計(jì)算的所有細(xì)節(jié)以及最終的計(jì)算公式.

    3 實(shí)驗(yàn)及分析

    本文使用3種方法來對算法進(jìn)行比較分析.

    方法1:在計(jì)算詞語的相似度時(shí),僅使用How-Net概念表達(dá)式中的第一獨(dú)立義原.即sim(S1,S2)=sim1(p1,p2)=α/d+α,其中d是兩個(gè)義原之間的距離,α>0是可調(diào)節(jié)的參數(shù).

    方法2:劉群、李素建等[8]提出的一種詞語相似度計(jì)算方法,在計(jì)算時(shí)只考慮義原距離,未考慮義原深度.

    方法3:本文中介紹的改進(jìn)的計(jì)算方法.

    1)實(shí)驗(yàn)素材

    ①HowNet提供的詞庫文件glosarry.dat,義原樹狀結(jié)構(gòu)文件WHOLE.DAT.

    ②HowNet提供的一部分計(jì)算接口.

    ③反義詞、近義詞文件作為數(shù)據(jù)集.

    ④paoding中文分詞組件.

    ⑤1998年1月份的人民日報(bào)語料庫文件.

    2)參數(shù)設(shè)置

    方法1:α=1.6.

    方法2:α=1.6,β1=0.5,β2=0.19,β3=0.16,β4=0.15.

    方法3:α=0.125,β=0.956,λ=0.1,βi(i=1,2,3,4)取值同方法2.

    3.1 詞語相似度實(shí)驗(yàn)與分析

    利用上述3種方法,采用下載的常用中文反義詞120對,近義詞133對,對詞語進(jìn)行相似度計(jì)算.

    3.1.1 反義詞的相似度計(jì)算

    從表1中可得到,方法3中反義詞的相似度(Antonyms Similarity,簡稱AS)是最小的,同時(shí)通過對120對反義詞實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì),將相似度區(qū)間分為4個(gè),圖2顯示了在每個(gè)相似度區(qū)間取值時(shí),反義詞對的數(shù)量.圖中方法1,2,3中的4個(gè)立柱分別區(qū)間為1,[0.8,1),[0.5,0.8)和[0,0.5),從圖中可知,方法1和方法2在相似度大于0.5時(shí)分別有93對和91對反義詞,約占77.5%.方法3在同樣的區(qū)間段只有23對反義詞,約占19%,而且81%的詞語相似度小于0.5.圖中可直觀地看出方法3的計(jì)算結(jié)果是最合理的.

    表1 反義詞對相似度實(shí)驗(yàn)結(jié)果(節(jié)選)Tab.1 Antonyms similarity comparison

    3.1.2 近義詞的相似度計(jì)算

    圖2 反義詞對的實(shí)驗(yàn)數(shù)據(jù)柱狀圖比較Fig.2 The comparison of antonym

    圖3 近義詞對的實(shí)驗(yàn)數(shù)據(jù)柱狀圖比較Fig.3 The comparison of synonyms

    圖3更為直觀地顯示了在每個(gè)相似度區(qū)間中(區(qū)間表示如圖2)近義詞對的個(gè)數(shù).方法1和方法2中,相似度取值為1.0的近義詞分別有114對(占85.7%)和83對(占61.6%),而在[0.8,1.0]之間取值的詞對數(shù)量很少,只分別占0.15%和0.68%.對于方法3的計(jì)算結(jié)果,其計(jì)算結(jié)果為0.999的近義詞數(shù)為61對(占45.8%),而在[0.8,0.98]之間取值的詞對數(shù)為40(占30.1%),相對來說,方法1和方法2的結(jié)果中,大部分的近義詞對相似度(Synonyms Similarity,簡稱SYS)計(jì)算結(jié)果等于1.0,而方法3的值卻更為合理,雖然近義詞是意思相似或相近的詞語,但畢竟不是相同的詞語,計(jì)算結(jié)果等于1.0可以說明前兩種方法較粗糙.

    表2對近義詞對進(jìn)行了相似度比較,可以看出,方法3的相似度比較更符合人們的主觀判斷.

    從上述對反義詞和近義詞的詞語相似度對比可看出,3種方法中,本文中采用的方法計(jì)算結(jié)果比較合理,并且與人們的主觀判斷也較為契合.

    表2 近義詞對相似度實(shí)驗(yàn)結(jié)果(節(jié)選)Tab.2 Synonyms similarity comparison

    3.2 語句相似度實(shí)驗(yàn)與分析

    利用上述3種方法,測試了50對語句之間的語義相似度(Sematic Similarity,簡稱SES)值,部分結(jié)果如表3所示.

    表3 3種方法語句語義相似度實(shí)驗(yàn)結(jié)果對比(節(jié)選)Tab.3 Semantic similarity results of three methods

    由表3中測試句對的實(shí)驗(yàn)結(jié)果可以看出,方法1和方法2的計(jì)算結(jié)果都較為粗糙,對語義相差較大的語句計(jì)算得到的相似度的結(jié)果值偏高.而本文中改進(jìn)之后的方法,在計(jì)算語句相似度時(shí),其結(jié)果與人們的主觀判斷更為接近.這種比較合理化結(jié)果的重要原因在于計(jì)算語句相似度時(shí)引入了詞語的頻率函數(shù)作為權(quán)重,充分利用了語句中不同詞語的語義信息以及對語句相似度值的不同貢獻(xiàn)程度.

    同時(shí),本文利用上述3種方法中的50對語句,每對語句重復(fù)執(zhí)行100次相似度計(jì)算的過程,并記錄了每種方法所需要的時(shí)間,最后分別計(jì)算50對語句平均執(zhí)行100次的時(shí)間,圖4為時(shí)間柱狀圖,縱軸以s為單位,方法3每對語句執(zhí)行100次平均只需3.252s,很好地降低了算法前后所需的時(shí)間,提高了時(shí)間效率.

    圖4 3種算法時(shí)間復(fù)雜度對比Fig.4 Comparison of time complexity

    4 結(jié) 論

    本文以HowNet為語義詞典庫,介紹了How-Net中義原相似度計(jì)算、概念相似度計(jì)算以及詞語相似度計(jì)算的細(xì)節(jié)和公式.最終,以此為基礎(chǔ),研究了改進(jìn)的語句語義相似度計(jì)算.在對語句相似度算法改進(jìn)時(shí),將詞語在語料庫中的頻率函數(shù)作為權(quán)重系數(shù)加入到計(jì)算公式中.語料庫中詞語出現(xiàn)的頻率越大,對語句整體所起的作用越小,反之則越大,這個(gè)規(guī)律與人們?nèi)粘5挠^念也相符合.本文改進(jìn)的算法在一定程度上解決了目前基于HowNet的語句相似度算法中存在的計(jì)算結(jié)果不合理現(xiàn)象.最后,通過三種方法的對比實(shí)驗(yàn)證明,改進(jìn)后的語句相似度計(jì)算方法更合理.

    [1] ALIGULIYEV R M.A new sentence similarity measure and sentence based extractive technique for automatic text summarization[J].Expert Systems with Application,2009,36(4):7764-7772.

    [2] 涂承勝,魯明羽,陸玉昌.Web內(nèi)容挖掘技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究,2003,20(11):5-9.TU Cheng-sheng,LU Ming-yu,LU Yu-cang.Web content mining technology[J].Computer Application Research,2003,20(11):5-9.(In Chinese)

    [3] CHIANG J H,YU H C.Literature extraction of protein functions using sentence pattern mining[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(8):1088-1098.

    [4] KO Y,PARK J,SEO J.Improving text categorization using the importance of sentences[J].Information Processing and Management,2004,40:65-79.

    [5] LIN De-kang.An information-theoretic definition of similarity semantic distance in wordnet[C]//Proceedings of the Fifteenth International Conference on Machine Learning.1998:296-304.

    [6] 田久樂,趙蔚.基于同義詞詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào),2010,28(6):602-608.TIAN Jiu-le,ZHAO Wei.Words similarity algorithm based on tongyici cilin in semantic web adaptive learning system[J].Journal of Jilin University,2010,28(6):602-608.(In Chinese)

    [7] 車萬翔,劉挺,秦兵,等.基于改進(jìn)編輯距離的中文相似句子檢索[J].高技術(shù)通訊,2004(7):15-19.CHE Wang-xiang,LIU Ting,QIN Bing.Similar chinese sentence retrieval based on improved edit-distance[J].High Technology Letters,2004(7):15-19.(In Chinese)

    [8] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[C]//第三語義學(xué)研討會(huì)論文集.臺(tái)北:臺(tái)北中央研究院,2002:149-163.LIU Qun,LI Su-jian.How net-based lexical semantic similarity calculation[C]//Third Semantics Workshop Proceedings.Taipei:Academia Sinica,2002:149-163.(In Chinese)

    [9] AMINUL Islam,DIANA Inkpen.Semantic text similarity using corpus-based word similarity and string similarity[R].Ottawa,Canada:University of Ottawa,2008.

    [10]LIAO Zhi-ning,ZUHAIR A.Bandar,James D.O’Shea,Keeley Crockett.Term-based approach for semantic similarity of short texts[R].Manchester,England:Manchester Metropolitan University,2012.

    猜你喜歡
    度值近義詞反義詞
    探討公路項(xiàng)目路基連續(xù)壓實(shí)質(zhì)量檢測技術(shù)
    怎樣辨析近義詞
    認(rèn)識反義詞
    反義詞 大不同
    找找近義詞
    找找反義詞
    無線傳輸中短碼長噴泉碼的度分布優(yōu)化算法*
    微博網(wǎng)絡(luò)較大度值用戶特征分析
    科技傳播(2016年17期)2016-10-10 01:46:58
    不由分說
    不勞而獲
    在线观看一区二区三区| 80岁老熟妇乱子伦牲交| 99热这里只有是精品在线观看| 成人无遮挡网站| 亚洲婷婷狠狠爱综合网| 91久久精品国产一区二区成人| 久久久精品欧美日韩精品| 亚洲av免费在线观看| av.在线天堂| 99久久九九国产精品国产免费| 又爽又黄a免费视频| 成年免费大片在线观看| 在线免费十八禁| 美女cb高潮喷水在线观看| 亚洲欧美日韩卡通动漫| 国产精品三级大全| 国产精品国产三级国产av玫瑰| 欧美激情久久久久久爽电影| 日韩电影二区| 精品久久久久久久人妻蜜臀av| 青春草视频在线免费观看| 国产日韩欧美在线精品| 免费黄网站久久成人精品| 高清毛片免费看| 男人狂女人下面高潮的视频| 日本黄色片子视频| 成人亚洲精品av一区二区| 又爽又黄a免费视频| 国产色婷婷99| 亚洲精品一二三| 亚洲国产日韩一区二区| 精品人妻一区二区三区麻豆| 国产一级毛片在线| 一区二区av电影网| 精品人妻熟女av久视频| freevideosex欧美| 国产一区二区三区综合在线观看 | 国产精品福利在线免费观看| 熟女电影av网| 国产老妇女一区| 成年女人看的毛片在线观看| 成人毛片60女人毛片免费| 91久久精品电影网| 亚洲av国产av综合av卡| 国产一区二区三区av在线| 亚洲自拍偷在线| 美女主播在线视频| av播播在线观看一区| 精品久久久久久久久亚洲| 男女下面进入的视频免费午夜| 欧美精品人与动牲交sv欧美| 精品人妻偷拍中文字幕| 黄色一级大片看看| av福利片在线观看| 精品酒店卫生间| 黄色配什么色好看| 成人高潮视频无遮挡免费网站| 大香蕉久久网| 网址你懂的国产日韩在线| 欧美最新免费一区二区三区| 精品熟女少妇av免费看| 亚洲精品久久久久久婷婷小说| 身体一侧抽搐| 看十八女毛片水多多多| 五月开心婷婷网| 99视频精品全部免费 在线| 夫妻性生交免费视频一级片| 人人妻人人澡人人爽人人夜夜| 国产男女超爽视频在线观看| 大陆偷拍与自拍| 色网站视频免费| 寂寞人妻少妇视频99o| 亚洲精品久久久久久婷婷小说| 国产高潮美女av| 日韩欧美 国产精品| 神马国产精品三级电影在线观看| 自拍偷自拍亚洲精品老妇| 黄片wwwwww| 搡女人真爽免费视频火全软件| 黄片wwwwww| 久久久久久伊人网av| 国产成年人精品一区二区| 国产男女内射视频| 天天一区二区日本电影三级| 国产淫语在线视频| 亚洲国产日韩一区二区| 两个人的视频大全免费| 欧美日韩视频精品一区| 99久久精品热视频| 大片电影免费在线观看免费| 国产亚洲最大av| 91久久精品国产一区二区三区| 青春草亚洲视频在线观看| 99久久中文字幕三级久久日本| 色吧在线观看| 精品一区二区免费观看| 亚州av有码| 成人特级av手机在线观看| 超碰av人人做人人爽久久| 在线观看美女被高潮喷水网站| 亚洲最大成人av| 一区二区三区四区激情视频| 久久精品久久精品一区二区三区| 在线观看美女被高潮喷水网站| 国产高清有码在线观看视频| av国产久精品久网站免费入址| 一二三四中文在线观看免费高清| 久久韩国三级中文字幕| 国产在视频线精品| 成年人午夜在线观看视频| 精品久久久精品久久久| 国产精品久久久久久精品电影小说 | 一个人看视频在线观看www免费| 免费看光身美女| 国产精品.久久久| 亚洲第一区二区三区不卡| 国产黄色免费在线视频| 美女主播在线视频| 国产成人精品婷婷| 国产免费视频播放在线视频| 老司机影院成人| 少妇人妻精品综合一区二区| 美女高潮的动态| 免费黄网站久久成人精品| 又爽又黄a免费视频| 国产色婷婷99| 亚洲精品一二三| 国产毛片a区久久久久| 熟女电影av网| 日韩av在线免费看完整版不卡| 免费高清在线观看视频在线观看| 国产成人91sexporn| 色哟哟·www| 激情五月婷婷亚洲| 观看美女的网站| 最后的刺客免费高清国语| 少妇人妻精品综合一区二区| 热re99久久精品国产66热6| 中文在线观看免费www的网站| 国产在线男女| 五月开心婷婷网| 人妻夜夜爽99麻豆av| 2021天堂中文幕一二区在线观| 亚洲精品日韩在线中文字幕| 久久99蜜桃精品久久| 成人黄色视频免费在线看| 少妇人妻 视频| 国产成人福利小说| 欧美性猛交╳xxx乱大交人| 六月丁香七月| 中文乱码字字幕精品一区二区三区| 99热全是精品| 狠狠精品人妻久久久久久综合| 在线观看一区二区三区激情| 国产精品99久久久久久久久| 精品国产露脸久久av麻豆| 91aial.com中文字幕在线观看| 自拍欧美九色日韩亚洲蝌蚪91 | 国产精品一区二区三区四区免费观看| 国产精品久久久久久久电影| 久久久午夜欧美精品| 搡女人真爽免费视频火全软件| 亚洲国产欧美人成| 精品久久久久久久末码| 美女高潮的动态| 久久久久久久大尺度免费视频| videos熟女内射| 看黄色毛片网站| 美女脱内裤让男人舔精品视频| 亚洲精品日韩在线中文字幕| 国产精品久久久久久精品电影| 国国产精品蜜臀av免费| 在线观看免费高清a一片| 亚洲精品日本国产第一区| 免费看日本二区| 男人添女人高潮全过程视频| 国产毛片a区久久久久| 成人毛片60女人毛片免费| 亚洲精品成人久久久久久| 有码 亚洲区| 插阴视频在线观看视频| 超碰97精品在线观看| 日韩电影二区| 老司机影院毛片| 天天躁夜夜躁狠狠久久av| 九九久久精品国产亚洲av麻豆| 男女边吃奶边做爰视频| 卡戴珊不雅视频在线播放| 99热全是精品| 久久人人爽av亚洲精品天堂 | 精品久久久久久久末码| 免费在线观看成人毛片| 国产高清三级在线| 五月开心婷婷网| 亚洲av欧美aⅴ国产| 一区二区av电影网| 久久精品综合一区二区三区| 男插女下体视频免费在线播放| 国产精品蜜桃在线观看| 18+在线观看网站| 亚洲第一区二区三区不卡| 日韩中字成人| 激情五月婷婷亚洲| 国产亚洲av嫩草精品影院| 亚洲精品国产av蜜桃| 国产精品国产av在线观看| 国产精品久久久久久久电影| 26uuu在线亚洲综合色| 一级毛片电影观看| 午夜福利视频1000在线观看| 国产精品一二三区在线看| 最近最新中文字幕大全电影3| 国产精品人妻久久久久久| 国产精品一区二区在线观看99| freevideosex欧美| 777米奇影视久久| 国产av国产精品国产| 久久久久国产精品人妻一区二区| 午夜爱爱视频在线播放| 色视频www国产| 久久这里有精品视频免费| 国产熟女欧美一区二区| 国产精品偷伦视频观看了| 九色成人免费人妻av| 亚洲精品影视一区二区三区av| 欧美丝袜亚洲另类| 欧美成人精品欧美一级黄| 亚洲国产精品国产精品| 亚洲性久久影院| 天天躁夜夜躁狠狠久久av| 亚洲精品色激情综合| 亚洲色图综合在线观看| 日韩一区二区三区影片| 亚洲丝袜综合中文字幕| 久久久久久九九精品二区国产| 最近最新中文字幕免费大全7| av在线播放精品| 建设人人有责人人尽责人人享有的 | eeuss影院久久| 午夜激情久久久久久久| 18禁在线无遮挡免费观看视频| 亚洲国产成人一精品久久久| 波多野结衣巨乳人妻| 国产成人精品久久久久久| 最新中文字幕久久久久| 国产高清国产精品国产三级 | 午夜福利视频1000在线观看| 亚洲美女搞黄在线观看| 欧美激情久久久久久爽电影| 日本午夜av视频| 一级毛片久久久久久久久女| 午夜激情福利司机影院| 亚洲人成网站高清观看| 五月开心婷婷网| 最新中文字幕久久久久| 观看美女的网站| 最近的中文字幕免费完整| 国产欧美日韩精品一区二区| 国内精品美女久久久久久| 成人国产av品久久久| 色视频在线一区二区三区| videossex国产| 新久久久久国产一级毛片| 国产毛片a区久久久久| 自拍偷自拍亚洲精品老妇| 欧美国产精品一级二级三级 | 欧美亚洲 丝袜 人妻 在线| 中文精品一卡2卡3卡4更新| 六月丁香七月| 日本三级黄在线观看| 国产精品一区二区在线观看99| 少妇被粗大猛烈的视频| 国产免费视频播放在线视频| 一级av片app| 日韩欧美一区视频在线观看 | 在线 av 中文字幕| 欧美 日韩 精品 国产| 国产一区二区三区综合在线观看 | 干丝袜人妻中文字幕| 男女无遮挡免费网站观看| 日韩欧美 国产精品| 一边亲一边摸免费视频| 国产精品熟女久久久久浪| 男女那种视频在线观看| 日本免费在线观看一区| 99久久中文字幕三级久久日本| 在线观看免费高清a一片| 超碰97精品在线观看| 亚洲性久久影院| 亚洲一区二区三区欧美精品 | tube8黄色片| 99视频精品全部免费 在线| 亚洲精品乱久久久久久| 国产亚洲av嫩草精品影院| h日本视频在线播放| 国产精品成人在线| 亚洲精品国产成人久久av| 好男人在线观看高清免费视频| 国产成人a区在线观看| 午夜福利网站1000一区二区三区| 丰满人妻一区二区三区视频av| 美女内射精品一级片tv| 欧美日韩亚洲高清精品| 99久久九九国产精品国产免费| 国内揄拍国产精品人妻在线| 国产综合精华液| 免费看av在线观看网站| 91精品一卡2卡3卡4卡| 蜜臀久久99精品久久宅男| 一级毛片久久久久久久久女| 成人亚洲精品av一区二区| av天堂中文字幕网| 国产成人91sexporn| 禁无遮挡网站| 直男gayav资源| 亚洲色图av天堂| 色吧在线观看| 日本一二三区视频观看| 国产精品麻豆人妻色哟哟久久| 美女脱内裤让男人舔精品视频| 18禁裸乳无遮挡动漫免费视频 | 特级一级黄色大片| 少妇丰满av| 女人十人毛片免费观看3o分钟| 丝袜喷水一区| 午夜福利网站1000一区二区三区| 激情五月婷婷亚洲| 国产v大片淫在线免费观看| 免费大片黄手机在线观看| 亚洲怡红院男人天堂| 99久久精品国产国产毛片| 欧美潮喷喷水| 国产午夜精品久久久久久一区二区三区| 视频中文字幕在线观看| 亚洲人成网站在线播| 国产高清不卡午夜福利| 日韩三级伦理在线观看| 国产人妻一区二区三区在| 国产精品不卡视频一区二区| 免费观看a级毛片全部| 一本久久精品| 午夜免费观看性视频| av在线观看视频网站免费| 69人妻影院| 午夜精品国产一区二区电影 | 免费观看a级毛片全部| 国产成人免费无遮挡视频| 久久久a久久爽久久v久久| av网站免费在线观看视频| 久久99热这里只频精品6学生| 18禁动态无遮挡网站| 国产有黄有色有爽视频| 午夜激情久久久久久久| 欧美xxxx性猛交bbbb| 联通29元200g的流量卡| 婷婷色麻豆天堂久久| 国产av国产精品国产| 老师上课跳d突然被开到最大视频| 高清午夜精品一区二区三区| 亚洲内射少妇av| 亚洲成人一二三区av| 99精国产麻豆久久婷婷| 欧美性猛交╳xxx乱大交人| 久久精品国产鲁丝片午夜精品| 国产爱豆传媒在线观看| 中国国产av一级| 99热6这里只有精品| 特级一级黄色大片| 我的女老师完整版在线观看| 美女cb高潮喷水在线观看| 午夜视频国产福利| 欧美日韩精品成人综合77777| 能在线免费看毛片的网站| 久热这里只有精品99| 欧美bdsm另类| 禁无遮挡网站| 91狼人影院| 免费电影在线观看免费观看| 少妇 在线观看| 精品酒店卫生间| 五月玫瑰六月丁香| 久久精品久久久久久久性| 国产男女超爽视频在线观看| 精品午夜福利在线看| 韩国高清视频一区二区三区| 国产男女超爽视频在线观看| 麻豆国产97在线/欧美| 久久久久国产精品人妻一区二区| 天天一区二区日本电影三级| 国产精品人妻久久久影院| 午夜激情福利司机影院| 国产精品.久久久| 麻豆国产97在线/欧美| 女的被弄到高潮叫床怎么办| 人人妻人人澡人人爽人人夜夜| 欧美另类一区| 九九爱精品视频在线观看| 国产爱豆传媒在线观看| 一二三四中文在线观看免费高清| 欧美潮喷喷水| 免费播放大片免费观看视频在线观看| 一本一本综合久久| 欧美日本视频| 亚洲综合色惰| 黄色视频在线播放观看不卡| 黄色配什么色好看| 国产成年人精品一区二区| 水蜜桃什么品种好| 不卡视频在线观看欧美| 99久久中文字幕三级久久日本| 99热这里只有是精品在线观看| 久久久久久久久久人人人人人人| 男女边吃奶边做爰视频| 极品教师在线视频| av在线蜜桃| 午夜福利视频精品| 久热这里只有精品99| 久久精品久久久久久噜噜老黄| 久久久久网色| 国产成人精品福利久久| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 欧美日韩亚洲高清精品| 日本黄大片高清| 色视频在线一区二区三区| 老女人水多毛片| 亚洲精品,欧美精品| 婷婷色综合www| 国产伦理片在线播放av一区| 搡女人真爽免费视频火全软件| 国产精品一区www在线观看| 黄色日韩在线| 激情五月婷婷亚洲| 中文字幕免费在线视频6| 午夜福利在线观看免费完整高清在| 欧美一区二区亚洲| 国产日韩欧美亚洲二区| 亚洲精品,欧美精品| 爱豆传媒免费全集在线观看| 下体分泌物呈黄色| 国产白丝娇喘喷水9色精品| 久久久久久久午夜电影| 蜜桃久久精品国产亚洲av| 日产精品乱码卡一卡2卡三| 欧美日韩国产mv在线观看视频 | 国产淫语在线视频| 寂寞人妻少妇视频99o| av在线播放精品| 小蜜桃在线观看免费完整版高清| 国产精品av视频在线免费观看| 欧美xxxx性猛交bbbb| 欧美日韩综合久久久久久| 亚洲av一区综合| 国产成人精品一,二区| 五月伊人婷婷丁香| 人妻系列 视频| 成人亚洲欧美一区二区av| 中国国产av一级| 精品一区二区三卡| 精品国产三级普通话版| 国产视频内射| 人妻夜夜爽99麻豆av| 六月丁香七月| 国产精品一区二区三区四区免费观看| 激情 狠狠 欧美| 国产高清三级在线| 26uuu在线亚洲综合色| 久久99热6这里只有精品| 身体一侧抽搐| 丰满少妇做爰视频| 伦理电影大哥的女人| 在线观看国产h片| 在线观看一区二区三区激情| 久热这里只有精品99| 18禁裸乳无遮挡动漫免费视频 | 亚洲av国产av综合av卡| 国产亚洲精品久久久com| 大香蕉久久网| 成人漫画全彩无遮挡| 欧美潮喷喷水| 国产成人91sexporn| 免费看日本二区| 神马国产精品三级电影在线观看| 日韩亚洲欧美综合| 三级男女做爰猛烈吃奶摸视频| 视频中文字幕在线观看| 精品视频人人做人人爽| 一级毛片 在线播放| 亚洲图色成人| 91aial.com中文字幕在线观看| 国产精品99久久99久久久不卡 | 亚洲国产成人一精品久久久| 91午夜精品亚洲一区二区三区| 一本久久精品| 亚洲色图av天堂| 精品少妇久久久久久888优播| 看黄色毛片网站| 少妇的逼好多水| av黄色大香蕉| 精品久久久久久久久亚洲| 麻豆乱淫一区二区| 日韩av不卡免费在线播放| 禁无遮挡网站| 欧美日韩综合久久久久久| 欧美zozozo另类| 亚洲在久久综合| 嫩草影院精品99| 日本一本二区三区精品| 美女国产视频在线观看| 欧美高清性xxxxhd video| 国产 一区精品| 性色av一级| 日韩av在线免费看完整版不卡| av女优亚洲男人天堂| 欧美三级亚洲精品| 亚洲国产最新在线播放| 成人免费观看视频高清| 亚洲,一卡二卡三卡| 伦精品一区二区三区| 亚洲最大成人av| 久久这里有精品视频免费| 国产成人福利小说| 国产成人精品一,二区| 久久久久久久久大av| 国产日韩欧美亚洲二区| 国产精品秋霞免费鲁丝片| 欧美高清性xxxxhd video| 免费播放大片免费观看视频在线观看| 欧美 日韩 精品 国产| 国产午夜精品久久久久久一区二区三区| 人妻系列 视频| 日日啪夜夜撸| 一级黄片播放器| 亚洲精品日韩在线中文字幕| 男插女下体视频免费在线播放| av天堂中文字幕网| 卡戴珊不雅视频在线播放| 九草在线视频观看| 免费观看性生交大片5| 日日摸夜夜添夜夜添av毛片| 国产亚洲午夜精品一区二区久久 | 亚洲一级一片aⅴ在线观看| 日日啪夜夜爽| 搡女人真爽免费视频火全软件| 九九爱精品视频在线观看| 精品国产乱码久久久久久小说| 欧美3d第一页| 免费看a级黄色片| 日本黄色片子视频| 自拍偷自拍亚洲精品老妇| 人妻系列 视频| 亚洲欧美精品专区久久| 久久精品久久久久久久性| 亚洲精品视频女| 国产精品99久久99久久久不卡 | 亚洲综合色惰| 秋霞在线观看毛片| 插逼视频在线观看| 国产黄片视频在线免费观看| 可以在线观看毛片的网站| 日韩精品有码人妻一区| 国内精品宾馆在线| .国产精品久久| av卡一久久| 白带黄色成豆腐渣| 国产精品久久久久久av不卡| 波野结衣二区三区在线| 国产成人免费无遮挡视频| 国产黄片美女视频| 成人无遮挡网站| 一级毛片黄色毛片免费观看视频| 美女cb高潮喷水在线观看| 夜夜看夜夜爽夜夜摸| 国产亚洲精品久久久com| 永久免费av网站大全| 最近2019中文字幕mv第一页| 精品人妻偷拍中文字幕| 三级国产精品片| av播播在线观看一区| 亚洲国产成人一精品久久久| 99热国产这里只有精品6| 久久精品国产a三级三级三级| 免费av毛片视频| 国产精品麻豆人妻色哟哟久久| 午夜激情久久久久久久| a级一级毛片免费在线观看| 成人特级av手机在线观看| 小蜜桃在线观看免费完整版高清| 99九九线精品视频在线观看视频| 国产毛片在线视频| 天美传媒精品一区二区| 色综合色国产| 亚洲婷婷狠狠爱综合网| 欧美区成人在线视频| 亚洲av免费高清在线观看| av在线蜜桃| 最近的中文字幕免费完整| 国产亚洲5aaaaa淫片| 欧美日韩亚洲高清精品| 国产精品av视频在线免费观看| 国产一区有黄有色的免费视频| 亚洲内射少妇av| 尾随美女入室| 女人十人毛片免费观看3o分钟| 国产黄片美女视频| 国产在视频线精品| 国产高潮美女av| 三级国产精品片| 精品国产乱码久久久久久小说| 精品亚洲乱码少妇综合久久| 五月玫瑰六月丁香| 午夜免费男女啪啪视频观看| 啦啦啦中文免费视频观看日本| 欧美最新免费一区二区三区| 大香蕉97超碰在线| 精品人妻偷拍中文字幕|