• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中文短文本語(yǔ)法語(yǔ)義相似度算法*

      2016-04-25 08:29:21廖志芳周?chē)?guó)恩李俊鋒
      關(guān)鍵詞:語(yǔ)義分析語(yǔ)料庫(kù)

      廖志芳,周?chē)?guó)恩,李俊鋒,劉 飛,蔡 飛

      (1. 中南大學(xué) 軟件學(xué)院, 湖南 長(zhǎng)沙 410075; 2. 中南大學(xué) 信息科學(xué)與工程學(xué)院, 湖南 長(zhǎng)沙 410075)

      ?

      中文短文本語(yǔ)法語(yǔ)義相似度算法*

      廖志芳1?,周?chē)?guó)恩1,李俊鋒2,劉飛1,蔡飛1

      (1. 中南大學(xué) 軟件學(xué)院, 湖南 長(zhǎng)沙410075; 2. 中南大學(xué) 信息科學(xué)與工程學(xué)院, 湖南 長(zhǎng)沙410075)

      摘要:通過(guò)分析中文短文本的特征,提出了一種基于語(yǔ)法語(yǔ)義的短文本相似度算法.該算法結(jié)合中文語(yǔ)句語(yǔ)義的相似性以及語(yǔ)句語(yǔ)法的相似性,即計(jì)算具有相同句法結(jié)構(gòu)的短文本的相似度以及考慮語(yǔ)句詞組順序?qū)ο嗨贫鹊呢暙I(xiàn),對(duì)中文短文本相似度進(jìn)行計(jì)算.實(shí)驗(yàn)表明,本文提出的算法在中文短文本相似度計(jì)算結(jié)果上更加接近人們的主觀判斷并且擁有比較好的精確率與召回率.

      關(guān)鍵詞:語(yǔ)法語(yǔ)義相似度;語(yǔ)句相似性計(jì)算;HowNet;語(yǔ)料庫(kù);語(yǔ)法分析;語(yǔ)義分析;相似度計(jì)算

      短文本相似度計(jì)算在文章查重、信息檢索、圖像檢索、智能機(jī)器問(wèn)答、詞義消歧和搜索引擎等多個(gè)領(lǐng)域有著非常廣泛的應(yīng)用[1],并在英文處理方面取得了許多實(shí)質(zhì)性的成果,如機(jī)器人語(yǔ)音對(duì)話系統(tǒng)等.但是在中文信息處理中存在一些困難,例如未登錄詞識(shí)別問(wèn)題、語(yǔ)法結(jié)構(gòu)復(fù)雜和一詞多義等[2].為此本文主要研究中文短文本(語(yǔ)句)相似度計(jì)算方法,并提高計(jì)算結(jié)果的精確度.

      短文本相似度表示的是多個(gè)短文本(語(yǔ)句)之間的相似程度,屬于一種度量參數(shù),相似度值越高,則表明文本間越相似,反之越不相似[3].文本相似度包括語(yǔ)義和語(yǔ)法等方面,但是在實(shí)際中主要考慮語(yǔ)義層次的相似性,往往忽略了文本的語(yǔ)法結(jié)構(gòu)對(duì)文本相似度的重要影響.大量的研究證明短文本的語(yǔ)法結(jié)構(gòu)對(duì)相似性的影響是非常重要的[4],但是當(dāng)前基于HowNet[5]的中文短文本相似度計(jì)算大都是分析文本的語(yǔ)義層次的相似性,這樣就會(huì)導(dǎo)致計(jì)算結(jié)果的精確度和召回率都不高,為了提高相似度計(jì)算的精確度和召回率,本文以HowNet為語(yǔ)料庫(kù)和Stanford[6]為語(yǔ)法解析工具,在中文短文本的語(yǔ)義信息基礎(chǔ)上加入了文本的語(yǔ)法結(jié)構(gòu)信息來(lái)研究短文本相似度計(jì)算.

      1語(yǔ)句相似度計(jì)算

      HowNet主要揭示了概念間關(guān)系及概念的屬性間的關(guān)系,有關(guān)HowNet詳細(xì)介紹可見(jiàn)參考文獻(xiàn)[2],在此不贅述.

      義原距離定義為兩個(gè)義原間最短路徑上邊的數(shù)目[7].義原距離反映的是兩個(gè)義原的相對(duì)關(guān)系,距離越大,則表明兩者相似性越低,反之則越高.義原深度定義為兩個(gè)義原的最近公共父節(jié)點(diǎn)到根節(jié)點(diǎn)的層次數(shù).義原深度反映的是兩個(gè)義原在義原層次結(jié)構(gòu)中的絕對(duì)關(guān)系,深度越小,表明兩者越不相似,反之則越相似.

      兩個(gè)義原間的相似度用s(p1,p2)如文獻(xiàn)[2]中的表示方法,即:

      s(p1,p2)=f1(l)·f2(h).

      (1)

      通過(guò)義原間的相似度來(lái)計(jì)算得到概念間的相似度,概念的相似度實(shí)現(xiàn)過(guò)程及計(jì)算公式的分析如文獻(xiàn)[2]所述,在此僅列出其計(jì)算公式,用s(S1,S2)來(lái)表示,S1,S2代表兩個(gè)概念,則:

      (2)

      HowNet中的詞語(yǔ)一般由若干個(gè)概念來(lái)進(jìn)行描述,所以一般可以通過(guò)概念相似度來(lái)計(jì)算詞語(yǔ)的相似度[2].詞語(yǔ)相似度可以定義如下:

      (3)

      公式(3)的詳細(xì)分析過(guò)程見(jiàn)文獻(xiàn)[2],此處不再重復(fù)描述.

      可根據(jù)詞語(yǔ)相似度計(jì)算來(lái)獲得語(yǔ)句間的相似度,其詳細(xì)分析過(guò)程詳見(jiàn)文獻(xiàn)[2],此處僅列出計(jì)算公式,如下所示:

      (4)

      2基于語(yǔ)法語(yǔ)義的相似度計(jì)算

      目前基于中文短文本的相似度算法中,大多數(shù)研究者著眼于語(yǔ)句的語(yǔ)義層次,然而組成一個(gè)語(yǔ)句的不單單是詞語(yǔ)本身的語(yǔ)義含義,還包括語(yǔ)法結(jié)構(gòu),例如一個(gè)句子包含不同的句法和詞語(yǔ)順序[8]等.

      最近大量實(shí)驗(yàn)證明語(yǔ)句的語(yǔ)法結(jié)構(gòu)對(duì)相似度有著重要的影響,不能忽視[4].例如,“今天我追趕了一只狗.”和“一只狗今天追趕了我.”這兩個(gè)語(yǔ)句根據(jù)人的主觀判斷,是兩種相反的意思,可是目前絕大多數(shù)相似度算法中這兩個(gè)語(yǔ)句的相似度值是極其高的,甚至是1,即完全一樣,這顯然不合適.忽視了語(yǔ)句的語(yǔ)法信息,其計(jì)算結(jié)果往往缺乏合理性.

      本文對(duì)中文語(yǔ)句的相似度算法進(jìn)行改進(jìn),在計(jì)算相似度的時(shí)候,不但考慮語(yǔ)義信息,還將語(yǔ)句的語(yǔ)法結(jié)構(gòu)加進(jìn)來(lái).本文涉及的語(yǔ)法結(jié)構(gòu)主要從3方面來(lái)進(jìn)行考慮:

      1)具有相同語(yǔ)法結(jié)構(gòu)的詞語(yǔ)集合間的相似度;

      2)兩個(gè)語(yǔ)句中所包含的語(yǔ)法結(jié)構(gòu)的相似性;

      3)經(jīng)過(guò)分詞后的詞組在語(yǔ)句中出現(xiàn)的位置的相似性.

      為了解決目前中文領(lǐng)域大多數(shù)短文本相似度計(jì)算僅僅涉及語(yǔ)句語(yǔ)義特性的缺陷,本文結(jié)合語(yǔ)句的語(yǔ)義特性和語(yǔ)法特性,進(jìn)行短文本的相似度計(jì)算.

      2.1語(yǔ)法結(jié)構(gòu)的提取

      要對(duì)語(yǔ)句的語(yǔ)法結(jié)構(gòu)進(jìn)行提取與分析,首先需要對(duì)語(yǔ)句進(jìn)行分詞.本文使用Ictclas4j分詞工具,該工具是Sinboy在中科院張華平和劉群研制的FreeICTCLAS的基礎(chǔ)上完成的一個(gè)開(kāi)源中文分詞項(xiàng)目.同時(shí)使用Stanford[6]工具進(jìn)行語(yǔ)法解析,該工具是由Stanford NLP Group開(kāi)發(fā)的開(kāi)源工具.

      對(duì)于某一中文語(yǔ)句,經(jīng)過(guò)語(yǔ)法工具分析后,能夠得到某個(gè)詞語(yǔ)的具體詞性,斜杠后面表示的就是該詞語(yǔ)的具體詞性,如圖1所示.

      圖1Stanford分析結(jié)果

      Fig.1Stanford analytical result

      但是,僅僅知道詞語(yǔ)的具體詞性是不夠的,具體的詞性代表的是詞語(yǔ)的特性,并不表示一個(gè)語(yǔ)句的結(jié)構(gòu)組成,我們需要從中提取出語(yǔ)句的語(yǔ)法結(jié)構(gòu),例如簡(jiǎn)單從句、名詞性從句和動(dòng)詞短語(yǔ)等,然后把相應(yīng)的詞語(yǔ)或短語(yǔ)歸類(lèi)到語(yǔ)法結(jié)構(gòu)集合中.

      本文通過(guò)分析漢語(yǔ)語(yǔ)法結(jié)構(gòu)的多樣性及詞語(yǔ)的具體詞性,提出一種新的語(yǔ)句語(yǔ)法結(jié)構(gòu)的提取方法,提取過(guò)程如下:

      1)使用Ictclas4j與Stanford對(duì)語(yǔ)句進(jìn)行分詞處理以及語(yǔ)法解析,得到最基本的詞語(yǔ)或短語(yǔ)的詞性標(biāo)注.

      2)進(jìn)一步分析以上獲得的結(jié)果,通過(guò)逐層解析以及句法樹(shù)分析的方式把已經(jīng)標(biāo)注好語(yǔ)法詞性的詞語(yǔ)或短語(yǔ)進(jìn)行抽取與歸納,抽取出語(yǔ)句的組成結(jié)構(gòu)類(lèi)型,例如簡(jiǎn)單從句類(lèi)型和動(dòng)詞短語(yǔ)類(lèi)型等.

      3)最后把具有相同語(yǔ)法結(jié)構(gòu)類(lèi)型的詞語(yǔ)或短句存放在相應(yīng)結(jié)構(gòu)類(lèi)型的集合中,形成不同的語(yǔ)法結(jié)構(gòu)集合,例如簡(jiǎn)單從句類(lèi)型集合、名詞性從句類(lèi)型集合和動(dòng)詞短語(yǔ)類(lèi)型集合等,實(shí)現(xiàn)對(duì)語(yǔ)句的語(yǔ)法組成結(jié)構(gòu)的分析.

      通過(guò)使用上述語(yǔ)句語(yǔ)法結(jié)構(gòu)提取方法進(jìn)行語(yǔ)句語(yǔ)法處理,提取出語(yǔ)句的語(yǔ)法結(jié)構(gòu)以及相應(yīng)所包含的詞組,如圖2所示.

      圖2本文提取出的語(yǔ)句語(yǔ)法結(jié)構(gòu)

      Fig.2The grammatical structure of sentence

      與圖1相比較,我們發(fā)現(xiàn)一個(gè)中文語(yǔ)句經(jīng)過(guò)語(yǔ)法結(jié)構(gòu)提取后,可以得到該語(yǔ)句的結(jié)構(gòu)組成,例如動(dòng)詞性短語(yǔ)和介詞性短語(yǔ)等,相比于圖1中單個(gè)詞語(yǔ)的詞性標(biāo)注,能夠得到語(yǔ)句的語(yǔ)法結(jié)構(gòu)組成,更加有利于對(duì)中文語(yǔ)句語(yǔ)法語(yǔ)義相似度的研究.因?yàn)檠芯空Z(yǔ)句的語(yǔ)法結(jié)構(gòu)時(shí),我們更加傾向于研究其整體的結(jié)構(gòu)類(lèi)型組成,而不是單單某個(gè)詞語(yǔ).

      中文語(yǔ)句句法結(jié)構(gòu)類(lèi)型部分見(jiàn)表1.

      表1 中文語(yǔ)句句法結(jié)構(gòu)類(lèi)型分類(lèi)(節(jié)選)

      2.2語(yǔ)句句法結(jié)構(gòu)類(lèi)型相似度計(jì)算

      經(jīng)過(guò)語(yǔ)句語(yǔ)法結(jié)構(gòu)提取方法分析后,每個(gè)語(yǔ)句都被切分成若干個(gè)結(jié)構(gòu)類(lèi)型,例如有的包含名詞性短語(yǔ)和動(dòng)詞性短語(yǔ)等,有的卻包括簡(jiǎn)單從句、名詞性短語(yǔ)和副詞短語(yǔ)等.

      語(yǔ)句語(yǔ)法結(jié)構(gòu)類(lèi)型相似度計(jì)算思想就是計(jì)算兩個(gè)語(yǔ)句中含有相同結(jié)構(gòu)類(lèi)型的個(gè)數(shù)與所有結(jié)構(gòu)類(lèi)型的個(gè)數(shù)的比值.該比值反映了兩個(gè)語(yǔ)句在句法結(jié)構(gòu)上的相似性.

      定義1假設(shè)語(yǔ)句Sen1包含m個(gè)不同的句法結(jié)構(gòu)類(lèi)型,分別為ST11,ST12,…,ST1m,Sen2包含n個(gè)不同的句法結(jié)構(gòu)類(lèi)型,分別為ST21,ST22,…,ST2n,則句法結(jié)構(gòu)上的相似度sst計(jì)算公式如下:

      (5)

      其中sameCount表示兩個(gè)語(yǔ)句中含有相同句法架構(gòu)類(lèi)型的個(gè)數(shù).

      2.3語(yǔ)句詞組位置相似度計(jì)算

      中文語(yǔ)句中詞組的位置對(duì)短文本間的相似性有著重要影響,所以需要計(jì)算詞組位置的相似度[8].

      本文中采用的方法不是以單個(gè)漢字為基本單位,而是以經(jīng)過(guò)分詞后的詞組為單位,因?yàn)閱蝹€(gè)漢字包含的信息太少,詞組能夠反映更多的信息,所以以詞組為單位計(jì)算詞組位置的相似度更加合理.

      本文計(jì)算語(yǔ)句詞組位置相似度的方法如下:

      1)對(duì)語(yǔ)句Sen1和Sen2分別進(jìn)行分詞,分別得到若干個(gè)詞組或短語(yǔ),記為向量T1和T2,分別含有s和t個(gè)詞組,每個(gè)位置上的詞組分別為T(mén)11,T12,…,T1s和T21,T22,…,T2t.

      2)通過(guò)T1和T2,得到它們的并集T,且包含k個(gè)詞組.

      3)對(duì)于T中的每個(gè)詞組Ti,查找在T1中與之相同或含義最相近的詞組,預(yù)先設(shè)定的相似度閾值為thresholdVale,記下該詞組在T1中的下標(biāo)j,然后構(gòu)建詞組位置向量R1,令R1i=j;同理構(gòu)建向量R2.

      4)通過(guò)R1和R2計(jì)算語(yǔ)句詞組位置相似度sp.

      定義2假設(shè)語(yǔ)句Sen1和Sen2經(jīng)過(guò)分詞后分別得到若干個(gè)詞組或短語(yǔ)向量,記為T(mén)1和T2,向量T為T(mén)1和T2的并集,T1和T2對(duì)應(yīng)于T的詞組位置向量分別為R1和R2.則語(yǔ)句詞組位置相似度計(jì)算見(jiàn)式(6).

      (6)

      2.4基于語(yǔ)法結(jié)構(gòu)的語(yǔ)句語(yǔ)義相似度計(jì)算

      目前絕大多數(shù)的中文語(yǔ)句相似度計(jì)算方法都是根據(jù)第一個(gè)語(yǔ)句中的每個(gè)詞語(yǔ)分別和第二個(gè)語(yǔ)句中的每對(duì)詞語(yǔ)計(jì)算相似度,取最大值作為第一個(gè)語(yǔ)句中的那個(gè)詞語(yǔ)對(duì)第二個(gè)語(yǔ)句的相似度,然后第一個(gè)語(yǔ)句中每個(gè)詞語(yǔ)都這樣計(jì)算,最后取所有相似度值的均值作為第一個(gè)語(yǔ)句對(duì)第二個(gè)語(yǔ)句的相似度.

      上述的方法完全依靠語(yǔ)義信息,而忽視了語(yǔ)法結(jié)構(gòu)信息,計(jì)算結(jié)果都不太理想,因此本文把語(yǔ)法結(jié)構(gòu)信息加入計(jì)算中,即計(jì)算具有相同語(yǔ)法結(jié)構(gòu)類(lèi)型的詞組間的相似度,綜合了語(yǔ)法和語(yǔ)義兩大方面.

      定義3假設(shè)兩個(gè)語(yǔ)句Sen1和Sen2,Sen1包含m個(gè)不同的語(yǔ)法結(jié)構(gòu)類(lèi)型,分別為ST11,ST12,…,ST1m,Sen2包含n個(gè)不同的語(yǔ)法結(jié)構(gòu)類(lèi)型,分別為ST21,ST22,…,ST2n,其中具有相同語(yǔ)法結(jié)構(gòu)類(lèi)型的重新記為SST1,SST2,…,SSTp,共有p個(gè),且p≤min(m,n),則令第i(i≤p)個(gè)相同類(lèi)型結(jié)構(gòu)在第一個(gè)語(yǔ)句Sen1中表示為SST1i,在第二個(gè)語(yǔ)句中Sen2表示為SST2i,則對(duì)應(yīng)結(jié)構(gòu)類(lèi)型的詞組集合在兩個(gè)語(yǔ)句中分別為WL1i和WL2i.

      令count(WL1i)表示Sen1中語(yǔ)法結(jié)構(gòu)類(lèi)型為SSTi對(duì)應(yīng)的詞組集合WL1i中詞組的個(gè)數(shù);同理count(WL2i)表示Sen2中語(yǔ)法結(jié)構(gòu)類(lèi)型為SSTi對(duì)應(yīng)的詞組集合WL2i中詞組的個(gè)數(shù);WL1iq和WL2iq分別表示詞組集合WL1i和WL2i中第q個(gè)詞組.則Sen1和Sen2的基于語(yǔ)法結(jié)構(gòu)的語(yǔ)義層次的相似度公式為:

      pf×noSameCount.

      (7)

      其中

      且ratioi表示的是結(jié)構(gòu)類(lèi)型SSTi所對(duì)應(yīng)的權(quán)重值,不同的語(yǔ)法結(jié)構(gòu)對(duì)整個(gè)語(yǔ)句的含義的貢獻(xiàn)度不一樣,最終的ratioi權(quán)重值也就不一樣;noSameCount表示的是上述兩條語(yǔ)句都不具有的句法結(jié)構(gòu)類(lèi)型的個(gè)數(shù),即noSameCount=m+n-p;pf表示的是句法結(jié)構(gòu)差異的調(diào)節(jié)因子.

      2.5基于語(yǔ)法語(yǔ)義的語(yǔ)句相似度計(jì)算

      基于語(yǔ)法語(yǔ)義的語(yǔ)句相似度計(jì)算方法綜合考慮了語(yǔ)法和語(yǔ)義兩方面特性,主要包括基于語(yǔ)法結(jié)構(gòu)的語(yǔ)句語(yǔ)義相似度計(jì)算、語(yǔ)句語(yǔ)法結(jié)構(gòu)類(lèi)型相似度計(jì)算和語(yǔ)句詞組位置相似度計(jì)算.

      通過(guò)公式(5),(6)和(7)可以得到語(yǔ)句間的最終計(jì)算公式,見(jiàn)式(8).

      (8)

      式中:a和b都是權(quán)重因子.

      公式(8)表示,中文語(yǔ)句間的相似度最終由語(yǔ)句的語(yǔ)法和語(yǔ)義的相似性共同構(gòu)成.在計(jì)算短文本(語(yǔ)句)間的相似度時(shí),改變了以往僅僅考慮語(yǔ)句語(yǔ)義相似性的思路,本文不但考慮語(yǔ)義相似性,還考慮了語(yǔ)句語(yǔ)法結(jié)構(gòu)對(duì)相似性的影響.

      本文在計(jì)算語(yǔ)義相似度時(shí),加入語(yǔ)法結(jié)構(gòu)信息,即計(jì)算具有相同語(yǔ)法結(jié)構(gòu)的詞組集合間的相似度,另外充分考慮了句法結(jié)構(gòu)類(lèi)型和詞組位置相似性對(duì)整體語(yǔ)句相似度的貢獻(xiàn)與影響.最終短文本(語(yǔ)句)間相似度計(jì)算更加符合中文語(yǔ)句的特點(diǎn),計(jì)算結(jié)果更加合理,與人們的主觀判斷更為接近.

      3實(shí)驗(yàn)及分析

      當(dāng)前基于語(yǔ)法的相似度計(jì)算方法多用于英文短文本處理,為進(jìn)行中文短文本相似度計(jì)算,本文采用了以下3種方法來(lái)對(duì)相似度算法進(jìn)行分析.

      方法一:劉群、李素建等[9]提出的一種相似度方法,在計(jì)算時(shí)僅僅考慮義原距離,未考慮深度.

      方法二:一種既考慮義原距離和深度,又在計(jì)算過(guò)程中加入詞語(yǔ)詞頻作為權(quán)重的方法[2],具體參數(shù)設(shè)置詳見(jiàn)參考文獻(xiàn)[2].

      方法三:本文中介紹的基于語(yǔ)法語(yǔ)義的短文本相似度計(jì)算方法.

      利用上述3種方法分別測(cè)試50對(duì)中文語(yǔ)句,計(jì)算語(yǔ)句(短文本)間的相似度值,部分計(jì)算結(jié)果見(jiàn)表2.

      3.1權(quán)重因子實(shí)驗(yàn)與分析

      利用上述實(shí)驗(yàn)數(shù)據(jù),對(duì)方法三的短文本相似度計(jì)算公式中的權(quán)重因子a和b進(jìn)行實(shí)驗(yàn)分析,獲得能夠使得計(jì)算公式的效果最佳的權(quán)重因子組合.

      采用控制變量法對(duì) a=0.35,0.45,0.55,0.65,0.75,0.85,0.90,0.95和b=0.3,0.4,0.5,0.6,0.7,0.8進(jìn)行實(shí)驗(yàn)分析,且設(shè)置相似度閾值為0.6,根據(jù)獲得的結(jié)果進(jìn)而計(jì)算得到不同的精確度和召回率.不管權(quán)重因子a和b取上述的哪個(gè)值,本文提出的相似度計(jì)算方法的召回率基本上都是差不多的,穩(wěn)定在0.882上下,這說(shuō)明了本文方法的穩(wěn)定性. 根據(jù)實(shí)驗(yàn)結(jié)果繪制本文方法在權(quán)重因子a和b不同取值時(shí)的精確度的折線圖,如圖3所示,其中橫坐標(biāo)表示a的取值,縱坐標(biāo)表示精確度,b的不同取值采用不同的線條表示.

      a

      根據(jù)圖3分析可知,當(dāng)權(quán)重因子a的值大于0.6,b的取值在[0.4,0.6]時(shí),本文方法的精確度基本上都在0.75以上,尤其當(dāng)a值在(0.85,0.95]區(qū)間時(shí),本方法的精確度可達(dá)到最大值0.833,且比較穩(wěn)定.

      綜上所述,可以得到本文最終計(jì)算公式中的權(quán)重因子a和b的取值范圍.當(dāng)a值在(0.85,0.95]區(qū)間,且b的取值在[0.4,0.6]時(shí),本文方法的召回率以及精確度能夠同時(shí)達(dá)到比較高的水平,分別為0.882和0.833.

      3.2短文本相似度實(shí)驗(yàn)與分析

      方法三中的權(quán)重因子a和b分別取為0.88和0.5,然后對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,計(jì)算3種不同計(jì)算方法的計(jì)算結(jié)果的精確率和召回率,且設(shè)置相似度閾值為0.6,結(jié)果如圖4所示.

      方法

      根據(jù)圖4可知,在召回率基本上比較高的情況下,本文提出的方法的精確率為0.833,比方法一的0.577和方法二的0.619都要高,這說(shuō)明本文方法非常明顯地提高了查準(zhǔn)率,有效地減少了噪音數(shù)據(jù),計(jì)算結(jié)果更加能夠被人們接受.

      把實(shí)驗(yàn)數(shù)據(jù)分為近義的語(yǔ)句對(duì)集合和反義的語(yǔ)句對(duì)集合,分別進(jìn)一步分析.

      對(duì)于近義的語(yǔ)句對(duì)集合,將相似度區(qū)間分為3個(gè),圖5描述了不同方法在每個(gè)區(qū)間內(nèi)近義語(yǔ)句對(duì)占所有近義語(yǔ)句對(duì)的比例.方法一中接近一半的語(yǔ)句對(duì)的相似度值在(0.8,1]間,其在(0.5,8]間的語(yǔ)句對(duì)還不到一半,因?yàn)檎Z(yǔ)句對(duì)沒(méi)有完全一樣的,所以計(jì)算結(jié)果偏高,且還有一些語(yǔ)句對(duì)的相似度低于0.5,顯然其計(jì)算結(jié)果不合理.方法二中大概82.00%的語(yǔ)句對(duì)的相似度值都在(0.5,8]之間,比較符合實(shí)際,但是其計(jì)算結(jié)果中仍然有低于0.5的,結(jié)果也不太理想.而方法三中在(0.8,1]之間的不到25.00%,絕大部分都是在(0.5,8]之間,沒(méi)有低于0.5的,這樣的計(jì)算結(jié)果顯然更加合理,更接近人們的主觀判斷.

      相似度區(qū)間

      對(duì)于反義語(yǔ)句對(duì)集合,把相似度區(qū)間分為4個(gè),圖6描述了不同方法分別在每個(gè)區(qū)間中的測(cè)試語(yǔ)句對(duì)所占的比例.由圖可知,方法一和方法二在相似度大于0.5時(shí)大概都有75.00%的反義語(yǔ)句對(duì),而低于0.5的卻只有25.00%,顯然它們的計(jì)算結(jié)果都非常不理想,計(jì)算粗糙.而方法三在(0.5,1]區(qū)間中只有29.00%左右的反義語(yǔ)句對(duì),且約71.00%的語(yǔ)句相似度都是低于0.5.顯然方法三計(jì)算結(jié)果更加合理和精確.另外由表2可知,有些語(yǔ)句意思明明是完全相反的,可方法一和方法二計(jì)算結(jié)果都非常高,甚至是1,而方法三卻能夠得到非常合理的結(jié)果.

      相似度區(qū)間

      由上述實(shí)驗(yàn)結(jié)果可知,本文提出的方法相比于方法一和方法二,具有比較好的查全率,并且其精確率更高,能夠非常有效地減少噪音數(shù)據(jù)的產(chǎn)生,更加接近人們的主觀判斷.

      4結(jié)論

      本文以HowNet為詞典庫(kù),以Stanford為語(yǔ)法解析工具,并在此基礎(chǔ)上研究了本文提出的基于語(yǔ)法語(yǔ)義的中文短文本的相似度計(jì)算.

      在本文描述的方法中,我們結(jié)合語(yǔ)句的語(yǔ)法結(jié)構(gòu)和語(yǔ)義信息計(jì)算整個(gè)語(yǔ)句的相似度,即計(jì)算具有相同語(yǔ)法結(jié)構(gòu)的詞組間的語(yǔ)義相似度以及考慮語(yǔ)法結(jié)構(gòu)類(lèi)型間相似性和詞組位置相似性對(duì)整個(gè)語(yǔ)句相似度的影響.即使兩個(gè)語(yǔ)句完全一樣,但是語(yǔ)句結(jié)構(gòu)不同或詞組位置不同,也會(huì)導(dǎo)致意思完全不一樣,這樣的計(jì)算方式與人們的主觀判斷更加接近,也符合中文語(yǔ)句(短文本)的復(fù)雜性特點(diǎn).

      本文研究的方法在一定程度上解決了目前中文領(lǐng)域基于HowNet進(jìn)行短文本相似度計(jì)算的方法中存在的結(jié)果不合理現(xiàn)象.通過(guò)實(shí)驗(yàn)對(duì)3種方法進(jìn)行對(duì)比分析,證明了本文描述的中文短文本相似度方法更合理,具有比較好的召回率和精確率.

      參考文獻(xiàn)

      [1]蔣溢,丁優(yōu),熊安萍,等.一種基于知網(wǎng)的詞匯語(yǔ)義相似度改進(jìn)計(jì)算方法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版, 2009,21(4): 533-537.

      JIANG Yi, DING You, XIONG An-ping,etal. An improved computation method of word’s semantic similarity based on HowNet[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science, 2009,21(4): 533-537.(In Chinese)

      [2]廖志芳,邱麗霞,謝岳山, 等.一種頻率增強(qiáng)的語(yǔ)句語(yǔ)義相似度計(jì)算[J]. 湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2013,40(2):82-88.

      LIAO Zhi-fang, QIU Li-xia, XIE Yue-shan,etal. A frequency enhanced algorithm of sentence semantic similarity[J]. Journal of Hunan University: Natural Sciences, 2013,40(2): 82-88.(In Chinese)

      [3]李連,朱愛(ài)紅,蘇濤.一種改進(jìn)的基于向量空間文本相似度算法的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):282-284.

      LI Lian, ZHU Ai-hong, SU Tao. Research and implementation of an improved VSM-based text similarity algorithm[J]. Computer Applications and Software, 2012,29(2):282-284.(In Chinese)

      [4]OLIVA J, SERRANO J I, CASTILLO M D,etal. SyMSS: a syntax-based measure for short-text semantic similarity[J]. Data & Knowledge Engineering, 2011,70(4):390-405.

      [5]董振東,董強(qiáng).關(guān)于知網(wǎng)—中文信息結(jié)構(gòu)庫(kù)[EB/OL]//http://www.keenage.com/html/c_index.html.

      DONG Zhen-dong, DONG Qiang.Chinese information database based on CNKI[EB/OL]//www.heenage, com/html/C.cndex.html.(In Chinese)

      [6]The Stanford Natural Language Processing Group. The Stanford NLP[EB/OL]//http://nlp.stanford.edu/software/lex-parser.shtml.

      [7]ISLAM A, INKPEN D. Semantic text similarity using corpus-based word similarity and string similarity[R]. Ottawa:University of Ottawa,2008.

      [8]LI Y H, MCLEAN D, BANDAR Z A,etal. Sentence similarity based on semantic nets and corpus statistics[J]. IEEE Transactions on Knowledge and Data Engineering,2006,18(8):1138-1150.

      [9]劉群,李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]//第三屆語(yǔ)義學(xué)研討會(huì)論文集. 臺(tái)北:臺(tái)北中央研究院,2002: 149-163.

      LIU Qun, LI Su-jian. How net-based lexical semantic similarity calculation[C]//Third Semantics Workshop Proceedings. Taipei: Academia Sinica, 2002: 149-16. (In Chinese)

      A Chinese Short Text Similarity Algorithm Based on Semantic and Syntax

      LIAO Zhi-fang1?, ZHOU Guo-en1, LI Jun-feng2, LIU Fei1, CAI Fei1

      (1. School of Software, Central South Univ, Changsha, Hunan410075, China;2. School of Information Science and Engineering, Central South Univ, Changsha, Hunan410075, China)

      Abstract:A short text algorithm based on semantic and syntax by analyzing the characteristics of Chinese short text was proposed. The algorithm combines semantic similarity with the similarity of sentence syntax in Chinese short text, that is to say, to calculate the similarity of short text with the same syntax structure and consider the contribution with sentence words order to similarity. The experiments show that the proposed algorithm is closer to people's judgment and gets a better precision rate and recall rate in the aspect of Chinese short text similarity calculation results.

      Key words:semantic and syntax similarity; sentence similarity calculating; HowNet; corpus;semantic analysis; syntax analysis; similarity measure

      中圖分類(lèi)號(hào):TP391.1

      文獻(xiàn)標(biāo)識(shí)碼:A

      作者簡(jiǎn)介:廖志芳(1968-),女,湖南長(zhǎng)沙人,中南大學(xué)副教授,博士?通訊聯(lián)系人,E-mail:zfliao@csu.edu.cn

      基金項(xiàng)目:國(guó)家自然科學(xué)基金青年基金資助項(xiàng)目(61202095),National Natural Science Foundation of China(61202095) ;湖南省自然科學(xué)基金資助項(xiàng)目(12JJ3074)

      *收稿日期:2015-01-18

      文章編號(hào):1674-2974(2016)02-0135-06

      猜你喜歡
      語(yǔ)義分析語(yǔ)料庫(kù)
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      基于語(yǔ)料庫(kù)“隱秘”的詞類(lèi)標(biāo)注初步探究
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      基于交叉配血的多賬戶(hù)識(shí)別模型研究
      基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
      新興“被+X”結(jié)構(gòu)探析
      從認(rèn)知語(yǔ)義學(xué)的角度來(lái)看多義動(dòng)詞“あげる”
      科技視界(2016年18期)2016-11-03 23:48:03
      語(yǔ)義分析算法在互聯(lián)網(wǎng)信息檢索中的應(yīng)用
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      基于網(wǎng)絡(luò)語(yǔ)料庫(kù)的“給力”研究
      根河市| 凤翔县| 西峡县| 易门县| 贵阳市| 兰溪市| 石首市| 鹤庆县| 灵璧县| 深泽县| 无锡市| 景德镇市| 亳州市| 河津市| 海宁市| 漯河市| 瑞昌市| 宣城市| 青铜峡市| 天气| 纳雍县| 米易县| 连平县| 新蔡县| 宜春市| 五指山市| 武乡县| 阜平县| 前郭尔| 安宁市| 宁南县| 都兰县| 洪洞县| 呼图壁县| 黄山市| 侯马市| 托里县| 石棉县| 辽宁省| 天全县| 凯里市|