• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向多本體語(yǔ)義相似度計(jì)算的改進(jìn)研究

      2018-01-18 06:51:07余朦朦劉宇劉雅婷
      現(xiàn)代計(jì)算機(jī) 2017年35期
      關(guān)鍵詞:下位計(jì)算方法準(zhǔn)確度

      余朦朦,劉宇,劉雅婷

      (1.武漢科技大學(xué)計(jì)算機(jī)學(xué)院,武漢 430065;2.武漢市科學(xué)學(xué)研究所,武漢 430023)

      0 引言

      語(yǔ)義相似度的計(jì)算是自然語(yǔ)言處理的關(guān)鍵問(wèn)題之一,在問(wèn)答系統(tǒng)、機(jī)器翻譯和文本主題抽取等領(lǐng)域有著非常廣泛的應(yīng)用[1]。雖然目前研究人員已提出了多種基于單本體的語(yǔ)義相似度計(jì)算方法[2],但是單一領(lǐng)域本體的知識(shí)覆蓋度限制了相關(guān)方法的性能。針對(duì)上述問(wèn)題,Montserrat等人[3]提出了基于多本體的語(yǔ)義相似度計(jì)算方法。通過(guò)利用多個(gè)本體所提供的語(yǔ)義線(xiàn)索,Montserrat法的計(jì)算結(jié)果更準(zhǔn)確,即更為擬合領(lǐng)域?qū)<业脑u(píng)估結(jié)果。

      鑒于運(yùn)用多本體計(jì)算概念對(duì)的語(yǔ)義相似度較為復(fù)雜,Montserrat法采用了依據(jù)不同情況分別處理的解決方案:1.僅某一本體包含概念a和b,兩者的語(yǔ)義相似度直接利用單本體計(jì)算獲得;2.a和b都同時(shí)出現(xiàn)在多個(gè)本體,選取各本體計(jì)算結(jié)果的最大值作為a和b的語(yǔ)義相似度;3.無(wú)本體同時(shí)包含a和b,利用多本體中上位概念的匹配概念對(duì)計(jì)算a和b的語(yǔ)義相似度。圖1展示了生物醫(yī)學(xué)本體FMA(Foundational Model Of Anatomy)和 NCI(National Cancer Institute)的部分匹配概念對(duì)。顯然,計(jì)算Ana_str和Org_Che的語(yǔ)義相似度滿(mǎn)足Montserrat法的情況3——FMA和NCI不同時(shí)包含 Ana_str和 Org_Che。從圖 1可見(jiàn),Ana_str和Org_Che不僅上位概念中包含匹配概念對(duì)FMA(Thing):NCI(Thing),而且下位概念中也包含匹配概念對(duì) FMA(Pho):NCI(Pho)和 FMA(phospha):NCI(phos?pha)。因此,僅利用上位概念中的匹配概念對(duì),而沒(méi)有借鑒下位概念中的匹配概念對(duì),Montserrat法無(wú)法充分利用多本體所提供的語(yǔ)義線(xiàn)索。針對(duì)Montserrat法中情況3的處理方式所存在的不足,本文提出了改進(jìn)的面向多本體語(yǔ)義相似度的計(jì)算方法,記為I-SSCMO。

      圖1 FMA和NCI的部分匹配概念對(duì)

      1 改進(jìn)的計(jì)算方法

      設(shè)概念a和b分別隸屬于本體A和B,則本論文所涉及的相關(guān)定義描述如下。

      定義1(上位概念集合)本體A中概念a的上位概念集合,記為 U(A,a)。

      定義2(下位概念集合)本體A中概念a的下位概念集合,記為 L(A,a)。

      定義3(匹配概念集合)本體A與本體B的匹配概念集合,記為 M(A,B)。在圖 1 中,M(FMA,NCI)包含所有箭頭線(xiàn)所連接的概念對(duì)。

      定義4(匹配上位概念集合)本體A中a的上位概念與本體B中b的上位概念相匹配的概念集合,記為MU(A(a),B(b))。在圖 1 中,MU(FMA(Ana_str),NIC(Org_Che))={FMA(Thing):NCI(Thing)}。

      定義5(匹配下位概念集合)本體A中a的下位概念與本體B中b的下位概念相匹配的概念集合,記為ML(A(a),B(b))。在圖 1 中,{FMA(Pho):NCI(Pho),FMA(phospha):NCI(phospha)}為 Ana_str 和 Org_Che的匹配下位概念集合。

      定義6(公共上位概念集合)本體A中概念a與本體B中概念b的公共上位概念集合為

      在圖 1 中,CU(FMA(Ana_str),NIC(Org_Che))={FMA(Thing),NCI(Thing)}。

      定義7(公共下位概念集合)本體A中概念a與本體B中概念b的公共上位概念集合為

      在圖 1 中,CL(FMA(Ana_str),NIC(Org_Che))={FMA(Pho),NCI(Pho),FMA(phospha),NCI(phos?pha),FMA(pholin),NCI(pholinl)}。

      在上述定義的基礎(chǔ)上,I-SSCMO法首先利用多本體中匹配上位概念集合所提供的語(yǔ)義線(xiàn)索,計(jì)算概念對(duì)的語(yǔ)義相似度,其具體計(jì)算方法如公式(3)所示。

      然后,I-SSCMO法利用匹配下位概念集合計(jì)算語(yǔ)義相似度,具體計(jì)算方法如公式(4)所示。

      通過(guò)綜合上述兩種語(yǔ)義相似度,A本體中概念a與B本體中概念b的語(yǔ)義相似度可由公式(5)獲得。

      其中,w∈[0,1]。w為加權(quán)因子,調(diào)控U_Sim(A(a),B(b))和 L_Sim(A(a),B(b))對(duì)最終結(jié)果Sim(A(a),B(b))的影響。當(dāng)w為0時(shí),表示僅利用匹配下位概念集合所提供的線(xiàn)索計(jì)算語(yǔ)義相似度;當(dāng)w為1時(shí),表示僅利用匹配上位概念集合所提供的線(xiàn)索計(jì)算語(yǔ)義相似度。

      I-SSCMO法的偽代碼如下所示:

      輸入:本體A和本體B,待評(píng)估的概念對(duì)(a,b),加權(quán)因子w

      輸出:概念對(duì)(a,b)的語(yǔ)義相似度

      1:IF概念對(duì)(a,b)屬于Montserrat法的情況1和情況2

      2: RETURN Montserrat法的計(jì)算結(jié)果;

      3:ELSE

      4:分別獲取a和b的上位概念集合和下位概念集合;

      5:獲取概念對(duì)(a,b)的匹配上位概念集合和匹配下位概念集合;

      6:獲取概念對(duì)(a,b)的公共上位概念集合和公共下位概念集合;

      7: 根據(jù)公式(3)計(jì)算 U_Sim(A(a),B(b));

      8: 根據(jù)公式(4)計(jì)算 L_Sim(A(a),B(b));

      9: 根據(jù) U_Sim(A(a),B(b))、L_Sim(A(a),B(b))和加權(quán)因子 w 計(jì)算 Sim(A(a),B(b));

      10:RETURN Sim(A(a),B(b));

      11:END IF

      2 實(shí)驗(yàn)及評(píng)估

      為了驗(yàn)證I-SSCMO法的有效性,本文利用兩對(duì)本體進(jìn)行了實(shí)驗(yàn):生物醫(yī)學(xué)本體FMA和NCI、經(jīng)濟(jì)領(lǐng)域本體STW(The Thesaurus for Economics)和社會(huì)科學(xué)本體 TheSoz(The Thesaurus for the Social Sciences)。需要說(shuō)明的是,盡管STW和TheSoz屬于不同的領(lǐng)域,但它們之間有很大部分的重疊域。由于I-SSCMO法主要改進(jìn)了Montserrat法情況3的計(jì)算方法,本實(shí)驗(yàn)從FMA和NCI、STW和TheSoz中分別選取了30對(duì)概念對(duì)。這些概念對(duì)不僅滿(mǎn)足情況3的條件,而且均具有匹配下位概念。在人工評(píng)判環(huán)節(jié),分別由多名醫(yī)學(xué)和經(jīng)濟(jì)專(zhuān)業(yè)人員對(duì)概念對(duì)的相似度按照5個(gè)等級(jí)打分(0表示兩個(gè)概念不相關(guān),4表示兩個(gè)概念相同),并以平均值作為人工評(píng)判的最終結(jié)果。最后,本文將Montserrat法和I-SSCMO法的計(jì)算結(jié)果與人工評(píng)判的結(jié)果進(jìn)行了比較,并運(yùn)用皮氏積矩相關(guān)系數(shù)的計(jì)算方法來(lái)評(píng)估結(jié)果的準(zhǔn)確度,具體如公式(6)所示。r的取值范圍為[0,1],并且r值越大意味著計(jì)算結(jié)果越擬合人工評(píng)判的結(jié)果,此時(shí)相應(yīng)方法能夠獲得更為準(zhǔn)確的語(yǔ)義相似度。

      其中,Xi為Montserrat法或I-SSCMO法計(jì)算第i對(duì)概念對(duì)的語(yǔ)義相似度,Yi為人工評(píng)判的第i對(duì)概念對(duì)的相似度,X可為Montserrat法或I-SSCMO法計(jì)算結(jié)果所組成的數(shù)組,Y為人工評(píng)判結(jié)果所組成的數(shù)組,Xˉ和Yˉ分別是X數(shù)組和Y數(shù)組的平均值。

      鑒于加權(quán)因子w對(duì)I-SSCMO法的影響,本實(shí)驗(yàn)從[0,1]中選取了11個(gè)w值,以評(píng)估在w不同的取值情況下I-SSCMO法的結(jié)果準(zhǔn)確度。圖2展示了在計(jì)算FMA和NCI中概念對(duì)時(shí)Montserrat法或I-SSCMO法的性能比較。Montserrat法不受加權(quán)因子w的影響,因此其準(zhǔn)確度始終是0.6579;當(dāng)w=0.8時(shí),I-SSCMO法的準(zhǔn)確度達(dá)到最大值0.6602。圖2的結(jié)果說(shuō)明,在FMA和NCI中匹配下位概念所提供的語(yǔ)義線(xiàn)索有限,I-SS?CMO的性能改進(jìn)不顯著。圖3展示了在計(jì)算STW和TheSoz中概念對(duì)時(shí)Montserrat法或I-SSCMO法的性能比較。同樣,Montserrat法的準(zhǔn)確度始終是0.5101;當(dāng)w=0.9時(shí),I-SSCMO法的準(zhǔn)確度達(dá)到最大值0.5702,性能提升較為明顯。綜合圖2和圖3的結(jié)果,可以發(fā)現(xiàn):1.在計(jì)算多本體中概念對(duì)的語(yǔ)義相似度時(shí),相對(duì)于匹配下位概念而言,匹配上位概念所提供的語(yǔ)義線(xiàn)索更為有效,即w應(yīng)取較大值;2.對(duì)不同多本體處理時(shí),應(yīng)當(dāng)根據(jù)具體情況選取w的值,即處理FMA和NCI時(shí)應(yīng)取0.8、處理STW和TheSoz時(shí)應(yīng)取0.9;3.對(duì)于彼此之間差異較大的本體對(duì),考慮匹配下位概念所提供的語(yǔ)義線(xiàn)索是有效的,能夠提供更為準(zhǔn)確度的結(jié)果。

      圖2 計(jì)算FMA和NCI中概念對(duì)時(shí)的性能比較

      圖3 計(jì)算STW和TheSoz中概念對(duì)時(shí)的性能比較

      3 結(jié)語(yǔ)

      針對(duì)基于多本體的語(yǔ)義相似度計(jì)算方法所存在的問(wèn)題,本文提出了綜合考慮匹配上位概念和匹配下位概念所提供語(yǔ)義線(xiàn)索的相似度計(jì)算方法。在FMA和NCI、STW和TheSoz上的實(shí)驗(yàn)表明,通過(guò)選取合適的加權(quán)因子w,改進(jìn)的方法I-SSCMO能夠在一定程度上獲得更準(zhǔn)確的結(jié)果。在將來(lái)的研究中,我們將考慮如何更為充分地利用匹配下位概念提供的語(yǔ)義線(xiàn)索、加權(quán)因子w的優(yōu)化取值等問(wèn)題。

      [1]張滬寅,劉道波,溫春艷.基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度改進(jìn)算法研究[J].計(jì)算機(jī)工程,2015,41(2):151-156.

      [2]孫海霞,錢(qián)慶,成穎.基于本體的語(yǔ)義相似度計(jì)算方法研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010,26(1):51-56.

      [3]Batet M,Sánchez D,Valls A,et al.Semantic Similarity Estimation from Multiple Ontologies[M].Applied Intelligence,2013:29-44.

      猜你喜歡
      下位計(jì)算方法準(zhǔn)確度
      浮力計(jì)算方法匯集
      發(fā)射機(jī)房監(jiān)控系統(tǒng)之下位機(jī)
      幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
      建筑科技(2018年6期)2018-08-30 03:40:54
      動(dòng)態(tài)汽車(chē)衡準(zhǔn)確度等級(jí)的現(xiàn)實(shí)意義
      隨機(jī)振動(dòng)試驗(yàn)包絡(luò)計(jì)算方法
      景洪電廠(chǎng)監(jiān)控系統(tǒng)下位機(jī)數(shù)據(jù)傳輸網(wǎng)絡(luò)改造
      圍觀(guān)黨“下位”,吐槽帝“登基”
      不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
      CAN總線(xiàn)并發(fā)通信時(shí)下位機(jī)應(yīng)用軟件設(shè)計(jì)
      一種伺服機(jī)構(gòu)剛度計(jì)算方法
      观塘区| 武鸣县| 峨眉山市| 郓城县| 铜川市| 正镶白旗| 吴川市| 三台县| 淳安县| 临潭县| 大埔县| 武安市| 黄梅县| 阿鲁科尔沁旗| 依安县| 贵阳市| 福鼎市| 白山市| 高密市| 石渠县| 淅川县| 环江| 韶山市| 湘乡市| 茶陵县| 奉节县| 牙克石市| 邮箱| 宽城| 青龙| 高邮市| 池州市| 岱山县| 南丰县| 邮箱| 江安县| 宁远县| 永平县| 台州市| 神农架林区| 五台县|