• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于直覺模糊集的術(shù)語相似度方法研究

      2017-07-18 11:57:29李戰(zhàn)軍閆紹惠
      關(guān)鍵詞:模糊集直覺計(jì)算方法

      李戰(zhàn)軍,閆紹惠

      (河北軟件職業(yè)技術(shù)學(xué)院 軟件工程系,河北 保定 071000)

      基于直覺模糊集的術(shù)語相似度方法研究

      李戰(zhàn)軍,閆紹惠

      (河北軟件職業(yè)技術(shù)學(xué)院 軟件工程系,河北 保定 071000)

      直覺模糊集的術(shù)語相似度方法基于直覺模糊集進(jìn)行術(shù)語相似度評(píng)估,首先采用TFIDF方法提取特征項(xiàng),然后定義特征項(xiàng)之間的直覺模糊相似度,最后根據(jù)直覺模糊集相似度的計(jì)算結(jié)果,進(jìn)行術(shù)語相似度評(píng)估。該方法符合真實(shí)評(píng)估思維,評(píng)估結(jié)果接近實(shí)際。

      直覺模糊集;相似度;特征項(xiàng);術(shù)語

      0 引言

      隨著大數(shù)據(jù)與云計(jì)算技術(shù)的大規(guī)模應(yīng)用,在翻譯領(lǐng)域?qū)崿F(xiàn)了翻譯技術(shù)與云計(jì)算技術(shù)的結(jié)合,建立了新型的中日對(duì)譯云端語料庫(kù)。通過翻譯數(shù)據(jù)的規(guī)?;幚恚M(jìn)一步促進(jìn)翻譯產(chǎn)業(yè)的技術(shù)進(jìn)步和迅猛發(fā)展。在構(gòu)建中日對(duì)譯云端語料庫(kù)的過程中,術(shù)語之間的相似度評(píng)估是一項(xiàng)基本任務(wù)。術(shù)語相似度計(jì)算對(duì)海量的中日大數(shù)據(jù)處理、信息提取,收集、整理對(duì)譯語料具有重要意義。

      相似度計(jì)算方法研究是信息處理過程中的一項(xiàng)基礎(chǔ)性工作。相似度計(jì)算方法在信息處理領(lǐng)域的應(yīng)用比較廣泛,例如信息提取與分析[1,2]、文本挖掘與聚類[3-4]、機(jī)器翻譯[5]等。劉宏哲等人[6]對(duì)基于本體的語義相似度和相關(guān)度計(jì)算研究做了綜述。分析并總結(jié)了樹和圖中影響概念相似度或者相關(guān)度的因素,系統(tǒng)地分析了語義相似度和相關(guān)度計(jì)算方法。盛秋艷[7]給出了一種基于本體的語義相似度計(jì)算方法,提出了利用本體來表示概念之間的關(guān)系,根據(jù)概念之間的相關(guān)性構(gòu)建本體結(jié)構(gòu)層次網(wǎng)絡(luò)圖通路,并且計(jì)算語義相似度實(shí)現(xiàn)檢索。陳海燕[8]提出了基于搜索引擎的詞匯語義相似度計(jì)算方法,這種計(jì)算方法可以去除計(jì)算過程中的噪音和冗余,并且不需要任何先驗(yàn)知識(shí)與本體就可以計(jì)算語義相似度。范雪雪、王志榮等人[9]依據(jù)醫(yī)學(xué)本體的層級(jí)結(jié)構(gòu)和語義關(guān)系,提取出術(shù)語的深度、距離等語義參數(shù),利用概念密度加權(quán)得到深度系數(shù)和距離系數(shù),構(gòu)造相似度函數(shù),計(jì)算術(shù)語相似度。

      目前術(shù)語相似度計(jì)算方法研究都是基于本體進(jìn)行的。本文的術(shù)語相似度算法研究是基于直覺模糊集的。直覺模糊集[10]包含三個(gè)方面,即隸屬度、非隸屬度和猶豫度。在實(shí)際生活中,人們對(duì)于大部分事物的分析與研究往往帶有不確定性和模糊性,直覺模糊集的概念符合人們對(duì)事物的評(píng)估準(zhǔn)則。本文首先根據(jù)TFIDF方法提取特征項(xiàng),構(gòu)建特征矩陣,然后定義特征矩陣的直覺模糊集,最后根據(jù)直覺模糊集相似度計(jì)算方法評(píng)估術(shù)語相似度。

      1 直覺模糊集理論

      Zadeh[11]在1965年提出模糊集理論之后,模糊集被廣泛應(yīng)用到各個(gè)領(lǐng)域,例如數(shù)據(jù)挖掘、信息處理、控制論、運(yùn)籌學(xué)、軍事應(yīng)用等。隨后Atanassov[10]對(duì)模糊集進(jìn)行了擴(kuò)展,提出了直覺模糊集,并將直覺模糊集劃分為隸屬度、非隸屬度和猶豫度三個(gè)方面。定義1給出了直覺模糊集的概念。

      龔艷冰,丁德臣等人[12]對(duì)模糊集理論進(jìn)行了擴(kuò)充,依據(jù)直覺模糊集相似度[13],提出了基于直覺模糊集相似度的多屬性決策方法。

      定義2 已知映射S:IFS(X)×IFS(X)→[0,1],稱S(A,B)為直覺模糊集A∈IFS(X)與B∈IFS (X)的相似度,如果S(A,B)滿足下列性質(zhì):

      (1)0≤S(A,B)≤1;

      (2)如果A=B,則S(A,B)=1;

      (3)S(A,B)=S(B,A);

      (4)如果A?B?C,A,B,C∈IFS(X),則S(A,C)≤S(A,B),S(A,C)≤S(B,C)。

      對(duì)于論域X={x1,x2,…,xn,}上的任意兩個(gè)直覺模糊集可以設(shè):

      那么令:

      則定義直覺模糊集相似度的計(jì)算公式為:

      其中,ωi≥0為xi在論域X中的權(quán)重,且滿足

      2 基于直覺模糊集的術(shù)語相似度算法

      術(shù)語相似度可以根據(jù)術(shù)語所在的知識(shí)領(lǐng)域不同進(jìn)行評(píng)估。通常來說,兩個(gè)術(shù)語在不同的上下文環(huán)境中可以相互替換而不影響語法,語義結(jié)構(gòu)越大,術(shù)語相似度越大。術(shù)語相似的評(píng)估沒有確定性的標(biāo)準(zhǔn),術(shù)語之間的相似度具有模糊性,根據(jù)選取的角度不同,得到的相似度值不同。本文首先基于TFIDF方法提取特征項(xiàng),然后根據(jù)特征項(xiàng)與選取的術(shù)語計(jì)算相關(guān)性,最后根據(jù)術(shù)語相似度直覺模糊集公式計(jì)算相似度值。具體步驟如下:

      (1)根據(jù)TFIDF方法提取特征項(xiàng)。根據(jù)評(píng)測(cè)術(shù)語所在的知識(shí)領(lǐng)域,使用TFIDF方法提取上下文中的相關(guān)詞。

      (2)構(gòu)建特征項(xiàng)矩陣。使用TFIDF方法提取上下文中的相關(guān)詞,根據(jù)接續(xù)指數(shù)計(jì)算詞語的權(quán)重,依據(jù)權(quán)重選取特征項(xiàng),并構(gòu)建特征矩陣。其中,矩陣值為權(quán)重值。

      (3)將特征項(xiàng)矩陣轉(zhuǎn)換為直覺模糊集。特征項(xiàng)的權(quán)重值越大,說明該特征項(xiàng)與術(shù)語接續(xù)指數(shù)越大,那么特征項(xiàng)與術(shù)語具有更高的組合程度。本文將權(quán)重值作為直覺模糊集的隸屬度

      (4)根據(jù)直覺模糊集相似度公式(6)計(jì)算術(shù)語相似度值。為了計(jì)算權(quán)重ωi,這里假設(shè)vi,同時(shí)滿足

      3 實(shí)驗(yàn)結(jié)果分析

      首先下載由復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國(guó)際數(shù)據(jù)庫(kù)中心自然語言處理小組提供的公開中文文本分類語料庫(kù),以該語料庫(kù)為依托提取特征項(xiàng),并進(jìn)行術(shù)語相似度分析。該語料庫(kù)包括測(cè)試語料(共9 833篇文檔)和訓(xùn)練語料(共9 804篇文檔),分為20個(gè)類別。本文以其中100篇教育技術(shù)領(lǐng)域的文檔作為數(shù)據(jù)集,采用TFIDF方法進(jìn)行特征項(xiàng)提取,并計(jì)算特征隸屬度,選取其中前200個(gè)特征項(xiàng)作為評(píng)估指標(biāo)。

      圖1 相似度曲線圖

      在特征項(xiàng)矩陣中,術(shù)語作為行數(shù)據(jù),特征項(xiàng)作為列數(shù)據(jù),隸屬度作為矩陣元素值。然后利用直覺模糊集相似度公式計(jì)算術(shù)語相似度值。圖1為部分測(cè)試數(shù)據(jù)的相似度曲線圖。根據(jù)曲線圖可以看出,除電視教材外,其他曲線圖近似。那么網(wǎng)絡(luò)教學(xué)、遠(yuǎn)程教育、教育技術(shù)及網(wǎng)絡(luò)教育具有較高的相似度。

      4 結(jié)語

      本文提出基于直覺模糊集的術(shù)語相似度計(jì)算方法。根據(jù)TFIDF方法構(gòu)建特征項(xiàng)矩陣,并運(yùn)用直覺模糊集相似度計(jì)算方法計(jì)算術(shù)語相似度值。該算法利用直覺模糊集理論評(píng)估術(shù)語相似度符合實(shí)際生活中對(duì)事物的評(píng)估方式。對(duì)于精確值的選取是今后需要進(jìn)一步研究的工作。

      [1]Chen M Y,Chu H C,Chen Y M.Developing a Semantic-Enable Information Retrieval Mechanism[J].Expert Systems with Application,2010,37(1):322-340.

      [2]Stevenson M,Greenwood M A.A Semantic Approach to IE Pattern Introduction[C].In:Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics.Association for Computational Lin guistics,2005:379-386.

      [3]Asservatham S,Bennani Y.Semi-Structured Document Categorization with a Semantic Kernel[J].Pattern Recognition,2009,42(9):2067-2076.

      [4]Batet M,Valls A,Gibert K.Improving Classical Clustering with Ontologies[C].In:Proceedings of the 4th World Conference of the IASC,Yokohama,Japan,2008:137-146.

      [5]Cilibrasi R L,Vitanyi P M B.The Google Similarity Distance[J].IEEE Transactions on Knowledge and Data Engineering,2007,19(3):370-383.

      [6]劉宏哲,須德.基于本體的語義相似度和相關(guān)度計(jì)算研究綜述[J].計(jì)算機(jī)科學(xué),2012,39(2):8-13.

      [7]盛秋艷.一種基于本體的語義相似度計(jì)算方法[J].情報(bào)科學(xué),2012,30(8):1238-1241.

      [8]陳海燕.基于搜索引擎的詞匯語義相似度計(jì)算方法[J].計(jì)算機(jī)科學(xué),2015,42(1):261-267.

      [9]范雪雪,王志榮,徐晤,等.基于醫(yī)學(xué)本體的術(shù)語相似度算法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2015,265(12):57-62.

      [10]Atanassov K T.Intuitio nist ic fuzzy sets[J].Fuzzy Sets and Systems,1986,20(1):87-96.

      [11]Zadeh L A.Fuzz y sets[J].Information and Control,1965,8(3):338-356.

      [12]龔艷冰,丁德臣,何建敏.一種基于直覺模糊集相似度的多屬性決策方法[J].控制與決策,2009,24(9):1398 -1401.

      [13]Li D,Cheng C.New similarity measures of intuitionistic fuzzy sets and application to pattern recognition[J]. Pattern Recognition Letters,2002,23(1):221-225.

      Research on Term Similarity Method based on Intuitionistic Fuzzy Sets

      LI Zhan-jun,YAN Shao-hui

      (Department of Software Engineering,Hebei Software Institute,Hebei Baoding 071000,China)

      The term similarity method of intuitionistic fuzzy sets is based on the evaluation of intuitionistic fuzzy sets. Firstly,the TFIDF method is used to extract the feature items,and then the intuitionistic fuzzy similarity between the feature items is defined;finally,according to the calculation results of the intuitionistic fuzzy set similarity to evaluate the similarity of term.The method is consistent with the real evaluation thinking,and the evaluation results are close to the actual situation.

      intuitionistic fuzzy set;similarity;feature;term

      TP319

      A

      1673-2022(2017)02-0039-03

      2016-12-16

      2015年度河北省科技計(jì)劃自籌經(jīng)費(fèi)項(xiàng)目“基于大數(shù)據(jù)和云計(jì)算技術(shù)的科技翻譯語料庫(kù)創(chuàng)建及應(yīng)用研究”(15210145);河北軟件職業(yè)技術(shù)學(xué)院2013年院立課題“外貿(mào)電子商務(wù)‘云翻譯平臺(tái)’建設(shè)可行性研究”(YL2013L002)

      李戰(zhàn)軍(1975-),男,河北徐水人,副教授,碩士,主要從事日語教學(xué)及日語語料庫(kù)研究;閆紹惠(1988-),女,河北承德人,助教,碩士,主要從事數(shù)據(jù)挖掘、數(shù)據(jù)分析。

      猜你喜歡
      模糊集直覺計(jì)算方法
      浮力計(jì)算方法匯集
      “好一個(gè)裝不下”直覺引起的創(chuàng)新解法
      基于上下截集的粗糙模糊集的運(yùn)算性質(zhì)
      林文月 “人生是一場(chǎng)直覺”
      海峽姐妹(2020年7期)2020-08-13 07:49:22
      一個(gè)“數(shù)學(xué)直覺”結(jié)論的思考
      數(shù)學(xué)直覺謅議
      E-不變凸模糊集
      隨機(jī)振動(dòng)試驗(yàn)包絡(luò)計(jì)算方法
      不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
      E-廣義凸直覺模糊集①
      扎兰屯市| 乌拉特中旗| 女性| 广丰县| 漯河市| 登封市| 云阳县| 秭归县| 上思县| 拉萨市| 务川| 长宁县| 巧家县| 泾源县| 乌恰县| 寿阳县| 辽阳市| 龙口市| 资溪县| 石狮市| 盐城市| 西青区| 台东县| 宜君县| 阆中市| 南乐县| 泰和县| 土默特左旗| 镇宁| 木兰县| 太保市| 凤山县| 通州市| 陕西省| 车致| 陈巴尔虎旗| 宝丰县| 昌江| 永州市| 石柱| 天台县|