• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中文專利文獻(xiàn)術(shù)語抽取

    2013-09-08 10:18:38施水才呂學(xué)強(qiáng)
    關(guān)鍵詞:字符串合法術(shù)語

    徐 川,施水才,2,房 祥,2,呂學(xué)強(qiáng),2

    (1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京100101;2.北京拓爾思信息技術(shù)股份有限公司,北京100101)

    0 引 言

    專利文獻(xiàn)是科技信息的載體,集中體現(xiàn)了科學(xué)技術(shù)的發(fā)展水平,有效利用專利可以提高國(guó)家和企業(yè)的發(fā)展速度??焖僬页鰧@墨I(xiàn)中相應(yīng)的技術(shù)信息是有效利用專利文獻(xiàn)的前提。因此,研究專利文獻(xiàn)術(shù)語的抽取技術(shù)越來越受到研究者們的關(guān)注,專利文獻(xiàn)中的術(shù)語體現(xiàn)和承載了專利文獻(xiàn)的技術(shù)信息。同時(shí),通過所提取的專利文獻(xiàn)術(shù)語,可以構(gòu)建專利領(lǐng)域敘詞表,也可以進(jìn)一步對(duì)專利文獻(xiàn)進(jìn)行分類,識(shí)別不同專利文獻(xiàn)之間的相互關(guān)系。

    目前,國(guó)內(nèi)外相關(guān)學(xué)者對(duì)于術(shù)語提取做了很多研究。主要是基于規(guī)則和統(tǒng)計(jì)的方法。文獻(xiàn) [1-3]中都提到采用條件隨機(jī)場(chǎng)的方式抽取術(shù)語,文獻(xiàn) [4]提出隱馬爾科夫模型的中文泛術(shù)語識(shí)別和提取,雖然這兩種方法抽取正確率和召回率較高,但都需要人工進(jìn)行標(biāo)注,人工標(biāo)注的質(zhì)量決定了術(shù)語抽取的質(zhì)量。文獻(xiàn) [5,6]介紹采用互信息的方式抽取術(shù)語,但當(dāng)遇到常用搭配但非術(shù)語時(shí),并未做相應(yīng)的處理。文獻(xiàn) [7]采用分隔符的方法進(jìn)行抽取,該方法需要大量已知的術(shù)語進(jìn)行分隔符抽取,而且只能抽取與分隔符相鄰的術(shù)語。文獻(xiàn) [8]提出采用術(shù)語部件庫的方法抽取術(shù)語,對(duì)于不包含已知的部件庫的術(shù)語,該方法無法處理。文獻(xiàn) [9-10]在術(shù)語抽取的過程中都用到了TFIDF算法,這個(gè)算法對(duì)于提取單篇文獻(xiàn)中的術(shù)語不適用。文獻(xiàn)[11]采用正則表達(dá)式抽取術(shù)語,對(duì)于不符合正則表達(dá)式的術(shù)語將無法抽取。文獻(xiàn) [12]采用混合策略的方式抽取術(shù)語,但在抽取的過程中需要大量的空間。

    針對(duì)以上方法存在的不足,本文提出基于字符串之間的邊界結(jié)合度、字符串之間的串邊結(jié)合度同雙字詞性過濾方法相融合抽取中文專利術(shù)語的方法。

    1 專利文獻(xiàn)中術(shù)語的特點(diǎn)

    定義1 術(shù)語表示某一學(xué)科領(lǐng)域內(nèi)概念或關(guān)系的詞語。

    1.1 術(shù)語構(gòu)成的特點(diǎn)

    (1)中文術(shù)語一般是由名詞、動(dòng)詞和形容詞等詞性組合而成,并且中文術(shù)語的詞性組合中,術(shù)語一般都是以名詞性的字符串作為結(jié)尾。如:“同步電機(jī)/n轉(zhuǎn)子/n”、“啟動(dòng)/v模塊/n”、“最?。痑均方/n”。

    (2)術(shù)語長(zhǎng)度的特點(diǎn)。術(shù)語一般由2-6個(gè)字組成。

    (3)在專利文獻(xiàn)中,專利作者使用的專業(yè)術(shù)語和自組術(shù)語所占比例較多,采用現(xiàn)有分詞工具對(duì)專利文獻(xiàn)進(jìn)行分詞結(jié)果不會(huì)很好,文獻(xiàn)中很多的專業(yè)術(shù)語和專利作者使用的自組術(shù)語將不能被識(shí)別。如:

    本/rz發(fā)明/un所/usuo提出/v轉(zhuǎn)向/un盤/qv機(jī)電式/n助力器/un最/d接近/un的/ude1現(xiàn)有/vn技術(shù)/un是/vshi一種/un轉(zhuǎn)向/un盤/v機(jī)電式/n助力器/un,……,/wd其中/rz的/ude1扭力/n桿/ng被/pbei設(shè)計(jì)/un為/p力矩/un傳感器/un感測(cè)元件/n的/ude1形式/n,/wd輸入/un軸/n和/cc輸出/un軸/n與/cc轉(zhuǎn)向/un盤/qv相/d聯(lián)接/un,……;/wf以及/cc控制單元/un,/wd該/rz控制單元/un的/ude1輸入/un端口/un與/cc力矩/un傳感器/un以及/cc電動(dòng)機(jī)/un轉(zhuǎn)子/un位置傳感器/un的/ude1輸出/un端口/un相連/un接/v,……

    從上可以看出,由于專利術(shù)語一般較長(zhǎng),并且大部分是專利作者根據(jù)自身的需要構(gòu)建的自組術(shù)語,這些術(shù)語往往被現(xiàn)有的分詞工具分成多個(gè)詞。

    1.2 術(shù)語上下文特點(diǎn)

    在中文術(shù)語的構(gòu)成方式中,只可能出現(xiàn)連續(xù)的名詞詞性構(gòu)成的字符串,而其它詞性的字符串往往不會(huì)在術(shù)語中連續(xù)出現(xiàn)。如 “機(jī)械程控裝置”為 “機(jī)械/n程控裝置/n”,“紅外線酒精傳感器”為 “紅外線/n酒精/n傳感器/n”,它們都是名詞詞性的字符串相組合而成的術(shù)語,而 “處理單元”為 “處理/v單元/n”, “高電位”為 “高/a電位/n”,分別是 “V+N”和 “A+N”這兩種組合方式構(gòu)成的術(shù)語,在 “V+N”構(gòu)成方式前一般不能再加 “V”和其它非名詞詞性的詞,在 “A+N”構(gòu)成方式前不能再加 “A”和其它非名詞詞性的詞。

    2 字符串之間結(jié)合強(qiáng)度計(jì)算方法

    術(shù)語往往是由多個(gè)有序字符串組合而成,組成術(shù)語的多個(gè)有序字符串在同一篇文獻(xiàn)中結(jié)合強(qiáng)度一般較大,而不能組成術(shù)語的有序字符串之間的結(jié)合度一般較小,因此,通過計(jì)算具有前后關(guān)系的字符串之間的內(nèi)部結(jié)合強(qiáng)度,可以作為判斷有序字符串能否組合成術(shù)語的標(biāo)準(zhǔn)。

    2.1 邊界結(jié)合度計(jì)算方法

    定義2 字符串邊界,即一個(gè)字符串對(duì)應(yīng)的首尾單個(gè)字。

    定義3 邊界結(jié)合度,在同一篇文獻(xiàn)中,前后有序的兩個(gè)字符串,字符串相鄰邊界之間的結(jié)合強(qiáng)度。

    在同一篇文獻(xiàn)中,選取出現(xiàn)頻次在兩次及以上的詞或詞組,記為S=S1S2,其中S1=WaWb…Wn,S2=WAWB…WN。例如,字串S= “直流電動(dòng)機(jī)”,S1= “直流”,S2= “電動(dòng)機(jī)”。記ic(WnWA)為字符串S1與字符串S2在對(duì)應(yīng)單篇文獻(xiàn)中的邊界結(jié)合度,F(xiàn) (Wn)表示字Wn在對(duì)應(yīng)單篇文獻(xiàn)中出現(xiàn)的頻次,F(xiàn) (WA)表示字WA在對(duì)應(yīng)單篇文獻(xiàn)中出現(xiàn)的頻次,F(xiàn) (WnWA)表示字符串WnWA在對(duì)應(yīng)單篇文獻(xiàn)中出現(xiàn)的頻次。

    字符串S1與字符串S2之間的邊界結(jié)合度ic(WnWA)的計(jì)算方法如式 (1)

    如果ic(WnWA)偏大,說明字Wn、字WA中的謀個(gè)字的出現(xiàn)往往與另一個(gè)字相伴出現(xiàn),說明兩個(gè)字結(jié)合緊密,在一定程序上反應(yīng)字符串S1與字符串S2結(jié)合緊密。反之,如果ic(WnWA)偏小在一定程度上說明字符串S1與字符串S2之間的結(jié)合不緊密。

    2.2 串邊結(jié)合度計(jì)算方法

    定義4 串邊結(jié)合度,即在同一篇文獻(xiàn)中,前后有序的兩個(gè)字符串,字符串相鄰邊界組成的詞與相鄰邊界的上文或下文的結(jié)合強(qiáng)度。

    在同一篇文獻(xiàn)中,選取出現(xiàn)頻次在兩次及以上的詞或詞組,記為S=S1S2,其中S1=WaWb…Wn,S2=WAWB…WN。例如,字串S= “耦合層”,S1= “耦合”,S2=“層”。記is(WnWA)為字符串S1與字符串S2在對(duì)應(yīng)單篇文獻(xiàn)中的串邊結(jié)合度,F(xiàn) (S1)表示字符串S1在對(duì)應(yīng)單篇文獻(xiàn)中出現(xiàn)的頻次,F(xiàn) (S2)表示字符串S2對(duì)應(yīng)單篇文獻(xiàn)中出現(xiàn)的頻次,F(xiàn) (WnWA)表示字符串WnWA在對(duì)應(yīng)單篇文獻(xiàn)中出現(xiàn)的頻次。

    字符串S1與字符串S2之間的串邊結(jié)合度is(WnWA)的計(jì)算方法如式 (2)

    如果is(WnWA)偏大,說明字符串S1的出現(xiàn)后極有可能WA相續(xù)出現(xiàn)或者字Wn出現(xiàn)之后極有可能字符串S2相續(xù)出現(xiàn),說明至少有一個(gè)字和另一個(gè)串結(jié)合緊密,因此,在一定程序上反應(yīng)字符串S1與字符串S2結(jié)合緊密。反之,如果is(WnWA)偏小在一定程度上說明字符串S1與字符串S2結(jié)合不緊密。

    3 術(shù)語雙字詞性過濾法

    通過計(jì)算字符串之間的結(jié)合度,能夠找出字符串間結(jié)合強(qiáng)的有序字符串,但對(duì)于常用來修飾或限定同一術(shù)語的字符串與術(shù)語之間的結(jié)合度也比較強(qiáng),由于這些字符串往往是非名詞詞性的串,并且這些字符串的長(zhǎng)度一般為2,因此,本文提出術(shù)語雙字詞性過濾的方法對(duì)計(jì)算結(jié)果進(jìn)行修正,提高術(shù)語提取的準(zhǔn)確性。

    根據(jù)構(gòu)成術(shù)語的詞性特點(diǎn)和本文提出的正向雙字切分和逆向雙字切分的方法。本文實(shí)現(xiàn)術(shù)語雙字詞性過濾法如下:

    步驟1 對(duì)于長(zhǎng)度在3及3以上的字符串S=W1W2…Wn采用正向雙字切分,經(jīng)過切分S=S1S2…St,其中t=[n/2],S1=W1W2,S2=W3W4…,當(dāng)n為偶數(shù)時(shí)St=Wn-1Wn,當(dāng)n為奇數(shù)時(shí)St=Wn。如 “數(shù)字邏輯單元”,它經(jīng)正向雙字切分得到 “數(shù)字”、“邏輯”、“單元”。

    步驟2 判斷S1的詞性,若為 “n”,則認(rèn)為字符串S正向合法;若字符串S1的詞性為 “nr”、“nz”、“vn”、“a”、“v”、“b”中的一種的情況,字符串S2的長(zhǎng)度為1時(shí),則認(rèn)為字符串S正向合法;若字符串S1的詞性為 “nr”、“nz”、“vn”、“a”、“v”、“b”中的一種的情況,字符串S2的詞性為 “n”則認(rèn)為字符串S正向合法;若字符串S1的詞性為 “nr”、“nz”、“vn”、“a”、“v”、“b”中的一種的情況,字符串S2在詞性集合中沒有對(duì)應(yīng)項(xiàng),則認(rèn)為字符串S正向合法;如果字符串S都不滿足以上任何一條,剛認(rèn)為字符串S正向不合法。對(duì)于正向合法的字符串轉(zhuǎn)到執(zhí)行步驟4,對(duì)于正向不合法的字符串將其轉(zhuǎn)到執(zhí)行步驟3。

    步驟3 對(duì)于給定的正向不合法的字符串S=S1S2…St,字符串S去除S1,即S’=S2…St,對(duì)于去除S1后的字符串S’,如果其長(zhǎng)度小于3,將整個(gè)字符串拋棄,結(jié)束對(duì)整個(gè)字符串的處理,如果其長(zhǎng)度在3及3以上將其轉(zhuǎn)到步驟1執(zhí)行處理。

    步驟4 對(duì)于經(jīng)過正向判斷合法的字符串S=W1W2…Wn,將字符串S進(jìn)行逆向雙字切分,S=S1S2…St,其中t=BXW1,…,St=Wn-1Wn,當(dāng)n為偶數(shù)時(shí),S1=W1W2,…,St=Wn-1Wn。如 “控制器”經(jīng)逆向雙字切分為 “控”、“制器”。

    步驟5 判斷St的詞性,若St的詞性為 “n”或St不存在于詞表中,則認(rèn)為字符串S逆向合法,否則不合法。對(duì)于不合法的,將其轉(zhuǎn)至步驟6。如果合法轉(zhuǎn)至步驟7。

    步驟6 對(duì)于給定逆向不合法的字符串S=S1S2…St,去除St,即S=S1S2…St-1。若此時(shí)字符串S的長(zhǎng)度小于3,則將其拋棄,結(jié)束對(duì)整個(gè)字符串的處理。若此時(shí)字符串S的長(zhǎng)度在3及3以上,將S轉(zhuǎn)至步驟4進(jìn)行處理。

    步驟7 剩余字符串有效,結(jié)束執(zhí)行。

    對(duì)于候選術(shù)語字符串,經(jīng)過上述步驟驗(yàn)證后,余下的本文認(rèn)為是有效字符串。

    4 實(shí)驗(yàn)及結(jié)果

    4.1 實(shí)驗(yàn)步驟

    文的語料采用某專利公司提供的1248篇專利文獻(xiàn),大小為14.4M。通過ICTCLAS對(duì)專利文獻(xiàn)進(jìn)行分詞及詞性標(biāo)注,統(tǒng)計(jì)單篇文獻(xiàn)中出現(xiàn)的所有詞匯,并去除停用詞、頻次僅為1和不必要的詞性如 “wky”、“wkz”、“t”所標(biāo)注的字符串。

    對(duì)于統(tǒng)計(jì)結(jié)果中存在的字符串,如S1= “信號(hào)”及S2= “分量”采用式 (3)獲得的拼接結(jié)果S為 “信號(hào)分量”和 “分量信號(hào)”。在對(duì)應(yīng)文獻(xiàn)中去查找,若 “信號(hào)分量”和 “分量信號(hào)”在對(duì)應(yīng)文獻(xiàn)中出現(xiàn)頻次大于1時(shí)就將其保留并存入對(duì)應(yīng)文獻(xiàn)的候選詞集Word1中

    在對(duì)應(yīng)候選詞集Word1的基礎(chǔ)之上,選取Word1中的字符串作為S1,選取對(duì)應(yīng)文獻(xiàn)統(tǒng)計(jì)結(jié)果中出現(xiàn)頻次在兩次及以上的字符串作為S2,按式 (3)再次進(jìn)行拼結(jié)。對(duì)于拼結(jié)的字符串,如果字符串在對(duì)應(yīng)文獻(xiàn)中出現(xiàn)的頻次在兩次及兩次以上,則將其保留并存入對(duì)應(yīng)文獻(xiàn)的候選詞集Word2中。

    再次選取候選詞集Word1中字符串,把其中的字符串按式 (3)進(jìn)行拼結(jié)。如S1= “信號(hào)分量”及S2= “計(jì)算機(jī)信號(hào)”,對(duì)于拼結(jié)的結(jié)果字符串,如果其在對(duì)應(yīng)文獻(xiàn)中出現(xiàn)的頻次在兩次及在兩次以上,則將其保留并存入候選集合Word3中。

    對(duì)于候選集Word1中的字符串,采用式 (1)和式(2)計(jì)算字符串之間的結(jié)合度,對(duì)于大于指定閾值的字符串,保留在初選合法集。對(duì)于候選集Word2和候選集Word3中的字符串,如取候選集Word2中的字符串S’,S’= “計(jì)算機(jī) 信號(hào)分量”,若 “計(jì)算機(jī) 信號(hào)”和 “信號(hào)分量”都在初選合法集中,則將S’存放入初選合法集,否則將其拋棄。

    對(duì)于初選合法集中的字符串,如S=S1’+S2’+S3’,如果S1’的長(zhǎng)度大于1,則認(rèn)為S首部合法;若S1’長(zhǎng)度為1,為判斷其是否合法,本文采用準(zhǔn)確度高的 《PFR人民日?qǐng)?bào)標(biāo)注語料庫》一月的熟語料,S1’在語料中作為詞首部的概率大于其作為詞尾部概率,大于其作為詞中部的概率,則認(rèn)為S首部合法。否則,將S1’刪除,即S=S2’+S3’。如果S的長(zhǎng)度個(gè)數(shù)小于3個(gè)字則將其拋棄,否則繼續(xù)對(duì)S進(jìn)行首部合法判斷。

    對(duì)于首部合法的候選術(shù)語字符串,采用術(shù)語雙字詞性過濾法對(duì)其進(jìn)行修正,對(duì)于修正的結(jié)果字符串,本文中將其認(rèn)定為術(shù)語。

    4.2 結(jié)果及分析

    本文在計(jì)算字符串之間的結(jié)合強(qiáng)度時(shí)都是在字符串對(duì)應(yīng)的單篇文獻(xiàn)中的基礎(chǔ)之上進(jìn)行計(jì)算。因此,本文提出單篇準(zhǔn)確率、單篇召回率、平均召回率、平均召回率評(píng)價(jià)指標(biāo)。

    定義5 單篇準(zhǔn)確率,即某單篇文獻(xiàn)中,正確識(shí)別的術(shù)語數(shù)Nr與對(duì)應(yīng)文獻(xiàn)中識(shí)別的所有術(shù)語數(shù)Nt之比

    定義6 單篇召回率,即某單篇文獻(xiàn)中,正確識(shí)別的術(shù)語數(shù)Nr與對(duì)應(yīng)文獻(xiàn)中所有出現(xiàn)的術(shù)語數(shù)Na之比

    定義7 平均準(zhǔn)確率,所有統(tǒng)計(jì)的文獻(xiàn)中,所有正確識(shí)別的術(shù)語數(shù)之和與所有識(shí)別數(shù)之和的比

    定義8 平均召回率,所有統(tǒng)計(jì)的文獻(xiàn)中,正確識(shí)別術(shù)語數(shù)之和與統(tǒng)計(jì)文獻(xiàn)中術(shù)語數(shù)之和的比

    本文隨機(jī)選取14篇專利文獻(xiàn)的結(jié)果進(jìn)行統(tǒng)計(jì)分析,具體結(jié)果見表1和表2。

    表1 單篇準(zhǔn)確率與單篇召回率實(shí)驗(yàn)結(jié)果

    表2 平均準(zhǔn)確率與平均召回率統(tǒng)計(jì)結(jié)果

    其中,Pa表示文獻(xiàn)總數(shù);Ntr表示所有文獻(xiàn)中識(shí)別的術(shù)語總數(shù);Ncr表示所識(shí)別的術(shù)語中正確的總數(shù);Ntp表示文獻(xiàn)中術(shù)語的總數(shù)。

    從上統(tǒng)計(jì)結(jié)果可以看出本文提出的融合邊界結(jié)合度、串邊結(jié)合度、雙字詞性過濾法提取術(shù)語具有較好的效果。但也存在一定的誤識(shí)別,對(duì)于錯(cuò)誤識(shí)別為術(shù)語的字符串主要有兩類。一類是由專利文獻(xiàn)中詞語之間的常用搭配引起,如 “本發(fā)明”, “實(shí)施例”, “本”和 “發(fā)”、 “施”和 “例”在文中一般連續(xù)出現(xiàn),結(jié)合強(qiáng)度較大,導(dǎo)致識(shí)別錯(cuò)誤。另一類詞語是動(dòng)賓結(jié)構(gòu)如 “用電容”、 “用電線”, “發(fā)出信號(hào)”,在文章中出現(xiàn)的頻次較低,而且這些動(dòng)詞在對(duì)應(yīng)的句子中起到謂語的作用,但是在識(shí)別的過程中 “動(dòng)詞+名詞”的結(jié)構(gòu)且動(dòng)詞與名詞結(jié)合強(qiáng)度較大,在本文被識(shí)別為術(shù)語,從而導(dǎo)致識(shí)別錯(cuò)誤。

    5 結(jié)束語

    本文從組成術(shù)語的字符串之間的結(jié)合強(qiáng)度出發(fā),提出了字符串之間的邊界結(jié)合度、串邊結(jié)合度的概念及其計(jì)算方法;同時(shí)根據(jù)組成術(shù)語字符串的詞性規(guī)律,本文提出了雙字詞性過濾方法。在本文中,將邊界結(jié)合度、串邊結(jié)合度與雙字詞性過濾法相融合,提取專利文獻(xiàn)中的術(shù)語。實(shí)驗(yàn)結(jié)果表明所采用的方法取得了較好的效果。但也存在一定的誤識(shí)別,因此需要進(jìn)一步改進(jìn),下一步打算結(jié)合語義分析,在對(duì)應(yīng)文獻(xiàn)中正確識(shí)別出動(dòng)賓結(jié)構(gòu),提高正確率。

    [1]LIU Bao,ZHANG Guiping,CAI Dongfeng.Technical term automatic extraction research based on statistics and rules [J].Computer Engineering and Application,2008,44 (23):147-150(in Chinese).[劉豹,張桂平,蔡?hào)|風(fēng).基于統(tǒng)計(jì)和規(guī)則相結(jié)合的科技術(shù)語自動(dòng)抽取研究 [J].計(jì)算機(jī)工程與應(yīng)用,2008,44 (23):147-150.]

    [2]JIA Meiying,YANG Bingru,ZHENG Dequan,et al.Research on automatic military intelligence term extraction using CRF model[J].Computer Engineering and Application,2009,45(32):126-129 (in Chinese).[賈美英,楊炳儒,鄭德權(quán),等.采用CRF技術(shù)的軍事情報(bào)術(shù)語自動(dòng)抽取研究 [J].計(jì)算機(jī)工程與應(yīng)用,2009,45 (32):126-129.]

    [3]TANG Tao,ZHOU Qiaoli,ZHANG Guiping.Term extraction based on the combination of statistics and rules [J].Journal of Shenyang Aerospace University,2011,28 (5):71-74 (in Chinese).[唐濤,周俏麗,張桂平.統(tǒng)計(jì)與規(guī)則相結(jié)合的術(shù)語抽 取 [J].沈 陽 航 空 航 天 大 學(xué) 學(xué) 報(bào),2011,28 (5):71-74.]

    [4]CEN Yonghua,HAN Zhe,JI Peipei.Chinese term recognition based on hidden Markov model [J].New Technology of Library And Information Service,2008 (12):54-58 (in Chinese).[岑詠華,韓哲,季培培.基于隱馬爾科夫模型的中文術(shù)語識(shí)別研究[J].情報(bào)分析與研究,2008 (12):54-58.]

    [5]LIANG Yinghong,ZHANG Wenjing,ZHANG Youcheng.Term recognition based on integration of C value and mutual information [J].Computer Applications and Software,2010,24 (7):108-110 (in Chinese). [梁穎紅,張文靜,張有承.C值和互信息相結(jié)合的術(shù)語抽取 [J].計(jì)算機(jī)應(yīng)用與軟件,2010,24 (7):108-110.]

    [6]CHEN Shichao,YU Bin.Method of mutual information filtration with dual-threshold for term extraction [J].Journal of Computer Applications,2011,31 (4):1070-1073 (in Chinese).[陳士超,郁濱.面向術(shù)語抽取的雙閾值互信息過濾方法 [J].計(jì)算機(jī)應(yīng)用,2011,31 (4):1070-1073.]

    [7]LIU Li,LIU Xiaoming.Extraction of domain-specific phenomenal terms based on separator and contextual terms [J].Journal of South China University of Technology (Natural Science Edition),2009,39 (7):145-149 (in Chinese).[劉里,劉小明.基于分隔符和上下文術(shù)語的領(lǐng)域現(xiàn)象術(shù)語抽取 [J].華南理工大學(xué)學(xué)報(bào) (自然科學(xué)版),2009,39 (7):145-149.]

    [8]HE Yan,SUI Zhifang,DUAN Huiming,et al.Term mining combining term component bank [J].Computer Engineering and Application,2006 (33):4-7 (in Chinese).[何燕,穗志方,段慧明,等.一種結(jié)合術(shù)語部件庫的術(shù)語提取方法 [J].計(jì)算機(jī)工程與應(yīng)用,2006 (33):4-7.]

    [9]ZHAI Dufen,LIU Baisong.Automatic domain-specific term extraction in administrative-domain ontology [J].New Technology of Library and Information Service,2010,191 (4):59-65(in Chinese).[翟篤風(fēng),劉柏嵩.政務(wù)領(lǐng)域本體術(shù)語的自動(dòng)抽取 [J].現(xiàn)代圖書情報(bào)技術(shù),2010,191 (4):59-65.]

    [10]GU Jun,WANG Hao.Study on term extraction on the basis of Chinese domain texts [J].New Technology of library and Information Service,2011,204 (4):29-34 (in Chinese).[谷俊,王昊.基于領(lǐng)域中文文本的術(shù)語抽取方法研究 [J].現(xiàn)代圖書情報(bào)技術(shù),2011,204 (4):29-34.]

    [11]CHENG Lanlan.The study of large-scale web term-pairs extraction based on regular expressions [J].Journal of Information,2008 (11):62-68 (in Chinese).[程嵐嵐.基于正則表達(dá)式的大規(guī)模網(wǎng)頁術(shù)語對(duì)抽取研究 [J].情報(bào)雜志,2008(11):62-68.]

    [12]WEN Chun,WANG Xiaobin,SHI Zhaoxiang.Automatic domain-specific term extraction in Chinese domain ontology learning [J].Application Research of Computers,2009,26 (7):2652-2655 (in Chinese).[溫春,王曉斌,石昭祥.中文領(lǐng)域本體學(xué)習(xí)中術(shù)語年自動(dòng)抽取 [J].計(jì)算機(jī)應(yīng)用研究,2009,26 (7):2652-2655.]

    猜你喜歡
    字符串合法術(shù)語
    合法兼職受保護(hù)
    被賴賬討薪要合法
    公民與法治(2020年3期)2020-05-30 12:29:56
    合法外衣下的多重阻撓
    找個(gè)人來替我懷孕一一代孕該合法嗎?
    媽媽寶寶(2017年2期)2017-02-21 01:21:22
    一種新的基于對(duì)稱性的字符串相似性處理算法
    依據(jù)字符串匹配的中文分詞模型研究
    有感于幾個(gè)術(shù)語的定名與應(yīng)用
    從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢(shì)
    一種針對(duì)Java中字符串的內(nèi)存管理方案
    小改字符串讓殺毒軟件閉嘴
    兖州市| 阿鲁科尔沁旗| 安仁县| 大同市| 海阳市| 若尔盖县| 宁明县| 女性| 额济纳旗| 于都县| 大埔县| 大宁县| 海宁市| 青阳县| 乐清市| 龙游县| 许昌县| 曲阜市| 西丰县| 多伦县| 古交市| 丰原市| 武夷山市| 乐清市| 富民县| 文昌市| 安阳市| 奉化市| 六枝特区| 邹平县| 禄劝| 咸阳市| 沈丘县| 乌恰县| 涪陵区| 鄂托克前旗| 阿克苏市| 湘乡市| 辽宁省| 昌宁县| 巩留县|