• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    分詞技術(shù)的研究與應(yīng)用?

    2015-12-07 13:57:21吳宏洲
    電腦知識(shí)與技術(shù) 2015年6期

    吳宏洲

    摘要:該文主要論述一種快速分詞技術(shù)的實(shí)現(xiàn)。對(duì)于GBK編碼格式的原始文獻(xiàn),利用GBK可見(jiàn)漢字,建立內(nèi)存常駐索引,按照最大匹配法查找外存分詞詞典庫(kù),從而將文章例句進(jìn)行快速切分。理論上是目前最快的一種分詞方法。

    關(guān)鍵詞:正向分詞;逆向分詞;GBK;字典索引

    中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)06-0179-04

    4A Quick Word Segmentation Technology Research and Application

    WU Hong-zhou

    (The China Patent Information Centre, Beijing 100088, China)

    Abstract:This paper mainly discusses the realization of a fast segmentation technology.For GBK encoding format of the original literature, the use of visible GBK Chinese characters, establishing resident memory index, according to the maximum matching method to find the external storage word segmentation dictionary library, which will be fast segmentation articles sentences.In theory it is at present a word segmentation method is the fastest.

    Key words:positive word segmentation;reverse participles;GBK;the dictionary index

    在專利信息技術(shù)中,專利文獻(xiàn)信息檢索、機(jī)器翻譯、專利輔助自動(dòng)文摘和CPC/IPC自動(dòng)分類,都會(huì)用到一個(gè)基本的技術(shù)——分詞技術(shù)。所謂分詞,就是利用已有詞庫(kù)的詞,來(lái)切分文章中的詞的過(guò)程。切分的分詞,用來(lái)確定在文獻(xiàn)中的位置;用來(lái)統(tǒng)計(jì)特征詞的頻度;聚類、分類運(yùn)算;相似度計(jì)算等。目前有很多應(yīng)用場(chǎng)景已經(jīng)使用了已有的技術(shù)產(chǎn)品。帶來(lái)的好處是:引入語(yǔ)義分析、詞性分析、語(yǔ)法分析等成熟技術(shù),性能穩(wěn)定,分詞正確率高;加快軟件產(chǎn)品開(kāi)發(fā)使用,可移植性強(qiáng)。帶來(lái)的問(wèn)題是:受著作版權(quán)保護(hù),須繳納昂貴費(fèi)用,加大應(yīng)用軟件的制作成本;由于詞庫(kù)數(shù)據(jù)結(jié)構(gòu)的不公開(kāi),使維護(hù)變得困難;產(chǎn)品大多面向大眾化讀物,不能靈活地適應(yīng)專業(yè)技術(shù)性強(qiáng)的不同領(lǐng)域?qū)Ψ衷~的不同要求;詞庫(kù)中分詞需要標(biāo)注詞性,詞性對(duì)于專業(yè)技術(shù)文獻(xiàn)產(chǎn)生的作用并不明顯,更新分詞,須額外編輯詞性,并審校,費(fèi)時(shí)費(fèi)力,詞庫(kù)的更新周期比較長(zhǎng)。為了降低應(yīng)用成本,迫使我們不得不自主研發(fā)一整套適合本領(lǐng)域的包括分詞在內(nèi)的相關(guān)基本技術(shù)。分詞技術(shù)屬于中國(guó)特色的信息處理技術(shù)之一。在西方語(yǔ)言中,拼音字母組合構(gòu)成的單詞,單詞與單詞之間有明顯空格分隔,詞是自然分隔的,無(wú)須分詞。對(duì)于相形文字(如中日韓語(yǔ)言)來(lái)說(shuō),字詞之間緊密連接,沒(méi)有明顯間隔。因此需要仿照西方語(yǔ)言來(lái)預(yù)先加工分詞,使之明顯分割。只有具備了分詞分割字詞的基礎(chǔ),才能夠像西文那樣輕松地建立數(shù)學(xué)模型,利用數(shù)學(xué)方法,來(lái)對(duì)文獻(xiàn)進(jìn)行分析利用。因此本文將討論如何實(shí)現(xiàn)一種實(shí)用的快速分詞方法。

    1 分詞技術(shù)的現(xiàn)狀

    分詞技術(shù)目前已經(jīng)非常成熟。常見(jiàn)的有三種方法:

    1) 字符串匹配的分詞方法;

    2) 詞義分詞法;

    3) 統(tǒng)計(jì)分詞法。

    1.1 字符串匹配的分詞方法

    這是一種常用的分詞法,它主要利用已有詞庫(kù)中的詞匹配文章句子中的詞,來(lái)切分句子。常見(jiàn)的方法又有四種方法:

    1) 正向最大匹配法;

    2) 逆向最大匹配法;

    3) 最短路徑分詞法;

    4) 雙向最大匹配法。

    1.2 詞義分詞方法

    一種機(jī)器語(yǔ)音判斷的分詞方法。在進(jìn)行句法、語(yǔ)義分析時(shí),利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象從而得到分詞,這種分詞方法,現(xiàn)在還不成熟,處在實(shí)驗(yàn)階段。

    引入詞性協(xié)助分析詞性在語(yǔ)法位置上的可能性,對(duì)詞進(jìn)行合理切分,目前國(guó)內(nèi)產(chǎn)品出現(xiàn)的比較多。如中國(guó)科學(xué)院計(jì)算所的ICTCLAS產(chǎn)品。

    1.3 統(tǒng)計(jì)分詞法

    根據(jù)詞組的統(tǒng)計(jì),就會(huì)發(fā)現(xiàn)兩個(gè)相鄰字出現(xiàn)的頻率最多,那么這個(gè)詞就很重要。就可以作為用戶提供字符串中的分隔符來(lái)分詞。

    2 分詞技術(shù)的實(shí)現(xiàn)

    本文討論的是屬于字符串匹配的分詞方法。而且主要著重討論正向最大匹配法和逆向最大匹配法。雙向最大匹配法是前兩種方法的結(jié)合,用于判斷切分產(chǎn)生歧義時(shí),是否需要人工干預(yù)來(lái)決定選擇哪一種結(jié)果,或者,通過(guò)最佳路徑分詞法來(lái)自動(dòng)選擇一種。因此,設(shè)計(jì)好正向/逆向分詞技術(shù)是分詞技術(shù)實(shí)現(xiàn)的基礎(chǔ),也是本文主旨。本文重點(diǎn)是要實(shí)現(xiàn)一種高效的分詞技術(shù)。由于分詞技術(shù)是一種純粹底層的引擎,因此提出的高效目標(biāo),既要保證分詞的效率和效果,還要兼顧系統(tǒng)資源開(kāi)銷(xiāo),將節(jié)省的資源盡可能多地用于其他方面,例如響應(yīng)更多的客戶端的服務(wù)請(qǐng)求。筆者利用內(nèi)存和外存相結(jié)合的方法建立了一個(gè)駐留內(nèi)存的字典索引和一對(duì)存放于外存的正向分詞和逆向分詞詞庫(kù)來(lái)實(shí)現(xiàn)高效分詞技術(shù)。

    2.1 分詞庫(kù)的構(gòu)建

    在外存建立詞庫(kù),要對(duì)詞庫(kù)中詞語(yǔ)的開(kāi)頭漢字、詞語(yǔ)的漢字字?jǐn)?shù)和結(jié)尾漢字這三項(xiàng)進(jìn)行標(biāo)注。將分詞數(shù)據(jù)結(jié)構(gòu)定義為定長(zhǎng)記錄:{分詞char(30),首字char(2),首字編碼char(4),尾字char(2),尾字編碼char(4),分詞漢字?jǐn)?shù)int,位置號(hào)int}。

    詞庫(kù)設(shè)計(jì)需要考慮在詞庫(kù)檢索效率與詞長(zhǎng)選擇之間求得平衡。如果詞長(zhǎng)過(guò)長(zhǎng),檢索效率必然下降;如果詞長(zhǎng)過(guò)短,就會(huì)丟失正確的長(zhǎng)詞,使分詞正確性得不到滿足??紤]到化學(xué)、藥物、微生物等領(lǐng)域的技術(shù)術(shù)語(yǔ)可能會(huì)有大量長(zhǎng)詞出現(xiàn),因此,犧牲部分分詞的訪問(wèn)效率,換來(lái)長(zhǎng)詞的滿足也是不得已的,通常認(rèn)為一個(gè)長(zhǎng)詞最長(zhǎng)不超過(guò)15個(gè)漢字。

    實(shí)驗(yàn)中我們建立了大約120萬(wàn)條分詞的詞典庫(kù),用以模擬專利文獻(xiàn)詞典的真實(shí)數(shù)據(jù)規(guī)模。

    2.1.1 正向分詞詞庫(kù)的構(gòu)建

    將詞庫(kù)文件按照{(diào)首字編碼(正序)+詞語(yǔ)的漢字字?jǐn)?shù)(逆序)+尾字編碼(正序)+分詞(正序)}來(lái)排序,并得到一個(gè)正向分詞庫(kù)文件。每個(gè)記錄行號(hào)填入“位置號(hào)”字段。樣例參見(jiàn)表1。

    2.1.2 逆向分詞詞庫(kù)的構(gòu)建

    將詞庫(kù)文件按照{(diào)尾字編碼(正序)+詞語(yǔ)的漢字字?jǐn)?shù)(逆序)+首字編碼(正序)+分詞(正序)}來(lái)排序,并得到逆向分詞庫(kù)文件。每個(gè)記錄行號(hào)填入“位置號(hào)”字段。樣例參見(jiàn)表2

    2.2常駐內(nèi)存字典索引表的構(gòu)建

    在內(nèi)存建立一個(gè)字典索引表。由于分詞庫(kù),對(duì)于正向分詞是按照單詞首字集中有序存放的,對(duì)于逆向分詞也是按照單詞尾字集中有序存放的。因此,字典索引,對(duì)于正向分詞庫(kù)來(lái)說(shuō),需要知道單詞首字的起、止位置;同樣,對(duì)于逆向分詞庫(kù)來(lái)說(shuō),需要知道單詞尾字的起、止位置。

    接下來(lái)選擇什么樣的字典作為索引就是一個(gè)關(guān)鍵。

    通過(guò)考查GBK編碼特征,GBK編碼是雙字節(jié)定長(zhǎng)漢字編碼。其編碼與漢字區(qū)位相對(duì)應(yīng)。筆者在GBK編碼中篩選出21002個(gè)可見(jiàn)漢字建立字典索引碼表。這是目前國(guó)內(nèi)漢字編碼比較多的,且與《漢語(yǔ)大字典》相一致?!稘h語(yǔ)大字典》1993年版和1998年版,收錄了21000個(gè)字頭。字典索引碼表中的字,對(duì)于專利文獻(xiàn)領(lǐng)域的應(yīng)用,我們認(rèn)為也已經(jīng)足夠。如果要應(yīng)用于其他方面,例如涉及古籍出版物的文獻(xiàn),這一方案還是不足以滿足所需。例如《康熙字典》中的字頭收錄了多達(dá)47043個(gè)字頭。其中大多是異形字和非常用字。

    21002個(gè)可見(jiàn)漢字是如何從GBK編碼表篩選的?

    首先來(lái)看GBK編碼分布圖(參見(jiàn)圖1)。

    圖1 GBK編碼分布圖

    根據(jù)GBK編碼分布圖,我們將編碼劃分為兩類編碼:

    1) 由漢字一區(qū)、漢字二區(qū)、擴(kuò)展三區(qū)和擴(kuò)展四區(qū)組成的字模漢字編碼表,去掉其中不可見(jiàn)漢字字模編碼,共收錄21002個(gè)漢字。作為漢字編碼。

    2) 符號(hào)區(qū)字模編碼和不可見(jiàn)漢字字模編碼,作為非漢字編碼。

    另外除GBK編碼外,還有一類西文ASCII編碼。作為西文編碼。

    以可見(jiàn)漢字編碼作為字典構(gòu)建正向和逆向分詞索引,其最大記錄數(shù)約21002個(gè)。將數(shù)據(jù)結(jié)構(gòu)定義為定長(zhǎng)記錄:{GBK編碼char(4),漢字char(2),首字串字?jǐn)?shù)int,尾字串字?jǐn)?shù)int,首字開(kāi)始int,首字結(jié)尾int,尾字開(kāi)始int,尾字結(jié)尾int}。其記錄格式參見(jiàn)表3。

    表3 內(nèi)存字典索引格式

    1) 首先,對(duì)于停用字詞要做特殊預(yù)處理,要么過(guò)濾掉,要么視同分隔符作用,進(jìn)行特殊預(yù)切分,停用字詞前后要添加空格分隔符。

    2) 對(duì)于ascii編碼的西文字母數(shù)字及其特殊符號(hào),視同分隔符作用,不進(jìn)行切分。原樣輸出。

    3) 對(duì)于GBK編碼的符號(hào)區(qū)和不屬于字典索引表中識(shí)別漢字的編碼,視同分隔符作用,不進(jìn)行切分。原樣輸出。

    4) 對(duì)于GBK編碼屬于字典索引表中可識(shí)別的漢字的連續(xù)字串,視同中文例句,要進(jìn)行分詞切分,切分分詞前后要添加空格分隔符。切分的句子按照最大正向匹配法或最大逆向匹配法進(jìn)行分詞切分,切分出的分詞或單字之間要以空格分隔符分隔。

    分詞切分算法包含:

    正文切分句子算法、句子切分分詞(分為最大正向分詞匹配和最大逆向分詞匹配)算法。

    2.4.1 將正文切分成句子

    正文切分句子,主要是對(duì)原始文件中的正文信息進(jìn)行解析最粗的過(guò)程,首先要讀入一個(gè)字,這里的字,是文字串中最小的邏輯單元,對(duì)于ASCII編碼的字是單字節(jié),而對(duì)于GBK編碼的字是一個(gè)雙字節(jié)。

    要確定字的類型。主要有3種:

    1:ASCII編碼單字節(jié)表示的字,如西文字母數(shù)字及符號(hào);

    2:GBK編碼雙字節(jié)表示的字,不屬于字典索引表中(21002個(gè)漢字)的部分,如符號(hào)區(qū)全角符號(hào)和一至四區(qū)不可見(jiàn)漢字編碼;

    3:GBK編碼雙字節(jié)表示的字,屬于字典索引表中(21002個(gè)漢字)的部分,作為漢字編碼。

    讀入的字的類型如果連續(xù)相同,則字的流構(gòu)成同類字串,亦即短語(yǔ),直至讀到一個(gè)不同類型的字為止。如果屬于1類或2類的短語(yǔ),不處理,原樣輸出;如果屬于3類的短語(yǔ),要將短語(yǔ)句子作切分分詞的細(xì)加工處理,處理后的分詞流結(jié)果輸出。重新繼續(xù)構(gòu)造新的類型的字串,直至全部讀入的字串處理完為止。

    算法:

    T00; //首先確定已讀類型T0為空

    Y=X “”; // 句子樣板串Y和已讀字串X也清空

    While((T1getword(fdi,&C) ) > 0) {

    T1getword(fdi,&C); // 讀入字C,類型T1

    If(T1 != T0){ //當(dāng)讀字節(jié)的類型T1與已讀類型T0不一致時(shí)

    If ( T1 == 3) // 句子是漢字串

    X segment (X,direct) // 句子切分分詞 ;direct正向/逆向

    // 第一次,相當(dāng)于只輸出一個(gè)空,分詞

    Else If(T==2)

    X X+ “ ”;

    YY+X+ “ ”; // 句子樣板串Y添加已讀串S和空格(即Y=Y+X+ )

    X “”; //然后清空已讀串X

    T0T1; //重置新類型,T0取新類型T1

    } else { //否則,T1與T0一致,拼接字串

    XX+C; // 讀入字C添加到已讀字串X

    }

    }

    2.4.2 句子切分分詞

    句子切分分詞,主要有最大正向分詞法和最大逆向分詞法兩種方法。

    兩種方法同時(shí)對(duì)句子進(jìn)行切分分詞,是一種混合方法,主要用來(lái)對(duì)句子切分分詞結(jié)果進(jìn)行互校時(shí)同時(shí)使用。如果兩種切分句子結(jié)果出現(xiàn)歧義,則會(huì)引入另外一種,最短路徑的方法,即計(jì)算切分分詞數(shù)量最少優(yōu)先自動(dòng)判斷方法。后兩種方法在這里,就不進(jìn)一步介紹。

    算法:

    If (Direct==1) { // 正向分詞

    // 進(jìn)入最大正向分詞處理

    }else{ // 否則 , 逆向分詞

    // 進(jìn)入最大逆向分詞處理

    }

    2.4.2.1 最大正向分詞匹配

    由于正向分詞庫(kù)的記錄是按照字頭(正序)、詞長(zhǎng)字?jǐn)?shù)(逆序)、字尾(正序)排序,字典索引表中記錄了正向分詞庫(kù)中字頭和最大詞長(zhǎng)字?jǐn)?shù)。切分例句時(shí),通過(guò)字頭、可能的最大詞長(zhǎng)來(lái)優(yōu)先查找分詞。可能的最大詞長(zhǎng),是實(shí)際句子長(zhǎng)度和字典字頭對(duì)應(yīng)的正向分詞的最大長(zhǎng)度兩者中最小的長(zhǎng)度,最小不能小于2,否則不成其為詞,而為單字。例如:例句S:“最大正向分詞法”,其句長(zhǎng)SL:7。

    最大正向分詞匹配法,首先取字頭“最”字。全程折半查找字典索引表,找到“最”字索引。“最”字對(duì)應(yīng)正向分詞庫(kù)的局部起止范圍[begin,end],最大詞長(zhǎng)度WL=11。沿著起止范圍[begin,end]對(duì)分詞詞庫(kù)進(jìn)行折半查找。查找分詞“最大逆向分詞法”,如果沒(méi)有找到,則將查找詞去掉一個(gè)漢字“法”,繼續(xù)找“最大正向分詞”,如果還沒(méi)有找到,則繼續(xù)去掉后面的字,直至“最大”,還沒(méi)有找到,將“最”字,作為非分詞字,輸出。繼續(xù)以“大正向分詞法”為新句子,繼續(xù)切分分詞。如果找到分詞,例如:找到“最大正向分詞”,則輸出“最大正向分詞”,截?cái)喾衷~后的句子“法”作為新句子繼續(xù)切分分詞。直至,句子切分完畢。

    算法:

    Y “”; // 清空結(jié)果

    // S=例句,傳入?yún)?shù)

    SLlength(S); // 取例句長(zhǎng)度

    While(SL>0) { // 從例句首字開(kāi)始切分分詞

    Hget(S,0,1); // 取字頭

    Pbinary_search_gbk(0,GBKNUM-1,H); // 折半查找字頭

    WLgbk[P].hml; // 取字典正向分詞最大長(zhǎng)度

    begin gbk[P].hmb; // 分詞庫(kù)局部開(kāi)始位置

    end gbk[P].hme; // 分詞庫(kù)局部結(jié)尾位置

    Lmin(WL,SL); // 字典正向分詞最大長(zhǎng)度和句長(zhǎng)較小者,作為最大試探長(zhǎng)度

    For(l=L;i>1;l--) { // 以最大試探長(zhǎng)度依次縮小,

    // 來(lái)截?cái)嗑渥釉囂绞欠翊嬖谧畲蠓衷~

    Csubstr(S,0,l); //截取句子,取待查找分詞

    // 局部折半查找分詞

    If((rcfinddict(C,begin,end,fid))>0) { // fid指定分詞庫(kù)句柄

    Break; // 找到分詞

    }

    }

    Csubstr(S,0,l); //截取句子分詞

    YY+C+ “ ”; // 輸出分詞 ,或 ,非分詞單字

    S substr(S,l,SL); //截?cái)喾衷~后新句子

    SL length(S); // 取新句長(zhǎng)度,繼續(xù)

    }

    output(Y)//返回 輸出結(jié)果

    2.4.2.2 最大逆向分詞匹配

    由于逆向分詞庫(kù)的記錄是按照字尾(正序)、詞長(zhǎng)字?jǐn)?shù)(逆序)、字頭(正序)排序,字典索引表中記錄了逆向分詞庫(kù)中字尾和最大詞長(zhǎng)字?jǐn)?shù)。切分例句時(shí),通過(guò)字尾、可能的最大詞長(zhǎng)來(lái)優(yōu)先查找分詞。可能的最大詞長(zhǎng),是實(shí)際句子長(zhǎng)度和字典字尾對(duì)應(yīng)的逆向分詞的最大長(zhǎng)度兩者中最小的長(zhǎng)度,最小不能小于2,否則不成其為詞,而為單字。例如:例句S:“最大逆向分詞法”,其句長(zhǎng)SL:7。

    最大逆向分詞匹配法,首先取字尾“法”字,全程折半查找字典索引表,找到“法”字索引?!胺ā弊謱?duì)應(yīng)正向分詞庫(kù)的局部起止范圍[begin,end],最大詞長(zhǎng)度WL=14。沿著起止范圍[begin,end]對(duì)分詞詞庫(kù)進(jìn)行折半查找。查找分詞“最大逆向分詞法”,如果沒(méi)有找到,則將查找詞去掉一個(gè)漢字“最”,繼續(xù)找“大逆向分詞法”,如果還沒(méi)有找到,則繼續(xù)去掉后面的字,直至“詞法”,還沒(méi)有找到,將“法”字,作為非分詞字,輸出。繼續(xù)以“最大逆向分詞”為新句子,繼續(xù)切分分詞。如果找到分詞,例如:找到“逆向分詞法”,則輸出“ 逆向分詞法”,截?cái)喾衷~后句子“最大”,以新句子繼續(xù)切分分詞。直至,句子切分完畢。結(jié)果為“最大 逆向分詞法”

    算法:

    Y””; // 清空結(jié)果

    // S=例句,傳入?yún)?shù)

    SLlength(S); // 取例句長(zhǎng)度

    While(SL>0) { // 從例句首字開(kāi)始切分分詞

    T substr (S,SL-1,1); // 取尾字

    Pbinary_search_gbk(0,GBKNUM-1,T); // 折半查找字尾

    WLgbk[P].tml; // 取字典逆向分詞最大長(zhǎng)度

    begin gbk[P].tmb; // 分詞庫(kù)局部開(kāi)始位置

    end gbk[P].tme; // 分詞庫(kù)局部結(jié)尾位置

    Lmin(WL,SL); // 字典逆向分詞最大長(zhǎng)度和句長(zhǎng)較小者,作為最大試探長(zhǎng)度

    For(lL;i>1;l--) { // 以最大試探長(zhǎng)度依次縮小,

    // 來(lái)截?cái)嗑渥釉囂绞欠翊嬖谧畲蠓衷~

    C substr(S,SL-l,l); //截取句子,取待查找分詞

    // 局部折半查找分詞

    If((rcfinddict(C,begin,end,fid))>0) { // fid指定分詞庫(kù)句柄

    Break // 找到

    }

    }

    C substr(S,SL-l,l); //截取句子分詞

    Y “ “+C+Y; // 輸出分詞 ,或 ,非分詞單字,逆向粘接分詞

    S substr(S,SL-1,l); //截?cái)喾衷~后新句子

    SL length(S); // 取新句長(zhǎng)度,繼續(xù)

    }

    output(Y)//返回輸出 結(jié)果

    2.5 分詞切分試驗(yàn)效果

    本文采用C語(yǔ)言實(shí)現(xiàn),在lenovo T61,Intel(R)Core(TM)2 Duo CPU T7500 @2.20GHz2.17GHz,1.96GB內(nèi)存。安裝WindowsXP,同時(shí)安裝SUSE linux server11。在SUSE下運(yùn)行。

    通過(guò)對(duì)正文文件的整個(gè)文件的單線程切分,測(cè)試實(shí)際切分效果,將國(guó)際專利分類號(hào)索引電子文檔正文文件,分成八個(gè)大部的8個(gè)文件,分別切分。其效果由表4不難看出,逆向分詞比正向分詞平均快10%。

    3 結(jié)論

    本文給出分詞算法的技術(shù)實(shí)現(xiàn),在于推薦一種快速分詞技術(shù)方案。該方案采用內(nèi)外存相結(jié)合,通過(guò)內(nèi)存構(gòu)建GBK編碼字典,快速查找到外存分詞庫(kù)的局部起止位置,通過(guò)縮小范圍的局部折半查找來(lái)快速確定分詞是否存在。通過(guò)提供的最大正向分詞匹配法和或最大逆向分詞匹配法,來(lái)對(duì)文章切分句子,對(duì)句子短語(yǔ)再進(jìn)一步分線程雙向切分,通過(guò)比對(duì)短語(yǔ)切分結(jié)果,當(dāng)切分結(jié)果出現(xiàn)歧義時(shí),采用分詞數(shù)最少策略取其一種,記錄歧義語(yǔ)句日志。雙向匹配法產(chǎn)生的歧義的改進(jìn)算法不在本文討論之內(nèi)。由于在本專利信息領(lǐng)域使用,考慮到一篇專利標(biāo)題和文摘平均大約在5000字節(jié)以內(nèi),專利說(shuō)明書(shū)和權(quán)利要求書(shū)等文獻(xiàn),在1萬(wàn)字之間,即便直接單線程切分文摘或全文也不足1秒,如果采用多線程并行多結(jié)點(diǎn)切分,其速度還可以進(jìn)一步加快??蓪⒎衷~效率提高到足以使分詞服務(wù)響應(yīng)擁塞現(xiàn)象能夠消除為止,其性能是可控的。使得節(jié)省的時(shí)間能更多地用于其他方面。例如:統(tǒng)計(jì)詞頻、相似度比對(duì)運(yùn)算等。由于最大正向分詞匹配法和或最大逆向分詞匹配法同屬于機(jī)械分詞法,兩種方法切分的結(jié)果都會(huì)產(chǎn)生錯(cuò)誤率,而且同時(shí)出現(xiàn)錯(cuò)誤的情況也在所難免。但是這并不影響該方法的使用。分詞庫(kù)與字典索引表是一個(gè)相互關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu),在運(yùn)行期間需要相對(duì)穩(wěn)定和保持靜態(tài)不變??焖俜衷~方法由于不涉及詞性問(wèn)題,新分詞的增加,可通過(guò)獲取新詞的自動(dòng)方法獲得。自動(dòng)獲取新詞并定期更新分詞庫(kù)及字典索引表,由于完全自主定義,而使得維護(hù)變得非常容易。技術(shù)實(shí)現(xiàn)通過(guò)socket提供的接口服務(wù),可與Java、C#等語(yǔ)言通信,或者重新用其他語(yǔ)言編寫(xiě),算法簡(jiǎn)約,不會(huì)存在移植性障礙。

    參考文獻(xiàn):

    [1] 莊新妍. 計(jì)算機(jī)中文分詞技術(shù)的應(yīng)用[J]. 呼倫貝爾學(xué)院學(xué)報(bào),2010(3).

    [2] 李淑英. 中文分詞技術(shù)[J]. 科技信息,2007(36) .

    [3] 余戰(zhàn)秋. 中文分詞技術(shù)及其應(yīng)用初探[J]. 電腦知識(shí)與技術(shù),2004(32).

    [4] 劉紅芝. 中文分詞技術(shù)的研究[J]. 電腦開(kāi)發(fā)與應(yīng)用,2010(3).

    精品久久久久久久毛片微露脸| 欧美午夜高清在线| 最新中文字幕久久久久 | 手机成人av网站| 亚洲国产欧洲综合997久久,| 麻豆成人av在线观看| 成人欧美大片| 亚洲欧洲精品一区二区精品久久久| 亚洲成a人片在线一区二区| 少妇裸体淫交视频免费看高清| 琪琪午夜伦伦电影理论片6080| 久久久久久大精品| 制服丝袜大香蕉在线| 岛国在线免费视频观看| 这个男人来自地球电影免费观看| 精品欧美国产一区二区三| 久99久视频精品免费| 久久久国产成人精品二区| 91老司机精品| 黑人操中国人逼视频| 不卡一级毛片| 亚洲国产欧美人成| 狂野欧美白嫩少妇大欣赏| 亚洲 欧美一区二区三区| 日韩中文字幕欧美一区二区| 久久天堂一区二区三区四区| 亚洲国产欧美一区二区综合| 午夜成年电影在线免费观看| 在线观看免费视频日本深夜| 欧美午夜高清在线| 欧美激情在线99| 免费看日本二区| 国产熟女xx| 99国产极品粉嫩在线观看| 久久久久久久午夜电影| 国产视频内射| 岛国在线观看网站| 丰满的人妻完整版| tocl精华| 亚洲中文日韩欧美视频| 亚洲成人精品中文字幕电影| av视频在线观看入口| 免费看日本二区| 熟妇人妻久久中文字幕3abv| 日本 av在线| 一个人免费在线观看电影 | 午夜精品久久久久久毛片777| 国产精品亚洲美女久久久| 午夜精品在线福利| 精品久久久久久久末码| www.www免费av| 很黄的视频免费| 国产精品永久免费网站| 精品久久久久久久人妻蜜臀av| 老司机深夜福利视频在线观看| 日本黄色视频三级网站网址| 国产三级中文精品| 久久亚洲精品不卡| 久久精品综合一区二区三区| 亚洲精品中文字幕一二三四区| 青草久久国产| 久久草成人影院| 91九色精品人成在线观看| 日本五十路高清| 国产三级黄色录像| 91麻豆av在线| 国产精品亚洲一级av第二区| 在线免费观看的www视频| 黄片大片在线免费观看| 国产综合懂色| 嫩草影视91久久| 成人特级av手机在线观看| 中文字幕精品亚洲无线码一区| 亚洲国产欧美网| 久久久久久人人人人人| 亚洲国产欧美人成| 欧美一级毛片孕妇| 国产乱人伦免费视频| 国产免费av片在线观看野外av| 国产成人精品久久二区二区91| 亚洲av电影不卡..在线观看| 免费无遮挡裸体视频| 一进一出好大好爽视频| 久99久视频精品免费| 久久久久久久久中文| 人人妻,人人澡人人爽秒播| 国产精品精品国产色婷婷| 97超级碰碰碰精品色视频在线观看| 搡老熟女国产l中国老女人| 无遮挡黄片免费观看| 我要搜黄色片| 国产综合懂色| 午夜福利在线在线| 91久久精品国产一区二区成人 | 久久精品国产99精品国产亚洲性色| 亚洲男人的天堂狠狠| 国产精品,欧美在线| 色综合亚洲欧美另类图片| 性色av乱码一区二区三区2| 嫩草影院入口| 亚洲av熟女| 日本一二三区视频观看| 国产淫片久久久久久久久 | 九九久久精品国产亚洲av麻豆 | 两性午夜刺激爽爽歪歪视频在线观看| 最新中文字幕久久久久 | 特级一级黄色大片| 美女黄网站色视频| 国产成人av教育| 亚洲成av人片在线播放无| 日本与韩国留学比较| 亚洲aⅴ乱码一区二区在线播放| 欧美成人午夜免费资源| 边亲边吃奶的免费视频| 少妇裸体淫交视频免费看高清| 一卡2卡三卡四卡精品乱码亚洲| .国产精品久久| 日本与韩国留学比较| 一个人看视频在线观看www免费| 美女cb高潮喷水在线观看| 六月丁香七月| 国产片特级美女逼逼视频| 国产精华一区二区三区| 色视频www国产| 国产色婷婷99| 欧美最新免费一区二区三区| 久久99蜜桃精品久久| 国产国拍精品亚洲av在线观看| 久久韩国三级中文字幕| 免费在线观看成人毛片| 中文字幕久久专区| 国产老妇女一区| 婷婷色综合大香蕉| 乱人视频在线观看| 成人av在线播放网站| 国产又黄又爽又无遮挡在线| 在线观看66精品国产| 亚洲怡红院男人天堂| 国产黄片视频在线免费观看| 免费看av在线观看网站| 精品久久久久久久人妻蜜臀av| 看免费成人av毛片| 99热这里只有是精品在线观看| 久久精品国产亚洲av天美| 亚洲经典国产精华液单| 精品酒店卫生间| 黄片wwwwww| 国产视频首页在线观看| 国产精品女同一区二区软件| 欧美xxxx性猛交bbbb| 高清毛片免费看| 久久久久久久久久成人| 欧美精品一区二区大全| 我的女老师完整版在线观看| 女人十人毛片免费观看3o分钟| 欧美丝袜亚洲另类| 国产一区有黄有色的免费视频 | 国产乱来视频区| 国产探花在线观看一区二区| 天堂中文最新版在线下载 | 18禁动态无遮挡网站| 久久久久久久久中文| 日韩人妻高清精品专区| 国产亚洲午夜精品一区二区久久 | 欧美zozozo另类| 国产精品麻豆人妻色哟哟久久 | 免费大片18禁| 久久久久久久久久久丰满| 精品人妻偷拍中文字幕| 久久午夜福利片| 啦啦啦韩国在线观看视频| 亚洲自拍偷在线| av国产久精品久网站免费入址| 国产精品野战在线观看| 亚洲综合色惰| 国产黄色视频一区二区在线观看 | 毛片女人毛片| 亚洲国产日韩欧美精品在线观看| 国产成人91sexporn| 能在线免费看毛片的网站| 欧美成人精品欧美一级黄| 天天一区二区日本电影三级| 亚洲欧美成人综合另类久久久 | 国产精品乱码一区二三区的特点| 五月伊人婷婷丁香| 毛片一级片免费看久久久久| 一卡2卡三卡四卡精品乱码亚洲| 国产黄片美女视频| 日韩中字成人| 观看美女的网站| 久久精品国产99精品国产亚洲性色| 国产精品99久久久久久久久| 国产精品国产三级国产av玫瑰| 免费在线观看成人毛片| 精品不卡国产一区二区三区| 青青草视频在线视频观看| 又爽又黄a免费视频| 日韩av不卡免费在线播放| 亚洲欧美日韩卡通动漫| 国产精品人妻久久久久久| 国产精品av视频在线免费观看| 国产精品久久久久久精品电影小说 | 亚洲av日韩在线播放| 欧美性感艳星| 亚洲三级黄色毛片| 草草在线视频免费看| 亚洲成人久久爱视频| 成年版毛片免费区| 99九九线精品视频在线观看视频| 青春草国产在线视频| 欧美激情国产日韩精品一区| 中文欧美无线码| 国产一区二区亚洲精品在线观看| 亚洲av免费高清在线观看| 久久久a久久爽久久v久久| 你懂的网址亚洲精品在线观看 | 国产综合懂色| 精品国产一区二区三区久久久樱花 | 夜夜看夜夜爽夜夜摸| 亚洲av免费在线观看| 亚洲av免费高清在线观看| 99热精品在线国产| 亚洲精品自拍成人| 国产精品女同一区二区软件| 超碰97精品在线观看| 欧美日韩国产亚洲二区| 91aial.com中文字幕在线观看| av在线播放精品| 老司机福利观看| 亚洲精品aⅴ在线观看| 欧美zozozo另类| 看片在线看免费视频| 婷婷六月久久综合丁香| 桃色一区二区三区在线观看| 国产精品一区二区性色av| 狂野欧美激情性xxxx在线观看| 色视频www国产| 久久这里有精品视频免费| 一二三四中文在线观看免费高清| 水蜜桃什么品种好| 精品久久久噜噜| 1000部很黄的大片| 国产亚洲最大av| 美女高潮的动态| 国内精品一区二区在线观看| 久久这里只有精品中国| 18禁在线无遮挡免费观看视频| 久久人妻av系列| 日韩欧美 国产精品| 丰满乱子伦码专区| 亚洲精品456在线播放app| 一个人看的www免费观看视频| 美女黄网站色视频| 人妻少妇偷人精品九色| 赤兔流量卡办理| 村上凉子中文字幕在线| 69av精品久久久久久| 精品人妻一区二区三区麻豆| 日本-黄色视频高清免费观看| 九色成人免费人妻av| 最近2019中文字幕mv第一页| 国产黄色视频一区二区在线观看 | 女人十人毛片免费观看3o分钟| 久久久久网色| 天堂av国产一区二区熟女人妻| av播播在线观看一区| 欧美激情在线99| 最近最新中文字幕大全电影3| 成人毛片60女人毛片免费| 黑人高潮一二区| 51国产日韩欧美| 91狼人影院| 亚洲自拍偷在线| 免费搜索国产男女视频| 久久久a久久爽久久v久久| 人妻夜夜爽99麻豆av| 亚洲av成人av| 久久精品久久久久久久性| 岛国毛片在线播放| 综合色丁香网| 亚洲,欧美,日韩| 国产成人福利小说| 联通29元200g的流量卡| 国产精品人妻久久久影院| 亚洲久久久久久中文字幕| 国产精品国产三级专区第一集| 久久久久网色| 亚洲电影在线观看av| 女人十人毛片免费观看3o分钟| 亚洲国产日韩欧美精品在线观看| 少妇的逼好多水| 国产大屁股一区二区在线视频| 亚洲成人中文字幕在线播放| 成年免费大片在线观看| 久久欧美精品欧美久久欧美| 三级毛片av免费| 寂寞人妻少妇视频99o| 亚洲高清免费不卡视频| 少妇高潮的动态图| 日韩av在线大香蕉| 九草在线视频观看| 免费观看性生交大片5| 国产亚洲精品av在线| 日本猛色少妇xxxxx猛交久久| 中文字幕人妻熟人妻熟丝袜美| 婷婷色综合大香蕉| 老司机福利观看| 中文欧美无线码| 精品无人区乱码1区二区| 国产高潮美女av| 亚洲欧美清纯卡通| av.在线天堂| 亚洲婷婷狠狠爱综合网| 波野结衣二区三区在线| 91精品伊人久久大香线蕉| 欧美激情国产日韩精品一区| 综合色丁香网| 色5月婷婷丁香| 欧美精品国产亚洲| videos熟女内射| 男女下面进入的视频免费午夜| 桃色一区二区三区在线观看| 日本与韩国留学比较| 非洲黑人性xxxx精品又粗又长| 午夜福利网站1000一区二区三区| 麻豆成人午夜福利视频| 男的添女的下面高潮视频| 国产精品熟女久久久久浪| 中文亚洲av片在线观看爽| 亚洲aⅴ乱码一区二区在线播放| 精品少妇黑人巨大在线播放 | 色网站视频免费| 国产免费视频播放在线视频 | 黄片wwwwww| 久久精品国产99精品国产亚洲性色| 日产精品乱码卡一卡2卡三| 午夜爱爱视频在线播放| 91久久精品电影网| 欧美色视频一区免费| 亚洲第一区二区三区不卡| 午夜免费激情av| 国产老妇女一区| 久久午夜福利片| 亚洲av二区三区四区| 岛国在线免费视频观看| 白带黄色成豆腐渣| 亚洲av熟女| 少妇熟女aⅴ在线视频| 综合色丁香网| www.av在线官网国产| 午夜亚洲福利在线播放| 内射极品少妇av片p| 欧美一区二区亚洲| 亚洲,欧美,日韩| 日韩强制内射视频| 高清毛片免费看| 国内精品一区二区在线观看| 免费一级毛片在线播放高清视频| 国产午夜福利久久久久久| 国产精品国产三级国产av玫瑰| 国产美女午夜福利| 国产探花极品一区二区| www.色视频.com| 少妇人妻精品综合一区二区| 免费无遮挡裸体视频| 男女边吃奶边做爰视频| 欧美高清性xxxxhd video| 亚洲精品乱码久久久久久按摩| 午夜老司机福利剧场| 国产精品人妻久久久久久| 最近最新中文字幕免费大全7| 免费看av在线观看网站| 国产精品一区二区性色av| av视频在线观看入口| 天堂av国产一区二区熟女人妻| 99久久精品热视频| 久久精品国产亚洲网站| 日本-黄色视频高清免费观看| 校园人妻丝袜中文字幕| 联通29元200g的流量卡| 美女大奶头视频| 久久久久网色| 午夜日本视频在线| 国产单亲对白刺激| 色噜噜av男人的天堂激情| 蜜桃久久精品国产亚洲av| 亚洲成人精品中文字幕电影| 欧美另类亚洲清纯唯美| 国产精品久久久久久精品电影| 国产在视频线在精品| 免费电影在线观看免费观看| 国产探花在线观看一区二区| 国产视频首页在线观看| 一个人看视频在线观看www免费| 日日干狠狠操夜夜爽| 欧美不卡视频在线免费观看| 一本久久精品| 一区二区三区高清视频在线| 精品无人区乱码1区二区| 日本免费一区二区三区高清不卡| 一区二区三区四区激情视频| 男人的好看免费观看在线视频| 成人漫画全彩无遮挡| 我要搜黄色片| 九九爱精品视频在线观看| 亚洲在久久综合| 久久99热这里只有精品18| 韩国av在线不卡| 小说图片视频综合网站| 欧美性猛交╳xxx乱大交人| av黄色大香蕉| 国产极品天堂在线| 亚洲综合精品二区| 欧美人与善性xxx| 麻豆国产97在线/欧美| 尤物成人国产欧美一区二区三区| 久久久午夜欧美精品| 禁无遮挡网站| 99久久九九国产精品国产免费| 国产视频首页在线观看| 免费黄网站久久成人精品| 午夜日本视频在线| 色播亚洲综合网| 三级经典国产精品| av视频在线观看入口| 亚洲精华国产精华液的使用体验| 国产精品国产三级专区第一集| 亚洲欧美精品自产自拍| АⅤ资源中文在线天堂| 午夜久久久久精精品| 国产 一区精品| 亚洲国产色片| 高清视频免费观看一区二区 | 2021天堂中文幕一二区在线观| 亚洲四区av| 国产白丝娇喘喷水9色精品| a级毛片免费高清观看在线播放| 欧美日韩一区二区视频在线观看视频在线 | 亚洲av免费高清在线观看| 少妇高潮的动态图| 免费看美女性在线毛片视频| 级片在线观看| 亚洲欧洲国产日韩| 日本黄色片子视频| 国产真实伦视频高清在线观看| 99热这里只有精品一区| 日韩欧美三级三区| 国产午夜精品一二区理论片| 成人午夜高清在线视频| 午夜福利在线观看免费完整高清在| 国产精品美女特级片免费视频播放器| 黄片无遮挡物在线观看| 国产乱人偷精品视频| 久久精品影院6| 国产精品不卡视频一区二区| 日本爱情动作片www.在线观看| 三级男女做爰猛烈吃奶摸视频| 国内精品宾馆在线| 亚洲精品,欧美精品| 两个人视频免费观看高清| 少妇熟女aⅴ在线视频| 午夜老司机福利剧场| 一区二区三区高清视频在线| 久久精品国产99精品国产亚洲性色| 国产伦精品一区二区三区视频9| 精品久久久噜噜| 国产视频首页在线观看| 小蜜桃在线观看免费完整版高清| 久久6这里有精品| 日本免费在线观看一区| 热99re8久久精品国产| 五月伊人婷婷丁香| 久久久久久久亚洲中文字幕| 床上黄色一级片| 国产伦理片在线播放av一区| 欧美成人一区二区免费高清观看| 日韩人妻高清精品专区| 中文字幕制服av| 美女黄网站色视频| 国产亚洲精品av在线| 久久韩国三级中文字幕| 精品一区二区三区人妻视频| 久久久国产成人精品二区| www.色视频.com| 99久久精品一区二区三区| 日本av手机在线免费观看| 插逼视频在线观看| 中文字幕精品亚洲无线码一区| 在线观看一区二区三区| 青春草视频在线免费观看| 免费大片18禁| 你懂的网址亚洲精品在线观看 | 久久精品夜夜夜夜夜久久蜜豆| 久久久久久久亚洲中文字幕| 欧美一区二区亚洲| 全区人妻精品视频| 少妇熟女欧美另类| 色综合亚洲欧美另类图片| 国产激情偷乱视频一区二区| 日韩av在线大香蕉| 欧美一区二区精品小视频在线| 嘟嘟电影网在线观看| 丰满人妻一区二区三区视频av| 日韩欧美在线乱码| 国产精品久久视频播放| 男人舔奶头视频| 中文字幕免费在线视频6| 亚洲av成人av| 久久鲁丝午夜福利片| 亚洲四区av| 国产午夜精品久久久久久一区二区三区| 直男gayav资源| 色综合站精品国产| 伦理电影大哥的女人| 亚洲欧美中文字幕日韩二区| 欧美bdsm另类| 国产精品野战在线观看| 久久韩国三级中文字幕| 午夜福利高清视频| 欧美高清性xxxxhd video| 精品久久国产蜜桃| 国产白丝娇喘喷水9色精品| 国产精品一区www在线观看| 精品久久久久久久久亚洲| 啦啦啦观看免费观看视频高清| 一个人免费在线观看电影| 高清午夜精品一区二区三区| 人妻系列 视频| 久久久久久久久大av| 亚洲欧美成人精品一区二区| 一区二区三区乱码不卡18| 午夜福利在线在线| 国产综合懂色| 青青草视频在线视频观看| 亚洲国产高清在线一区二区三| 麻豆av噜噜一区二区三区| 久久久久久伊人网av| 91精品一卡2卡3卡4卡| 国语对白做爰xxxⅹ性视频网站| 亚洲真实伦在线观看| 老女人水多毛片| 亚洲av一区综合| 日本免费在线观看一区| 久久精品国产99精品国产亚洲性色| av又黄又爽大尺度在线免费看 | or卡值多少钱| 国产老妇女一区| 韩国高清视频一区二区三区| 黑人高潮一二区| 国产精品乱码一区二三区的特点| 久久久国产成人免费| 欧美日韩精品成人综合77777| 久久精品熟女亚洲av麻豆精品 | 人妻少妇偷人精品九色| 亚洲美女视频黄频| 在线播放无遮挡| 午夜福利视频1000在线观看| 深夜a级毛片| 青春草视频在线免费观看| 亚洲aⅴ乱码一区二区在线播放| 日韩人妻高清精品专区| 尤物成人国产欧美一区二区三区| 深爱激情五月婷婷| 午夜福利在线观看免费完整高清在| 蜜桃亚洲精品一区二区三区| 少妇的逼好多水| 国语自产精品视频在线第100页| 一级黄片播放器| 亚洲一级一片aⅴ在线观看| 高清视频免费观看一区二区 | 国产伦精品一区二区三区四那| 亚洲五月天丁香| 神马国产精品三级电影在线观看| 观看免费一级毛片| 日日干狠狠操夜夜爽| 日韩人妻高清精品专区| 天堂影院成人在线观看| 在线观看美女被高潮喷水网站| 亚洲中文字幕一区二区三区有码在线看| 特大巨黑吊av在线直播| 色综合站精品国产| 国产av码专区亚洲av| 国产一级毛片在线| 国产精品日韩av在线免费观看| 小说图片视频综合网站| 国产精品伦人一区二区| 久久精品影院6| .国产精品久久| 亚洲一区高清亚洲精品| 国产亚洲91精品色在线| 欧美日韩国产亚洲二区| 丝袜美腿在线中文| 久久精品91蜜桃| 精品一区二区免费观看| 国产真实乱freesex| 在线天堂最新版资源| 色播亚洲综合网| 国产成人午夜福利电影在线观看| 舔av片在线| 国产淫语在线视频| av免费在线看不卡| 99热精品在线国产| 毛片一级片免费看久久久久| 免费看a级黄色片| 免费观看精品视频网站| av卡一久久| 日韩欧美精品v在线| 天堂av国产一区二区熟女人妻| 亚洲精品国产av成人精品| 欧美bdsm另类| 中文资源天堂在线| 简卡轻食公司| 亚洲一级一片aⅴ在线观看| 国产精品.久久久| 麻豆精品久久久久久蜜桃|