• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    條件隨機場圖模型在《明史》詞性標注研究中的應(yīng)用效果探索

    2014-09-22 02:18:40曉,金
    關(guān)鍵詞:明史古漢語分詞

    朱 曉,金 力

    (復(fù)旦大學(xué)生命科學(xué)學(xué)院,上海200433)

    從20世紀50年代起,自然語言處理就伴隨著圖靈機的提出成為計算機科學(xué)家們希望解決的問題之一[1-4].自然語言處理的研究范圍主要包括以下幾類:機器翻譯、自動分詞、詞性標注、語法解析、名詞實體識別以及實體關(guān)系識別.隨著計算機技術(shù)在中國的快速發(fā)展,現(xiàn)代漢語的信息處理研究目前已經(jīng)取得很多成果[5-10].但是,對于現(xiàn)代漢語的前身——古漢語的信息處理研究至今為數(shù)較少.目前只有少數(shù)研究者開展對古漢語語料中人名識別的研究[11],而國際會議上也僅出現(xiàn)一篇對文言文進行分句研究的文獻[12].

    古漢語信息處理研究相對滯后的原因主要有以下幾點:①古漢語的信息化程度比較低.雖然國家已經(jīng)設(shè)立重大項目資助歷史學(xué)家將史書資料轉(zhuǎn)換成電子版,但目前對古漢語的研究大部分還是基于紙質(zhì)書籍,很多疑難漢字甚至都沒有對應(yīng)的計算機編碼.② 古漢語的使用率低.在信息化的互聯(lián)網(wǎng)時代,幾乎不會有人在生活中以及互聯(lián)網(wǎng)上使用古漢語.古漢語信息處理研究帶來的商業(yè)價值較低,因此缺乏吸引力.③古漢語研究與信息處理技術(shù)缺乏有機結(jié)合.目前,大部分資深的古漢語語言學(xué)家對信息技術(shù)方面的了解十分欠缺,而另一方面從事古漢語信息處理的計算機工作者亟需古漢語語言學(xué)家提供大量的語料庫以及語言學(xué)角度的科學(xué)幫助.

    研究者們已經(jīng)發(fā)現(xiàn)不同類型的語料學(xué)習(xí)得到的模型有著顯著的差異.例如,新聞題材的知識模型應(yīng)用到科學(xué)論文中的效率是十分低下的.在古漢語中也存在著各種各樣的體裁:記敘類,如人物傳記、志等;抒情類,如詩賦、辭賦等;議論類以及應(yīng)用類等文體.編年體是中國傳統(tǒng)史書中記載歷史事件的一種體裁,以時間為中心,按年、月、日編排史實.中國著名的史書《春秋》、《資治通鑒》、《二十四史》等都是編年體史書.由于編年體體裁語料的時間線索明確、語法規(guī)整、易于學(xué)習(xí),有利于學(xué)習(xí)模型的建立,因此本研究選用清張廷玉編的《明史》作為語料素材[13].

    詞性標注是序列標記算法在自然語言處理中的應(yīng)用.序列標記算法是基于馬爾可夫性質(zhì)的統(tǒng)計模型.由馬爾可夫性質(zhì)直接轉(zhuǎn)化的序列標記算法是著名的隱馬爾可夫模型(HMM).然而,HMM的最大弱點是對狀態(tài)轉(zhuǎn)移的定義十分局限.隨后根據(jù)需求,研究者又提出了最大熵馬爾可夫模型(MEMM),該方法將最大熵算法中設(shè)置特征規(guī)則的方法借用到序列算法中.但是MEMM在實際應(yīng)用中也存在明顯缺陷,也就是經(jīng)典的標識偏倚問題.條件隨機場模型(Conditional Random Fields,CRF)的提出很好地解決了這個問題[14].條件隨機場模型在現(xiàn)代漢語以及其他語言的詞性標注研究被廣泛應(yīng)用,但是在古漢語詞性標注中的應(yīng)用目前尚沒有.本研究將CRF應(yīng)用于《明史》的詞性標注.

    對于現(xiàn)代漢語而言,分詞(Word Segmentation)具有重要意義[6,10].現(xiàn)代漢語的詞匯可以分為兩大類,單音節(jié)詞與多音節(jié)詞.多音節(jié)詞是兩個或者三個及以上的音節(jié)(字)組成的詞,這些音節(jié)組合形成一個完整語義.但是,這些組合在識別上會出現(xiàn)歧義,因此分詞在現(xiàn)代漢語研究中是非常重要的一個步驟.然而,在古漢語中,文體主要由單音節(jié)詞組成,只有少數(shù)的名詞或動詞以多音節(jié)詞形式出現(xiàn).這類詞多為一些專有名詞,如皇帝的稱號、固定的地名等.除了專有名詞比較難以判別,其他多音節(jié)詞的組合基本符合一定的詞法規(guī)則.因此,對于古漢語分詞而言,我們僅需要對專有名詞進行分詞.本研究將在已分詞與未分詞基礎(chǔ)上探討CRF三種圖模型在古漢語詞性標注中的應(yīng)用.

    1 材料與方法

    1.1 古漢語研究材料

    選取《明史》[13]第十五到第十八本紀進行詞性標注研究.該部分語料包含3 603個句子,20 037個單字,其中非重復(fù)詞2 130個.

    1.2 古漢語研究材料信息化處理

    在對古漢語材料進行詞性標注研究之前,我們首先需要將古漢語語料轉(zhuǎn)換成計算機可處理的編碼.我們選擇以英語語法的10種詞性作為基本詞性,包括名詞、動詞、副詞、形容詞、介詞、連詞、數(shù)詞、代詞、助詞、量詞.為了方便提取時間和人物信息,我們在這套標注系統(tǒng)中新增了時間和姓名相關(guān)的標簽,將專有名詞中的時間以及人名單獨進行標記.將天干、地支、姓氏以及人名作為4類特殊的標記,加上前面的11種標記,一共設(shè)定了15大類標簽.詞性的標簽集合為1:名詞;2:專有名詞;3:動詞;4:形容詞;5:副詞;6:數(shù)詞;7:助詞;8:量詞;9:代詞;10:介詞;11:連詞;12:姓氏;13:天干;14:地支;15:人名.

    在未分詞詞性標注研究中,我們對每個單音節(jié)詞進行信息化處理.在已分詞詞性標注研究中,我們還將對語料中的專有名詞進行分詞,即將多音節(jié)專有名詞作為一個計算機字符處理.

    1.3 詞性標注方法

    在本研究中,我們將基于條件隨機場模型(CRF)的三種圖模型應(yīng)用在古漢語詞性標注研究中[15].條件隨機場是一類鑒別式無向圖概率模型[14].對于一組觀察值x以及一組符合一定條件概率分布的隨機變量y,Lafferty對CRF的圖模型定義如下:給定一個圖G=(V,E),y對于G上的節(jié)點集合V中的每一個節(jié)點v都有一個標簽yv,如果x能夠條件決定yv,并且對于G中的任意點的隨機變量yv滿足馬爾可夫性質(zhì),那么條件分布P(y|x)便是一個條件隨機場模型.根據(jù)隨機場的基礎(chǔ)理論,這個模型的聯(lián)合條件概率被定義為

    其中,fk(·)和gk(·)分別表示邊特征函數(shù)和點特征函數(shù).λk和μk表示待估計的特征函數(shù)權(quán)重.Z表示一個固定的標準化因子.

    1.3.1 條件隨機場模型的特征設(shè)置

    特征設(shè)置的多樣化是CRF的主要優(yōu)勢,對于常規(guī)的文本自動標注系統(tǒng)而言,常用的特征有以下幾種類型:①邊特征:該特征描述條件轉(zhuǎn)移概率.如果假設(shè)序列中只有鄰接的兩個元素存在轉(zhuǎn)移條件,那么CRF圖就是一條條轉(zhuǎn)移鏈.如果假設(shè)序列中的某個元素與周圍n個元素存在轉(zhuǎn)移條件,則整個隨機場成為一張連通圖.n越大計算復(fù)雜度越高,抽提的特征越豐富,但同樣也會帶來過擬合的現(xiàn)象.目前現(xiàn)代漢語使用的最高的n元模板的維度是6.②序列起始特征:記錄著序列標簽的起始狀態(tài),在算法中負責(zé)檢測當前的標簽是否能成為一個起始狀態(tài)標簽.③序列終止特征:記錄著序列標簽的終止狀態(tài),在算法中負責(zé)檢測當前的標簽是否能成為一個終止狀態(tài)標簽.④單詞特征:該特征負責(zé)檢查當前的元素在詞典中的標簽類型以及分布,并按照詞典中已有的標簽分布給當前元素一定的權(quán)重.⑤未登錄詞特征:該特征負責(zé)對詞典中查找不到的元素定義標簽權(quán)重.

    1.3.2 三種圖模型的選擇

    比較三種基于條件隨機場的圖模型在古漢語詞性標注中的應(yīng)用.①無邊圖模型:該模型構(gòu)建的圖不加入邊特征,而只考慮單詞自身的屬性進行詞性判斷,如起始特征、結(jié)束特征以及在訓(xùn)練詞典中的詞性概率等.②完全圖模型:給定一組標簽序列,該模型將構(gòu)建出每一對元素之間的邊,包括該元素與自己的邊特征.當給定訓(xùn)練集后,該模型將使用訓(xùn)練集中的轉(zhuǎn)移概率來設(shè)定邊特征的權(quán)重.③ 嵌套圖模型:在這個圖模型的概念中,一個序列將被視為多個分節(jié)序列.每個分節(jié)之間組成的連通圖被認為是具有馬爾可夫性質(zhì)的隨機場,而每一個分節(jié)被視作一個子序列圖模型.

    1.3.3 交叉檢驗

    采用交叉檢驗方法評估CRF三種圖模型在古漢語詞性標注中的應(yīng)用效果[16].首先,我們將元數(shù)據(jù)平均拆分成10份,每次選擇其中9份作為訓(xùn)練集進行模型學(xué)習(xí),然后利用剩余一份作為測試集進行模型測試.如此重復(fù)選擇不同的訓(xùn)練集和測試集,共進行10次測試.最后,我們通過幾個統(tǒng)計量評估模型測試結(jié)果.①精確性(Precission):指預(yù)測結(jié)果中正確的結(jié)果占全部預(yù)測結(jié)果的比例,描述了預(yù)測模型的可信度;②召回率(Recall):指實際情況中被預(yù)測模型預(yù)測到的結(jié)果比例,描述了預(yù)測模型對現(xiàn)實數(shù)據(jù)的識別率;③Fβ測量值:是對前兩個指標綜合評定的一個得分.具體的公式為

    其中β參數(shù)的設(shè)定表示研究者認為召回率在目標模型中的重要性是精確性的β倍[17].本研究中,我們選擇使用F1測量值.

    2 結(jié)果與分析

    2.1 未分詞詞性標注結(jié)果

    2.1.1 三種模型的詞性標記結(jié)果

    三種CRF圖模型的詞性標注結(jié)果如表1所示,完全圖模型和嵌套圖模型的效率相當,比無邊圖模型的效率稍好一些.

    在15個詞性標記中,天干和地支的識別效率是最高的.這是因為編年體中天干、地支作為一個月里對時間的衡量,形式十分簡單,構(gòu)詞完全固定,因此準確率和召回率均相當高.但在結(jié)果中也存在判斷錯誤的極少個例,大部分情況是將天干地支標注成了專有名詞.另外,數(shù)詞的詞性標注也有很高的效率,因為數(shù)詞是一個觀察值比較固定的詞性.數(shù)詞判別的主要錯誤出現(xiàn)在精確性上,模型通常會將作為其他詞性出現(xiàn)的數(shù)字誤認為是數(shù)詞.

    實驗結(jié)果中形容詞、量詞、連詞的識別效率相對于其他的詞性而言十分低下.其中,量詞和連詞的識別效率十分低下主要是因為數(shù)據(jù)集中量詞和連詞的含量過少,導(dǎo)致模型學(xué)習(xí)不成功.形容詞的識別效率低下則是因為詞性的活用過多,大部分形容詞可以作為名詞使用.反之,不少專有名詞也有形容詞參與構(gòu)成,因此對形容詞進行詞性標注的精確性和召回率都非常低.

    2.1.2 登錄詞與未登錄詞結(jié)果比較

    由于在編年體中一段時間內(nèi)會重復(fù)出現(xiàn)同一件事物,因此在測試集中識別出的姓名、專有名詞等可能是在訓(xùn)練集中已經(jīng)存在的.我們將測試集與訓(xùn)練集共同出現(xiàn)的詞定義為已登錄詞,而將測試集出現(xiàn)、訓(xùn)練集未出現(xiàn)的詞定義為未登錄詞.我們將未登錄詞與已登錄詞分開,檢驗CRF三種圖模型的詞性標注效果.由于大部分詞性標記在訓(xùn)練集中已經(jīng)被覆蓋,因此在本次試驗中我們排除了在訓(xùn)練集中已經(jīng)完整的標記,而僅對剩下的5個標記(名詞、專有名詞、動詞、姓氏、人名)進行檢驗.

    統(tǒng)計結(jié)果如表2所示,總體而言,三種CRF圖模型對未登錄詞的識別效率要比已登錄詞的識別效率低很多.其中,無邊圖模型作為邊特征效率的負對照實驗,其對未登錄詞的識別效率幾乎為0.而完全圖模型和嵌套圖模型對未登錄詞的識別效率要高于無邊圖模型.

    表2 無邊圖模型、完全圖模型和嵌套圖模型對未分詞已登錄詞與未登錄詞詞性標注結(jié)果Tab.2 Part-of-Speech tagging results of no edge,complete and nested graph models on listed and unlisted words in testing set without word segmentation

    在完全圖模型和嵌套圖模型的結(jié)果中,我們發(fā)現(xiàn)兩個模型對未登錄詞中姓氏和人名的識別效率已經(jīng)達到70%.相比于很多未登錄詞詞性標注識別效率低下的結(jié)果而言,該現(xiàn)象表明CRF完全圖模型和嵌套圖模型對于姓氏和人名的推斷能力是比較強的,暗示著編年體中姓氏和人名周圍的詞較其他詞性標簽擁有很好的規(guī)則.

    2.2 已分詞詞性標注結(jié)果

    上一組實驗是基于未分詞的數(shù)據(jù)集,一般在現(xiàn)代漢語中詞性標注是基于分詞之后的語料.而分詞在古漢語中與現(xiàn)代漢語有所不同,只有專有名詞才存在分詞單元的劃分問題,其他的詞都是單音節(jié)詞,每個單字即為一個單獨的分詞單元.因此即使不單獨的進行分詞,詞性標注的結(jié)果仍然可以接受.然而專有名詞的多音節(jié)詞對于其他的詞性的標注效率或多或少有一定的影響.因此在這組實驗中,假設(shè)存在一個強大的專有名詞詞典,已經(jīng)將所有的專有名詞事先劃分開,而我們則在此基礎(chǔ)上進行詞性標注.

    實驗結(jié)果(表3)表明,對專有名詞進行分詞之后三種CRF圖模型對15類詞性標記的識別效率較未分詞前均有小幅的提升.

    表3 無邊圖模型、完全圖模型和嵌套圖模型對專有名詞分詞訓(xùn)練集與測試集詞性標記結(jié)果Tab.3 Part-of-Speech tagging results of no edge,complete and nested graph models on training and testing sets with word segmentation of proper nouns

    我們同樣對未登錄詞與已登錄詞的識別效率進行了一個統(tǒng)計比較,結(jié)果見表4.進行專有名詞分詞之后,三種CRF圖模型對已登錄詞的詞性標注效率明顯提高,但是對于未登錄詞的詞性標記效率卻不盡然.對于未登錄詞,完全圖模型和嵌套圖模型對專有名詞、姓氏以及人名的識別效率較分詞之前有所提升,但是對于名詞以及動詞的識別效率沒有提升.而無邊圖模型對除了專有名詞之外的未登錄詞的識別效率仍然十分低下.

    表4 無邊圖模型、完全圖模型和嵌套圖模型對分詞后已登錄詞與未登錄詞詞性標注結(jié)果Tab.4 Part-of-Speech tagging results of no edge,complete and nested graph models on listed and unlisted words in testing set with word segmentation

    (續(xù)表)

    3 討論

    3.1 古漢語信息化處理的意義

    古漢語作為一門承載了數(shù)千年中華文明的語言,對其進行信息處理研究具有重要的價值.一直以來,對于古漢語資料的研究僅限于語言學(xué)專業(yè)研究者.這在一定程度上限制了中華文華傳承以及當今交叉學(xué)科的發(fā)展.目前已經(jīng)有部分研究者開始重視古漢語的信息化處理,但是目前尚沒有完整的古漢語語料庫以及詞典,亟需語言學(xué)家與計算機信息技術(shù)人員的共同努力探討古漢語信息處理的相關(guān)問題.

    智能地從大量史書中提取信息對很多學(xué)科研究有著重要的輔助作用.例如,史書記載的家譜信息對人類學(xué)研究具有重要意義.目前歷史人類學(xué)家希望依賴分子生物學(xué)的手段去尋找一些歷史考證的線索,其中最具有解釋性的生物學(xué)證據(jù)就是Y染色體的父系進化體系[18].父系在Y染色體上由于沒有同源重組的發(fā)生使得進化足跡趨近于一顆龐大的多叉樹,每一代可能發(fā)生的突變代表著樹中的一個節(jié)點.而中國的父系家族往往都有家譜的記載,也就是說如果家譜中的記載準確并且分子進化樹的構(gòu)建足夠精細,我們就能夠?qū)NA突變與歷史中某個時間甚至某個人對應(yīng).這不僅為解析歷史提供了很好的佐證,同時也為生物進化研究賦予生命力.

    古漢語的語法和詞法特點與現(xiàn)代漢語有相似之處,可能對現(xiàn)代漢語的研究有一些輔助作用.在現(xiàn)代漢語研究中,多數(shù)研究者認為漢語相比于英語更難處理的地方在于漢語語法句法上的靈活性,很難依賴形式語法抽象出一套規(guī)則.古漢語是現(xiàn)代漢語的原型,句法和語法相對規(guī)則化,研究古漢語也許能夠給現(xiàn)代漢語的語法解析帶來啟發(fā).

    3.2 基于條件隨機場的圖模型在古漢語詞性標注中的應(yīng)用

    條件隨機場模型(CRF)與最大熵馬爾可夫模型(MEMM)都是適用于自然語言處理的方法[19].CRF優(yōu)于MEMM之處在于CRF將標簽之間的轉(zhuǎn)移特征以隨機場的圖形式展現(xiàn)出來,抽象為點特征與邊特征[20].點特征描述某一個待標記對象自身觀測值的概率,而邊特征描述待標記對象周邊的標簽對其條件轉(zhuǎn)移概率[15].這樣就解決了MEMM中觀測值的分布概率無法影響模型概率的標簽偏倚問題.條件隨機場模型在現(xiàn)代漢語的信息處理研究中已經(jīng)比較成熟,劉滔等對現(xiàn)代漢語詞性標注的研究結(jié)果展示CRF對非兼類詞(單一詞性)的識別效率高達96%,對兼類詞的識別效率也達到94%[21].

    在本研究中,我們發(fā)現(xiàn)基于條件隨機場的完全圖模型和嵌套圖模型在古漢語詞性標注中的應(yīng)用效果均相當好.我們還探討了古漢語分詞對詞性標注的影響.在現(xiàn)代漢語中,研究者已經(jīng)成功使用分詞系統(tǒng)來輔助實體識別[5],但是在古漢語中還沒有完整的分詞系統(tǒng).在本研究中,我們發(fā)現(xiàn)所選語料中只有專有名詞存在分詞的必要,而其他詞匯基本是單音節(jié)詞.因此,我們比較了專有名詞未分詞與分詞之后三種CRF圖模型對古漢語語料詞性標注的效果,發(fā)現(xiàn)分詞后的詞性標注結(jié)果比未分詞的結(jié)果要好一些.這說明古漢語分詞對提高詞性標注的效率是有幫助的.

    3.3 古漢語詞性標注錯誤的探討

    雖然在古漢語詞性標注的實驗結(jié)果中,整體效率已經(jīng)達到91%以上,但是其中仍然不乏大量錯誤.我們將其總結(jié)為3大類錯誤.

    3.3.1 未登錄詞識別錯誤

    我們對測試集中的已登錄詞與未登錄詞分開探討,發(fā)現(xiàn)三種模型對未登錄詞的識別效果遠遠低于已登錄詞.尤其是無邊圖模型對未登錄詞的識別效果幾乎為0.這可能與無邊圖模型沒有考慮邊特征有關(guān).而且我們發(fā)現(xiàn)分詞對未登錄詞的詞性標注效果也沒有很大提高.例如,在序列“命諸司詳議害民弊政”中,“害”實際上為形容詞,但在測試集里“害”是一個未登錄詞,于是CRF模型依據(jù)邊特征對“害”進行了詞性判斷,考慮到上位單詞“議”是一個動詞,模型錯誤的將“害”標記成名詞.

    3.3.2 詞典中具有多個詞性的單詞詞性判斷錯誤

    詞典里單詞的詞性分布對標注結(jié)果有著較大的影響.如果某個單詞具有多個詞性,而且不同詞性的分布差異很大,則很可能會導(dǎo)致模型將單詞自動標注為分布較大的詞性.如序列“修撰呂柟言大禮未正”中,“正”在編年體中最常出現(xiàn)的組合是“正月”,所以在詞典中“正”作為名詞的頻率要高于其他詞性.而實際上在這個序列中“未正”是一個副詞加上動詞的組合,然而因為“正”的判斷錯誤,模型將兩個單字都標注為名詞.

    3.3.3 強標注轉(zhuǎn)移特征導(dǎo)致錯誤

    描述轉(zhuǎn)移規(guī)則的邊特征同樣也會帶來詞性判斷失誤.這一類錯誤常見于一些出現(xiàn)頻率高的詞性組合,如姓氏和人名的組合、天干和地支的組合等.如序列“永順伯薛斌恭順伯吳克忠領(lǐng)馬隊”,動詞后接一個人物是很常見的句式,而動詞“領(lǐng)”的下位詞又恰好是一個常見的姓氏“馬”,因此模型將“馬”標記為姓氏,將“隊”標記為人名,但是這里“馬隊”顯然代表的是一只騎兵隊伍.又如序列“代府奉國將軍充灼謀反”中,由于“充灼”在訓(xùn)練集中已經(jīng)被觀測為人名,因此“充灼”的上位詞被標注為姓氏.

    這些錯誤有些需要人為修正,例如單詞具有多個詞性導(dǎo)致的錯誤,需要古漢語語言學(xué)專家與計算機信息處理研究人員共同合作對其加以修正.而有些錯誤,例如未登錄詞識別錯誤,可能需要發(fā)展更有效的計算機信息處理方法才能有效解決.總而言之,古漢語信息處理仍然需要古漢語語言學(xué)相關(guān)專家以及計算機信息處理研究人員的共同努力,以期取得長足的發(fā)展.

    我們的研究結(jié)果表明基于條件隨機場的完全圖模型和嵌套圖模型對編年體體裁的《明史》語料的詞性標注效果不錯.但是,對于該方法是否適用于其他體裁的古漢語語料信息化處理,仍然需要研究者進一步探討.

    [1]Turing A.Computing Machinery and Intelligence[J].Mind,1950,59(236):433-460.

    [2]Chowdhury GG.Natural language processing[J].Annual Review of Information Scienceand Technology,2003,37(1):51-89.

    [3]Pereira F C N,Gross B J.Natural Language Processing[M].Cambridge:MIT Press,1994.

    [4]Jurafsky D,Martin J H.Speech and Language Processing:An introduction to Natural Language Processing,Computational Linguistics,and Speech recognition[M].New Jersey:Pearson Education Inc.,2000.

    [5]Gao J,Li M,Wu A,et al.Chinese Word Segmentation and Named Entity Recognition:A Pragmatic Approach[J].Computational Linguistics,2005,31(4):531-574.

    [6]Huang C R,Chen K J,Chang L L.Segmentation standard for Chinese natrual language processing[C]∥Proceedings of the 16thConference on Computational Linguistics.Stroudsburg,1996:1045-1048.

    [7]Jin G, Chen X.The Fourth International Chinese Language Processing Bakeoff:Chinese Word Segmentation,Named Entity Recognition and Chinese POSTagging[C]∥Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing.Hyderabad,India:Association for Computational Linguistics,2008:61-68.

    [8]Levow G A.The Third International Chinese Language Processing Bakeoff:Word Segmentation and Named Entity Recognition[C]∥Proceedings of the 5thSIGHAN Wookshop on Chinese Language Processing.Sydney,Australia:Association for Computational Linguisties,2006:108-117.

    [9]劉開瑛.中文文本自動分詞和標注[M].北京:商務(wù)印書館,2000.

    [10]苗奪謙,衛(wèi)志華.中文文本信息處理的原理與應(yīng)用[M].北京:清華大學(xué)出版社,2007.

    [11]汪青青.先秦人名識別初探[J].文教資料,2009(18):202-204.

    [12]Huang H H,Sun C T,Chen H H.Classical Chinese Sentence Segmentation[C]∥Proceedings of the CIPSSIGHAN Joint Conference on Chinese Language Processing.Beijing,2010:15-22.

    [13]張廷玉.明史[M].北京:中華書局,1974.

    [14]邱 莎,段 玻,申浩如,等.基于條件隨機場的中文人名識別研究[J].昆明學(xué)院學(xué)報,2011,33(6):64-66.

    [15]Lafferty J,McCallum A,Peraira F C N.Conditional Ramdom Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]∥Proceedings of the 18thInternational Conference on Machine Learning.USA:Morgan Karfmann Publishers Inc.,2001:282-289.

    [16]Kohavi R.A Study of Cross Validation and Bootstrap for Accuracy Estimation and Model Selection[C]∥Proceedings of The Fourteenth International Joint Conference on Artificial Intelligence.Montreal,Quebec,Canada,1995:1137-11.

    [17]Chinchor N,Sundheim B.MUC-5 Evaluation Metrics[M].the 5thconference on Message Understanding.1993:69-78.

    [18]Ke Y,Su B,Song X,et al.African Origin of Modern Humans in East Asia:A Tale of 12,000 Y Chromosomes[J].Science,2001,292(5519):1151-1153.

    [19]McCallum A,F(xiàn)reitag D,Pereira F.Maximum Entropy Markov Models for Information Extraction and Segmentation[C]∥Proceedings of the 17thInternational Conference on Machine Learning.USA:Morgan Karfmann Publishers Inc.,2000:591-598.

    [20]Duan H,Zheng Y.A Study on Features of the CRFs-based Chinese Named Entity Recogniztion[J].International Journal of Advanced Intelligence,2011,3(2):287-294.

    [21]劉 滔,雷 霖,陳 犖,等.基于MapReduce的中文詞性標注CRF模型并進行訓(xùn)練研究[J].北京大學(xué)學(xué)報:自然科學(xué)版,2013,49(1):147-152.

    猜你喜歡
    明史古漢語分詞
    古漢語疑問句末“為”字補證
    《明史·藝文志》史部地理類訂誤十一則
    天一閣文叢(2020年0期)2020-11-05 08:28:30
    明史強志立當下 仰望星空展未來
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    上古漢語“施”字音義考
    值得重視的分詞的特殊用法
    《南明史·藝文志》經(jīng)部著錄標準商榷
    天一閣文叢(2014年1期)2014-10-13 08:00:06
    談?wù)劰艥h語的翻譯
    語言與翻譯(2014年1期)2014-07-10 13:06:11
    古漢語中表反問的一組能愿動詞
    語文知識(2014年3期)2014-02-28 21:59:31
    萬斯同在《明史》纂修中的貢獻——天一閣藏萬斯同稿本《明史稿》整理札記
    天一閣文叢(2013年1期)2013-11-06 10:01:17
    日本撒尿小便嘘嘘汇集6| 91在线观看av| 黄频高清免费视频| 国产欧美日韩一区二区三区在线| 免费观看精品视频网站| 麻豆av在线久日| 国产三级黄色录像| 日本五十路高清| 亚洲五月色婷婷综合| 日韩欧美在线二视频 | 国产精品秋霞免费鲁丝片| av有码第一页| 欧美黄色片欧美黄色片| 亚洲少妇的诱惑av| 757午夜福利合集在线观看| 王馨瑶露胸无遮挡在线观看| 精品午夜福利视频在线观看一区| 18在线观看网站| 国产一卡二卡三卡精品| tube8黄色片| 亚洲专区国产一区二区| 国产日韩一区二区三区精品不卡| 久久精品亚洲av国产电影网| 性色av乱码一区二区三区2| 人妻一区二区av| 亚洲精品在线观看二区| 亚洲专区国产一区二区| 久久精品亚洲精品国产色婷小说| 我的亚洲天堂| 成人三级做爰电影| 如日韩欧美国产精品一区二区三区| 亚洲av日韩在线播放| 欧美av亚洲av综合av国产av| 中文字幕精品免费在线观看视频| 亚洲精品久久午夜乱码| svipshipincom国产片| 一级作爱视频免费观看| 中亚洲国语对白在线视频| 黄色视频,在线免费观看| 国产精品久久久人人做人人爽| 变态另类成人亚洲欧美熟女 | 曰老女人黄片| 夜夜躁狠狠躁天天躁| 精品久久蜜臀av无| av网站免费在线观看视频| 久久久久久久午夜电影 | 免费日韩欧美在线观看| 我的亚洲天堂| 国产精品永久免费网站| 久久午夜亚洲精品久久| 极品教师在线免费播放| 亚洲精品一二三| 美女午夜性视频免费| 妹子高潮喷水视频| av免费在线观看网站| 人人澡人人妻人| 高清av免费在线| 欧美丝袜亚洲另类 | 看免费av毛片| 中文字幕最新亚洲高清| 国产成人免费观看mmmm| 欧美日韩福利视频一区二区| 国产精品一区二区在线观看99| 老汉色av国产亚洲站长工具| 国产精品国产av在线观看| 国产日韩欧美亚洲二区| 91字幕亚洲| 伊人久久大香线蕉亚洲五| 在线观看66精品国产| 99国产精品99久久久久| 欧美国产精品一级二级三级| 99香蕉大伊视频| a级毛片在线看网站| 超色免费av| 男人的好看免费观看在线视频 | 俄罗斯特黄特色一大片| www.999成人在线观看| 人妻一区二区av| 一二三四社区在线视频社区8| 精品乱码久久久久久99久播| 精品人妻在线不人妻| 免费少妇av软件| 丁香欧美五月| 精品人妻1区二区| 亚洲专区中文字幕在线| 三上悠亚av全集在线观看| 美女视频免费永久观看网站| 国产亚洲精品久久久久久毛片 | 精品亚洲成a人片在线观看| 一边摸一边抽搐一进一出视频| 又黄又粗又硬又大视频| 国产aⅴ精品一区二区三区波| 在线av久久热| 亚洲免费av在线视频| 国产成人av教育| 99香蕉大伊视频| 成人亚洲精品一区在线观看| 久久香蕉国产精品| 国产精品一区二区在线观看99| 久久久久精品人妻al黑| 国产成人系列免费观看| 精品一品国产午夜福利视频| 久久狼人影院| 亚洲精品中文字幕在线视频| 丝袜在线中文字幕| 超碰97精品在线观看| 精品电影一区二区在线| 久久久久久久国产电影| 999精品在线视频| 欧美亚洲日本最大视频资源| 建设人人有责人人尽责人人享有的| 亚洲专区国产一区二区| 又黄又爽又免费观看的视频| 欧美乱色亚洲激情| 免费观看精品视频网站| 国产精品 欧美亚洲| 两人在一起打扑克的视频| 精品午夜福利视频在线观看一区| 成人三级做爰电影| 一级作爱视频免费观看| 欧美日韩乱码在线| 亚洲精品中文字幕一二三四区| 免费观看人在逋| 日韩欧美免费精品| 免费观看人在逋| 性色av乱码一区二区三区2| 老司机影院毛片| 欧美日韩中文字幕国产精品一区二区三区 | 日韩免费av在线播放| 动漫黄色视频在线观看| 变态另类成人亚洲欧美熟女 | 两人在一起打扑克的视频| 亚洲精品自拍成人| 国产精品av久久久久免费| 日韩欧美免费精品| 欧美精品人与动牲交sv欧美| 69av精品久久久久久| 男女之事视频高清在线观看| 少妇裸体淫交视频免费看高清 | 国产色视频综合| 69av精品久久久久久| 久久天躁狠狠躁夜夜2o2o| 免费人成视频x8x8入口观看| 丝袜人妻中文字幕| 丝袜人妻中文字幕| 大香蕉久久成人网| 在线观看午夜福利视频| 欧美日韩中文字幕国产精品一区二区三区 | 日韩欧美一区二区三区在线观看 | 99国产综合亚洲精品| 高清黄色对白视频在线免费看| 亚洲人成电影免费在线| 校园春色视频在线观看| 国产高清国产精品国产三级| 咕卡用的链子| 一边摸一边抽搐一进一出视频| 黄色 视频免费看| 嫩草影视91久久| 99国产极品粉嫩在线观看| 动漫黄色视频在线观看| 悠悠久久av| 人人妻,人人澡人人爽秒播| 村上凉子中文字幕在线| 国产精品影院久久| 国产男靠女视频免费网站| 黑人巨大精品欧美一区二区mp4| 激情视频va一区二区三区| 亚洲国产欧美日韩在线播放| 三上悠亚av全集在线观看| 国产精品久久久久久精品古装| 飞空精品影院首页| 一进一出抽搐gif免费好疼 | 国产成人啪精品午夜网站| 丰满迷人的少妇在线观看| www.精华液| 看免费av毛片| 好看av亚洲va欧美ⅴa在| 韩国av一区二区三区四区| 精品国内亚洲2022精品成人 | 久久久国产成人免费| 国产97色在线日韩免费| 国产精品永久免费网站| 人妻丰满熟妇av一区二区三区 | 国产免费男女视频| 搡老熟女国产l中国老女人| 韩国av一区二区三区四区| 下体分泌物呈黄色| 精品国产超薄肉色丝袜足j| 国产野战对白在线观看| 国产av一区二区精品久久| 男女床上黄色一级片免费看| 亚洲久久久国产精品| 日韩视频一区二区在线观看| 亚洲欧美一区二区三区黑人| 国产成人影院久久av| 日本wwww免费看| 久久久国产一区二区| 欧美中文综合在线视频| 国产精品欧美亚洲77777| 99国产精品99久久久久| 黑人操中国人逼视频| 国产一区二区激情短视频| 美女高潮到喷水免费观看| 免费女性裸体啪啪无遮挡网站| 日本a在线网址| 99riav亚洲国产免费| 精品一区二区三区四区五区乱码| 日韩欧美在线二视频 | 在线国产一区二区在线| 精品国产国语对白av| 热99国产精品久久久久久7| 国产精品一区二区精品视频观看| 亚洲色图av天堂| 国产亚洲av高清不卡| 日韩免费av在线播放| 国产一区有黄有色的免费视频| 亚洲精品一二三| 天堂动漫精品| 日本a在线网址| 视频在线观看一区二区三区| bbb黄色大片| 色尼玛亚洲综合影院| 在线观看午夜福利视频| 精品熟女少妇八av免费久了| 国产97色在线日韩免费| 国产aⅴ精品一区二区三区波| 看片在线看免费视频| 一级黄色大片毛片| 757午夜福利合集在线观看| 妹子高潮喷水视频| tube8黄色片| 久久国产精品男人的天堂亚洲| 日韩欧美三级三区| 宅男免费午夜| 精品国产乱码久久久久久男人| 又大又爽又粗| 无人区码免费观看不卡| 自拍欧美九色日韩亚洲蝌蚪91| 久久影院123| 99国产精品99久久久久| 韩国av一区二区三区四区| 国产亚洲欧美精品永久| 捣出白浆h1v1| 五月开心婷婷网| 操美女的视频在线观看| 日韩免费高清中文字幕av| 午夜视频精品福利| 亚洲精品国产精品久久久不卡| 精品熟女少妇八av免费久了| 免费一级毛片在线播放高清视频 | 丝袜美足系列| 在线永久观看黄色视频| 夜夜夜夜夜久久久久| 老熟妇乱子伦视频在线观看| av有码第一页| 在线播放国产精品三级| 精品国产超薄肉色丝袜足j| 国产一区有黄有色的免费视频| 18禁美女被吸乳视频| 欧美精品av麻豆av| 黑人巨大精品欧美一区二区蜜桃| 久久久国产精品麻豆| 国产精品永久免费网站| 91成人精品电影| av超薄肉色丝袜交足视频| 精品欧美一区二区三区在线| 亚洲精品中文字幕在线视频| 久久中文看片网| 国产成人精品久久二区二区91| 我的亚洲天堂| av视频免费观看在线观看| 嫁个100分男人电影在线观看| 99久久99久久久精品蜜桃| 欧美老熟妇乱子伦牲交| 亚洲综合色网址| 亚洲全国av大片| 久久亚洲真实| 美女福利国产在线| 亚洲男人天堂网一区| 国产单亲对白刺激| 好男人电影高清在线观看| 国产精品 国内视频| 免费在线观看日本一区| 日韩欧美一区二区三区在线观看 | 亚洲三区欧美一区| 久久中文字幕人妻熟女| 精品第一国产精品| 久久国产精品男人的天堂亚洲| 免费观看a级毛片全部| 美女国产高潮福利片在线看| 久久中文字幕一级| 亚洲精品av麻豆狂野| avwww免费| 国产成人一区二区三区免费视频网站| 老熟妇乱子伦视频在线观看| 精品国产美女av久久久久小说| 99热网站在线观看| 一级毛片女人18水好多| 黄片小视频在线播放| 少妇的丰满在线观看| 丰满饥渴人妻一区二区三| 亚洲欧美一区二区三区黑人| 色综合婷婷激情| 高清视频免费观看一区二区| 亚洲国产中文字幕在线视频| 午夜福利视频在线观看免费| 亚洲人成电影免费在线| 亚洲熟女毛片儿| 日本a在线网址| 中文字幕av电影在线播放| 成年动漫av网址| 别揉我奶头~嗯~啊~动态视频| 一级a爱视频在线免费观看| 免费高清在线观看日韩| 啦啦啦在线免费观看视频4| 国产精品香港三级国产av潘金莲| 亚洲免费av在线视频| 丝袜在线中文字幕| 男人的好看免费观看在线视频 | 黑人操中国人逼视频| x7x7x7水蜜桃| 免费在线观看影片大全网站| 午夜亚洲福利在线播放| 欧美乱码精品一区二区三区| 一本一本久久a久久精品综合妖精| 久久天堂一区二区三区四区| 日韩欧美一区二区三区在线观看 | 一级黄色大片毛片| 手机成人av网站| 国产激情欧美一区二区| 成人18禁在线播放| 成熟少妇高潮喷水视频| 精品欧美一区二区三区在线| 久久午夜综合久久蜜桃| 9191精品国产免费久久| 亚洲五月色婷婷综合| 精品电影一区二区在线| 黄色女人牲交| 叶爱在线成人免费视频播放| 别揉我奶头~嗯~啊~动态视频| 大码成人一级视频| 看免费av毛片| 成年人午夜在线观看视频| www.自偷自拍.com| 日韩欧美三级三区| 91av网站免费观看| av网站免费在线观看视频| 国产色视频综合| 婷婷精品国产亚洲av在线 | videosex国产| 日韩熟女老妇一区二区性免费视频| 日韩大码丰满熟妇| 久久久精品国产亚洲av高清涩受| 十八禁人妻一区二区| 99热网站在线观看| 不卡av一区二区三区| 在线观看66精品国产| 国产无遮挡羞羞视频在线观看| 精品人妻在线不人妻| 叶爱在线成人免费视频播放| 国产成人av教育| 首页视频小说图片口味搜索| 国产精品美女特级片免费视频播放器 | 欧美日韩亚洲高清精品| 动漫黄色视频在线观看| 亚洲在线自拍视频| 久久这里只有精品19| 欧美一级毛片孕妇| 久久 成人 亚洲| 久久久久久免费高清国产稀缺| 天堂√8在线中文| 操美女的视频在线观看| 成人精品一区二区免费| 国产亚洲精品久久久久久毛片 | a级毛片在线看网站| 色94色欧美一区二区| 亚洲久久久国产精品| 美女高潮到喷水免费观看| 久久人妻熟女aⅴ| 久久香蕉激情| 国产精品 欧美亚洲| 怎么达到女性高潮| 国产精品乱码一区二三区的特点 | 久久香蕉国产精品| 嫁个100分男人电影在线观看| 欧洲精品卡2卡3卡4卡5卡区| 超碰成人久久| 亚洲五月色婷婷综合| 亚洲九九香蕉| 久久精品亚洲精品国产色婷小说| 久久人妻福利社区极品人妻图片| 香蕉久久夜色| 免费女性裸体啪啪无遮挡网站| 9191精品国产免费久久| 精品国产乱码久久久久久男人| 美国免费a级毛片| 免费黄频网站在线观看国产| 久久国产精品男人的天堂亚洲| 欧美av亚洲av综合av国产av| 精品国产超薄肉色丝袜足j| 无限看片的www在线观看| 两性午夜刺激爽爽歪歪视频在线观看 | 免费少妇av软件| 99国产精品一区二区蜜桃av | 久久久国产欧美日韩av| 国产有黄有色有爽视频| 黄色片一级片一级黄色片| 亚洲欧美日韩高清在线视频| 欧美成人午夜精品| 丰满饥渴人妻一区二区三| 亚洲精品久久成人aⅴ小说| 99riav亚洲国产免费| 少妇 在线观看| 中亚洲国语对白在线视频| 麻豆成人av在线观看| 一级,二级,三级黄色视频| 亚洲五月色婷婷综合| 99riav亚洲国产免费| 一区二区三区激情视频| 午夜精品在线福利| 午夜视频精品福利| 性少妇av在线| tube8黄色片| 亚洲成国产人片在线观看| 无遮挡黄片免费观看| 国产97色在线日韩免费| 一级a爱片免费观看的视频| 一级片'在线观看视频| 日韩 欧美 亚洲 中文字幕| www.精华液| 国产蜜桃级精品一区二区三区 | 久久久水蜜桃国产精品网| 国产99久久九九免费精品| 欧美日本中文国产一区发布| 免费av中文字幕在线| 91麻豆av在线| 黄色片一级片一级黄色片| 黄片播放在线免费| 日韩中文字幕欧美一区二区| 欧美黄色片欧美黄色片| 在线观看免费日韩欧美大片| 搡老乐熟女国产| 麻豆乱淫一区二区| 99国产精品免费福利视频| 国产成人影院久久av| 国产aⅴ精品一区二区三区波| 亚洲欧美激情在线| 精品乱码久久久久久99久播| 中亚洲国语对白在线视频| 国产aⅴ精品一区二区三区波| 热re99久久精品国产66热6| 亚洲成av片中文字幕在线观看| 国产色视频综合| 亚洲国产欧美网| 无遮挡黄片免费观看| 亚洲黑人精品在线| 性少妇av在线| 啦啦啦免费观看视频1| 色老头精品视频在线观看| 狠狠狠狠99中文字幕| 国产精品一区二区精品视频观看| 亚洲人成电影观看| 精品电影一区二区在线| 中出人妻视频一区二区| 宅男免费午夜| 色综合婷婷激情| 国产亚洲精品久久久久5区| 九色亚洲精品在线播放| 男人的好看免费观看在线视频 | 丝瓜视频免费看黄片| 久久精品国产99精品国产亚洲性色 | 亚洲成国产人片在线观看| 日韩欧美一区视频在线观看| 欧美最黄视频在线播放免费 | 久久亚洲真实| 老汉色∧v一级毛片| 久9热在线精品视频| av线在线观看网站| av网站在线播放免费| 国产欧美日韩一区二区三| 久久人妻av系列| 欧美激情极品国产一区二区三区| 日韩免费高清中文字幕av| a级毛片在线看网站| 每晚都被弄得嗷嗷叫到高潮| 国产97色在线日韩免费| 国产不卡av网站在线观看| 丁香六月欧美| 精品免费久久久久久久清纯 | 精品国产一区二区久久| 国产精品影院久久| 色综合欧美亚洲国产小说| 国产一区在线观看成人免费| 免费久久久久久久精品成人欧美视频| 亚洲视频免费观看视频| 啦啦啦视频在线资源免费观看| 日韩视频一区二区在线观看| 欧美成人免费av一区二区三区 | 精品久久蜜臀av无| 国产一卡二卡三卡精品| 亚洲av片天天在线观看| 日韩人妻精品一区2区三区| 一区二区三区激情视频| e午夜精品久久久久久久| 日韩 欧美 亚洲 中文字幕| 欧洲精品卡2卡3卡4卡5卡区| 高清视频免费观看一区二区| 成人永久免费在线观看视频| 一区二区三区精品91| 亚洲 国产 在线| 久久久国产一区二区| 91精品三级在线观看| 一本大道久久a久久精品| 丝袜人妻中文字幕| 日韩制服丝袜自拍偷拍| 成人18禁在线播放| 一a级毛片在线观看| 久久久久国产一级毛片高清牌| 亚洲第一av免费看| 人妻丰满熟妇av一区二区三区 | 50天的宝宝边吃奶边哭怎么回事| 中文字幕人妻丝袜制服| 一级黄色大片毛片| 嫁个100分男人电影在线观看| 亚洲欧美激情在线| 人人妻人人澡人人看| 美女午夜性视频免费| 一级片'在线观看视频| 一区福利在线观看| 伦理电影免费视频| 久久久久久久午夜电影 | 国产在线观看jvid| av天堂久久9| 国产三级黄色录像| 午夜激情av网站| 日韩有码中文字幕| 国产又色又爽无遮挡免费看| 日日夜夜操网爽| 国产精华一区二区三区| 99久久人妻综合| 法律面前人人平等表现在哪些方面| 亚洲精品美女久久久久99蜜臀| 一本综合久久免费| 99精国产麻豆久久婷婷| 久久国产精品影院| 性少妇av在线| 精品乱码久久久久久99久播| 无限看片的www在线观看| 成人手机av| 在线视频色国产色| 久久国产精品人妻蜜桃| 人人妻人人澡人人爽人人夜夜| 久久精品亚洲精品国产色婷小说| 久久九九热精品免费| 国产成人系列免费观看| 成人18禁高潮啪啪吃奶动态图| 久久中文字幕一级| 999久久久精品免费观看国产| 一进一出抽搐动态| 日韩精品免费视频一区二区三区| 人妻丰满熟妇av一区二区三区 | 看黄色毛片网站| 国产av精品麻豆| 日韩免费高清中文字幕av| 中文欧美无线码| 国产一区有黄有色的免费视频| 人妻丰满熟妇av一区二区三区 | 色播在线永久视频| 欧美在线一区亚洲| www.自偷自拍.com| 欧美大码av| 黄色视频,在线免费观看| 女同久久另类99精品国产91| 欧美黄色淫秽网站| 高清视频免费观看一区二区| 在线十欧美十亚洲十日本专区| 后天国语完整版免费观看| 伊人久久大香线蕉亚洲五| 国产激情久久老熟女| 亚洲精品粉嫩美女一区| 亚洲专区国产一区二区| 99久久精品国产亚洲精品| 一进一出好大好爽视频| 色播在线永久视频| 久久精品亚洲av国产电影网| 波多野结衣av一区二区av| 在线播放国产精品三级| 久久人妻福利社区极品人妻图片| 999精品在线视频| 久久久精品国产亚洲av高清涩受| 宅男免费午夜| 久久精品亚洲熟妇少妇任你| 成年人黄色毛片网站| 久久狼人影院| 美女福利国产在线| 嫁个100分男人电影在线观看| 丁香欧美五月| 国产成人av激情在线播放| 亚洲aⅴ乱码一区二区在线播放 | 国产亚洲一区二区精品| 人人妻人人澡人人看| 巨乳人妻的诱惑在线观看| 91麻豆av在线| 亚洲男人天堂网一区| 亚洲av成人一区二区三| 精品免费久久久久久久清纯 | 天天操日日干夜夜撸| 亚洲熟女毛片儿| 久99久视频精品免费| 国产男靠女视频免费网站| 中出人妻视频一区二区| 欧美午夜高清在线| 国产成人免费无遮挡视频| 久久精品国产亚洲av高清一级| 亚洲欧美激情在线|