• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      民國南海文獻知識元內(nèi)容抽取規(guī)則研究*

      2022-12-26 03:16:28孫浩洋沈固朝
      情報雜志 2022年12期
      關(guān)鍵詞:句法民國南海

      孫浩洋 沈固朝

      (1.南京大學信息管理學院 南京 210046;2.中國南海研究協(xié)同創(chuàng)新中心 南京 210046)

      文獻資源是史地研究的基礎(chǔ),傳統(tǒng)研究對于文獻的運用主要是基于研究者自己對其知識內(nèi)容進行人工挖掘和展示,但隨著文獻數(shù)量的激增和用戶對知識獲取精準、便捷和高效的需求,要求文獻工作者深入文獻內(nèi)部,對海量、細粒度、半結(jié)構(gòu)化的數(shù)據(jù)進行深入研究,挖掘其內(nèi)在特征和潛在聯(lián)系,將文獻內(nèi)容元素特征及相互關(guān)系以一種更直觀和可視化的方式呈現(xiàn)出來,便于計算機進行數(shù)據(jù)層面而非傳統(tǒng)的文獻層面的處理,也就是說,從過去以篇為單位展開的檢索語言研究轉(zhuǎn)向到從段落、句子等更細?;R內(nèi)容進行探索。知識元(Knowledge Element)的概念就是在這樣的背景下提出的,它是不可再分最小知識單元,是包含了描述型語言及相關(guān)屬性的集合。本文引入知識元對南海歷史文獻知識元內(nèi)容標引與抽取規(guī)則進行探索性研究,對不同維度的知識粒度量化進行探討,以期構(gòu)造出歷史文獻中南海問題知識元模型,利用知識元關(guān)聯(lián)爭端事件演變過程,提高知識利用和挖掘效率。

      1 相關(guān)研究

      在認知體系中,知識元構(gòu)成知識及新知識單元的基礎(chǔ)是其知識結(jié)構(gòu)的最小元素(基元)[1],故知識單元包含了知識元。王渝麗將知識元定義為知識組成的結(jié)構(gòu)要素,用來表示知識元的描述就是內(nèi)容概括的關(guān)鍵詞或詞組,在人類認知體系中包括概念、定律、規(guī)則等[2]。孫成江認為知識元是可以根據(jù)用戶需求、描述知識存取與組織、檢索和利用的,能夠自由切分的描述知識內(nèi)容的最小知識單位[3]。

      常見的文獻資源知識元內(nèi)容抽取方法是基于規(guī)則的抽取方法,借助句式結(jié)構(gòu)、語言描述框架,對文獻資源中的知識元進行識別和抽取,需要依賴專家對大量文本進行人工標注,并總結(jié)各類知識元的描述規(guī)則[4]。胡昌平提出用半自動化技術(shù)進行抽取,由專家進行少量知識元內(nèi)容抽取,通過自然語言處理獲得標識詞,對標識詞位置、語法特征等建立映射規(guī)則,結(jié)合專家經(jīng)驗對抽取規(guī)則進行完善[5]。化柏林采用內(nèi)容分析法,分析大量文獻,識別出科技文獻中的方法知識元,將其定義為“定義、關(guān)系、特點、流程、功能”5個維度,并分別進行抽取[6]。趙蓉英基于主題詞表對中文智庫成果進行知識元抽取,歸納了知識元的描述規(guī)則,包括方法說明型和研究思路型兩種規(guī)則[7]。畢崇武根據(jù)方法知識元在描述知識步驟、特征、關(guān)系等屬性,構(gòu)建了基于知識標識、基于知識描述和基于知識關(guān)系3個層面的知識元描述框架,并依據(jù)框架對方法知識元進行抽取[8]。

      綜上所述,不同領(lǐng)域?qū)χR元的認知與研究角度不同,應用于文獻與知識組織的模型也不一致。本文將完整描述民國南海文獻中相關(guān)知識與概念的最小知識單元,定義為南海文獻知識元,并借鑒上述研究提出一種從文獻抽取知識元內(nèi)容描述的方法:先識別知識元內(nèi)容描述的動詞,對動詞在文本中的位置和語法特征進行規(guī)則組配,形成知識元內(nèi)容描述規(guī)則,然后通過規(guī)則識別文本序列中的其他標識詞,同時抽象規(guī)則;再利用規(guī)則匹配文獻資源的文本內(nèi)容,抽取滿足條件的內(nèi)容描述,最后進行人工校對,保留滿足規(guī)則且符合內(nèi)容描述的知識元入庫。

      2 民國南海文獻知識元內(nèi)容的抽取

      民國時期中國南海問題的文獻資源具有當時的時代特性,反映著當時外交、民生、社會、學術(shù)領(lǐng)域最真實最前沿的問題和探討,是佐證南海問題主權(quán)歸屬的重要環(huán)節(jié)。南海文獻知識元的內(nèi)容由對知識內(nèi)容描述的完整語句、段落或者篇章組成。知識元的名稱是基于知識元標識詞——規(guī)范化文獻資源的標題(檔案資源中標為“事由”)與知識元屬性如背景、關(guān)系、結(jié)論等組合而成,這些屬性在知識元來源中并非都有直接的、顯在的表示,但卻可以通過對知識內(nèi)容描述分析后得到,可稱為隱性屬性。由于南海文獻內(nèi)容多樣而復雜,基于前文對知識元的描述,現(xiàn)提出基于規(guī)則的民國南海史地文獻知識元提取方法,其規(guī)則提取模型如圖1所示。

      圖1 基于規(guī)則的知識元提取模型

      首先,對民國南海文獻類型進行確定,其中包括政府文件和公開資料(如論文、剪報、地圖等),根據(jù)獲取文獻信息的元數(shù)據(jù),確定類型的文獻文本,直接獲取知識元的來源。其次,對文獻的文本進行分句,利用主題詞構(gòu)建知識元標識詞表,結(jié)合句法匹配規(guī)則提取出對知識元內(nèi)容進行描述的候選句,對候選語句歸納總結(jié),形成術(shù)語句式,采用人工校對與分類,對知識元內(nèi)容描述規(guī)則進行提煉,形成規(guī)則模板;對于候選語句中無法形成術(shù)語句式的句子,識別謂詞擴展補充知識元標識詞表。再次,將南海文獻分句與知識元內(nèi)容描述規(guī)則進行匹配,通過人工干預確定知識元的內(nèi)容。最后,將獲取的知識元內(nèi)容信息,與文獻元數(shù)據(jù)結(jié)合,獲取文獻資源中對南海爭端問題內(nèi)容描述的完整知識元信息,并將其抽取后存入知識元數(shù)據(jù)庫中,方便將來南海維權(quán)數(shù)據(jù)內(nèi)容獲取。

      3 知識元抽取規(guī)則描述

      為了能在計算機中實現(xiàn)對知識元內(nèi)容提取,需要建立一系列提取規(guī)則,并進行規(guī)則描述。構(gòu)建完善的抽取規(guī)則是知識元抽取的關(guān)鍵。正如前述,化柏林通過對大量文獻進行內(nèi)容分析,人工審核與合并歸類,研究了基于模式的規(guī)則,利用已定義的3種知識元類型,使用規(guī)則對方法知識元進行抽取[6]。譚熒等則利用命名實體識別和事件抽取的模式,通過命名實體與觸發(fā)詞表的匹配規(guī)則實現(xiàn)事件知識元的抽取,并對于識別命名實體不同部分進行規(guī)則制定[9]。

      研究民國南海問題的文獻具有描述事件背景突出、聚焦問題前沿、語言豐富、學者各抒己見等特點,因而本文把民國文獻內(nèi)容描述的知識元分為陳述型和程序型,前者包括背景知識元、事實知識元等陳述型文字內(nèi)容,后者包括方法知識元和過程知識元,具有內(nèi)在邏輯的文字內(nèi)容。見表1。

      表1 民國南海文獻知識元分類

      3.1 陳述型知識元描述規(guī)則

      陳述型知識元描述的是南海文獻中對已存在的事實描述或者對爭端事件進行背景介紹以及對于相關(guān)術(shù)語或者知識進行定義,或者對事件的評述、解決方案或事件結(jié)果直接進行內(nèi)容描述,是知識元抽取的重要部分。通過對民國文獻歸納,將南海問題描述的陳述型知識元分為背景、事實、定義和結(jié)論。

      3.1.1背景知識元

      背景知識元是研究者對南海問題發(fā)生的背景環(huán)境、現(xiàn)存問題以及已有認知情況進行的文字化描述。本研究通過對民國文獻的整理,提煉出3種類型的背景知識元描述規(guī)則,分別由不同涵義的謂語代表直述型、觀點型。見表2。

      表2 背景知識元描述規(guī)則

      直述型即直接敘述型語句,對南海文獻中的人、事、物等直接進行語言描述和表示,不具備典型的規(guī)則標引語句,一般情況是由標識詞表示知識元內(nèi)容的主語,通過謂語銜接描述內(nèi)容,由于直述型描述是對背景知識的介紹,沒有句式上的修辭。觀點型是描述者對文獻內(nèi)容背景介紹的理解描述,指示民國南海文獻中背景描述的觀點信息,其句式結(jié)構(gòu)特點簡單,規(guī)則架構(gòu)一般銜接觀點發(fā)出者,評述背景的觀點內(nèi)容或者作者對觀點的釋義,廣泛存在于文獻資源的綜述研究、前期研究或?qū)Ρ尘爸R介紹后的作者評述,立場聲明等內(nèi)容之中。

      3.1.2事實知識元

      事實知識元是對南海爭端發(fā)生的既定事實或事件信息的描述。本文將事實知識元分為觀點型、事件型、序列型。見表3。

      表3 事實知識元描述規(guī)則

      觀點型是對文獻中觀點的事實信息進行描述,其句式結(jié)構(gòu)簡單與背景知識元中的觀點型描述規(guī)則類似,表述南海爭議的立場和觀點,廣泛存在于前期研究成果或作者評述、國際立場聲明等內(nèi)容中。事件型是對南海事件的客觀描述,具有明顯的時間、地點或時間地點組合信息,通過標識詞對事件概括,銜接事件的內(nèi)容等信息的描述。序列型是一種形式化的描述,其句式通過序列連詞與事實知識結(jié)合構(gòu)成,既可以是描述順序的第一、第二、第三等數(shù)字連詞,也可以是首先,其次,再次等關(guān)系連詞,在文獻中大量的事實分類描述是通過序列型表達,對于事實知識元描述的內(nèi)容具有表達明確,邏輯清晰,條理分明,結(jié)構(gòu)清楚的特點。

      在民國南海文獻內(nèi)容研究中,背景知識元和事實知識元數(shù)量龐大,構(gòu)成了南海知識元的重要知識元資源庫,利用上述規(guī)則識別、標引出南海知識元,使得以篇為單位的文章簡化為以片段為單位的知識元,結(jié)合時空信息構(gòu)成專屬事實、背景知識元庫,為后續(xù)研究提供客觀資料。同時半結(jié)構(gòu)化規(guī)則的歸納與制定也成為知識細粒化的資源結(jié)構(gòu),為南海知識元檢索提供了方法。

      3.1.3定義知識元

      定義知識元多是對南海事件或爭端問題中的政策概念、法律術(shù)語等概念和原理的解釋。包括內(nèi)涵解釋型和外延解釋型描述規(guī)則,前者對其概念原理的說明,后者描述其概念或原理的包含范疇,見表4。

      表4 定義知識元描述規(guī)則

      內(nèi)涵型和外延型分別對應民國南海文獻法理、命名等概念和原理內(nèi)涵與外延的釋義,內(nèi)涵型是對描述的南海相關(guān)內(nèi)容本身進行釋義,一般標引出民國南海文獻中的政策、原理、法律概念的解讀。外延型是對釋義的補充或所含有實例的解讀,對同一定義的描述,其內(nèi)涵型與外延型的描述規(guī)則共同構(gòu)成對此知識元定義概念的描述。

      定義知識元所描述的是已有或已研究或社會共識性已認可的概念定義知識。在維護南海主權(quán)層面,多為國際社會共同認可的法律概念或國家政策、法律法規(guī)的定義等。這些概念性知識描述對于南海維權(quán)中的理論學習、定義檢索有直接的輔助作用。

      3.1.4結(jié)論知識元

      結(jié)論知識元是對南海歷史事實或爭端事件的客觀事實、作用、推斷等內(nèi)容的描述,但具有明顯的現(xiàn)在時或?qū)頃r的時間信息特點。與背景和事實知識元描述的最大區(qū)別就是時效性,背景/事實知識元都是在過去的時間點或時間段中對南海問題進行的描述,即對既成事實的客觀描述,有明顯的過去時表達特點。結(jié)論知識元同樣分為直述型、序列型、觀點型,與前者區(qū)別在于結(jié)論知識元描述南海相關(guān)內(nèi)容的時間節(jié)點在選用事件主題詞所表達的時間段之后。同時結(jié)論知識元還包括歸納推斷型,共4種描述規(guī)則類型,見表5。

      表5 結(jié)論知識元描述規(guī)則

      歸納推斷型是在民國南海文獻中對內(nèi)容描述歸納性結(jié)論型語句的表達,有兩種表達類型,一類是用“由……可見/從……來看/通過……可知”等形式的語義描述規(guī)則將被歸納的對象與文本的結(jié)論信息進行連接;一類是通過“綜上以觀/由此觀之……”等形式規(guī)則直接對上文中的內(nèi)容描述進行歸納,并連接結(jié)論內(nèi)容。

      結(jié)論知識元是對民國南海文獻研究內(nèi)容的總結(jié),用于指導、決策或建議,是組成南海知識元庫的重要組分。其描述的內(nèi)容是當時時事分析、研究討論結(jié)果中知識價值最突出的知識資源,也是表達作者觀點的重要依據(jù)。歸納推斷型是對前期南海問題研究的深層總結(jié),歸納性強。對已有的南海問題的探討及研究得到的結(jié)論知識元,是從現(xiàn)實層面衡量民國南海文獻價值的重要依據(jù),也為后續(xù)研究提供了理論基礎(chǔ)知識資源。

      3.2 程序型知識元描述規(guī)則

      程序型知識元說明在民國南海文獻內(nèi)容描述中存在事件間或者內(nèi)容間的內(nèi)在聯(lián)系,這種聯(lián)系既可以是文本內(nèi)容對研究方法的說明,也可以是對研究內(nèi)容流程或文本描述過程的內(nèi)在關(guān)系的表示,分為方法知識元和過程知識元。

      3.2.1方法知識元

      方法知識元在民國南海文獻中的描述并不是直述式的表達,常常是文中段首概括性的描述,定為方法類型。方法類型是對文章的研究方法或者文獻內(nèi)容的詳細情況摘要說明。如“……欲研究此問題,(進而/然后)……”對后文的方法知識描述進行概括,見表6。

      表6 方法知識元描述規(guī)則

      3.2.2過程知識元

      過程知識元是民國南海文獻邏輯上程序式的表達,是對文章內(nèi)容撰寫的步驟說明,是對文章中提出的研究問題做出應對的反饋,描述的是研究者對解決問題的研究過程,定為因果型,見表7。

      表7 過程知識元描述規(guī)則

      研究者對于南海問題事實的描述,更多的是對于事件內(nèi)容以及研究過程的描述,揭示南海事件內(nèi)容的內(nèi)部關(guān)系,通過對過程的客觀因果描述,引出研究者的觀點和建議,內(nèi)容描述服務(wù)于研究結(jié)論。

      4 基于規(guī)則的民國南海文獻知識元內(nèi)容抽取

      基于數(shù)據(jù)的民國南海文獻知識元在“規(guī)則”的引導下進行內(nèi)容抽取,具有細粒化文獻內(nèi)容、多維度語義關(guān)聯(lián)的優(yōu)勢,對于民國南海維權(quán)內(nèi)容研究、南海資料的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)以及南海文獻數(shù)字化研究有重要的應用價值。

      前文中將南海文獻不同類型知識元通過具體描述內(nèi)容的不同分為了背景知識元、事實知識元、定義知識元、結(jié)論知識元、方法知識元和過程知識元,分別對每種知識元描述的語法規(guī)則與常用句式結(jié)合,歸納出知識元內(nèi)容的抽取規(guī)則。根據(jù)上文知識元描述規(guī)則句法表達示例,可知不同知識元間有重復的類型描述,如直述型、觀點型、序列型,不同的類型描述擁有固定的句式,這些句式中包括其固有的詞組或固定的描述語序。利用上述描述的固定句式,歸納總結(jié)并提取一個規(guī)則模型,通過模型對不同類型的南海知識元描述進行提取。

      4.1 南海文獻知識元內(nèi)容抽取規(guī)則

      上文對知識元描述規(guī)則做了詳細的分析說明,根據(jù)其句式結(jié)構(gòu),語義描述特征,以及描述規(guī)則關(guān)鍵詞和標識詞的位置問題,將前文中方法類型的描述規(guī)則并入序類型,因果型并入歸納型。以此歸納出6種描述規(guī)則,用于形成知識元提取描述規(guī)則集合,分別是直述型、觀點型、事件型、序列型、定義型、歸納型。

      定義提取規(guī)則是多個知識元描述句句法規(guī)則的集合,在中文文本信息描述中,句法規(guī)則包含實體、詞性、觸發(fā)詞(標識詞)等幾個組成部分,歸納總結(jié)其具體描述如下:

      知識元抽取規(guī)則={ SR1,SR2,SR3,……SRi};

      (SRi表示知識元描述句法規(guī)則)

      SRi= <知識元屬性><描述類型><知識元標識詞><觸發(fā)詞><觸發(fā)詞詞性><位置>,其中知識元屬性包括前文中提到的背景、事實、定義、結(jié)論、過程、方法、建議、評價,描述類型包括直述型、序列型、觀點型等。知識元標識詞(Wi)是指相應知識元屬性所描述的主題詞匯或命名實體。觸發(fā)詞(Tw)描述知識元標識詞即將鏈接的內(nèi)容的主要謂詞,是對知識元屬性和描述類型確定的標識,例如定義型的用詞常常是“所謂……”或“……是/包含……”。觸發(fā)詞詞性(Tp)表示標識的觸發(fā)詞的詞性。位置(pos)標識知識元的標識詞與觸發(fā)詞的位置關(guān)系以及兩者間的詞距,有兩種形式位置關(guān)系,即在標識詞位置之前(pre)和標識詞位置之后(sub),其詞距步長設(shè)置為正整數(shù),故而pre1則表示標識詞與觸發(fā)詞之間的距離為1,說明兩者是緊鄰關(guān)系,sub1亦然。當描述的知識元標識詞與觸發(fā)詞之間的距離小于2,則定義為兩者是緊鄰關(guān)系,沒有數(shù)值時,則表示非緊鄰關(guān)系。

      在定義句法規(guī)則后,可以為前文歸納匯總的每一類知識元描述規(guī)則建立相應的句法提取規(guī)則,具體提取規(guī)則如表8所示。

      表8 知識元抽取句法規(guī)則示例

      4.2 基于規(guī)則的南海文獻知識元抽取流程實例

      根據(jù)上節(jié)中歸納的知識元抽取句法規(guī)則,將規(guī)則與標識詞和文章描述內(nèi)容的主題詞結(jié)合,獲取映射匹配結(jié)果,分析民國南海文獻內(nèi)容,匹配句法規(guī)則與文本內(nèi)容的句法結(jié)構(gòu),利用匹配算法獲取滿足知識元抽取句法規(guī)則且包含有相應標識詞及南海相關(guān)主題詞的分句。根據(jù)知識元的內(nèi)容描述規(guī)則提取民國南海文獻中的知識元內(nèi)容,將結(jié)果存入知識元標引數(shù)據(jù)庫中。本節(jié)對知識元內(nèi)容描述進行抽取,基于規(guī)則的時空角度民國南海文獻知識元抽取流程如圖1所示。

      本文數(shù)據(jù)來源為教育部重大項目“民國時期中國政府維護南海主權(quán)的檔案資料整理與研究”結(jié)項成果民國資料部分,共收集209篇民國時期的資料,包括報紙、報告、論文,全文化處理后共計約20萬字,為了便于過程描述,本節(jié)選取《法占華南九小島事》[10]第五節(jié)的一段內(nèi)容進行說明,見圖2。

      圖2 《法占華南九小島事》第五節(jié)“理論上之推究”的知識元示意圖

      上述文檔材料中雙下劃線的表示歸納型知識元,曲下劃線的表示觀點型知識元,點下劃線的表示定義型知識元。據(jù)表8中的實例描述基于規(guī)則的知識元提取實現(xiàn)過程。表9則是從實例中提取的知識元句法規(guī)則組合及知識元名稱及屬性類型。

      表9 知識元提取規(guī)則組合示例

      根據(jù)文檔《法占華南九小島事》說明知識元內(nèi)容抽取的實現(xiàn)過程,為了便于理解,此處對文檔中定義知識元進行介紹。

      a.參照上文總結(jié)的知識元描述規(guī)則,在計算機中構(gòu)建知識元各屬性的基于知識元描述規(guī)則的句法抽取規(guī)則表,構(gòu)建定義知識元句法描述規(guī)則,其規(guī)則描述如表10所示。

      表10 定義知識元提取規(guī)則句法描述

      b.抽取文本描述標識詞:“法占華南九小島”,及文本主題詞:“先占”。利用民國南海文獻的標識詞與句法抽取規(guī)則進行組配(標注標識詞或主題詞出現(xiàn)的位置),獲取滿足知識元內(nèi)容提取規(guī)則的句法規(guī)則組合。如[標識詞]+[句法規(guī)則]。

      c.句法規(guī)則組配,得到知識元描述規(guī)則句法結(jié)構(gòu)組合表,如表11所示。

      表11 定義知識元描述規(guī)則句法組合

      d.句法描述規(guī)則組合與分句結(jié)果進行匹配,提取候選語句。

      分句結(jié)果:

      ①五 理論上之推究

      ②根據(jù)國際公法而推究此次法國占領(lǐng)九小島事,法國并無充分之理由,查國際公法本有先占之原則,其客體須為國際法上無主之地。

      ③ 這就是說“惟沒有國家領(lǐng)有之土地,方得為先占之客體,此項土地,猶如荒島,無人類居住于該島上,或為土人所居住,而其社會之組織不能認為國家者,十人所居住之地域,部落之組織不得視為國家”。

      ④又“凡屬于一國之土地而該國拋棄之,亦得為先占之標的地”。

      ⑤今此項島嶼在我中國海之內(nèi)為中國漁民歷來居住,往來漁獵之所、且西南政府曾一度派員測勘,則此等島嶼不得視為無主之土地,蓋已彰明昭著矣。

      ⑥且巴黎八月廿一日電稱關(guān)于此次法國占領(lǐng)九島中,內(nèi)有二島住有中國漁民。

      ⑦由此可知,法國所占領(lǐng)之九島中,至少二島有華人居住,有人居住之土地,豈能稱為無主之土地乎?

      ⑧ 更進而言之:此項法國宣布先占之土地,即系中國所有,則法國當然無攘奪之可能。

      ⑨蓋先占之成立必須為有效之占領(lǐng),所謂有效之占領(lǐng)者須包含占有與管理(Possession and administration)之現(xiàn)象。

      ⑩ 而“占有須經(jīng)公告,懸旗,惟此種形式之行為,除在其七地上有行政之設(shè)備,則其本身僅能成假定之先占。

      獲得候選知識元描述語句:②,③,④,⑥,⑦,⑧,⑨,⑩,,

      e.人工選擇,確定知識元(保留候選語句②,③,⑦,⑧,⑨,,)。

      f.根據(jù)知識元各元數(shù)據(jù)提取規(guī)則,獲得其屬性信息,構(gòu)成南海知識元,如表12所示。

      表12 定義知識元示例

      續(xù)表12 定義知識元示例

      g.將步驟5與步驟6中獲取的知識元的描述信息存入民國南海文獻知識元庫,并規(guī)范化南海知識元元數(shù)據(jù)信息。

      5 結(jié) 語

      為了實現(xiàn)民國南海文獻知識元內(nèi)容的準確抽取,提高知識元內(nèi)容描述完整性,本文提出了基于描述規(guī)則的知識元抽取方法,實現(xiàn)從以篇幅為單位的主題詞關(guān)鍵詞抽取到以句為單位的知識元數(shù)據(jù)級抽取。首先將文獻內(nèi)容描述根據(jù)知識元分類分為陳述型和程序型,歸納總結(jié)多種方法對不同知識元內(nèi)容進行抽取的規(guī)則模板,分別對其進行詳細說明。然后根據(jù)歸納的規(guī)則模板,對民國南海文獻進行匹配映射,獲取滿足規(guī)則模板的文本片段,通過人工篩選校對,保留既滿足規(guī)則又能準確描述文本內(nèi)容的知識元。最后對知識元抽取規(guī)則進行了驗證,結(jié)果表明這種基于句法描述規(guī)則的知識元抽取方法能夠較好地完成從民國南海文獻中對知識元的抽取。

      本文重點關(guān)注的是如何歸納總結(jié)知識元內(nèi)容描述規(guī)則以完整地抽取民國南海文獻中的知識元。在研究過程中發(fā)現(xiàn)這些類型中知識元的描述句法結(jié)構(gòu)有獨特的特征,利用其特征提取相應的知識元內(nèi)容會出現(xiàn)冗余信息,增加人工校對工作量,因此如何降低冗余內(nèi)容描述抽取結(jié)果需要進一步探索。同時,知識元內(nèi)容抽取結(jié)果壓縮了研究者對民國南海文獻的閱讀量,但提高了細粒度知識的獲取質(zhì)量和效率,為更準確地獲取南海維權(quán)證據(jù)性材料提供了數(shù)據(jù)支持。

      猜你喜歡
      句法民國南海
      南海明珠
      句法與句意(外一篇)
      中華詩詞(2021年3期)2021-12-31 08:07:22
      北海北、南海南
      黃河之聲(2021年10期)2021-09-18 03:07:18
      述謂結(jié)構(gòu)與英語句法配置
      他們?yōu)楹味紣勖駠?
      電影(2018年10期)2018-10-26 01:55:26
      句法二題
      中華詩詞(2018年3期)2018-08-01 06:40:40
      詩詞聯(lián)句句法梳理
      中華詩詞(2018年11期)2018-03-26 06:41:32
      南海的虎斑貝
      民國人愛刷朋友圈
      百家講壇(2016年6期)2016-09-28 08:10:15
      南海隨筆
      草原(2016年1期)2016-01-31 21:21:51
      温宿县| 缙云县| 玛多县| 会同县| 江津市| 介休市| 射阳县| 涡阳县| 广水市| 柳河县| 汉寿县| 正定县| 如皋市| 酒泉市| 滦平县| 朝阳县| 大邑县| 鲁山县| 台东县| 随州市| 两当县| 磐安县| 马公市| 东阳市| 黎平县| 宜兰市| 汉沽区| 五大连池市| 介休市| 甘孜县| 永善县| 星子县| 新建县| 哈密市| 宜丰县| 台南县| 县级市| 纳雍县| 余庆县| 福州市| 晋宁县|