• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于工具書語料的國史知識庫構(gòu)建和檢索

    2016-02-15 09:00:44輝王穎張智雄
    現(xiàn)代情報 2016年1期
    關(guān)鍵詞:國史詞表工具書

    孫 輝王 穎張智雄

    (1.中國社會科學(xué)院當(dāng)代中國研究所,北京100009;2.中國科學(xué)院文獻情報中心,北京100190)

    基于工具書語料的國史知識庫構(gòu)建和檢索

    孫 輝1王 穎2張智雄2

    (1.中國社會科學(xué)院當(dāng)代中國研究所,北京100009;2.中國科學(xué)院文獻情報中心,北京100190)

    工具書語料是構(gòu)建知識庫的基本知識來源。本文給出基于工具書語料的知識庫構(gòu)建和檢索流程,從概念關(guān)系模型構(gòu)建、初始實例獲取和知識庫編輯等方面探討基于工具書語料的國史知識庫構(gòu)建;除了實現(xiàn)對象屬性檢索和語義關(guān)聯(lián)檢索外,利用工具書衍生的變體詞表還可以實現(xiàn)問答式檢索。文章還指出工具書語料在知識來源揭示、超文本檢索方面的作用。

    工具書語料;國史;知識庫;語義檢索

    [9]提出的知識采集模型,本文在文獻[10]提出的七步法基礎(chǔ)上,提出基于工具書語料的知識庫構(gòu)建和檢索流程,如圖1所示(單線箭頭表示知識庫構(gòu)建流程,雙線箭頭表示知識庫檢索過程)。

    圖1 基于工具書進行知識庫構(gòu)建和檢索的流程框架

    ①通過信息抽取,工具書語料向知識庫進行知識遷移;

    ②在知識遷移過程中,通過對詞條體例和詞條內(nèi)容分析,找到部分自然語言與知識庫中實例類型、屬性的可能對照關(guān)系,形成變體詞表,變體詞表可以輔助信息抽取;

    ③部分初始實例來源于工具書中的經(jīng)過清洗的詞表和目錄標(biāo)題,隨著實例增加,定期將所有實例和其別稱轉(zhuǎn)換成實體詞表;

    ④用實體詞表和變體詞表對詞條內(nèi)容進行語義標(biāo)注,輔助信息抽取。

    Ⅰ輸入檢索問句;

    Ⅱ用實體詞表切分檢索問句,得到實例;用變體詞表切分檢索問句,經(jīng)轉(zhuǎn)換,得到相關(guān)實例概念類型和屬性;

    Ⅲ經(jīng)過查詢轉(zhuǎn)換器,得到相應(yīng)的檢索模式,對知識庫進行對象檢索、關(guān)聯(lián)檢索和提問檢索等語義檢索;

    Ⅳ對工具書進行全文檢索;

    Ⅴ知識庫的檢索結(jié)果為知識圖譜,知識圖譜中給出實例或事實的語料來源;

    Ⅵ語料庫的檢索結(jié)果為有關(guān)工具書詞條。

    2 基于工具書語料的國史知識庫構(gòu)建

    在工具書語料向知識庫進行遷移時,各種工具書語料對知識庫構(gòu)建的貢獻不同,同一工具書的不同要素也分別發(fā)揮不一樣的作用,具體如表1所示。

    表1 各種知識來源對國史知識庫的貢獻

    2.1 概念模型構(gòu)建

    2.1.1 從工具書種類和目錄中提取核心概念及其層次關(guān)系

    國史工具書一般為人物名錄、地區(qū)名錄、機構(gòu)名錄、大事年表等,這些圖書的類型本身就反映了“人物”“地區(qū)”“機構(gòu)”“事件”等是國史領(lǐng)域的關(guān)注重點,可以成為知識庫的核心概念。國史領(lǐng)域的相關(guān)詞表,如《中圖法》中《中國地區(qū)復(fù)分表》,其反映的地區(qū)之間的層次關(guān)系,可以直接利用。一些工具書的目錄結(jié)構(gòu),反映了領(lǐng)域知識的分類和層級關(guān)系,例如《中國共產(chǎn)黨歷史大辭典》,按“人物”“事件”“會議”“組織”“文件”“著作”“報刊”“名詞術(shù)語”“路線方針”類別來組織詞條,非常合理地體現(xiàn)了國史領(lǐng)域的核心概念類型;《中華人民共和國職官志》的目錄將“組織機構(gòu)”分為“中央”和“地方”兩類,其中“中央”包括“中國共產(chǎn)黨”“全國人民代表大會”“中華人民共和國政府”“中國人民政治協(xié)商會議”“中國人民解放軍”“各民主黨派和工商聯(lián)”“各人民團體”,“地方”包括地方的黨政軍機構(gòu),可直接用于“組織機構(gòu)”類的概念層次劃分。

    2.1.2 從工具書編纂體例凝練概念關(guān)系及其約束

    在詞條編纂過程中,大型工具書都規(guī)范的體例。例如,“人物”詞條,一般描述了人物的籍貫、出生和死亡時間、曾用名、所屬黨派、學(xué)歷,并以工作時間為序介紹其含所擔(dān)任的行政職務(wù)和社會職務(wù);“文件”詞條,描述了文件的起草者、發(fā)布時間、發(fā)布場合、發(fā)布內(nèi)容等。這些體例反映了概念的基本屬性。

    在工具書語料中選取典型詞條文本,以語句為單元進行分析,可以發(fā)現(xiàn),每條語句包含一條或多條RDF三元組事實,一般主語直接包含主體名稱或別稱,賓語包含客體名稱或別稱,而謂詞一般隱含在謂語動詞中。同時,某些謂語動詞、介詞、時間地點狀語等,往往與一類概念或一種關(guān)系的多個自然詞匯相關(guān)。建立變體詞表,存儲這些“自然語言”與“相關(guān)概念類型”“相關(guān)屬性”之間的對應(yīng)關(guān)系。變體詞表既可以通過文本標(biāo)注輔助關(guān)系抽取,又可以參與問答式檢索的分詞。典型詞條語料分析,有助于歸納凝煉出某類概念的共同特質(zhì),包括概念屬性和約束。表2給出了文本分析樣例,該文本來自《中華人民共和國史百科》中的“中共七屆六中全會”詞條(圖2),表3為經(jīng)文本分析而歸納衍生的變體詞表(部分)。國史概念關(guān)系模型(片段)如圖3所示。

    圖2 詞條樣例

    表2 文本分析樣例

    表3 變體詞表(片段)

    圖3 國史概念模型(片段)

    通過語料分析發(fā)現(xiàn),在國史概念模型中,以下屬性約束尤其重要。

    (1)名稱約束

    實例名稱惟一,即實例名稱與其他實例的名稱或別稱不能相同,但不同實例允許具有相同的別稱。例如,國史上“王力”有兩個,一個是語言學(xué)家“王力”,一個是文革人物“王力”,那么前者的實例名稱是“語言學(xué)家王力”,后者的實例名稱是“文革王力”,二者的別稱都是“王力”,這種約束設(shè)定是體現(xiàn)了實體命名規(guī)范性,又兼顧了自然語言,方便了語料的實體抽取后續(xù)檢索詞切分和定位。

    (2)層級約束

    在“組織機構(gòu)”和“事件”中存在上下位等級傳遞關(guān)系,不能出現(xiàn)越級情況。例如,A的上位詞為B,且B的上位詞為C,此時B和C的上位詞不能是A。由于知識庫編輯是多用戶離散式的,層級約束的檢查很重要。

    (3)互逆關(guān)系

    互逆關(guān)系指謂詞存在逆屬性,如果屬性P1與P2是互逆屬性inverseOf(P1,P2),那么(A,P1,B),(B,P2,A)是成對出現(xiàn)的三元組。例如,在“會議”類中有“通過文件”這一屬性,在“文件”類中有“通過場合——會議”這一屬性,“通過文件”與“通過場合——會議”是互逆關(guān)系,當(dāng)增加“中共七屆六中全會——通過文件——《關(guān)于農(nóng)業(yè)合作化問題的決議》”這一條事實的同時,知識庫中自動增加“《關(guān)于農(nóng)業(yè)合作化問題的決議》——通過場合——中共七屆六中全會”這一事實。工具書語料中的詞條由于編寫角度不同,往往包含重復(fù)的事實,這種約束設(shè)定,可減少多用戶語義沖突,也節(jié)約了建庫時間。

    2.2 初始實例獲取

    國史知識庫的初始實例來源于各類工具書,具體如下:

    人物:《黨史大辭典(人物篇)》、《中華人民共和國史百科》(人物)、《中華人民共和國主要事件人物》、《中華人民共和國資料手冊》(人物)部分的詞條名稱直接轉(zhuǎn)化并整合;

    組織機構(gòu):經(jīng)《職官志》的目錄標(biāo)題直接轉(zhuǎn)化,再通過后期補充?!敖M織機構(gòu)”的概念層次和初始實例的基本屬性如表4所示,經(jīng)轉(zhuǎn)化,在知識庫中以三元組形式存儲。

    國家和地區(qū):經(jīng)《中圖法》通用復(fù)分表(世界地區(qū)表和中國地區(qū)表)轉(zhuǎn)化而來,反映了地區(qū)間的層次關(guān)系和地區(qū)別稱。

    會議:對《黨史大辭典(社會主義建設(shè)時期)》、《中華人民共和國史百科》、《中華人民共和國主要事件人物》、《中華人民共和國資料手冊》《中華人民共和國大事記》的“會議”類詞條進行整合,整理其別稱。

    事件:由于各工具書對事件命名有較大分歧,這項工作需要在國史專家指導(dǎo)下進行整合。

    需要說明的是,在語料的實體抽取中,實例別稱能幫助識別對不同自然語言表達的同一概念,對于多用戶協(xié)同編輯的知識庫,有效防止同一概念多次命名。因此,在初始實例整理中,應(yīng)盡量通過自動轉(zhuǎn)換或人工增加方式補全實例別稱。

    2.3 實例和事實編輯

    基于工具書構(gòu)建的概念關(guān)系模型與國史知識庫有較高的吻合度,實例和事實的編輯過程就是對工具書相關(guān)語料進一步進行事實抽取的過程。文獻[8]給出基本思路。本文對其流程作簡略描述。

    2.3.1 建立實例與語料的對應(yīng)關(guān)系

    國史知識庫的事實和實例來源于相關(guān)語料,需要建立實例與詞條語料之間的關(guān)聯(lián)。系統(tǒng)首先對語料進行素材管理,語料以詞條為記錄單元進行管理,每條記錄包括詞條名稱、詞條種類、詞條來源、詞條內(nèi)容等字段;再根據(jù)實例名稱或別稱自動建立部分實例與詞條之間的關(guān)聯(lián)。對于“人物”“組織機構(gòu)”“會議”“文獻”類實例,實例與詞條按名稱基本對應(yīng);對于“事件”類實例,各種知識來源表達不一致,甚至描述的側(cè)重點也不同,需要人工建立二者之間的關(guān)聯(lián)。圖為“素材遴選”界面。需要說明的是,實例和工具書的詞條并不是一一對應(yīng)關(guān)系,一個實例的知識來源可以是不同工具書的多個詞條,同樣一個詞條可以作為多個實例的知識來源,比如,有些“事件”實例和“文獻”實例的知識來源于同一“文獻”類詞條。用戶在編輯時,可參照多方面的語料,如果二者說法有沖突,人工給出判斷。

    表4 “組織機構(gòu)”初始實例

    圖4 素材遴選

    2.3.2 從詞條語料獲取事實和實例

    在概念模型和基礎(chǔ)實例相對穩(wěn)定后,后續(xù)的實例增加和事實填充,由編輯根據(jù)語義標(biāo)注后的詞條文本人工完成,增加的實例定期導(dǎo)入實體詞表,這種循環(huán)迭代的方式(圖1中的步驟④)復(fù)用了知識庫的知識,有利于信息抽取,也減少了大量重復(fù)編輯。圖2中的“黑體”為第一次標(biāo)注的詞條文本(在系統(tǒng)中不同概念大類用不同顏色字體表示),“黑體加下劃線”為經(jīng)后續(xù)經(jīng)實體詞表更新標(biāo)注的。對于“時間”,雖然國史工具書的時間表述有時比較模糊,但有其特定含義,現(xiàn)抽取其語料原文為“時間”實例名稱,系統(tǒng)對這種模糊表達按一定規(guī)則定義數(shù)值屬性“開始時間”和“結(jié)束時間”,以方便國史知識庫的時序檢索。例如,“時間”實例名稱為“1956年末”(直接取自語料),其缺省的數(shù)值屬性“開始時間”值為“1956-10-01”,“結(jié)束時間”值為“1956-12-31”。由于國史知識庫協(xié)同編輯的需要(該部分另文論述[11]),編輯人員采用“主體編輯模式”和“事實編輯模式”兩種方式進行編輯。在編輯過程中,系統(tǒng)結(jié)合“素材遴選”中的詞條來源給出每一條事實的知識來源,并在知識圖譜中提示,體現(xiàn)了知識庫編輯人員的責(zé)任意識。

    通過多用戶協(xié)同編輯,當(dāng)前國史知識庫包含19個概念大類、22個數(shù)值屬性、72個對象屬性(圖5);實例共約11 618個,其中人物3 480個、組織與機構(gòu)2 581個、特殊群體103個、會議694個、事件1 711個、理念與術(shù)語1 446個、文件1 085個、報告講話518個,事實共26 780個,實現(xiàn)可視化的問答式檢索、時序檢索和關(guān)聯(lián)檢索功能。

    圖5 國史知識庫包含元素

    3 基于工具書語料的國史知識庫檢索

    基于工具書語料的國史知識庫建成后,工具書語料并非棄之不用,它仍然保留在系統(tǒng)中,在知識庫檢索中繼續(xù)發(fā)揮作用。國史知識庫使用SQL SERVER存儲國史工具書語料和國史本體知識庫的加工數(shù)據(jù),利用Neo4j存儲國史本體知識庫并構(gòu)建了Solr索引,使用Cytoscape Web可視化工具進行知識圖譜展示,實現(xiàn)了知識導(dǎo)航、時序檢索、實體檢索、關(guān)聯(lián)檢索、問答式檢索和全文檢索。時序檢索針對具有時間特征(文獻發(fā)表時間、事件發(fā)生時間、會議時間)的對象(文獻、事件、會議)提供時間段檢索,例如,列舉出1951-1952年的國史大事,具備大事記的功能(圖6)。實體檢索就是構(gòu)建類似SPARQL查詢語句進行RDF三元組檢索,關(guān)聯(lián)檢索就是利用Neo4j圖遍歷機制查詢RDF圖路徑,路徑越短,概念之間的關(guān)系越密切,從而可以發(fā)現(xiàn)知識點之間的潛在關(guān)聯(lián)。例如檢索對看似不相關(guān)的兩個人物對象“毛澤東”與“胡耀邦”進行關(guān)聯(lián)檢索,檢索結(jié)果如圖7所示,其中最近的路徑為經(jīng)過“1961年全黨大興調(diào)查研究之風(fēng)”這個事件節(jié)點,經(jīng)查證,當(dāng)年,胡耀邦領(lǐng)導(dǎo)的遼寧海城調(diào)查組參與了毛澤東領(lǐng)導(dǎo)的這個事件,這個關(guān)聯(lián)檢索反映了胡耀邦“實事求是”的工作作風(fēng)的形成歷程,有利于國史人物研究。

    圖6 時序檢索

    圖7 關(guān)聯(lián)檢索

    問答式檢索綜合利用文本分析、實體檢索、關(guān)聯(lián)檢索等手段,對用戶的自然語言提問給予回答,檢索結(jié)果為知識圖譜和相關(guān)工具書語料,工具書語料衍生的變體詞表(表3)在問答式檢索中發(fā)揮重要作用;系統(tǒng)采用超文本技術(shù)實現(xiàn)知識點和相關(guān)語料之間的跳轉(zhuǎn);點擊知識圖譜的實例或事實,系統(tǒng)顯示這條知識來源于哪條工具書語料。在知識庫建立之后,工具書語料并沒有棄之不用,它在知識庫檢索中再次發(fā)揮作用。本文將具體就此進行分析。

    3.1 問答式檢索

    為滿足用戶使用自然語言提問的檢索需求,系統(tǒng)設(shè)計和實現(xiàn)了國史知識問答功能。利用自然語言處理技術(shù)對用戶提出的問題進行分析,構(gòu)造針對國史本體知識庫的結(jié)構(gòu)化檢索式,返回知識圖譜和相關(guān)語料。將自然語言提問轉(zhuǎn)換成知識庫查詢是問答式檢索的難點。工具書語料本身是用自然語言撰寫的,在知識庫構(gòu)建過程中,通過文本分析形成的變體詞表曾在概念模型構(gòu)建和信息抽取中發(fā)揮輔助作用,在知識庫問答式檢索中,該變體詞表再次用于提問句切分和識別。

    如圖8所示,基于自然語言的問答式檢索包括以下幾步,第一步,提問語句切分;第二步,提問模式識別;第三步,根據(jù)提問模式擬定查詢語句;第四步,知識圖譜展示。

    系統(tǒng)利用“實體詞表”和“變體詞表”對提問語句進行切分(本次切分,不采用傳統(tǒng)的分詞詞典),切分時采用最長匹配方法?!皩嶓w詞表”的切分結(jié)果為實例名稱或別稱,“變體詞表”的切分結(jié)果轉(zhuǎn)換為對應(yīng)的“相關(guān)概念類型”“相關(guān)屬性”,因此,拆分的結(jié)果有3種,分別是實例、相關(guān)屬性和相關(guān)概念類型。例如,提問“中共十一屆三中全會是何時召開的?”,拆分結(jié)果為實例“中共十一屆三中全會”,相關(guān)屬性“會議時間”。

    系統(tǒng)根據(jù)提問語句的切分結(jié)果,將常見問句劃為10種提問模式(表5),并給出相應(yīng)的查詢方式,系統(tǒng)根據(jù)查詢方式擬定相關(guān)實體檢索語句和關(guān)聯(lián)檢索語句。例如“提問模式2”對應(yīng)的是實體檢索;“提問模式7”對應(yīng)的是關(guān)聯(lián)檢索。由于關(guān)聯(lián)檢索查詢時間與查詢路徑有關(guān),系統(tǒng)設(shè)定問答式檢索的查詢路徑長度不超過2。圖7~圖15給出每個查詢實例的結(jié)果界面。

    圖8 基于自然語言的問答式檢索流程

    圖9 問答式檢索界面

    表5 提問模式

    圖10 模式1

    圖11 模式2

    圖12 模式3

    圖13 模式4

    圖14 模式5和6

    圖15 模式7

    圖16 模式8

    圖17 模式9

    3.2 超文本檢索

    無論是知識來源窗口顯示的工具書語料,還是全文檢索結(jié)果界面(見圖19),所有語料都經(jīng)過實體詞表標(biāo)注,不同概念類型用不同顏色表示,用戶點擊這些有顏色的實體詞,可以進行二次知識庫檢索和全文檢索,多次跳轉(zhuǎn)到新的知識圖譜和相關(guān)工具書語料。

    3.3 知識來源揭示

    由于在素材遴選和信息抽取過程中,系統(tǒng)記錄了實例和事實的來源語料,在知識庫檢索過程中,用戶點擊實例或知識圖譜中節(jié)點之間的連線,可查看來源語料,這豐富了知識圖譜的表達形式,也體現(xiàn)了知識庫的責(zé)任意識和工具書的權(quán)威性。

    圖18 模式10

    圖19 工具書語料的超文本檢索

    圖20 查看知識來源

    4 結(jié) 語

    本文充分利用國史工具書語料,構(gòu)建國史知識庫并提供多樣化檢索,檢索入口為“中華人民共和國史教育網(wǎng)(http:∥www.hprc.org.cn/)”的“國史百科”欄目?!皣钒倏啤背搅舜蠖鄶?shù)在線百科的全文檢索功能,其基于知識庫的豐富語義,不僅提供人物、事件、文獻、術(shù)語導(dǎo)航,還提供時序檢索、關(guān)聯(lián)檢索和問答式檢索,首次在檢索結(jié)果界面同時提供知識圖譜和工具書原文,這種方式,全方位展示了國史概念之間的關(guān)系,實現(xiàn)了知識圖譜漫游式檢索,既豐富了用戶的檢索體驗,又保證了知識庫的嚴(yán)謹(jǐn)性和規(guī)范性。該項研究對普及國史知識和深入國史研究提供幫助。

    參考文獻

    [1]董慧,余傳明,楊寧.基于本體的數(shù)字圖書館檢索模型研究(Ⅲ)——歷史領(lǐng)域資源本體構(gòu)建[J].情報學(xué)報,2006,(5):564-574.

    [2]董慧,徐雷,王菲,等.語義分析系統(tǒng)研究(Ⅰ)——史籍語義分析流程[J].情報學(xué)報,2014,33(2):183-194.

    [3]董慧,徐雷,王菲,等.語義分析系統(tǒng)研究(Ⅱ)——史籍推理機制[J].情報學(xué)報,2014,33(2):195-203.

    [4]董慧,徐雷,王菲,等.語義分析系統(tǒng)研究(Ⅲ)——中華史籍語義分析系統(tǒng)實現(xiàn)[J].情報學(xué)報,2014,33(2):204-214.

    [5]吳麗杰.基于本體的特色數(shù)據(jù)庫知識組織研究[J].圖書館學(xué)刊,2012,(3):41-43.

    [6]彭煒明,宋繼華.《資治通鑒》歷史領(lǐng)域本體構(gòu)建及其應(yīng)用研究[J].中文信息學(xué)報,2010,(2):33-38.

    [7]丁晟春,傅柱.基于航天敘詞表的領(lǐng)域本體半自動化構(gòu)建研究[J].情報理論與實踐,2011,(11):113-116.

    [8]王穎,張智雄,孫輝,等.國史知識的語義揭示與組織方法研究[J].中國圖書館學(xué)報,2015,(4):55-64.

    [9]王昊,谷俊,蘇新寧.本體驅(qū)動的知識管理系統(tǒng)模型及其應(yīng)用研究[J].中國圖書館學(xué)報,2013,(2):98-110.

    [10]Natalya F.Noy and Deborah L.McGuinness.Development 101:A Guide to Creating Your First Ontology[OL].http:∥wenku.baidu.com/view/30fb4b956bec0975f465e2bf.html,2013-07-25.

    [11]孫輝,王穎,張智雄.本體構(gòu)建中的協(xié)同問題研究——以中華人民共和國史本體為例[J].情報學(xué)報.

    (本文責(zé)任編輯:郭沫含)

    Building and Retrieval of Knowledge Base on the Contemporary Chinese History Using Reference Books

    Sun Hui1Wang Ying2Zhang Zhixiong2
    (1.Institute of Contemporary China Studies,Chinese Academy of Social Science,Beijing 100009,China;2.National Science Library,Chinese Academy of Sciences,Beijing 100190,China)

    Refrence books are basic resource in building knowledge base.This paper gave the process of building and retrieval knowledge base using reference books.It researched the role of reference books in the knowledge base building from the perspective of concept relation model building,the initial instance acquisition and knowledge base editing.The variant terms derived from reference books can help realize question-and-answer retrieval.It also pointed out the role of reference books in hypertext retrieval.

    reference books;Chinese history;knowledge base;semantic retrieval

    10.3969/j.issn.1008-0821.2016.01.012

    G254.92

    A

    1008-0821(2016)01-0064-10

    1 基于工具書語料的知識庫構(gòu)建和檢索流程框架

    2015-10-20

    中國社會科學(xué)院哲學(xué)社會科學(xué)創(chuàng)新工程信息化項目“中華人民共和國史教育網(wǎng)”的研究成果之一。

    孫 輝(1971-),女,副編審,博士,研究方向:信息組織,知識管理。

    利用語義技術(shù)構(gòu)建歷史領(lǐng)域知識庫,增強歷史認(rèn)知,促進歷史普及,輔助歷史研究或資源檢索,已經(jīng)成為重要的知識服務(wù)方式。武漢大學(xué)董慧教授早在2006年就以《國共合作通史五卷本》為藍本構(gòu)建國共合作歷史本體[1],2014年又以中華書局出版的《二十四史》為藍本實現(xiàn)中華史籍語義分析系統(tǒng)[2-4],吳麗杰[5]通過人工構(gòu)建東北抗戰(zhàn)史本體輔助資源組織,彭煒明以《資治通鑒》為藍本構(gòu)建資治通鑒本體[6]等,上述文獻面向不同時代的歷史知識領(lǐng)域,在概念關(guān)系模型構(gòu)建、信息抽取、語義推理、知識庫檢索和資源組織等方面做了有益的嘗試。由于歷史領(lǐng)域知識存在模糊性和不確定性,選擇史料而不是一味依靠專家頭腦中的知識作為知識庫的知識來源,能夠保證知識庫的嚴(yán)謹(jǐn)和規(guī)范,其知識有據(jù)可查,這種構(gòu)建方法越來越成為一種趨勢。歷史學(xué)科的特點是,越是近期的歷史,史料越豐富。中華人民共和國史(簡稱國史)指1949年建國以后的歷史,這段時期的史料比古代史和近代史的總和還要多。如何選擇合適的歷史語料作為國史知識庫的知識來源,是構(gòu)建國史知識庫必須考慮的問題。本文認(rèn)為,大型詞表、詞典、百科類的工具書由數(shù)位領(lǐng)域?qū)<覕?shù)年集體創(chuàng)作而成,是對領(lǐng)域知識提煉加工的結(jié)晶,其體例、選材、文字組織和術(shù)語表達都有一定規(guī)范,包含了學(xué)科領(lǐng)域的基本知識。固化在工具書中的知識具有權(quán)威性、完整性、規(guī)范性、一致性,對于構(gòu)建領(lǐng)域知識庫來說,工具書是高度濃縮、轉(zhuǎn)化度比較高的語料。因此,建議借鑒自然科學(xué)領(lǐng)域利用敘詞表構(gòu)建領(lǐng)域知識庫的經(jīng)驗[7],研究國史知識的語義揭示和組織方法[8],利用工具書語料構(gòu)建國史領(lǐng)域基本知識庫,再通過其他研究成果類語料對知識庫進行補充。本文首先給出基于工具書語料的知識庫構(gòu)建和檢索流程,從概念關(guān)系模型構(gòu)建、初始實例獲取和知識庫編輯等方面探討基于工具書語料的國史知識庫構(gòu)建,除了實現(xiàn)對象屬性檢索和對象語義關(guān)聯(lián)檢索外,還利用工具書衍生的變體詞表實現(xiàn)問答式語義檢索,并指出工具書語料在知識來源揭示、超文本檢索方面的作用。本文重點介紹工具書語料在國史知識庫構(gòu)建和檢索中的作用,關(guān)于本系統(tǒng)架構(gòu)和功能平臺實現(xiàn),另文討論。

    猜你喜歡
    國史詞表工具書
    A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
    英語世界(2021年13期)2021-01-12 05:47:51
    詩詞工具書二種
    中華詩詞(2019年2期)2019-11-15 08:27:56
    詩詞工具書二種
    中華詩詞(2019年1期)2019-08-23 08:24:20
    蔡國史地問題研究
    好風(fēng)憑借力伴我泛書海
    ——小學(xué)語文閱讀教學(xué)中使用工具書的指導(dǎo)
    敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
    銘記——山東省黨史國史教育活動薈萃 前言
    中國火炬(2015年7期)2015-07-31 17:39:57
    以社會主義核心價值觀為引領(lǐng),深入開展黨史國史教育活動
    中國火炬(2015年6期)2015-07-31 17:25:51
    關(guān)于習(xí)近平同志黨史國史重要論述的幾點思考
    網(wǎng)絡(luò)時代工具書閱覽室的建設(shè)
    黑龍江史志(2013年7期)2013-08-15 00:46:01
    宁南县| 昌都县| 河北区| 昌平区| 张家界市| 交城县| 民权县| 农安县| 华容县| 喀喇沁旗| 尼勒克县| 宣恩县| 巴东县| 焦作市| 江华| 台前县| 九龙城区| 贵溪市| 凭祥市| 淮南市| 重庆市| 岳阳县| 瓮安县| 新平| 大洼县| 轮台县| 务川| 鄂托克旗| 江都市| 商洛市| 乌兰察布市| 沿河| 青铜峡市| 广南县| 绿春县| 西盟| 临夏县| 上饶市| 谢通门县| 达孜县| 枣阳市|