摘 要: 設(shè)計(jì)并實(shí)現(xiàn)了中文領(lǐng)域術(shù)語抽取系統(tǒng),提出了基于前后綴的中文領(lǐng)域術(shù)語抽取算法,該算法獨(dú)立于具體的領(lǐng)域,并且對包含常用前后綴的領(lǐng)域術(shù)語具有較好的抽取效果;通過對領(lǐng)域本體構(gòu)建中關(guān)鍵技術(shù)的研究,提出了適用于不同領(lǐng)域的領(lǐng)域本體半自動構(gòu)建方法;最后,數(shù)字圖書館氣候變化領(lǐng)域本體的成功構(gòu)建驗(yàn)證了基于多源數(shù)據(jù)的領(lǐng)域本體半自動構(gòu)建方法的有效性,并且該方法可以很方便地移植到其他領(lǐng)域。
關(guān)鍵詞: 本體; 本體構(gòu)建; 術(shù)語抽取; 關(guān)系抽取
中圖分類號: TN911?34; TM417 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)17?0112?04
0 引 言
本體是網(wǎng)絡(luò)信息組織和檢索的理想選擇,信息組織以便于信息檢索和利用為目的,本體的引入能夠促進(jìn)信息組織向知識組織轉(zhuǎn)變,由于本體能夠提供領(lǐng)域知識的共享和重用,以這樣的方式進(jìn)行信息組織,能夠更好地為人們提供信息檢索和利用服務(wù)。語義Web的發(fā)展迫切需要簡單快捷的本體構(gòu)建方法。國內(nèi)外對本體理論及其技術(shù)進(jìn)行了一系列研究,提出了多種本體構(gòu)建方法,產(chǎn)生了多種本體構(gòu)建工具和描述語言。雖然本體構(gòu)建工具已經(jīng)相當(dāng)成熟,但它支持的仍然是手工構(gòu)建本體的方法,手工構(gòu)建本體耗費(fèi)大量的時間、人力和物力,難以適應(yīng)時代發(fā)展的要求。因此,通過機(jī)器學(xué)習(xí)的辦法讓計(jì)算機(jī)參與到本體構(gòu)建的過程中來,以縮短本體構(gòu)建的周期,減少人員投入,成為語義Web的一個重大課題。
1 系統(tǒng)介紹
目前以本體為核心的語義Web技術(shù)正在為解決異構(gòu)系統(tǒng)之間的互操作問題提供一種解決思想。本體的實(shí)質(zhì)就是實(shí)現(xiàn)領(lǐng)域知識的共享和重用,形式化和標(biāo)準(zhǔn)化的領(lǐng)域本體為信息系統(tǒng)之間的互操作提供了良好的工具,因此,將本體技術(shù)引入到數(shù)字圖書館,可以解決分布式網(wǎng)絡(luò)環(huán)境下的互操作問題。本體在數(shù)字圖書館中具有很大的應(yīng)用空間。例如:可以創(chuàng)建跨系統(tǒng)、跨平臺之間的通信中介;可以提供元數(shù)據(jù)的映射方案;可以提高計(jì)算機(jī)支持的協(xié)同工作的能力;可以提高分布式環(huán)境下查詢請求的自動分發(fā)能力和語義理解能力;可用于數(shù)字圖書館的數(shù)據(jù)挖掘等多個方面。
2 本體半自動構(gòu)建方法
將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到領(lǐng)域術(shù)語抽取及概念關(guān)系抽取中,提出了基于多源數(shù)據(jù)的領(lǐng)域本體半自動構(gòu)建方法,具體流程如圖1所示。
多源數(shù)據(jù)是指構(gòu)建領(lǐng)域本體所使用的源數(shù)據(jù),包括txt文本、敘詞表、HTML文本,既有非結(jié)構(gòu)化的數(shù)據(jù),也有半結(jié)構(gòu)化數(shù)據(jù),而不僅僅限于某一種數(shù)據(jù)來源。
文中長度為1的領(lǐng)域詞稱為基本術(shù)語,復(fù)合術(shù)語也即詞組型術(shù)語,其長度大于1,通過分析領(lǐng)域術(shù)語,復(fù)合術(shù)語通常包括一個前綴或一個后綴。因此,領(lǐng)域術(shù)語通??梢员硎緸橐韵聨追N形式:
3 術(shù)語關(guān)系獲取
3.1 術(shù)語解釋抽取模塊
術(shù)語解釋抽取模塊主要用來抽取術(shù)語的詞條解釋,以及該術(shù)語在百科中的相關(guān)詞條,以此獲得需要從中抽取術(shù)語關(guān)系的所有術(shù)語的概念解釋。整個術(shù)語解釋抽取流程可描述為:
(1) 初始化候選詞表,初始候選詞表是氣候變化領(lǐng)域種子術(shù)語。
(2) 從候選詞表中選擇一個候選詞,下載其對應(yīng)的百科網(wǎng)頁,并保存到Access數(shù)據(jù)庫。
(3) 利用SVM分類器判斷當(dāng)前網(wǎng)頁是否是氣候變化領(lǐng)域詞匯,如果是,則抽取當(dāng)前候選詞對應(yīng)的百科名片數(shù)據(jù),并保存到Access數(shù)據(jù)庫;否則,不做任何操作。
(4) 抽取當(dāng)前詞匯百科名片中的鏈接詞匯,并加入到候選詞表;同時抽取該詞匯在百科網(wǎng)頁中的相關(guān)詞匯,加入到候選詞表,同時保證候選詞表中的候選詞不重復(fù)。
(5) 重復(fù)步驟(2)~步驟(4),直到候選詞表為空。
術(shù)語解釋抽取模塊抽取的術(shù)語解釋保存在Access數(shù)據(jù)庫中。
3.2 抽取模板學(xué)習(xí)模塊
抽取模板學(xué)習(xí)模塊主要分析術(shù)語的百科名片解釋,通過機(jī)器學(xué)習(xí)訓(xùn)練關(guān)系抽取模板。該模塊的流程框圖包含三大步驟:
抽取候選標(biāo)記詞:在本文中,標(biāo)記詞是在百科名片解釋中出現(xiàn)次數(shù)較多,并且比較抽象的詞;
人工篩選標(biāo)記詞:候選標(biāo)記詞集中并不是所有的詞都被最終選作標(biāo)記詞,通過分析百科名片解釋的語言表達(dá)特點(diǎn),結(jié)合候選標(biāo)記詞在候選標(biāo)記詞集中的頻率信息,對候選標(biāo)記詞集進(jìn)行了人工篩選;
生成關(guān)系抽取模板:對術(shù)語百科名片解釋進(jìn)行分詞,分詞時只保留術(shù)語本身、標(biāo)記詞和標(biāo)點(diǎn)符號,其他詞用其詞性代替。
3.3 本體關(guān)系抽取模塊
本體關(guān)系抽取模塊使用關(guān)系抽取模板抽取本體中的上下位關(guān)系,實(shí)驗(yàn)結(jié)果如表1所示。
通過實(shí)驗(yàn)結(jié)果可以看出:基于百科的術(shù)語間關(guān)系抽取的方法的召回率比較低,準(zhǔn)確率相對較高。經(jīng)分析可知影響召回率的因素如下:術(shù)語的百科名片中不含上位概念;關(guān)系抽取模板覆蓋不夠充分,基于百科的術(shù)語關(guān)系抽取本質(zhì)上是術(shù)語基于模板的關(guān)系抽取方法,模板集的完備性會對關(guān)系抽取效果產(chǎn)生很大的影響。
分析可知影響準(zhǔn)確率的因素如下:分詞程序切分不準(zhǔn)確。分詞結(jié)果的不準(zhǔn)確使得模板無法正確匹配術(shù)語的上位概念,從而影響了關(guān)系抽取的準(zhǔn)確率;模板錯誤匹配;術(shù)語百科名片信息本身的問題。一些術(shù)語的百科解釋中并不會包含術(shù)語的上位概念,這樣從術(shù)語的百科名片解釋中當(dāng)然無法抽取其上位概念。
4 應(yīng)用案例
4.1 數(shù)字圖書館氣候變化領(lǐng)域本體構(gòu)建
為實(shí)現(xiàn)對已獲取氣候變化領(lǐng)域新聞的分類,方便用戶分類查找,同時完成對信息進(jìn)行語義標(biāo)注,本文利用基于多源數(shù)據(jù)的領(lǐng)域本體半自動構(gòu)建方法進(jìn)行構(gòu)建,構(gòu)建的氣候變化領(lǐng)域本體具有樹狀結(jié)構(gòu),最大深度是5層,與其他本體不同的是,該本體中只有上下位關(guān)系,這些關(guān)系是由人工確定的。
(1) 期刊文獻(xiàn)關(guān)鍵詞
通過氣候變化領(lǐng)域?qū)<彝扑],獲得了氣候變化領(lǐng)域的445篇核心期刊文獻(xiàn)。通過對這些文獻(xiàn)的來源期刊進(jìn)行分析,可以初步勾畫出氣候變化所涉及到的學(xué)科領(lǐng)域。對這445篇文獻(xiàn)的關(guān)鍵詞進(jìn)行搜集整理,并與第一輪中得到的關(guān)鍵詞對比,經(jīng)過去重復(fù)及刪除不相關(guān)詞語之后,將整理得到的關(guān)鍵詞添加到詞匯集中。
(2) 開放網(wǎng)絡(luò)信息
氣候變化領(lǐng)域相關(guān)新聞中包含了大量的氣候變化領(lǐng)域術(shù)語。鑒于新聞的實(shí)時性,其在一定程度上反映了當(dāng)前的熱點(diǎn)問題,利用本文提出的基于前后綴的領(lǐng)域術(shù)語抽取技術(shù),通過分析和處理大量的氣候變化領(lǐng)域新聞,抽取出該領(lǐng)域的術(shù)語,經(jīng)過去重復(fù)后將抽取出的術(shù)語添加到詞匯集中,對詞匯集進(jìn)行擴(kuò)充。
基于前后綴的中文領(lǐng)域術(shù)語抽取算法,首先分析種子術(shù)語的常用前后綴;其次對實(shí)驗(yàn)語料分詞,統(tǒng)計(jì)與常用前后綴相鄰的詞的頻次信息,根據(jù)頻次信息計(jì)算前后綴與相鄰詞是否構(gòu)成候選術(shù)語;然后再根據(jù)詞語在語料中出現(xiàn)的頻率擴(kuò)充初始候選術(shù)語集;最后通過詞語共現(xiàn)分析過濾候選術(shù)語,得到最終的領(lǐng)域術(shù)語集。術(shù)語抽取系統(tǒng)的界面如圖3所示。
圖3中展示了基于前后綴的中文領(lǐng)域術(shù)語抽取系統(tǒng)界面,界面上方是系統(tǒng)工具欄和設(shè)置算法中閾值的設(shè)置區(qū)域,算法需要使用的閾值一共有三個,判斷出現(xiàn)在某一前綴詞后面的詞是否與該前綴構(gòu)成候選術(shù)語的閾值,判斷出現(xiàn)在某一后綴詞前面的詞是否與該后綴詞構(gòu)成候選術(shù)語的閾值,判斷某一候選術(shù)語是否是氣候變化領(lǐng)域術(shù)語的閾值。左側(cè)用來顯示抽取出的領(lǐng)域術(shù)語以及有關(guān)該術(shù)語的一個值,該值是每一個候選術(shù)語在算法中計(jì)算出的判定該候選術(shù)語是否是氣候變化領(lǐng)域術(shù)語的指標(biāo),為了便于人們觀看,已經(jīng)對該值進(jìn)行降序排列展示。
4.2 本體的初始化
本體的初始化即構(gòu)建初始化的領(lǐng)域本體,使得能夠通過對初始化的本體進(jìn)行精煉和校正得到最終的領(lǐng)域本體。在氣候變化領(lǐng)域本體的構(gòu)建過程中,項(xiàng)目開發(fā)組針對氣候變化本體的層次構(gòu)建問題組織了相關(guān)專家進(jìn)行研討,綜合專家意見將氣候變化領(lǐng)域進(jìn)行結(jié)構(gòu)分類,如圖4所示。
在完成對領(lǐng)域術(shù)語的分析整理和本體框架的初步建立后,開始進(jìn)行術(shù)語與知識節(jié)點(diǎn)之間關(guān)系的確定,采取的主要方法是根據(jù)專家領(lǐng)域知識,把術(shù)語掛接到所建立的氣候變化領(lǐng)域知識樹的葉節(jié)點(diǎn)之下。對構(gòu)建的氣候變化領(lǐng)域本體知識樹進(jìn)行掛接,采用由根到葉的分類方法。
4.3 本體的精煉與確認(rèn)
領(lǐng)域?qū)<沂褂帽疚闹虚_發(fā)的本體編輯器,可以很方便地完成本體的校正。系統(tǒng)啟動時,就會將已有的本體知識樹和待掛接的候選術(shù)語載入到系統(tǒng)中,同時候選術(shù)語解釋區(qū)域能夠?yàn)楸倔w編輯器的使用者提供一定的幫助。氣候變化領(lǐng)域本體的成功構(gòu)建驗(yàn)證了基于多源數(shù)據(jù)的領(lǐng)域本體半自動構(gòu)建方法的有效性。最終構(gòu)建的氣候變化領(lǐng)域本體具有樹狀層次結(jié)構(gòu),最大深度為5層,共包括233個分類節(jié)點(diǎn)和932個領(lǐng)域術(shù)語。氣候變化領(lǐng)域本體已經(jīng)應(yīng)用到“應(yīng)對氣候變化科技成果集成與服務(wù)平臺建設(shè)”中,用于新聞定制和新聞閱讀器。
隨著全球性氣候變化問題的日益嚴(yán)重,將會有更多的人、數(shù)據(jù)庫和信息系統(tǒng)涉及本領(lǐng)域的電子圖書館知識管理系統(tǒng)。領(lǐng)域本體的核心價值是知識共享,為該領(lǐng)域提供一個統(tǒng)一框架或規(guī)范模型,減少概念和術(shù)語上的歧義,使來自不同背景、持不同觀點(diǎn)和目的的人員之間的交互和理解成為可能,在人和其他Agent之間對信息結(jié)構(gòu)達(dá)成共同認(rèn)識,方便人機(jī)對話和信息系統(tǒng)之間的互操作。
5 結(jié) 論
本文探討了領(lǐng)域本體的構(gòu)建方法,提出了基于前后綴的中文領(lǐng)域術(shù)語抽取算法,在抽取包含前后綴的領(lǐng)域術(shù)語方面具有良好的抽取效果,并且基于該算法實(shí)現(xiàn)了一個中文領(lǐng)域術(shù)語抽取系統(tǒng)。同時,提出的基于百科的術(shù)語關(guān)系獲取方法,充分利用了術(shù)語的百科名片解釋,能夠有效地抽取出術(shù)語間的關(guān)系,實(shí)現(xiàn)了上下位關(guān)系的抽取。然后,通過使用基于多源數(shù)據(jù)的領(lǐng)域本體半自動構(gòu)建方法,使計(jì)算機(jī)參與到本體構(gòu)建的過程中來,提高了本體開發(fā)的效率。
參考文獻(xiàn)
[1] 古小東,夏斌.我國推行合同能源管理的問題與對策研究[J].企業(yè)經(jīng)濟(jì),2013(3):149?152.
[2] 李恒杰,李軍權(quán),李明.領(lǐng)域本體建模方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(2):381?384.
[3] CIMIANO P, LKER J V O. Text2Onto [C]// Proceedings of 2005 10th International Conference on Applications of Natural Language to Information Systems. Alicante: IEEE, 2005: 227?238.
[4] 胡金強(qiáng),冀亞林,孟妍,等.基于Protege的裝備保障知識本體構(gòu)建方法[J].現(xiàn)代電子技術(shù),2010,33(6):207?210.
[5] NAVIGLI R, VELARDI P. Learning domain ontologies from document warehouses and dedicated web sites [J]. Computational linguistics, 2004, 30(2): 151?179.
[6] 季培培,鄢小燕,岑詠華.面向領(lǐng)域中文文本信息處理的術(shù)語識別與抽取研究綜述[J].圖書情報工作,2010,54(16):124?129.
[7] 周浪,張亮,馮沖,等.基于詞頻分布變化統(tǒng)計(jì)的術(shù)語抽取方法[J].計(jì)算機(jī)科學(xué),2009,36(5):177?180.
[8] 賈秀玲,文敦偉.一種本體學(xué)習(xí)中分類關(guān)系提取方法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007(10):31?33.
[9] 袁小艷,唐青松,賀建英.高校知識本體的構(gòu)建及應(yīng)用研究[J].現(xiàn)代電子技術(shù),2014,37(16):58?61.