摘 要: 針對傳統(tǒng)本體構(gòu)建既費時又費力等問題,設(shè)計了一種基于Web的領(lǐng)域本體半自動構(gòu)建方法,提出了基于word2vec的領(lǐng)域本體概念抽取算法,采用基于中英文詞典的方法抽取同義關(guān)系,研究了基于特征向量的上下位關(guān)系抽取算法。最后將基于Web的領(lǐng)域本體半自動構(gòu)建方法應(yīng)用于數(shù)字圖書館氣候變化領(lǐng)域,實踐表明,該方法大大縮短了本體構(gòu)建的周期,減少了人工參與。
關(guān)鍵詞: 本體構(gòu)建; 領(lǐng)域本體; 概念抽取; 關(guān)系抽??; 數(shù)字圖書館現(xiàn)狀
中圖分類號: TN911?34; G250.76 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)15?0090?05
Abstract: To improve the time?consuming and strenuous situations existing in the traditional ontology construction, a domain ontology semi?automatic construction method based on Web was designed, and the domain ontology concept extraction algorithm based on word2vec is put forward. In this paper, the method based on Chinese?English dictionary is used to extract the synonymous relation, and the hyponymy extraction algorithm based on feature vector is studied. The domain ontology semi?automatic construction method based on Web was applied to the climate change field of the digital library. The practice results show that the method can shorten the ontology construction period greatly, and reduce the manpower participation.
Keywords: ontology construction; domain ontology; concept extraction; relationship extraction; digital library situation
0 引 言
本體構(gòu)建是本體應(yīng)用的基礎(chǔ),隨著本體的理論研究逐步深入和在工程實踐中的廣泛應(yīng)用,形成了許多的構(gòu)建方法和構(gòu)建工具。但本體的構(gòu)建過程仍需要通過人工的參與,人們憑借一定專業(yè)領(lǐng)域知識,依據(jù)自己的知識和理解主觀地判斷概念之間的關(guān)系。這種依靠人的經(jīng)驗和知識積累的本體構(gòu)建方式非常費時費力,成為領(lǐng)域本體發(fā)展的一個瓶頸。因此,為了減輕人工工作量,縮短本體構(gòu)建的周期,人們期望可以自動半自動地構(gòu)建本體,提高本體構(gòu)建的效率和自動化程度,于是本體學(xué)習(xí)的概念就被提了出來。
本文對領(lǐng)域概念的抽取和領(lǐng)域概念間關(guān)系的抽取等關(guān)鍵技術(shù)進(jìn)行了深入研究;采用了基于word2vec的領(lǐng)域本體概念自動抽取算法,并采用迭代算法,擴(kuò)充領(lǐng)域概念的候選詞集;同時,對領(lǐng)域概念間關(guān)系自動抽取的方法也進(jìn)行了一定研究;最后,將基于Web的領(lǐng)域本體半自動構(gòu)建方法應(yīng)用于氣候變化領(lǐng)域構(gòu)建氣候變化領(lǐng)域本體。
1 基于Web的領(lǐng)域本體半自動構(gòu)建方法
本文基于本體學(xué)習(xí)技術(shù),設(shè)計了一種基于Web的領(lǐng)域本體半自動構(gòu)建方法,該方法包括領(lǐng)域信息采集、領(lǐng)域詞典構(gòu)建、本體學(xué)習(xí)、本體編輯和本體評價五大模塊。其中,本體學(xué)習(xí)模塊是構(gòu)建領(lǐng)域本體的重點和難點,該模塊主要采用機器學(xué)習(xí)技術(shù)、自然語言處理技術(shù),結(jié)合語言學(xué)、統(tǒng)計學(xué)等知識,從大量領(lǐng)域數(shù)據(jù)中自動地抽取領(lǐng)域概念和概念間的關(guān)系?;赪eb的領(lǐng)域本體半自動構(gòu)建方法框圖,如圖1所示。
2 基于word2vec的領(lǐng)域本體概念抽取
領(lǐng)域概念獲取是構(gòu)建領(lǐng)域本體的基礎(chǔ)工作,領(lǐng)域概念自動抽取是指從一定規(guī)模的自由文本中抽取出能夠反映某一特定領(lǐng)域特征或共性的詞匯。本文在研究相關(guān)算法的基礎(chǔ)上,采用了一種基于word2vec的領(lǐng)域本體概念抽取算法。該算法如圖2所示,共包含三部分:中文分詞、領(lǐng)域概念候選詞抽取、領(lǐng)域概念候選詞評價。
領(lǐng)域詞典的構(gòu)建是概念抽取的基礎(chǔ),在中文分詞環(huán)節(jié),領(lǐng)域詞典為其提供領(lǐng)域詞匯,將領(lǐng)域詞典添加到原有的分詞詞典中,使更多的領(lǐng)域詞匯可以被識別出來。在領(lǐng)域概念候選詞抽取和評價環(huán)節(jié),領(lǐng)域詞典為其提供領(lǐng)域的種子概念,用于對候選詞進(jìn)行抽取和評價。
在中文分詞環(huán)節(jié),增加了新詞發(fā)現(xiàn)模塊。本文采用的是中科院計算所的ICTCLAS分詞工具對中文原始語料進(jìn)行分詞,本文在中文分詞環(huán)節(jié)增加了新詞發(fā)現(xiàn)模塊,將發(fā)現(xiàn)的新詞詞典和構(gòu)建的領(lǐng)域詞典都添加到了原有的分詞詞典中,從而組成了新的分詞詞典。
在領(lǐng)域概念候選詞抽取環(huán)節(jié),本文引入了深度學(xué)習(xí)的思想,它通過構(gòu)建具有多隱層的機器學(xué)習(xí)模型從海量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)更有用的特征,本文利用word2vec工具學(xué)習(xí)Web領(lǐng)域語料,訓(xùn)練詞向量模型,通過計算向量間的相似度,得到兩個詞之間的相似度,由此將領(lǐng)域種子概念的相關(guān)詞匯作為領(lǐng)域概念候選詞。
領(lǐng)域概念候選詞評價環(huán)節(jié)是指從領(lǐng)域概念候選詞中篩選詞匯作為領(lǐng)域概念,本文采用基于雙序列比對的中文術(shù)語語義相似度計算方法計算這些候選詞與種子概念的相似度,將與種子概念語義相似度高的候選詞作為領(lǐng)域概念。
2.1 中文分詞
中文分詞與詞之間有明顯分隔,因此分詞是對中文進(jìn)行自然語言處理的首要步驟,分詞的好壞直接影響概念抽取的效果。分詞結(jié)果的好壞取決于所采用的分詞工具和分詞方法。目前,分詞詞典中的大多數(shù)詞條是通用領(lǐng)域的,對領(lǐng)域?qū)I(yè)詞匯的識別率較低,因此構(gòu)建領(lǐng)域詞典,并將領(lǐng)域詞典添加到分詞詞典中是很有必要的。由此,本文在中文分詞中加入新詞發(fā)現(xiàn)模塊,采用大規(guī)模語料新詞發(fā)現(xiàn)技術(shù),將得到新詞詞典和領(lǐng)域詞典中的詞匯加入到原有的詞典中,構(gòu)成新的分詞詞典。然后對原始的領(lǐng)域語料進(jìn)行分詞,得到分詞后的領(lǐng)域語料為概念抽取做準(zhǔn)備。
(1) 新詞發(fā)現(xiàn)
要從海量文本中發(fā)現(xiàn)新詞,通??紤]三個因素:字符串在文本中出現(xiàn)的頻率、字符串的內(nèi)部聚集程度和邊界劃分能力。本文采用基于大規(guī)模語料的新詞發(fā)現(xiàn)技術(shù),并分別用互信息和信息熵衡量一個字符串的內(nèi)部聚集程度和邊界劃分能力。給出判斷該字符串能否作為一個新詞的評價指標(biāo),公式如下所示:
[Walue=log(Mi+1)?log(min(leEntropy,riEntropy)+1)]
式中:Mi代表字符串的互信息;le_Entropy代表字符串左鄰字集的信息熵;ri_Entropy代表字符串右臨字集的信息熵。
(2) New分詞詞典
本文采用中國科學(xué)院計算技術(shù)研究所研制的漢語詞法分析系統(tǒng)ICTCLAS分詞工具,將領(lǐng)域詞典、新詞發(fā)現(xiàn)得到的新詞詞典和原有的分詞詞典組成新(New)分詞詞典,利用New分詞詞典對語料庫進(jìn)行分詞。
2.2 領(lǐng)域概念候選詞抽取
采用基于word2vec的領(lǐng)域概念候選詞抽取算法。word2vec是一個把詞轉(zhuǎn)變?yōu)橄蛄康墓ぞ撸梢酝ㄟ^兩個向量之間的余弦值得到兩個詞的相似度。本文將與種子概念具有一定相似度的詞匯作為領(lǐng)域概念候選詞,具體步驟如圖3所示。利用word2vec工具對分詞后的原始語料進(jìn)行訓(xùn)練得到詞向量模型,將種子概念對輸入詞表進(jìn)行初始化,利用該模型計算與輸入詞表具有一定相似度的詞匯作為領(lǐng)域概念候選詞。要擴(kuò)大候選詞數(shù)量,采取迭代的算法,將輸入詞表作為迭代變量,將輸出詞表與輸入詞表的差集作為輸入變量,再次調(diào)用詞向量模型抽取候選詞,直至符合迭代結(jié)束條件停止。
使用word2vec工具訓(xùn)練詞向量模型步驟如下:
(1) 將文本語料進(jìn)行分詞,并以空格或Tab隔開。
(2) 將分好詞的訓(xùn)練語料進(jìn)行訓(xùn)練,假定語料名稱為test.txt且放入word2vec目錄中。
(3) 訓(xùn)練好模型之后,得到詞向量模型文件vectors.bin。
得到詞向量模型后,便可以通過計算兩個向量的余弦值來計算兩個詞的相似度。本文提出利用word2vec工具訓(xùn)練得到的詞向量模型抽取種子領(lǐng)域概念的相關(guān)詞匯,將相似度大于某一閾值的相關(guān)詞作為領(lǐng)域概念的候選詞。要擴(kuò)充候選詞集,設(shè)計迭代算法,將得到的輸出詞表與輸入詞表的差集作為輸入,再運行程序得到更多領(lǐng)域概念候選詞。算法流程如下:
(1) 程序初始化,將從領(lǐng)域詞典中選取的種子概念對輸入詞表進(jìn)行初始化;
(2) 調(diào)用word2vec的詞向量模型抽取輸入詞表中概念的相關(guān)詞匯,并將這些相關(guān)詞匯作為領(lǐng)域概念候選詞;
(3) 將抽取得到的候選詞集合作為輸出詞表輸出;
(4) 根據(jù)結(jié)束條件判定程序是否結(jié)束,如果不符合結(jié)束條件,則計算輸出詞表與輸入詞表的差集[S,]將[S]作為輸入詞表,轉(zhuǎn)步驟(2),符合結(jié)束條件,程序結(jié)束。
該算法采用迭代算法以期獲取更多的領(lǐng)域概念候選詞,從而擴(kuò)充候選詞集。由上述算法流程可見,該算法中的迭代變量為輸入詞表,輸入詞表經(jīng)過word2vec訓(xùn)練的詞向量模型得到一個輸出詞表,然后將輸出詞表與輸入詞表的差集賦值給輸入詞表,再次進(jìn)行抽取,這就是迭代過程。迭代算法中迭代結(jié)束條件可以是程序循環(huán)次數(shù)、輸出詞表與輸入詞表差集中元素的個數(shù)小于某個閾值和抽取概念的個數(shù)達(dá)到一定的數(shù)量等幾種情況,具體的結(jié)束條件可根據(jù)需求的本體規(guī)模來確定。
2.3 領(lǐng)域概念候選詞評價
采用迭代算法可抽取出大量的領(lǐng)域概念候選詞,然而本體的概念應(yīng)是精煉的,本體的規(guī)模也是確定的,應(yīng)對這些基于word2vec得到的領(lǐng)域概念候選詞進(jìn)行過濾,進(jìn)一步提取領(lǐng)域概念。本文以種子概念為基準(zhǔn),計算概念候選詞與種子概念的語義相似度,認(rèn)為候選詞與種子概念在語義上越相近,該候選詞與領(lǐng)域越相關(guān),本文將語義相關(guān)度高的詞語作為抽取的領(lǐng)域概念,具體流程如圖4所示。
采取基于雙序列對比的中文術(shù)語語義相似度計算方法進(jìn)行語義相似度計算,該方法有效地利用《同義詞詞林2》對詞語進(jìn)行有效的語義相似度計算,并且對組合詞語之間的相似度也進(jìn)行了深入研究,效果較好。
3 領(lǐng)域本體概念關(guān)系抽取
本體概念之間的關(guān)系主要包括同義關(guān)系、上下位關(guān)系、整體?部分關(guān)系等。其中,同義關(guān)系和上下位關(guān)系是基本的語義關(guān)系,構(gòu)成了本體的基礎(chǔ)框架。
3.1 同義關(guān)系抽取
本文利用中英文詞典抽取概念間的同義關(guān)系。假設(shè)概念C1翻譯得到的英文單詞或短語有[{w1,w2,…,wn},]概念C2翻譯得到的為[{w′1,w′2,…,w′m},]如果兩個集合有交集,即兩個概念有相同的英文解釋,就認(rèn)為這兩個概念具有同義關(guān)系。將一個概念與其相關(guān)概念組成的概念對集合作為關(guān)系解空間,從解空間中抽取同義關(guān)系。為了抽取更多的同義關(guān)系,需要擴(kuò)大關(guān)系解空間。
3.2 上下位關(guān)系抽取
本文提出了一種基于概念對的語義特征和語境特征的特征向量來抽取具有上下位關(guān)系的概念對,從概念對的構(gòu)詞、共現(xiàn)、特征詞出現(xiàn)數(shù)量、概念對在句中位置的距離出發(fā),構(gòu)建概念對上下位關(guān)系的特征向量,并使用支持向量機(SVM)進(jìn)行訓(xùn)練和預(yù)測,從而實現(xiàn)本體上下位關(guān)系的抽取。具體算法實現(xiàn)如下:
步驟1:初始化所有的概念對和特征詞;
步驟2:判斷一個待計算特征向量的概念對是否符合擴(kuò)展的包含原理,是則該概念對的特征向量[T]為(1,0,0,0),否則該概念對的[T1]值標(biāo)記為0,進(jìn)行步驟3;
步驟3:利用百度搜索引擎,對概念對進(jìn)行查詢,保存查詢結(jié)果的前10條,計算該概念對的特征向量[T;]
步驟4:判斷是否所有的概念對處理完畢,否,則轉(zhuǎn)步驟2,是則形成特征集[W(T);]
步驟5:調(diào)用LIBSVM工具,將[W(T)]導(dǎo)入到訓(xùn)練集中;
步驟6:設(shè)置SVM訓(xùn)練參數(shù),分別選用4種核函數(shù)進(jìn)行實驗,選取分類效果最好的核函數(shù);
步驟7:運行程序,從概念與其相關(guān)的概念組成的概念對中抽取上下位關(guān)系。
4 數(shù)字圖書館氣候變化領(lǐng)域本體半自動化構(gòu)建
本文采用氣候變化領(lǐng)域主題網(wǎng)絡(luò)爬蟲方法從Web上采集與氣候變化領(lǐng)域有關(guān)的數(shù)據(jù),共采集了1.5 GB的Web領(lǐng)域數(shù)據(jù),數(shù)據(jù)的來源主要有2個。其中,基于開放搜索引擎搜索和氣候變化權(quán)威的領(lǐng)域內(nèi)新聞共有198 104篇,數(shù)據(jù)1.04 GB,百度百科領(lǐng)域內(nèi)數(shù)據(jù)105 660篇,數(shù)據(jù)556 MB。本文利用這些從Web上采集的領(lǐng)域數(shù)據(jù)作為初始學(xué)習(xí)語料,從中自動的抽取氣候變化領(lǐng)域本體概念和概念之間的關(guān)系,形成初始本體,最后利用本體編輯器,由領(lǐng)域?qū)<胰斯Τ跏碱I(lǐng)域本體進(jìn)行審核和編輯,以得到更為完善的知識體系和更為精準(zhǔn)的本體描述。
4.1 基于word2vec的領(lǐng)域概念抽取實驗
(1) 中文分詞
采用中科院計算所的ICTCLAS分詞工具對原始語料進(jìn)行分詞,在分詞前,首先對原始語料進(jìn)行新詞發(fā)現(xiàn),再將新詞發(fā)現(xiàn)的結(jié)果和構(gòu)建的領(lǐng)域詞典中的詞添加到原有分詞詞典中,形成新的分詞詞典。
實驗中采用基于互信息和信息熵的新詞發(fā)現(xiàn)技術(shù)從采集的氣候變化領(lǐng)域語料中發(fā)現(xiàn)新詞,本文只抽取5個字和5個字以下的詞語,實驗過程中,首先對字符串進(jìn)行頻率過濾,設(shè)定頻率閾值,如果大于該閾值,則再進(jìn)行信息熵過濾,否則,直接將其排除。由于目前還沒有統(tǒng)一的設(shè)定閾值的標(biāo)準(zhǔn),本文中的閾值都是經(jīng)過反復(fù)試驗,選取使效果較佳的閾值。實驗發(fā)現(xiàn)新詞情況如表1所示。
利用原有分詞詞典和在原有分詞詞典的基礎(chǔ)上加入新詞詞典和領(lǐng)域詞典后,對語料進(jìn)行分詞的結(jié)果進(jìn)行對比,其結(jié)果證明采用新的分詞詞典進(jìn)行分詞,分詞的準(zhǔn)確率大大地提高了。
(2) 領(lǐng)域概念候選詞抽取
首先對采集的氣候變化領(lǐng)域語料利用原有的分詞詞典進(jìn)行分詞,利用word2vec工具對該分詞文件進(jìn)行訓(xùn)練,得到詞向量模型文件vectors.bin。采用構(gòu)建的領(lǐng)域詞典作為初始輸入詞典,通過調(diào)用詞向量模型文件vectors.bin,計算與種子概念距離近的詞匯,得到領(lǐng)域概念的候選詞。
(3) 領(lǐng)域概念候選詞評價
采用雙序列比對的中文術(shù)語相似度計算方法,將獲得的11 032個領(lǐng)域概念候選詞與領(lǐng)域詞中的種子概念做語義相似度計算,本文將與種子概念相似度大于一定閾值的候選詞選作領(lǐng)域概念。實驗過程中,該閾值取0.7。利用構(gòu)建的領(lǐng)域詞典中的1 080個詞匯作為種子概念,采用兩種方法做對比實驗(將基于前后綴的中文領(lǐng)域術(shù)語抽取方法稱為原有算法,將本文采用的基于word2vec的領(lǐng)域本體概念抽取算法稱為改進(jìn)算法),實驗結(jié)果如表2所示。
由表2可見,改進(jìn)的算法無論是在領(lǐng)域概念抽取詞抽取環(huán)節(jié)還是領(lǐng)域概念候選詞評價環(huán)節(jié),不僅大大地增加了抽取詞匯的數(shù)量,而且領(lǐng)域術(shù)語所占的比重也比之前提高了。
4.2 概念關(guān)系抽取實驗
(1) 同義關(guān)系抽取。本文采用在線的有道詞典進(jìn)行約束,同義關(guān)系抽取結(jié)果如表3所示。由實驗結(jié)果可知,得到的結(jié)果準(zhǔn)確率較高但召回率比較低,由于使用詞典約束以及關(guān)系解空間等因素影響了召回率,可通過對數(shù)據(jù)進(jìn)行擴(kuò)充,其中包括使用word2vec的訓(xùn)練語料和雙語詞典等改進(jìn)方法來提高召回率。
(2) 上下位關(guān)系抽取。本文從關(guān)系解空間中抽取上下位關(guān)系,從中選取并手工標(biāo)記800對概念對,其中正例400對,反例400對。實驗中,在800對正反例中各取大約3/4的向量作為訓(xùn)練集,剩余的1/4對作為測試集。將本文提出的基于特征向量的本體概念上下位關(guān)系驗證與基于百科的術(shù)語關(guān)系抽取方法進(jìn)行對比驗證,對比結(jié)果如表4所示。
從實驗結(jié)果可得:本文提出的基于特征向量的上下位關(guān)系驗證方法具有更高的準(zhǔn)確率、召回率和[F]值,而且采用本文提出的算法比基于百科的術(shù)語上下位關(guān)系抽取發(fā)現(xiàn)的具有上下位關(guān)系的概念對多。
4.3 數(shù)字圖書館氣候變化領(lǐng)域本體的應(yīng)用
氣候變化問題已經(jīng)逐漸成為各界熱議的焦點,世界各國的統(tǒng)計部門、氣象部門等都已經(jīng)積累了龐大的數(shù)據(jù)集,研究者很難從龐大而分散的數(shù)據(jù)集與觀點成果中快速找到期望的信息,更難以在這些信息中尋找數(shù)據(jù)之間的關(guān)聯(lián)與規(guī)律?;谝陨蠁栴},設(shè)計開發(fā)出了針對氣候變化領(lǐng)域的RSS閱讀器系統(tǒng)。新聞、數(shù)據(jù)文件等以本體的組織框架進(jìn)行組織。點擊某一知識節(jié)(領(lǐng)域概念),便可查看相關(guān)的新聞信息等,操作方便快捷。用戶通過該閱讀器系統(tǒng)能實現(xiàn)對氣候變化領(lǐng)域內(nèi)最新、最全新聞信息的實時獲取,從而減少人工搜索和篩選的工作,提高了新聞信息搜索效率和信息推薦的準(zhǔn)確度。
5 結(jié) 論
本文探討了領(lǐng)域本體構(gòu)建方法,設(shè)計了一種基于Web的領(lǐng)域本體半自動構(gòu)建方法,對基于word2vec的數(shù)字圖書館本體構(gòu)建技術(shù)進(jìn)行研究,采用基于中英文詞典的方法抽取同義關(guān)系,提出基于特征向量的上下位關(guān)系抽取算法?;诖耍O(shè)計開發(fā)出了針對氣候變化領(lǐng)域的RSS閱讀器系統(tǒng),通過實驗及實際應(yīng)用證明文中所提方法縮短了本體開發(fā)周期,節(jié)省了大量的人工參與,自動抽取本體質(zhì)量較高。但領(lǐng)域概念抽取結(jié)果依賴于word2vec工具,具有一定的局限性,因此,可以考慮混合其他的概念抽取方法來獲取領(lǐng)域概念。
參考文獻(xiàn)
[1] 顧英,柯平,李澤華.基于領(lǐng)域本體的數(shù)字圖書館及應(yīng)用研究[J].圖書館工作與研究,2013(5):41?44.
[2] 李志隆,王道平,關(guān)忠興.基于領(lǐng)域本體的用戶興趣模型構(gòu)建方法研究[J].情報科學(xué),2015,33(11):69?73.
[3] 陳衛(wèi).基于本體的數(shù)字圖書館個性化推薦模型構(gòu)建研究[D].武漢:湖北工業(yè)大學(xué),2015.
[4] 李躍鵬,金翠,及俊川.基于word2vec的關(guān)鍵詞提取算法[J].科研信息化技術(shù)與應(yīng)用,2015(4):54?59.
[5] PU Q. Research on E?negotiation process mixed with domain ontology and reasoning technology [C]// Proceedings of 2013 Joint International Conference. Vina del Mar: Springer, 2013: 471?475.
[6] LUO J, WANG Q, LI Y. Word clustering based on word2vec and semantic similarity [C]// Proceedings of 2014 33th IEEE Control Conference. Nanjing, China: IEEE, 2014: 517?521.
[7] 袁小艷,唐青松,賀建英.高校知識本體的構(gòu)建及應(yīng)用研究[J].現(xiàn)代電子技術(shù),2014,37(16):58?61.
[8] 熊富林,鄧怡豪,唐曉晟.Word2vec的核心架構(gòu)及其應(yīng)用[J].南京師范大學(xué)學(xué)報(工程技術(shù)版),2015(1):43?48.