秦 渴
(鄭州大學信息管理學院,河南 鄭州 450001)
隨著互聯(lián)網(wǎng)的普及、計算機技術的發(fā)展,每天都會產(chǎn)生海量的信息,然而,人們真正需要的知識卻很匱乏。為了解決這種信息泛濫與知識相對匱乏的矛盾,知識抽取這一研究領域開始被專家學者們廣泛關注。知識抽?。↘nowledge eXtraction KX)是對蘊涵于文獻中的知識進行識別、理解、篩選和格式化,從而把文獻中的各個知識點(包括常識知識和專家知識)抽取出來,以一定形式存入知識庫中[1]。常常與之混淆的概念有數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、知識獲取、信息抽取等,然而知識抽取研究對象是顯性的、已有的知識,與數(shù)據(jù)挖掘有很大的區(qū)別,其是知識獲取的有效方式之一,是信息獲取的進一步發(fā)展。本文對知識抽取的研究現(xiàn)狀進行了梳理和分析,并探討了其未來研究重點。
首先,網(wǎng)絡的發(fā)展帶來了海量的信息資源,其蘊含著豐富的知識,具有很高的研究價值。然而,這些網(wǎng)絡化、數(shù)字化的信息資源大多是以自由、半結構化或者非結構化的形式存在的,無法直接從中獲取人們需要的、重要的知識,這就造成了信息過載、資源浪費與知識困乏等現(xiàn)象。知識抽取能夠利用相關技術和方法從這些非結構化或半結構化的信息中抽取出用戶所需要的知識,將這些過載的信息資源轉(zhuǎn)換成用戶可以使用的知識,很好地實現(xiàn)資源的有效利用,同時促進相關科學研究的進一步發(fā)展。
其次,隨著用戶認知程度的不斷加深,日益?zhèn)€性化的知識需求已成為專家學者們關注的重點。目前,基于知識單元層面上的研究及其服務已成為學術研究的趨勢,其能夠很好地解決用戶復雜的知識需求問題,如圖書情報界不斷強調(diào)著由信息服務向知識服務邁進,從為用戶提供以文獻為單位的信息檢索服務向以知識點及其之間的關系為單位的知識檢索發(fā)展,這些目標的實現(xiàn)都要以知識抽取為基礎。通過知識抽取將文獻處理的粒度從篇章層次細分到句段層次(以篇章為單位轉(zhuǎn)換成以知識單元為單位),真正實現(xiàn)文獻在知識單元上的組織、管理和利用,實現(xiàn)信息組織從物理層次的文獻單元向認知層次的知識單元轉(zhuǎn)換[2],從而實現(xiàn)知識組織、管理及其服務的創(chuàng)新發(fā)展。
最后,知識抽取是當前自然語言處理、語義Web、機器學習、知識工程、知識發(fā)現(xiàn)、文本挖掘等相關領域共同關注的重點研究之一[3],是開展知識導航、知識檢索、知識評價以及知識發(fā)現(xiàn)等知識服務的重要基礎技術之一,也是實現(xiàn)知識獲取的有效途徑,能夠促進學科領域研究的進一步發(fā)展。
知識抽取實現(xiàn)方法和技術方面的研究呈現(xiàn)以下特點:
2.1.1 機器學習和自然語言處理是目前知識抽取的兩大主要技術,并且這兩大技術思路正在相互融合、相互借鑒,各自都得到了較大的發(fā)展[3]。如2007年化柏林研究了基于自然語言處理(Natural Language Processing,NLP)的知識抽取模式和方法,其嘗試著運用NLP 技術,在經(jīng)過分詞、詞性標注、句法分析等過程后從科學文獻的句段中抽取知識,然后再轉(zhuǎn)換成計算機可理解的形式,并存入知識庫中[4]。葉鵬探討了機器學習方法在期刊論文的自動分類方面的可行性,為進一步對電子期刊論文進行知識抽取奠定了基礎[5]。
2.1.2 開放信息抽取技術與語義技術被廣泛地應用與研究是進行知識抽取的有效方法。開放信息抽取技術是由美國華盛頓大學圖靈中心于2004年提出的一種新型的抽取范式,我國學者劉振、張智雄認為其具有領域獨立性、無監(jiān)督抽取和對大量文本的可伸縮性等特點,并對其研究現(xiàn)狀進行了梳理,分析了開放信息抽取系統(tǒng)的改進方法和發(fā)展趨勢[6]。語義標注實現(xiàn)了對語義內(nèi)容的挖掘,使知識抽取得結果更精確,如OntotextLab 的KIM 系統(tǒng)采用了大規(guī)模自動語義標注,更好地實現(xiàn)了知識抽取。
2.1.3 基于本體的知識抽取技術成為研究的新方向和重點。洪娜等人對基于Ontology的信息抽取技術方法進行了分析,并歸納了4種主要的技術方法:基于實例的OBIE,基于規(guī)則的OBIE 以及基于機器學習的OBIE 和Ontology驅(qū)動的OBIE[7]。
2.1.4 除了以上的知識抽取技術外,從不同的角度、立足于中文知識抽取角度進行相關研究也逐漸發(fā)展,如張智雄等人在其社會科學基金項目“從數(shù)字信息資源中實現(xiàn)知識抽取的理論和方法研究”中提出了以關鍵詞為處理單元的抽取技術方法,并給出了相關的實證研究,化柏林在其自然科學基金項目“基于句子匹配分析的知識抽取研究與實現(xiàn)”中提出了以句子為處理單元的抽取方法,并且認為有些知識并不能用詞或短語來完整地表達,要想完整地表達一條知識,句子是比較合適的單位[8]。
國外開展知識抽取研究比國內(nèi)相對較早,對于知識抽取的應用實踐也比較成熟。意大利的ONTOTEXT(From Text to Knowledge for the Semantic Web)項目基于本體技術開展知識抽取的實踐研究,其大量經(jīng)過語義標注的文本資源為更多的科研用戶提供了有利條件。而DELOS 的知識抽取和語義互操作(Knowledge Extraction and Semantic Interoperability)項目經(jīng)過實踐研究解決數(shù)字圖書館中數(shù)據(jù)和描述性元數(shù)據(jù)日益增長的問題,其研究并開發(fā)了知識抽取和知識建模技術,完成對數(shù)字圖書館中數(shù)據(jù)的分析,挖掘和建模,從而使數(shù)字圖書館中存在的大量的知識可以被用戶所使用[9]。最近幾年,隨著國內(nèi)對于知識抽取研究的不斷深入,不少專家學者們也嘗試著從不同角度進行知識抽取系統(tǒng)的構建。2007年化柏林提出了一個基于NLP(Natural Language Processing)的知識抽取系統(tǒng)的詳細設計方案,其認為知識抽取過程包括論文類型分析、篇章結構分析、知識抽取、知識表示4 大模塊,并通過小規(guī)模的實驗研究不斷完善分析算法,并為實現(xiàn)構建一個通用的自然語言處理平臺的目標奠定了基礎[4]。陳春霖設計和實現(xiàn)了一個多知識抽取系統(tǒng),該系統(tǒng)可以為用戶提供數(shù)據(jù)預處理、屬性約簡、規(guī)則獲取等一系列的功能,根據(jù)系統(tǒng)不同的需要,采用靈活的方式實現(xiàn)不同功能,較好地解決了多知識復雜理論的透明性,為用戶方便有效地從數(shù)據(jù)中獲取多知識提供較為完整的功能[10]。此外,中國知網(wǎng)的學術定義功能就是基于知識抽取技術實現(xiàn)的。
通過對上文研究現(xiàn)狀的梳理,我們可以發(fā)現(xiàn)知識抽取研究存在以下幾點不足:
3.1.1 相比國外的知識抽取研究,國內(nèi)對其研究起步較晚,研究的深度不夠,大多集中于理論研究,實踐應用方面比較少,而國外更重視知識抽取在實踐中的應用,許多研究都是針對某一特定的應用進行開展的,從而有效地解決生活實踐中的問題。
3.1.2 雖然國外對于知識抽取的研究方法和技術比較成熟,值得我們學習和借鑒,但是,由于中英文自身語法結構等的差異,國外的一些技術和方法并不適應中文知識的抽取,一些對于英文知識進行抽取的技術和方法在應用中文知識抽取中出現(xiàn)了不匹配或者不適合的情況,而國內(nèi)對于從中文角度出發(fā)進行相關的研究還是比較少的,相應的知識抽取實踐也不多。
通過對研究現(xiàn)狀分析與述評,本文探討和歸納了未來知識抽取研究的發(fā)展趨勢:
3.2.1 以科學文獻為主要研究對象。網(wǎng)絡化、數(shù)字化的發(fā)展促進了數(shù)字化期刊、論文、學術報告、學術會議、專利報告等的發(fā)展,這些海量的數(shù)字資源中蘊含著豐富的、有價值的科學知識,包括各學科領域的科學前沿和研究熱點、專家學者們新的發(fā)現(xiàn)或論點、科學實驗的結果等,將這些知識點抽取出來并存入知識庫中,不僅可以服務于科研工作者的科學研究,同時也會促進整個科學領域的發(fā)展。因此,未來的知識抽取研究工作將以這種非結構化的科學文獻為主要研究對象,通過一定的技術和方法準確地識別實體及其之間的關系,以一定的形式抽取出來,形成知識庫,從而更好地服務于用戶。
3.2.2 基于本體和語義模型的知識抽取技術的研究。本體能夠提供特定領域中存在的對象類型或概念及其屬性相互關系,而語義模型是用來表達復雜結構和豐富語義的數(shù)據(jù)模型,從本體和語義的角度可以能夠?qū)崿F(xiàn)基于知識層面進行相關的研究。目前,基于本體的信息抽取系統(tǒng)的相關研究已越來越被學者們關注,其良好的知識結構組織能夠有效地識別實體及其之間的關系,解決了傳統(tǒng)知識抽取在非結構文本方面的不足。本體和語義技術將成為未來知識抽取發(fā)展不可缺少的輔助技術。
3.2.3 構建以用戶需求為中心、自適應、可移植的知識抽取系統(tǒng)。知識抽取研究的最終目的是應用于實踐、服務于用戶、解決現(xiàn)實生活中的問題等,國外對于知識抽取系統(tǒng)的研究已經(jīng)比較成熟,因此,國內(nèi)在未來知識抽取研究中,要能夠圍繞用戶需求開展知識抽取系統(tǒng)的構建研究,實現(xiàn)系統(tǒng)根據(jù)用戶的需求自動適應、自動選擇抽取方法、自動構建抽取路徑的目標。應用先進的技術和方法解決目前大多系統(tǒng)移植性差、移植成本高的問題,只有這樣,知識抽取研究才能實現(xiàn)理論與實踐相結合的要求。
隨著科學研究的不斷發(fā)展,知識抽取的相關研究被越來越重視。然而,國內(nèi)對于知識抽取的理論和方法研究還不夠成熟,知識抽取的應用相較于國外還有一定的差距,通過對相關研究的梳理與分析可以看出,未來知識抽取的研究重點集中在以科學文獻為主要研究對象,基于本體和語義模型的知識抽取技術的研究以及構建以用戶需求為中心、自適應、可移植的知識抽取系統(tǒng)。最后,知識抽取的研究需要結合知識工程、文本挖掘、知識發(fā)現(xiàn)等研究領域的技術和方法以及情報學、管理學、文獻學等學科領域的理論知識才能全面地、科學地發(fā)展。
[1] 化柏林.國內(nèi)外知識抽取研究進展綜述[J].情報雜志,2008(2):60-62.
[2] 化柏林,張新民.從知識抽取相關概念辨析看知識抽取的特點和發(fā)展趨勢[J].情報科學,2010(2):311-315.
[3] 張智雄,吳振新,等.當前知識抽取的主要技術方法解析[J].現(xiàn)代圖書情報技術,2008(8):2-11.
[4] 化柏林.基于NLP的知識抽取系統(tǒng)架構研究[J].現(xiàn)代圖書情報技術,2007(10):38-41.
[5] 葉鵬.基于機器學習的中文期刊論文自動分類研究[D].南京大學,2013.
[6] 劉振,張智雄.開放信息抽取技術的現(xiàn)狀研究[J].情報雜志,2013(11):145-148、186.
[7] 洪娜,張智雄,劉建華.基于Ontology 的信息抽取技術方法分析[J].情報理論與實踐,2009(2):109-112、116.
[8] 鄭彥寧,化柏林.句子級知識抽取在情報學中的應用分析[J].情報理論與實踐,2011(12):1-4.
[9] 龔立群,孫潔麗.國外主要知識抽取項目介紹和評析[J].圖書館論壇,2007(8)11-15.
[10] 陳春霖.多知識抽取系統(tǒng)的設計與實現(xiàn)[D].大連海事大學,2014.