劉 嶠 李 楊 段 宏 劉 瑤 秦志光
(電子科技大學信息與軟件工程學院 成都 610054)
(qliu@uestc.edu.cn)
?
知識圖譜構(gòu)建技術(shù)綜述
劉嶠李楊段宏劉瑤秦志光
(電子科技大學信息與軟件工程學院成都610054)
(qliu@uestc.edu.cn)
Knowledge Graph Construction Techniques
Liu Qiao, Li Yang, Duan Hong, Liu Yao, and Qin Zhiguang
(SchoolofInformationandSoftwareEngineering,UniversityofElectronicScienceandTechnologyofChina,Chengdu610054)
AbstractGoogle’s knowledge graph technology has drawn a lot of research attentions in recent years. However, due to the limited public disclosure of technical details, people find it difficult to understand the connotation and value of this technology. In this paper, we introduce the key techniques involved in the construction of knowledge graph in a bottom-up way, starting from a clearly defined concept and a technical architecture of the knowledge graph. Firstly, we describe in detail the definition and connotation of the knowledge graph, and then we propose the technical framework for knowledge graph construction, in which the construction process is divided into three levels according to the abstract level of the input knowledge materials, including the information extraction layer, the knowledge integration layer, and the knowledge processing layer, respectively. Secondly, the research status of the key technologies for each level are surveyed comprehensively and also investigated critically for the purposes of gradually revealing the mysteries of the knowledge graph technology, the state-of-the-art progress, and its relationship with related disciplines. Finally, five major research challenges in this area are summarized, and the corresponding key research issues are highlighted.
Key wordsknowledge graph; semantic Web; information retrieval; semantic search engine; natural language processing
摘要谷歌知識圖譜技術(shù)近年來引起了廣泛關(guān)注,由于公開披露的技術(shù)資料較少,使人一時難以看清該技術(shù)的內(nèi)涵和價值.從知識圖譜的定義和技術(shù)架構(gòu)出發(fā),對構(gòu)建知識圖譜涉及的關(guān)鍵技術(shù)進行了自底向上的全面解析.1)對知識圖譜的定義和內(nèi)涵進行了說明,并給出了構(gòu)建知識圖譜的技術(shù)框架,按照輸入的知識素材的抽象程度將其劃分為3個層次:信息抽取層、知識融合層和知識加工層;2)分別對每個層次涉及的關(guān)鍵技術(shù)的研究現(xiàn)狀進行分類說明,逐步揭示知識圖譜技術(shù)的奧秘,及其與相關(guān)學科領(lǐng)域的關(guān)系;3)對知識圖譜構(gòu)建技術(shù)當前面臨的重大挑戰(zhàn)和關(guān)鍵問題進行了總結(jié).
關(guān)鍵詞知識圖譜;語義網(wǎng);信息檢索;語義搜索引擎;自然語言處理
信息技術(shù)的發(fā)展不斷推動著互聯(lián)網(wǎng)技術(shù)的變革,Web技術(shù)作為互聯(lián)網(wǎng)時代的標志性技術(shù),正處于這場技術(shù)變革的核心.從網(wǎng)頁的鏈接(Web 1.0)到數(shù)據(jù)的鏈接(linked data),Web技術(shù)正在逐步朝向Web之父Berners-Lee[1]設想中的語義網(wǎng)絡(semantic Web)演變.
根據(jù)W3C的解釋,語義網(wǎng)絡是一張數(shù)據(jù)構(gòu)成的網(wǎng)絡(Web of data),語義網(wǎng)絡技術(shù)向用戶提供的是一個查詢環(huán)境,其核心要義是以圖形的方式向用戶返回經(jīng)過加工和推理的知識①.而知識圖譜(knowledge graph)技術(shù)則是實現(xiàn)智能化語義檢索的基礎(chǔ)和橋梁.傳統(tǒng)搜索引擎技術(shù)能夠根據(jù)用戶查詢快速排序網(wǎng)頁,提高信息檢索的效率.然而,這種網(wǎng)頁檢索效率并不意味著用戶能夠快速準確地獲取信息和知識,對于搜索引擎反饋的大量結(jié)果,還需要進行人工排查和篩選.隨著互聯(lián)網(wǎng)信息總量的爆炸性增長,這種信息檢索方式已經(jīng)很難滿足人們?nèi)嬲瓶匦畔①Y源的需求,知識圖譜技術(shù)的出現(xiàn)為解決信息檢索問題提供了新的思路.
知識圖譜的概念是由谷歌公司提出的.2012年5月17日,谷歌發(fā)布知識圖譜項目,并宣布以此為基礎(chǔ)構(gòu)建下一代智能化搜索引擎.該項目始于2010年谷歌收購Metaweb公司,并籍此獲得了該公司的語義搜索核心技術(shù),其中的關(guān)鍵技術(shù)包括從互聯(lián)網(wǎng)的網(wǎng)頁中抽取出實體及其屬性信息,以及實體間的關(guān)系.這些技術(shù)特別適用于解決與實體相關(guān)的智能問答問題,由此創(chuàng)造出一種全新的信息檢索模式.
雖然知識圖譜的概念較新,但它并非是一個全新的研究領(lǐng)域.早在2006年,Berners-Lee就提出了數(shù)據(jù)鏈接(linked data)的思想,呼吁推廣和完善相關(guān)的技術(shù)標準如URI(uniform resource identifier),RDF(resource description framework),OWL(Web ontology language),為迎接語義網(wǎng)絡時代的到來做好準備②.隨后掀起了一場語義網(wǎng)絡研究熱潮,知識圖譜技術(shù)正是建立在相關(guān)的研究成果之上的,是對現(xiàn)有語義網(wǎng)絡技術(shù)的一次揚棄和升華.
我國對于中文知識圖譜的研究已經(jīng)起步,并取得了許多有價值的研究成果.早期的中文知識庫主要采用人工編輯的方式進行構(gòu)建,例如中國科學院計算機語言信息中心董振東領(lǐng)導的知網(wǎng)(HowNet)項目,其知識庫特點是規(guī)模相對較小、知識質(zhì)量高、但領(lǐng)域限定性較強.由于中文知識圖譜的構(gòu)建對中文信息處理和檢索具有重要的研究和應用價值,近年來吸引了大量的研究.例如在業(yè)界,出現(xiàn)了百度知心、搜狗知立方等商業(yè)應用.在學術(shù)界,清華大學建成了第1個大規(guī)模中英文跨語言知識圖譜XLore③、中國科學院計算技術(shù)研究所基于開放知識網(wǎng)絡(OpenKN)建立了“人立方、事立方、知立方”原型系統(tǒng)、中國科學院數(shù)學與系統(tǒng)科學研究院陸汝鈐院士提出知件(Knowware)的概念、上海交通大學構(gòu)建并發(fā)布了中文知識圖譜研究平臺zhishi.me④、復旦大學GDM實驗室⑤推出的中文知識圖譜項目等[2],這些項目的特點是知識庫規(guī)模較大,涵蓋的知識領(lǐng)域較廣泛,并且能為用戶提供一定的智能搜索及問答服務.
隨著近年來谷歌知識圖譜相關(guān)產(chǎn)品的不斷上線,這一技術(shù)也引起了業(yè)界和學術(shù)界的廣泛關(guān)注.它究竟是概念的炒作還是如谷歌所宣稱的那樣是下一代搜索引擎的基石,代表著互聯(lián)網(wǎng)技術(shù)發(fā)展的未來方向?為了回答這一問題,首先需要對知識圖譜技術(shù)有完整深刻的理解.本文的目的就是從知識圖譜的構(gòu)建角度出發(fā),深度剖析知識圖譜概念的內(nèi)涵和發(fā)展歷程,幫助感興趣的讀者全面了解和認識該技術(shù),從而客觀地做出判斷.
1知識圖譜的定義與架構(gòu)
維基百科對知識圖譜給出的詞條解釋仍然沿用了谷歌的定義,即:知識圖譜是谷歌用于增強其搜索引擎功能的輔助知識庫.然而從業(yè)界的發(fā)展動態(tài)來看,這個定義顯得過于簡單.微軟在2013年7月發(fā)布了自己的Satori知識庫之后,必應(Bing)搜索引擎產(chǎn)品的高級主管Weitz公開表示,發(fā)布Satori只是表明微軟已有類似的技術(shù),然而目前這一技術(shù)本身還存在許多問題,微軟希望取得領(lǐng)導地位,而不是追隨谷歌⑥.這一表態(tài),折射出該領(lǐng)域背后的技術(shù)競爭十分激烈,從當前披露出來的商業(yè)產(chǎn)品,也能看出業(yè)界對此的普遍重視.表1給出了當前主流的知識庫產(chǎn)品和相關(guān)應用,其中,包含實體數(shù)最多的是WolframAlpha知識庫,實體總數(shù)已超過10萬億條.谷歌的知識圖譜擁有5億個實體和350億條實體間的關(guān)系,而且規(guī)模在不斷地增加.微軟的Probase包含的概念總量達到千萬級,是當前包含概念數(shù)量最多的知識庫.Apple Siri,Google Now等當前流行的智能助理應用正是分別建立在WolframAlpha知識庫和谷歌的知識圖譜基礎(chǔ)之上.值得注意的是:國內(nèi)也涌現(xiàn)出一些知識圖譜產(chǎn)品和應用,如搜狗的知立方,側(cè)重于圖的邏輯推理計算,能夠利用基于語義網(wǎng)三元組推理補充實體數(shù)據(jù),對用戶查詢進行語義理解以及句法分析等[3].
Table 1 Knowledge Graph and Similar Products
從表1可以看出,除傳統(tǒng)搜索服務提供商之外,包括Facebook,Apple,IBM等互聯(lián)網(wǎng)領(lǐng)軍企業(yè)也加入了競爭.由于相關(guān)技術(shù)和標準尚未成熟,其應用也處于探索階段,因此知識圖譜的概念目前仍處在發(fā)展變化的過程中,通過對現(xiàn)有的研究成果進行比較和提煉,本文提出知識圖譜的定義.
1.1知識圖譜的定義
定義1. 知識圖譜.是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系.其基本組成單位是“實體-關(guān)系-實體”三元組,以及實體及其相關(guān)屬性-值對,實體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu).
通過知識圖譜,可以實現(xiàn)Web從網(wǎng)頁鏈接向概念鏈接轉(zhuǎn)變,支持用戶按主題而不是字符串檢索,從而真正實現(xiàn)語義檢索.基于知識圖譜的搜索引擎,能夠以圖形方式向用戶反饋結(jié)構(gòu)化的知識,用戶不必瀏覽大量網(wǎng)頁,就可以準確定位和深度獲取知識.
定義1包含3層含義:
1) 知識圖譜本身是一個具有屬性的實體通過關(guān)系鏈接而成的網(wǎng)狀知識庫.從圖的角度來看,知識圖譜在本質(zhì)上是一種概念網(wǎng)絡,其中的節(jié)點表示物理世界的實體(或概念),而實體間的各種語義關(guān)系則構(gòu)成網(wǎng)絡中的邊.由此,知識圖譜是對物理世界的一種符號表達.
2) 知識圖譜的研究價值在于,它是構(gòu)建在當前Web基礎(chǔ)之上的一層覆蓋網(wǎng)絡(overlay network),借助知識圖譜,能夠在Web網(wǎng)頁之上建立概念間的鏈接關(guān)系,從而以最小的代價將互聯(lián)網(wǎng)中積累的信息組織起來,成為可以被利用的知識.
3) 知識圖譜的應用價值在于,它能夠改變現(xiàn)有的信息檢索方式,一方面通過推理實現(xiàn)概念檢索(相對于現(xiàn)有的字符串模糊匹配方式而言);另一方面以圖形化方式向用戶展示經(jīng)過分類整理的結(jié)構(gòu)化知識,從而使人們從人工過濾網(wǎng)頁尋找答案的模式中解脫出來.
1.2知識圖譜的架構(gòu)
知識圖譜的架構(gòu),包括知識圖譜自身的邏輯結(jié)構(gòu)以及構(gòu)建知識圖譜所采用的技術(shù)(體系)架構(gòu),后者是本文討論的重點.
首先介紹知識圖譜的邏輯結(jié)構(gòu),從邏輯上將知識圖譜劃分為2個層次:數(shù)據(jù)層和模式層.在知識圖譜的數(shù)據(jù)層,知識以事實(fact)為單位存儲在圖數(shù)據(jù)庫.例如谷歌的Graphd和微軟的Trinity都是典型的圖數(shù)據(jù)庫.如果以“實體-關(guān)系-實體”或者“實體-屬性-性值”三元組作為事實的基本表達方式,則存儲在圖數(shù)據(jù)庫中的所有數(shù)據(jù)將構(gòu)成龐大的實體關(guān)系網(wǎng)絡,形成知識的“圖譜”.
模式層在數(shù)據(jù)層之上,是知識圖譜的核心.在模式層存儲的是經(jīng)過提煉的知識,通常采用本體庫來管理知識圖譜的模式層,借助本體庫對公理、規(guī)則和約束條件的支持能力來規(guī)范實體、關(guān)系以及實體的類型和屬性等對象之間的聯(lián)系.本體庫在知識圖譜中的地位相當于知識庫的模具,擁有本體庫的知識庫冗余知識較少.
接下來從知識圖譜構(gòu)建的角度,介紹知識圖譜的一般技術(shù)架構(gòu).圖1給出了知識圖譜技術(shù)的整體架構(gòu),其中虛線框內(nèi)的部分為知識圖譜的構(gòu)建過程,同時也是知識圖譜更新的過程.如圖1所示,知識圖譜的構(gòu)建過程是從原始數(shù)據(jù)出發(fā),采用一系列自動或半自動的技術(shù)手段,從原始數(shù)據(jù)中提取出知識要素(即事實),并將其存入知識庫的數(shù)據(jù)層和模式層的過程.這是一個迭代更新的過程,根據(jù)知識獲取的邏輯,每一輪迭代包含3個階段:信息抽取、知識融合以及知識加工.
Fig. 1 Technical architecture of knowledge graph.圖1 知識圖譜的技術(shù)架構(gòu)
知識圖譜有自頂向下和自底向上2種構(gòu)建方式.所謂自頂向下構(gòu)建是指借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù)據(jù)中提取本體和模式信息,加入到知識庫中;所謂自底向上構(gòu)建,則是借助一定的技術(shù)手段,從公開采集的數(shù)據(jù)中提取出資源模式,選擇其中置信度較高的新模式,經(jīng)人工審核之后,加入到知識庫中.
在知識圖譜技術(shù)發(fā)展初期,多數(shù)參與企業(yè)和科研機構(gòu)都是采用自頂向下的方式構(gòu)建基礎(chǔ)知識庫,例如,F(xiàn)reebase項目就是采用維基百科作為主要數(shù)據(jù)來源.隨著自動知識抽取與加工技術(shù)的不斷成熟,目前的知識圖譜大多采用自底向上的方式構(gòu)建,其中最具影響力的例子包括谷歌的Knowledge Vault和微軟的Satori知識庫,都是以公開采集的海量網(wǎng)頁數(shù)據(jù)為數(shù)據(jù)源,通過自動抽取資源的方式來構(gòu)建、豐富和完善現(xiàn)有的知識庫.
因此,本文主要介紹自底向上的知識圖譜構(gòu)建技術(shù),按照知識獲取的過程分為3個層次:信息抽取、知識融合以及知識加工.
2知識圖譜的構(gòu)建技術(shù)
如1.2節(jié)所述,采用自底向上的方式構(gòu)建知識圖譜的過程是一個迭代更新的過程,每一輪更新包括3個步驟:1)信息抽取,即從各種類型的數(shù)據(jù)源中提取出實體(概念)、屬性以及實體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達;2)知識融合,在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等;3)知識加工,對于經(jīng)過融合的新知識,需要經(jīng)過質(zhì)量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質(zhì)量.新增數(shù)據(jù)之后,可以進行知識推理、拓展現(xiàn)有知識、得到新知識.
2.1信息抽取
信息抽取(information extraction)是知識圖譜構(gòu)建的第1步,其中的關(guān)鍵問題是如何從異構(gòu)數(shù)據(jù)源中自動抽取信息得到候選知識單元.信息抽取是一種自動化地從半結(jié)構(gòu)化和無結(jié)構(gòu)數(shù)據(jù)中抽取實體、關(guān)系以及實體屬性等結(jié)構(gòu)化信息的技術(shù)[4].涉及的關(guān)鍵技術(shù)包括:實體抽取、關(guān)系抽取和屬性抽取.
2.1.1實體抽取
實體抽取,也稱為命名實體識別(named entity recognition, NER),是指從文本數(shù)據(jù)集中自動識別出命名實體.實體抽取的質(zhì)量(準確率和召回率)對后續(xù)的知識獲取效率和質(zhì)量影響極大,因此是信息抽取中最為基礎(chǔ)和關(guān)鍵的部分.
早期對實體抽取方法的研究主要面向單一領(lǐng)域(如特定行業(yè)或特定業(yè)務),關(guān)注如何識別出文本中的人名、地名等專有名詞和有意義的時間等實體信息[5].1991年,Rau[6]采用啟發(fā)式算法與人工編寫規(guī)則相結(jié)合的方法,首次實現(xiàn)了從文本中自動抽取公司名稱的實體抽取原型系統(tǒng).然而,基于規(guī)則的方法具有明顯的局限性,不僅需要耗費大量人力,而且可擴展性較差,難以適應數(shù)據(jù)的變化.隨后,人們開始嘗試采用統(tǒng)計機器學習方法輔助解決命名實體抽取問題,例如,Liu等人[7]利用K-最近鄰(K-Nearest Neighbors)算法和條件隨機場模型,實現(xiàn)了對Twitter文本數(shù)據(jù)中包含實體的識別.然而迄今為止,單純基于有監(jiān)督學習的實體抽取方法,在準確率和召回率上的表現(xiàn)都不夠理想,且算法的性能依賴于訓練樣本的規(guī)模,對此類方法的發(fā)展形成了制約.最近有學者采用有監(jiān)督學習與規(guī)則(先驗知識)相結(jié)合的方法,取得了一些積極的研究成果,例如Lin等人[8]采用字典輔助下的最大熵算法,在基于Medline論文摘要的GENIA數(shù)據(jù)集上取得了實體抽取準確率和召回率均超過70%的實驗結(jié)果.
隨著命名實體識別技術(shù)不斷取得進展,學術(shù)界開始關(guān)注開放域(open domain)的信息抽取問題,即不再限定于特定的知識領(lǐng)域,而是面向開放的互聯(lián)網(wǎng),研究和解決全網(wǎng)信息抽取問題.為此,需要首先建立一個科學完整的命名實體分類體系,一方面用于指導算法研究;另一方面便于對抽取得到的實體數(shù)據(jù)進行管理.早在2002年,Sekine等人[9]就提出了一個層次結(jié)構(gòu)的命名實體分類體系,將網(wǎng)絡中所有的命名實體劃分為150個分類.該項成果引起了學術(shù)界對建立命名實體分類體系的重視,并對后續(xù)的命名實體識別研究產(chǎn)生了深遠的影響.2012年,Ling等人[10]借鑒Freebase的實體分類方法,歸納出112種實體類別,并基于條件隨機場模型進行實體邊界識別,最后采用自適應感知機算法實現(xiàn)了對實體的自動分類,其實驗結(jié)果顯著優(yōu)于Stanford NER等當前主流的命名實體識別系統(tǒng).
然而,互聯(lián)網(wǎng)中的內(nèi)容是動態(tài)變化的,Web 2.0技術(shù)更進一步推動了互聯(lián)網(wǎng)的概念創(chuàng)新,采用人工預定義實體分類體系的方式已經(jīng)很難適應時代的需求.面向開放域的實體抽取和分類技術(shù)能夠較好地解決這一問題,該方法的基本思想是對于任意給定的實體,采用統(tǒng)計機器學習的方法,從目標數(shù)據(jù)集(通常是網(wǎng)頁等文本數(shù)據(jù))中抽取出與之具有相似上下文特征的實體,從而實現(xiàn)實體的分類和聚類[11].
在面向開放域的實體識別和分類研究中,不需要(也不可能)為每個領(lǐng)域或每個實體類別建立單獨的語料庫作為訓練集.因此,該領(lǐng)域面臨的主要挑戰(zhàn)是如何從給定的少量實體實例中自動發(fā)現(xiàn)具有區(qū)分力的模式.針對該問題,Whitelaw等人[12]提出了一種迭代擴展實體語料庫的解決方案,基本思路是根據(jù)已知的實體實例進行特征建模,利用該模型對處理海量數(shù)據(jù)集得到新的命名實體列表,然后針對新實體建模,迭代地生成實體標注語料庫.
另一種思路是通過搜索引擎的服務器日志獲取新出現(xiàn)的命名實體.例如Jain等人[13]提出了一種面向開放域的無監(jiān)督學習算法,即事先并不給出實體分類,而是基于實體的語義特征從搜索日志中識別出命名實體,然后采用聚類算法對識別出的實體對象進行聚類,該方法已經(jīng)在搜索引擎技術(shù)中得到應用,用于根據(jù)用戶輸入的關(guān)鍵字自動補全信息.
2.1.2關(guān)系抽取
文本語料經(jīng)過實體抽取,得到的是一系列離散的命名實體,為了得到語義信息,還需要從相關(guān)語料中提取出實體之間的關(guān)聯(lián)關(guān)系,通過關(guān)系將實體(概念)聯(lián)系起來,才能夠形成網(wǎng)狀的知識結(jié)構(gòu).研究關(guān)系抽取技術(shù)的目的,就是解決如何從文本語料中抽取實體間的關(guān)系這一基本問題.
早期的關(guān)系抽取研究方法主要是通過人工構(gòu)造語法和語義規(guī)則,據(jù)此采用模式匹配的方法來識別實體間的關(guān)系.這種方法有2點明顯的不足:1)要求制定規(guī)則的人具有良好的語言學造詣,并且對特定領(lǐng)域有深入的理解和認知;2)規(guī)則制定工作量大,難以適應豐富的語言表達風格,且難以拓展到其他領(lǐng)域.為此學術(shù)界開始嘗試采用統(tǒng)計機器學習方法,通過對實體間關(guān)系的模式進行建模,替代預定義的語法和語義規(guī)則.例如Kambhatla等人[14]利用自然語言中的詞法、句法以及語義特征進行實體關(guān)系建模,通過最大熵方法成功地實現(xiàn)了不借助規(guī)則硬編碼的實體關(guān)系抽取.
隨后,出現(xiàn)了大量基于特征向量或核函數(shù)的有監(jiān)督學習方法,關(guān)系抽取的準確性也不斷提高.例如,劉克彬等人[15]借助知網(wǎng)(HowNet)提供的本體知識庫構(gòu)造語義核函數(shù),在開放數(shù)據(jù)集上對ACE定義的6類實體關(guān)系進行抽取,準確率達到了88%.然而,有監(jiān)督學習方法也存在明顯不足,為了確保算法的有效性,需要人工標注大量的語料作為訓練集.因此,近年來的研究重點逐漸轉(zhuǎn)向半監(jiān)督和無監(jiān)督的學習方式.例如,Carlson等人[16]提出了一種基于Bootstrap算法的半監(jiān)督學習方法,能夠自動進行實體關(guān)系建模.陳立瑋等人[17]針對弱監(jiān)督學習中標注數(shù)據(jù)不完全可靠的問題,基于Bootstrapping算法設計思想,提出了一種協(xié)同訓練方法,通過向傳統(tǒng)模型中引入N-Gram特征進行協(xié)同訓練,實現(xiàn)了對弱監(jiān)督關(guān)系抽取模型的強化,在中文和英文數(shù)據(jù)集上關(guān)系抽取性能均得到了提升.Zhang等人[18]采用基于實例的無監(jiān)督學習方法,在公開語料庫上獲得了較好的實驗結(jié)果,能夠?qū)嶓w間的雇傭關(guān)系、位置關(guān)系以及生產(chǎn)關(guān)系等多元關(guān)系進行精準識別.
以上研究成果的共同特點是需要預先定義實體關(guān)系類型,如雇傭關(guān)系、整體部分關(guān)系以及位置關(guān)系等.然而在實際應用中,要想定義出一個完美的實體關(guān)系分類系統(tǒng)是十分困難的.為了解決這一制約關(guān)系抽取技術(shù)走向?qū)嶋H應用的關(guān)鍵問題,2007年,華盛頓大學圖靈中心的Banko等人[19]提出了面向開放域的信息抽取方法框架(open information extraction, OIE),并發(fā)布了基于自監(jiān)督(self-supervised)學習方式的開放信息抽取原型系統(tǒng)(TextRunner).該系統(tǒng)采用少量人工標記數(shù)據(jù)作為訓練集,據(jù)此得到一個實體關(guān)系分類模型,再依據(jù)該模型對開放數(shù)據(jù)進行分類,依據(jù)分類結(jié)果訓練樸素貝葉斯模型來識別“實體-關(guān)系-實體”三元組,經(jīng)過大規(guī)模真實數(shù)據(jù)測試,取得了顯著優(yōu)于同時期其他方法的結(jié)果.
面向開放域的關(guān)系抽取技術(shù)直接利用語料中的關(guān)系詞匯對實體關(guān)系進行建模,因此不需要預先指定關(guān)系的分類,這是一個很大的進步,例如,Wu等人[20]在OIE的基礎(chǔ)上,發(fā)布了面向開放域信息抽取的WOE系統(tǒng),該系統(tǒng)能夠利用維基百科網(wǎng)頁信息框(infobox)提供的屬性信息,自動構(gòu)造實體關(guān)系訓練集,性能優(yōu)于早期的TextRunner系統(tǒng),這項工作也為批量構(gòu)造高質(zhì)量的訓練語料提供了新的思路.Fader等人[21]通過對TextRunner系統(tǒng)和WOE系統(tǒng)的實體關(guān)系抽取結(jié)果進行分析,發(fā)現(xiàn)其中錯誤的部分主要是一些無意義或不合邏輯的實體關(guān)系三元組,據(jù)此引入語法限制條件和字典約束,采用先識別關(guān)系指示詞,然后再對實體進行識別的策略,有效提高了關(guān)系識別準確率.Mausam等人[22]針對上述系統(tǒng)均無法識別非動詞性關(guān)系的局限,通過引入上下文分析技術(shù),提出了一個支持非動詞性關(guān)系抽取的OILLIE系統(tǒng),有效提高了自動關(guān)系抽取的準確率和召回率.
由于當前的面向開放域的關(guān)系抽取方法在準確率和召回率等綜合性能指標方面與面向封閉領(lǐng)域的傳統(tǒng)方法相比仍有一定的差距,因此有部分學者開始嘗試將兩者的優(yōu)勢結(jié)合起來.例如Banko等人[23]提出了一種基于條件隨機場的關(guān)系抽取模型(H-CRF),當目標數(shù)據(jù)集中擁有的關(guān)系數(shù)量不大,而且有預先定義好的實體關(guān)系分類模型可用的情況下,采用傳統(tǒng)的機器學習算法進行關(guān)系抽取,而對于沒有預先定義好的實體關(guān)系模型或者關(guān)系數(shù)量過多的情況,則采用開放域關(guān)系抽取方法.微軟公司人立方項目所采用的StatSnowball模型也是基于這種策略實現(xiàn)其關(guān)系抽取功能[24].
當前流行的OIE系統(tǒng)在關(guān)系抽取方面存在2個主要問題.1)當前研究的重點是如何提高二元實體間關(guān)系(三元組模式)的抽取準確率和召回率,很少考慮到在現(xiàn)實生活中普遍存在的高階多元實體關(guān)系;2)所采用的研究方法大多只關(guān)注發(fā)掘詞匯或詞組之間的關(guān)系模式,而無法實現(xiàn)對隱含語義關(guān)系的抽取.對此,學術(shù)界有著清醒的認識,例如Alan等人[25]采用N元關(guān)系模型對OIE系統(tǒng)進行改進,提出了KRAKEN模型,能夠有效提高OIE系統(tǒng)對多元實體關(guān)系的識別能力.在隱含關(guān)系識別方面,McCallum[26]提出采用后期關(guān)系推理的方法,提高OIE系統(tǒng)對隱含實體關(guān)系的發(fā)現(xiàn)能力.這些工作都是該領(lǐng)域值得重視的研究動向,然而在OIE關(guān)系抽取研究領(lǐng)域,要實現(xiàn)算法性能由量變到質(zhì)變的飛躍,還需要一段時間的積累.
2.1.3屬性抽取
屬性抽取的目標是從不同信息源中采集特定實體的屬性信息.例如針對某個公眾人物,可以從網(wǎng)絡公開信息中得到其昵稱、生日、國籍、教育背景等信息.屬性抽取技術(shù)能夠從多種數(shù)據(jù)來源中匯集這些信息,實現(xiàn)對實體屬性的完整勾畫.
由于可以將實體的屬性視為實體與屬性值之間的一種名詞性關(guān)系,因此也可以將屬性抽取問題視為關(guān)系抽取問題.例如郭劍毅等人[27]將人物屬性抽取問題轉(zhuǎn)化為實體關(guān)系抽取問題,采用支持向量機算法實現(xiàn)了人物屬性抽取與關(guān)系預測模型.
百科類網(wǎng)站提供的半結(jié)構(gòu)化數(shù)據(jù)是當前實體屬性抽取研究的主要數(shù)據(jù)來源.例如Suchanek等人[28]設計了基于規(guī)則和啟發(fā)式算法的屬性抽取算法,能夠從Wikipedia和WordNet網(wǎng)頁信息框中自動提取屬性名和屬性值信息,據(jù)此得到了擴展性良好的本體知識庫(YAGO),其抽取準確率高達95%.受YAGO和Freebase項目的啟發(fā),DBpedia項目以維基百科作為研究對象,從維基百科網(wǎng)頁信息框中抽取了超過458萬個實體和超過30億條實體關(guān)系信息.作為Linked Data項目的重要組成部分,DBpedia構(gòu)建了一個維基百科之上的知識網(wǎng)絡,反過來促進了維基百科的應用創(chuàng)新,如關(guān)系查詢、多維度搜索等,DBpedia也因此成為了目前世界上最龐大的多領(lǐng)域本體知識庫之一[29].
盡管可以從百科類網(wǎng)站獲取大量實體屬性數(shù)據(jù),然而這只是人類知識的冰山一角,還有大量的實體屬性數(shù)據(jù)隱藏在非結(jié)構(gòu)化的公開數(shù)據(jù)中.如何從海量非結(jié)構(gòu)化數(shù)據(jù)中抽取實體屬性是值得關(guān)注的理論研究問題.一種解決方案是基于百科類網(wǎng)站的半結(jié)構(gòu)化數(shù)據(jù),通過自動抽取生成訓練語料,用于訓練實體屬性標注模型,然后將其應用于對非結(jié)構(gòu)化數(shù)據(jù)的實體屬性抽取[30];另一種方案是采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性與屬性值之間的關(guān)系模式,據(jù)此實現(xiàn)對屬性名和屬性值在文本中的定位.這種方法的基本假設是屬性名和屬性值之間有位置上的關(guān)聯(lián)關(guān)系,事實上在真實語言環(huán)境中,許多實體屬性值附近都存在一些用于限制和界定該屬性值含義的關(guān)鍵詞(屬性名),在自然語言處理技術(shù)中將這類屬性稱為有名屬性,因此可以利用這些關(guān)鍵字來定位有名屬性的屬性值[31].
2.2知識融合
通過信息抽取,實現(xiàn)了從非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取實體、關(guān)系以及實體屬性信息的目標,然而,這些結(jié)果中可能包含大量的冗余和錯誤信息,數(shù)據(jù)之間的關(guān)系也是扁平化的,缺乏層次性和邏輯性,因此有必要對其進行清理和整合.知識融合包括2部分內(nèi)容:實體鏈接和知識合并.通過知識融合,可以消除概念的歧義,剔除冗余和錯誤概念,從而確保知識的質(zhì)量.
2.2.1實體鏈接
實體鏈接(entity linking)是指對于從文本中抽取得到的實體對象,將其鏈接到知識庫中對應的正確實體對象的操作[32].
實體鏈接的基本思想是首先根據(jù)給定的實體指稱項,從知識庫中選出一組候選實體對象,然后通過相似度計算將指稱項鏈接到正確的實體對象.早期的實體鏈接研究僅關(guān)注如何將從文本中抽取到的實體鏈接到知識庫中,忽視了位于同一文檔的實體間存在的語義聯(lián)系,近年來學術(shù)界開始關(guān)注利用實體的共現(xiàn)關(guān)系,同時將多個實體鏈接到知識庫中,稱為集成實體鏈接(collective entity linking).例如Han等人[33]提出的基于圖的集成實體鏈接方法,能夠有效提高實體鏈接的準確性.
實體鏈接的一般流程是:1)從文本中通過實體抽取得到實體指稱項;2)進行實體消歧和共指消解,判斷知識庫中的同名實體與之是否代表不同的含義以及知識庫中是否存在其他命名實體與之表示相同的含義;3)在確認知識庫中對應的正確實體對象之后,將該實體指稱項鏈接到知識庫中對應實體.
1) 實體消歧
實體消歧(entity disambiguation)是專門用于解決同名實體產(chǎn)生歧義問題的技術(shù).在實際語言環(huán)境中,經(jīng)常會遇到某個實體指稱項對應于多個命名實體對象的問題,例如“李娜”這個名詞(指稱項)可以對應于作為歌手的李娜這個實體,也可以對應于作為網(wǎng)球運動員的李娜這個實體,通過實體消歧,就可以根據(jù)當前的語境,準確建立實體鏈接.實體消歧主要采用聚類法.
聚類法是指以實體對象為聚類中心,將所有指向同一目標實體對象的指稱項聚集到以該對象為中心的類別下.聚類法消歧的關(guān)鍵問題是如何定義實體對象與指稱項之間的相似度,常用方法有4種.
① 空間向量模型(詞袋模型).典型的方法是取當前語料中實體指稱項周邊的詞構(gòu)成特征向量,然后利用向量的余弦相似度進行比較,將該指稱項聚類到與之最相近的實體指稱項集合中.例如Bagga等人[34]采用該方法,在MUC6(Message Understanding Conference)數(shù)據(jù)集上取得了很高的消歧精度(F值高達84.6%).然而該方法的缺點在于沒有考慮上下文語義信息,這種信息損失會導致在某些情況下算法性能惡化,如短文本分析.
② 語義模型.該模型與空間向量模型類似,區(qū)別在于特征向量的構(gòu)造方法不同,語義模型的特征向量不僅包含詞袋向量,而且包含一部分語義特征.例如Pedersen等人[35]采用奇異值分解技術(shù)對文本向量空間進行分解,得到給定維度的淺層語義特征,以此與詞袋模型相結(jié)合,能夠得到更精確的相似度計算結(jié)果.
③ 社會網(wǎng)絡模型.該模型的基本假設是物以類聚、人以群分,在社會化語境中,實體指稱項的意義在很大程度上是由與其相關(guān)聯(lián)的實體所決定的.建模時,首先利用實體間的關(guān)系將與之相關(guān)的指稱項鏈接起來構(gòu)成網(wǎng)絡,然后利用社會網(wǎng)絡分析技術(shù)計算該網(wǎng)絡中節(jié)點之間的拓撲距離(網(wǎng)絡中的節(jié)點即實體的指稱項),以此來判定指稱項之間的相似度.例如Malin等人[36]利用隨機漫步模型對演員合作網(wǎng)絡數(shù)據(jù)進行實體消歧,得到了比基于文本相似度模型更好的消歧效果.
④ 百科知識模型.百科類網(wǎng)站通常會為每個實體(指稱項)分配一個單獨頁面,其中包括指向其他實體頁面的超鏈接,百科知識模型正是利用這種鏈接關(guān)系來計算實體指稱項之間的相似度.例如Han等人[37]利用維基百科條目之間的關(guān)聯(lián)關(guān)系計算實體指稱項之間的相似度,實驗結(jié)果表明這種方式能夠有效消除同名實體間的歧義.Bunescu等人[38]以維基百科作為知識庫,基于實體所在頁面的上下文信息和指稱項所在語料的上下文信息,利用詞袋模型構(gòu)造特征向量作為實體鏈接時進行相似度比較的依據(jù),實現(xiàn)了實體消歧.在此基礎(chǔ)上,Sen[39]進一步采用主題模型作為相似度計算依據(jù),在維基百科人物數(shù)據(jù)集上獲得了高達86%的消歧準確率.Shen等人[40]提出的Linden模型則同時考慮到了文本相似性和主題一致性,基于維基百科和Wordnet知識庫,取得了當前最好的實體消歧實驗結(jié)果.然而,由于百科類知識庫中的實體數(shù)非常有限,此類方法的推廣性較差.
為了充分利用海量公開數(shù)據(jù)中包含的實體區(qū)分性證據(jù),Li等人[32]基于生成模型提出了一種增量證據(jù)挖掘算法,在Twitter數(shù)據(jù)集上實現(xiàn)了實體消歧準確率的大幅提升.該方法降低了消歧算法對于知識庫的依賴,提供了一種很有希望的算法新思路.
實體消歧技術(shù)能夠幫助搜索引擎更好地理解用戶的搜索意圖,從而給出更好的上下文推薦結(jié)果,提高搜索服務質(zhì)量.其中還有一個很重要的問題是如何對存在歧義的實體進行重要性評估,以確定推薦內(nèi)容的優(yōu)先級.當前的主要研究思路是為實體賦予權(quán)重,用于表示該實體出現(xiàn)的頻率或先驗概率.例如Ratinov等人[41]通過統(tǒng)計維基百科中的實體出現(xiàn)的頻率以此作為實體推薦時排序的依據(jù).Ochs等人[42]則借助搜索引擎的關(guān)鍵詞日志和DBpedia知識庫,構(gòu)建了一個知名人物本體庫,據(jù)此實現(xiàn)了一個本體搜索引擎原型系統(tǒng),為解決人物實體的重要性評估提供了一種新的思路.
2) 共指消解
共指消解(entity resolution)技術(shù)主要用于解決多個指稱項對應于同一實體對象的問題.例如在一篇新聞稿中,“Barack Obama”,“president Obama”,“the president”等指稱項可能指向的是同一實體對象,其中的許多代詞如“he”,“him”等,也可能指向該實體對象.利用共指消解技術(shù),可以將這些指稱項關(guān)聯(lián)(合并)到正確的實體對象.由于該問題在信息檢索和自然語言處理等領(lǐng)域具有特殊的重要性,吸引了大量的研究努力,因此學術(shù)界對該問題有多種不同的表述,典型的包括:對象對齊(object alignment)、實體匹配(entity matching)以及實體同義(entity synonyms).
共指消解問題的早期研究成果主要來自自然語言處理領(lǐng)域,近年來統(tǒng)計機器學習領(lǐng)域的學者越來越多地參與到這項工作中.基于自然語言處理的共指消解是以句法分析為基礎(chǔ)的,代表性方法是Hobbs算法和向心理論(centering theory).Hobbs算法是最早的代詞消解算法之一,主要思路是基于句法分析樹進行搜索,因此適用于實體與代詞出現(xiàn)在同一句子中的場景,有一定的局限性.早期的Hobbs算法完全基于句法分析(樸素Hobbs算法),后來則加入了語義分析并沿用至今[43].向心理論的基本思想是:將表達模式(utterance)視為語篇(discourse)的基本組成單元,通過識別表達模式中的實體,可以獲得當前和后續(xù)語篇中的關(guān)注中心(實體),根據(jù)語義的局部連貫性和顯著性,就可以在語篇中跟蹤受關(guān)注的實體[44].向心理論的提出最初并不是為了解決代詞消解問題,而是為了對語篇中關(guān)注中心的局部連貫性進行建模,因此它雖然一段時間內(nèi)成為主要的代詞消解手段,但卻不是最佳的理論模型.近年來,學術(shù)界開始嘗試在向心理論的基礎(chǔ)上,利用詞性標注和語法分析技術(shù),提高實體消解方法的適用范圍和準確性.例如Lappin等人[45]基于句法分析和詞法分析技術(shù)提出了消解算法,能夠識別語篇中的第3人稱代詞和反身代詞等回指性代詞在語篇中回指的對象,其性能優(yōu)于Hobbs算法和基于向心理論的實體消解方法.
隨著統(tǒng)計機器學習方法被引入該領(lǐng)域,共指消解技術(shù)進入了快速發(fā)展階段.McCarthy等人[46]首次將C4.5決策樹算法應用于解決共指消解問題,結(jié)果在MUC-5公開數(shù)據(jù)集的多數(shù)任務中均取得了優(yōu)勝.Bean等人[47]通過實驗發(fā)現(xiàn),語義背景知識對于構(gòu)造共指消解算法非常有幫助,他們利用Utah大學發(fā)布的AutoSlog系統(tǒng)從原始語料中抽取實體上下文模式信息,應用Dempster-Shafer概率模型對實體模式進行建模,在2個公開數(shù)據(jù)集上(MUC-4的恐怖主義數(shù)據(jù)集和路透社自然災害新聞數(shù)據(jù)集)分別取得了76%和87%的共指消解準確率.
除了將共指消解問題視為分類問題之外,還可以將其作為聚類問題來求解.聚類法的基本思想是以實體指稱項為中心,通過實體聚類實現(xiàn)指稱項與實體對象的匹配.其關(guān)鍵問題是如何定義實體間的相似性測度.Turney[48]基于點互信息(pointwise mutual information,PMI)來求解實體所在文檔的相似度,并用于求解TOEFL和ESL考試中的同義詞測試問題,取得了74%的正確率.Cheng等人[49]通過對搜索引擎的查詢和點擊記錄進行研究,發(fā)現(xiàn)可以根據(jù)用戶查詢之后的點擊行為對實體進行區(qū)分.據(jù)此,通過查詢和點擊記錄建立實體指稱項與相關(guān)網(wǎng)頁URL之間的關(guān)聯(lián),進而計算出實體指稱項之間的點擊相似度(click similarity),結(jié)果表明該方法能夠有效實現(xiàn)共指消解,從而提高搜索覆蓋率.
基于統(tǒng)計機器學習的共指消解方法通常受限于2個問題:訓練數(shù)據(jù)的(特征)稀疏性和難以在不同的概念上下文中建立實體關(guān)聯(lián).為解決該問題,Pantel等人[50]基于Harris提出的分布相似性模型,提出了一個新的實體相似性測度模型,稱為術(shù)語相似度(term similarity),借助該模型可以從全局語料中得到所有術(shù)語間的統(tǒng)計意義上的相似性,據(jù)此可以完成實體合并,達到共指消解的目的.Chakrabarti等人[51]則將網(wǎng)頁點擊相似性和文檔相似性這2種測度相結(jié)合,提出了一種新的查詢上下文相似性測度(query context similarity),通過在Bing系統(tǒng)上進行測試,該測度能夠有效識別同義詞,并顯著提高查全率.值得注意的是,上述2種方法均支持并行計算,二者均采用了MapReduce框架,其中,前者在200個4核處理器上,用時50h得到了5億條術(shù)語的相似度矩陣,而后者則已經(jīng)在Bing搜索引擎的商品和視頻搜索中取得應用.
2.2.2知識合并
在構(gòu)建知識圖譜時,可以從第三方知識庫產(chǎn)品或已有結(jié)構(gòu)化數(shù)據(jù)獲取知識輸入.例如,關(guān)聯(lián)開放數(shù)據(jù)項目(linked open data)會定期發(fā)布其經(jīng)過積累和整理的語義知識數(shù)據(jù),其中既包括前文介紹過的通用知識庫DBpedia和YAGO,也包括面向特定領(lǐng)域的知識庫產(chǎn)品,如MusicBrainz和DrugBank等.
1) 合并外部知識庫
將外部知識庫融合到本地知識庫需要處理2個層面的問題.①數(shù)據(jù)層的融合,包括實體的指稱、屬性、關(guān)系以及所屬類別等,主要的問題是如何避免實例以及關(guān)系的沖突問題,造成不必要的冗余;②通過模式層的融合,將新得到的本體融入已有的本體庫中[52].
為促進知識庫融合的標準化,Mendes等人[53]提出了開放數(shù)據(jù)集成框架(linked data integration framework,LDIF),用于對LOD知識庫產(chǎn)品進行融合.其中包括4個步驟:①獲取知識;②概念匹配,由于不同本體庫中的概念表達使用的詞匯可能不同,因此需要對概念表達方式進行統(tǒng)一化處理;③實體匹配,由于知識庫中有些實體含義相同但是具有不同的標識符,因此需要對這些實體進行合并處理;④知識評估,知識融合的最后一步是對新增知識進行驗證和評估,以確保知識圖譜的內(nèi)容一致性和準確性,通常采用的方法是在評估過程中為新加入的知識賦予可信度值,據(jù)此進行知識的過濾和融合.
2) 合并關(guān)系數(shù)據(jù)庫
在知識圖譜構(gòu)建過程中,一個重要的高質(zhì)量知識來源是企業(yè)或者機構(gòu)自己的關(guān)系數(shù)據(jù)庫.為了將這些結(jié)構(gòu)化的歷史數(shù)據(jù)融入到知識圖譜中,可以采用資源描述框架(RDF)作為數(shù)據(jù)模型.業(yè)界和學術(shù)界將這一數(shù)據(jù)轉(zhuǎn)換過程形象地稱為RDB2RDF,其實質(zhì)就是將關(guān)系數(shù)據(jù)庫的數(shù)據(jù)換成RDF的三元組數(shù)據(jù).根據(jù)W3C的調(diào)查報告顯示,當前已經(jīng)出現(xiàn)了大量RDB2RDF的開源工具(如Triplify,D2R Server,OpenLink Virtuoso,SparqlMap等),然而由于缺少標準規(guī)范,使得這些工具的推廣應用受到極大制約[54].為此,W3C于 2012年推出了2種映射語言標準:Direct Mapping (A direct mapping of relational data to RDF)和R2RML (RDB to RDF mapping language).其中,Direct Mapping采用直接映射的方式,將關(guān)系數(shù)據(jù)庫表結(jié)構(gòu)和數(shù)據(jù)直接輸出為RDF圖,在RDF圖中所用到的用于表示類和謂詞的術(shù)語與關(guān)系數(shù)據(jù)庫中的表名和字段名保持一致.而R2RML則具有較高的靈活性和可定制性,允許為給定的數(shù)據(jù)庫結(jié)構(gòu)定制詞匯表,可以將關(guān)系數(shù)據(jù)庫通過R2RML映射為RDF數(shù)據(jù)集,其中所用的術(shù)語如類的名稱,謂詞均來自定義詞匯表.
除了關(guān)系型數(shù)據(jù)庫之外,還有許多以半結(jié)構(gòu)化方式存儲(如XML,CSV,JSON等格式)的歷史數(shù)據(jù)也是高質(zhì)量的知識來源,同樣可以采用RDF數(shù)據(jù)模型將其合并到知識圖譜當中.當前已經(jīng)有許多這樣的工具軟件,例如XSPARQL支持從XML格式轉(zhuǎn)化為RDF,Datalift支持從XML和CSV格式轉(zhuǎn)化為RDF,經(jīng)過RDF轉(zhuǎn)化的知識元素,經(jīng)實體鏈接之后,就可以加入到知識庫中,實現(xiàn)知識合并[55].
2.3知識加工
通過信息抽取,可以從原始語料中提取出實體、關(guān)系與屬性等知識要素.再經(jīng)過知識融合,可以消除實體指稱項與實體對象之間的歧義,得到一系列基本的事實表達.然而,事實本身并不等于知識,要想最終獲得結(jié)構(gòu)化、網(wǎng)絡化的知識體系,還需要經(jīng)歷知識加工的過程.知識加工主要包括3方面內(nèi)容:本體構(gòu)建、知識推理和質(zhì)量評估.
2.3.1本體構(gòu)建
本體(ontology)是對概念進行建模的規(guī)范,是描述客觀世界的抽象模型,以形式化方式對概念及其之間的聯(lián)系給出明確定義.本體的最大特點在于它是共享的,本體中反映的知識是一種明確定義的共識.雖然在不同時代和領(lǐng)域,學者們對本體曾經(jīng)給出過不同的定義,但這些定義的內(nèi)涵是一致的,即:本體是同一領(lǐng)域內(nèi)的不同主體之間進行交流的語義基礎(chǔ)[56].本體是樹狀結(jié)構(gòu),相鄰層次的節(jié)點(概念)之間具有嚴格的“IsA”關(guān)系,這種單純的關(guān)系有助于知識推理,但卻不利于表達概念的多樣性.在知識圖譜中,本體位于模式層,用于描述概念層次體系是知識庫中知識的概念模板[57].
本體可以采用人工編輯的方式手動構(gòu)建(借助本體編輯軟件),也可以采用計算機輔助,以數(shù)據(jù)驅(qū)動的方式自動構(gòu)建,然后采用算法評估和人工審核相結(jié)合的方式加以修正和確認.對于特定領(lǐng)域而言,可以采用領(lǐng)域?qū)<液捅姲姆绞饺斯?gòu)建本體.然而對于跨領(lǐng)域的全局本體庫而言,采用人工方式不僅工作量巨大,而且很難找到符合要求的專家.因此,當前主流的全局本體庫產(chǎn)品,都是從一些面向特定領(lǐng)域的現(xiàn)有本體庫出發(fā),采用自動構(gòu)建技術(shù)逐步擴展得到的.例如微軟發(fā)布的Probase本體庫就是采用數(shù)據(jù)驅(qū)動的自動化構(gòu)建方法,利用統(tǒng)計機器學習算法迭代地從網(wǎng)頁文本數(shù)據(jù)中抽取出概念之間的“IsA”關(guān)系,然后合并形成概念層次.目前,Probase中包含了超過270萬條概念,準確率高達92.8%,在規(guī)模和準確性方面居于領(lǐng)先地位[58].
數(shù)據(jù)驅(qū)動的自動化本體構(gòu)建過程包含3個階段:實體并列關(guān)系相似度計算、實體上下位關(guān)系抽取以及本體的生成[59].1)實體并列關(guān)系相似度是用于考察任意給定的2個實體在多大程度上屬于同一概念分類的指標測度,相似度越高,表明這2個實體越有可能屬于同一語義類別.所謂并列關(guān)系,是相對于縱向的概念隸屬關(guān)系而言的.例如“中國”和“美國”作為國家名稱的實體,具有較高的并列關(guān)系相似度;而“美國”和“手機”這2個實體,屬于同一語義類別的可能性較低,因此具有較低的并列關(guān)系相似度.2)實體上下位關(guān)系抽取是用于確定概念之間的隸屬(IsA)關(guān)系,這種關(guān)系也稱為上下位關(guān)系,例如,詞組(導彈,武器)構(gòu)成上下位關(guān)系,其中的“導彈”為下位詞,“武器”為上位詞.3)本體生成階段的主要任務是對各層次得到的概念進行聚類,并對其進行語義類的標定(為該類中的實體指定1個或多個公共上位詞).
當前主流的實體并列關(guān)系相似度計算方法有2種:模式匹配法和分布相似度法.其中,模式匹配法采用預先定義實體對模式的方式,通過模式匹配取得給定關(guān)鍵字組合在同一語料單位中共同出現(xiàn)的頻率,據(jù)此計算實體對之間的相似度.分布相似度(distributional similarity)方法的前提假設是:在相似的上下文環(huán)境中頻繁出現(xiàn)的實體之間具有語義上的相似性[60].在具體計算時,首先將每個實體表示成1個N維向量,其中,向量的每個維度表示1個預先定義的上下文環(huán)境,向量元素值表示該實體出現(xiàn)在各上下文環(huán)境中的概率,然后就可以通過求解向量間的相似度,得到實體間的并列關(guān)系相似度.
實體上下位關(guān)系抽取是該領(lǐng)域的研究重點,主要的研究方法是基于語法模式(如Hearst模式)抽取IsA實體對[57].當前主流的信息抽取系統(tǒng),如KnowItAll,TextRunner,NELL等,都可以在語法層面抽取實體上下位關(guān)系,而Probase則是采用基于語義的迭代抽取技術(shù),以逐步求精的方式抽取實體上下位關(guān)系.基于語義的迭代抽取技術(shù),一般是利用概率模型判定IsA關(guān)系和區(qū)分上下位詞,通常會借助百科類網(wǎng)站提供的概念分類知識來幫助訓練模型,以提高算法精度[61].例如Probase在處理“domestic animals other than dogs such as cats”這樣的句子時,可以通過抽取IsA實體對中的上下位詞得到2個備選事實:(cat,IsA,dog)和(cat,IsA,domestic animal).如果Probase中已經(jīng)有關(guān)于這些實體的概念,就可以得到正確的結(jié)果[58].
除了數(shù)據(jù)驅(qū)動的方法,還可以用跨語言知識鏈接的方法來構(gòu)建本體庫.例如Wang等人[62]利用跨語言知識鏈接方法得到的知識對,在分別生成中英文本體模型的過程中,使二者相互確認,同時提高了中文關(guān)系和英文關(guān)系預測的準確度.
當前對本體生成方法的研究工作主要集中于實體聚類方法,主要的挑戰(zhàn)在于經(jīng)過信息抽取得到的實體描述非常簡短,缺乏必要的上下文信息,導致多數(shù)統(tǒng)計模型不可用.例如Wang等人[63]利用基于主題進行層次聚類的方法得到本體結(jié)構(gòu),為了解決主題模型不適用于短文本的問題,提出了一個基于單詞共現(xiàn)網(wǎng)絡(term co-occurrence network)的主題聚類和上位詞抽取模型(CATHY),實現(xiàn)了基于短文本的主題聚類.Liu等人[64]則采用貝葉斯模型對實體關(guān)鍵詞進行分層聚類,經(jīng)過改進的算法具有近似線性的復雜度(O(nlogn)),能夠在1 h內(nèi)從100萬關(guān)鍵詞中抽取出特定領(lǐng)域的本體.
2.3.2知識推理
知識推理是指從知識庫中已有的實體關(guān)系數(shù)據(jù)出發(fā),經(jīng)過計算機推理,建立實體間的新關(guān)聯(lián),從而拓展和豐富知識網(wǎng)絡.知識推理是知識圖譜構(gòu)建的重要手段和關(guān)鍵環(huán)節(jié),通過知識推理,能夠從現(xiàn)有知識中發(fā)現(xiàn)新的知識.例如已知(乾隆,父親,雍正)和(雍正,父親,康熙),可以得到(乾隆,祖父,康熙)或(康熙,孫子,乾隆).知識推理的對象并不局限于實體間的關(guān)系,也可以是實體的屬性值、本體的概念層次關(guān)系等.例如已知某實體的生日屬性,可以通過推理得到該實體的年齡屬性.根據(jù)本體庫中的概念繼承關(guān)系,也可以進行概念推理,例如已知(老虎,科,貓科)和(貓科,目,食肉目),可以推出(老虎,目,食肉目).
知識的推理方法可以分為2大類:基于邏輯的推理和基于圖的推理.
基于邏輯的推理主要包括一階謂詞邏輯、描述邏輯以及基于規(guī)則的推理.一階謂詞邏輯建立在命題的基礎(chǔ)上,在一階謂詞邏輯中,命題被分解為個體(individuals)和謂詞(predication)2部分.個體是指可獨立存在的客體,可以是一個具體的事物,例如奧巴馬,也可以是一個抽象的概念,例如學生.謂詞是用來刻畫個體的性質(zhì)及事物關(guān)系的詞,例如三元組(A,friend,B)中friend就是表達個體A和B關(guān)系的謂詞.舉例來說,對于人際關(guān)系可以采用一階謂詞邏輯進行推理,方法是將關(guān)系視為謂詞,將人物視為變元,采用邏輯運算符號表達人際關(guān)系,然后設定關(guān)系推理的邏輯和約束條件,就可以實現(xiàn)簡單關(guān)系的邏輯推理.
對于復雜的實體關(guān)系,可以采用描述邏輯進行推理.描述邏輯(description logic)是一種基于對象的知識表示的形式化工具,是一階謂詞邏輯的子集,它是本體語言推理的重要設計基礎(chǔ).基于描述邏輯的知識庫一般包含TBox(terminology box)與ABox(assertion box),其中,TBox是用于描述概念之間和關(guān)系之間的關(guān)系的公理集合,ABox是描述具體事實的公理集合.借助這2個工具,可以將基于描述邏輯的推理最終歸結(jié)為ABox的一致性檢驗問題,從而簡化并最終實現(xiàn)關(guān)系推理[65].
當基于本體的概念層次進行推理時,對象主要是以Web本體語言(OWL)描述的概念,OWL提供豐富的語句,具有很強的知識描述能力.然而在描述屬性合成和屬性值轉(zhuǎn)移方面,網(wǎng)絡本體語言的表達能力就顯得不足,為了實現(xiàn)推理,可以利用專門的規(guī)則語言(如semantic Web rule language,SWRL)對本體模型添加自定義規(guī)則進行功能拓展.例如Lu等人[66]借助SWRL規(guī)則向本體庫添加實體隱含關(guān)系推理規(guī)則,據(jù)此實現(xiàn)了網(wǎng)絡服務的匹配機制.
基于圖的推理方法主要基于神經(jīng)網(wǎng)絡模型或Path Ranking算法.例如Socher等人[67]將知識庫中的實體表達為詞向量的形式,進而采用神經(jīng)張量網(wǎng)絡模型(neural tensor networks)進行關(guān)系推理,在WordNet和FreeBase等開放本體庫上對未知關(guān)系進行推理的準確率分別達到86.2%和90.0%.
開放域信息抽取技術(shù)極大地拓展了知識圖譜的知識來源,知識庫內(nèi)容的極大豐富為知識推理技術(shù)的發(fā)展提供了新的機遇和挑戰(zhàn),現(xiàn)有的知識推理技術(shù)已經(jīng)明顯滯后于需求.由于推理得到的知識準確性低、冗余度高,因此在將其加入到知識庫之前,通常需要進行可證明性檢查、矛盾性檢查、冗余性檢查以及獨立性檢查,以確保推理的知識加入知識庫后不會產(chǎn)生矛盾和冗余[69].在實際應用中,知識庫的構(gòu)建者為保證知識庫應用的時效性,通常僅保留部分與業(yè)務密切相關(guān)的知識,而放棄其他推理結(jié)果.
此外,跨知識庫的知識推理也是大趨勢,同時也帶來新的挑戰(zhàn),已經(jīng)有部分學者開始關(guān)注這一問題.例如盧道設等人[70]通過對描述邏輯的表現(xiàn)形式進行擴展,提出了一種基于組合描述邏輯的Tableau算法,基于概念的相似性對不同領(lǐng)域的概念進行關(guān)聯(lián).實驗結(jié)果表明,基于組合描述邏輯的推理方法可以利用不同知識庫中的已有知識進行推理,該成果為跨知識庫的知識推理方法研究提供了新的思路.
2.3.3質(zhì)量評估
質(zhì)量評估也是知識庫構(gòu)建技術(shù)的重要組成部分.1)受現(xiàn)有技術(shù)水平的限制,采用開放域信息抽取技術(shù)得到的知識元素有可能存在錯誤(如實體識別錯誤、關(guān)系抽取錯誤等),經(jīng)過知識推理得到的知識的質(zhì)量同樣也是沒有保障的,因此在將其加入知識庫之前,需要有一個質(zhì)量評估的過程;2)隨著開放關(guān)聯(lián)數(shù)據(jù)項目的推進,各子項目所產(chǎn)生的知識庫產(chǎn)品間的質(zhì)量差異也在增大,數(shù)據(jù)間的沖突日益增多,如何對其質(zhì)量進行評估,對于全局知識圖譜的構(gòu)建起著重要的作用.引入質(zhì)量評估的意義在于:可以對知識的可信度進行量化,通過舍棄置信度較低的知識,可以保障知識庫的質(zhì)量.
為解決知識庫之間的沖突問題,Mendes等人[53]在LDIF框架基礎(chǔ)上提出了一種新的質(zhì)量評估方法(Sieve方法),支持用戶根據(jù)自身業(yè)務需求靈活定義質(zhì)量評估函數(shù),也可以對多種評估方法的結(jié)果進行綜合考評以確定知識的最終質(zhì)量評分.
在對REVERB系統(tǒng)的信息抽取質(zhì)量進行評估時,F(xiàn)ader等人[21]采用人工標注方式對1 000個句子中的實體關(guān)系三元組進行了標注,并以此作為訓練集,得到了一個邏輯斯蒂回歸模型,用于對REVERB系統(tǒng)的信息抽取結(jié)果計算置信度.
谷歌的KnowledgeVault項目從全網(wǎng)范圍內(nèi)抽取結(jié)構(gòu)化的數(shù)據(jù)信息,并根據(jù)某一數(shù)據(jù)信息在整個抽取過程中抽取到的頻率對該數(shù)據(jù)信息的可信度進行評分,然后利用從可信知識庫Freebase中得到先驗知識對先前的可信度信息進行修正,實驗結(jié)果表明,這一方法可以有效降低對數(shù)據(jù)信息正誤判斷的不確定性,提高知識圖譜中知識的質(zhì)量[71].
對于用戶貢獻的結(jié)構(gòu)化知識的評估,與通過信息抽取獲得的知識評估方法稍有不同.谷歌提出了一種依據(jù)用戶的貢獻歷史和領(lǐng)域,以及問題的難易程度進行自動評估用戶貢獻知識質(zhì)量的方法.用戶提交知識后,該方法可以立刻計算出知識的可信度.使用該方法對大規(guī)模的用戶貢獻知識的評估準確率達到了91%,召回率達到了80%[72].
2.4知識更新
人類所擁有的信息和知識量都是時間的單調(diào)遞增函數(shù),因此知識圖譜的內(nèi)容也需要與時俱進,其構(gòu)建過程是一個不斷迭代更新的過程.
從邏輯上看,知識庫的更新包括概念層的更新和數(shù)據(jù)層的更新.概念層的更新是指新增數(shù)據(jù)后獲得了新的概念,需要自動將新的概念添加到知識庫的概念層中.數(shù)據(jù)層的更新主要是新增或更新實體、關(guān)系和屬性值,對數(shù)據(jù)層進行更新需要考慮數(shù)據(jù)源的可靠性、數(shù)據(jù)的一致性(是否存在矛盾或冗余等問題)等多方面因素.當前流行的方法是選擇百科類網(wǎng)站等可靠數(shù)據(jù)源,并選擇在各數(shù)據(jù)源中出現(xiàn)頻率高的事實和屬性加入知識庫.知識的更新也可以采用眾包的模式(如Freebase),而對于概念層的更新,則需要借助專業(yè)團隊進行人工審核.
知識圖譜的內(nèi)容更新有2種方式:數(shù)據(jù)驅(qū)動下的全面更新和增量更新.所謂全面更新是指以更新后的全部數(shù)據(jù)為輸入,從零開始構(gòu)建知識圖譜.這種方式比較簡單,但資源消耗大,而且需要耗費大量人力資源進行系統(tǒng)維護;而增量更新,則是以當前新增數(shù)據(jù)為輸入,向現(xiàn)有知識圖譜中添加新增知識.這種方式資源消耗小,但目前仍需要大量人工干預(定義規(guī)則等),因此實施起來十分困難[52].
3跨語言知識圖譜的構(gòu)建
隨著英文知識圖譜技術(shù)的快速發(fā)展,各語種的知識庫建設也處在快速發(fā)展變化當中,跨語言知識圖譜的構(gòu)建技術(shù)也因此成為該領(lǐng)域的研究熱點.對我國學者而言,更應發(fā)揮我們在中文信息處理方面的天然優(yōu)勢,面對挑戰(zhàn)和機遇,做出應有的貢獻.
研究構(gòu)建跨語言知識圖譜的意義在于:1)由于各語種知識分布不均勻,對其進行融合可以有效地彌補單語種知識庫的不足;2)可以充分利用多語種在知識表達方式上的互補性,增加知識的覆蓋率和共享度;3)構(gòu)建跨語言知識圖譜可以比較不同語言對同一知識的表述,進而達到過濾錯誤信息,更新過時信息的目的.因此需要在多個語種間實現(xiàn)知識的融合,構(gòu)建多語種知識間的映射關(guān)系.
跨語言知識圖譜可以應用于跨語言的信息檢索、機器翻譯以及跨語言知識問答等.由于其廣泛的應用前景,跨語言知識圖譜的構(gòu)建正得到學術(shù)界及業(yè)界的廣泛重視.構(gòu)建跨語言的知識圖譜需要處理好3個關(guān)鍵問題:1)跨語言本體的構(gòu)建;2)跨語言知識抽取;3)跨語言知識鏈接.其中,跨語言本體的構(gòu)建可以參照2.3.1節(jié)介紹的本體構(gòu)建方法,分別建立各語種的本體庫,此處不再贅述.
3.1跨語言知識抽取
由于不同語種間的知識分布存在不均衡性,將多語種知識進行融合可以有效地彌補單語種知識的不足,因此跨語言的知識抽取研究日益受到國內(nèi)外重視,例如歐盟的Xlike項目和我國的XLore項目等.Xlike項目是由歐盟發(fā)起的框架項目,目的是對散布在世界各國主流媒體上的知識進行整合,實現(xiàn)跨語言的信息發(fā)布、媒體監(jiān)督和商業(yè)智能服務,重點研究英、德、西、中、印等世界主流語言的跨語言知識抽取技術(shù).XLore項目是清華大學構(gòu)建的基于中英文的跨語言知識圖譜,其中文知識源包括百度百科、互動百科以及中文維基百科,英文知識源為英文維基百科,該項目實現(xiàn)了跨語言知識圖譜的構(gòu)建,并能夠提供中英文知識問答服務[73].
跨語言知識抽取的主要思路是借助于豐富的源語種知識自動化抽取缺失的目標語種知識.例如Nguye等人[74]采用基于翻譯的跨語言知識抽取模型,該模型首先通過跨語言知識鏈接和屬性對齊的方式將目標語種的相關(guān)內(nèi)容映射到源語種知識庫中所對應的內(nèi)容,然后將相關(guān)知識翻譯為目標語種,從而實現(xiàn)跨語言的知識抽取.這種方法的主要問題在于:1)受到不同語種間等價對象的數(shù)量以及源語種知識庫中結(jié)構(gòu)化信息(信息框)數(shù)量的限制;2)知識抽取的質(zhì)量直接受機器翻譯的質(zhì)量限制.
針對跨語言知識抽取中存在的主題遷移和翻譯錯誤問題,Wang等人[75]提出了一種基于遷移學習的跨語言知識抽取框架(WikiCiKE),該框架利用源語種知識庫中豐富的無結(jié)構(gòu)文本信息以及結(jié)構(gòu)化信息,提高了目標語種知識庫中信息抽取的數(shù)量和質(zhì)量.通過與單語種知識抽取模型和基于翻譯的跨語言知識抽取模型進行實驗比較,WikiCiKE模型在4種典型屬性信息(職業(yè)、國籍、母親、故鄉(xiāng))上的信息抽取準確率和召回率分別提升了12.65%和12.47%,明顯優(yōu)于前2種抽取模型.
3.2跨語言知識鏈接
知識鏈接是構(gòu)建跨語言知識圖譜需要解決的關(guān)鍵問題之一,其主要思想是將不同語言表示的相同知識鏈接起來,包括模式層的鏈接和數(shù)據(jù)層的鏈接.
模式層鏈接的核心是本體映射(對齊),其內(nèi)涵是如果2個本體間如果存在語義上的概念關(guān)聯(lián),則通過語義關(guān)聯(lián)實現(xiàn)二者之間的映射,本體映射的目的是實現(xiàn)知識的共享和重用.例如在合并2個本體知識庫時,由于各自建立的依據(jù)不同,以及本體所對應的實例對象的個體豐富性,本體間的沖突在所難免,因此需要首先建立本體間的映射關(guān)系,然后再對知識圖譜的數(shù)據(jù)層進行合并.當前主要研究的是單語種本體之間的映射,跨語言本體映射(cross-lingualontologymapping或alignment)的研究還處于起步階段.
跨語言本體映射研究的目標是實現(xiàn)不同語言的本體庫之間的本體映射,當前主流的做法是使用翻譯工具將其中一種語言的本體庫翻譯成另外一種語言,從而將跨語種本體映射問題轉(zhuǎn)化為單語種本體映射問題.例如Fu等人[76]提出SOCOM方法分為3個階段:1)將其他語言的本體翻譯成目標語言的本體(稱為rendering);2)執(zhí)行單語言的實體對齊操作(稱為matching);3)對映射的結(jié)果進行評估(稱為matchingaudit),接受置信度高的映射結(jié)果.
Wang等人[77]提出了基于鏈接因子圖模型的跨語言知識鏈接方法,根據(jù)本體的出鏈相似度、入鏈相似度、開放分類相似度以及作者興趣相似度進行本體映射,實驗表明該方法在多語維基百科上的預測準確率達到85.8%,召回率達到88.1%.同時,使用該模型可以在英文維基百科和中文百度百科中找到202 141組跨語言知識對.
基于鏈接相似度方法的準確性主要依賴于鏈接的結(jié)構(gòu)和數(shù)量,使得一次發(fā)現(xiàn)的鏈接數(shù)量有限,會導致跨語言知識鏈接不準確.針對該問題,Wang等人[78]進一步提出了基于語義標注的增量式跨語言知識鏈接方法.1)利用少量的跨語言知識鏈接對,以及一些知識庫內(nèi)部鏈接作為種子;2)使用語義標注的方法豐富知識庫內(nèi)部鏈接;3)使用回歸模型計算不同特征的權(quán)重,預測新的跨語言的知識鏈接,語義標注和知識鏈接預測結(jié)果相互迭代,不斷增強.該方法在中英文維基百科數(shù)據(jù)集上有效提高了跨語言知識鏈接對的識別數(shù)量和質(zhì)量.
4知識圖譜的應用
通過知識圖譜,不僅可以將互聯(lián)網(wǎng)的信息表達成更接近人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式.目前知識圖譜技術(shù)主要用于智能語義搜索、移動個人助理(如Google Now,Apple Siri等)以及深度問答系統(tǒng)(如IBM Watson,Wolfram Alpha等),支撐這些應用的核心技術(shù)正是知識圖譜技術(shù).
在智能語義搜索應用中,當用戶發(fā)起查詢時,搜索引擎會借助知識圖譜的幫助對用戶查詢的關(guān)鍵字進行解析和推理,進而將其映射到知識圖譜中的一個或一組概念之上,然后根據(jù)知識圖譜中的概念層次結(jié)構(gòu),向用戶返回圖形化的知識結(jié)構(gòu)(其中包含指向資源頁面的超鏈接信息),這就是我們在谷歌和百度的搜索結(jié)果中看到的知識卡片.
在深度問答應用中,系統(tǒng)同樣會首先在知識圖譜的幫助下對用戶使用自然語言提出的問題進行語義分析和語法分析,進而將其轉(zhuǎn)化成結(jié)構(gòu)化形式的查詢語句,然后在知識圖譜中查詢答案.對知識圖譜的查詢通常采用基于圖的查詢語句(如SPARQL),在查詢過程中,通常會基于知識圖譜對查詢語句進行多次等價變換.例如,如果用戶提問:“如何判斷是否感染了埃博拉病毒?”,則該查詢有可能被等價變換成“感染埃博拉病毒的癥狀有哪些?”,然后再進行推理變換,最終形成等價的三元組查詢語句,如(埃博拉,癥狀,?)和(埃博拉,征兆,?)等,據(jù)此進行知識圖譜查詢得到答案.深度問答應用經(jīng)常會遇到知識庫中沒有現(xiàn)成答案的情況,對此可以采用知識推理技術(shù)給出答案(參見2.4節(jié)).如果由于知識庫不完善而無法通過推理解答用戶的問題,深度問答系統(tǒng)還可以利用搜索引擎向用戶反饋搜索結(jié)果,同時根據(jù)搜索的結(jié)果更新知識庫,從而為回答后續(xù)的提問提前做出準備.
基于知識圖譜的問答系統(tǒng)大致可以分為2類:基于信息檢索的問答系統(tǒng)和基于語義分析的問答系統(tǒng).其中,前者的主要代表是Jacana-Freebase系統(tǒng)①和華盛頓大學的Paralex系統(tǒng)②;后者的主要代表是斯坦福大學的SEMPRE系統(tǒng)③,分別介紹如下:
1) 基于信息檢索的問答系統(tǒng)的基本思路是首先將問題轉(zhuǎn)變?yōu)橐粋€基于知識庫的結(jié)構(gòu)化查詢,從知識庫中抽取與問題中實體相關(guān)的信息來生成多個候選答案,然后再從候選答案中識別出正確答案.Yao等人[79]基于Freebase知識庫,對于一個給定的問題首先識別其中的疑問詞、問題焦點詞(暗示答案的類型)、問題主題詞(知識庫中的節(jié)點,即實體);識別問題中表示關(guān)系的詞,并將關(guān)系詞映射成Freebase中的關(guān)系謂詞;根據(jù)問題主題詞在Freebase知識庫找到對應的節(jié)點和其相關(guān)的其他節(jié)點,以相關(guān)節(jié)點作為候選答案,遍歷所有相關(guān)節(jié)點的屬性和關(guān)系類型;從相關(guān)節(jié)點中識別出與關(guān)系詞對應的節(jié)點作為答案.Berant等人[80]基于Freebase知識庫,將給定問題轉(zhuǎn)化為多個邏輯形式(logic form);根據(jù)抽取出的邏輯形式依據(jù)某種模式產(chǎn)生相對應的問題;計算產(chǎn)生的問題與原來輸入問題的相似度.
2) 基于語義分析的問答系統(tǒng)的基本思路是首先通過語義分析正確理解問題的含義,然后將問題轉(zhuǎn)變?yōu)橹R庫的精確查詢,直接找到正確答案.Fader等人[81]基于Freebase和Probase知識庫,首先將給定的問題分解成小的問題,然后逐一進行解答,最后將答案合并.Berant等人[82]基于Freebase知識庫,對于給定的問題,首先利用對齊規(guī)則將問題中實體、關(guān)系詞、疑問詞映射成知識庫中的實體與關(guān)系謂詞,然后將相鄰的實體,關(guān)系謂詞進行橋接,由此產(chǎn)生新的謂詞,最后將問題中的所有謂詞取交集形成一個精確的查詢語句,再直接利用該查詢得到答案.
5問題與挑戰(zhàn)
知識圖譜是一個新概念,從2012年提出到現(xiàn)在不過2年時間,然而通過對知識圖譜構(gòu)建技術(shù)體系進行深入觀察和分析,可以看出它事實上是建立在多個學科領(lǐng)域研究成果基礎(chǔ)之上的一門實用技術(shù),堪稱是信息檢索(information retrieval)、自然語言處理(natural language processing)、萬維網(wǎng)(WWW)和人工智能(artificial intelligence)等領(lǐng)域交匯處的理論研究熱點和應用技術(shù)集大成者.
雖然谷歌的Knowledge Vault和微軟的Satori等項目已經(jīng)部分揭示出知識圖譜技術(shù)的魅力和前景,但通過以上分析不難看出,在知識圖譜構(gòu)建的各關(guān)鍵環(huán)節(jié)都面臨著一些巨大的困難和挑戰(zhàn).
1) 在信息抽取環(huán)節(jié),面向開放域的信息抽取方法研究還處于起步階段,部分研究成果雖然在特定(語種、領(lǐng)域、主題等)數(shù)據(jù)集上取得了較好的結(jié)果,但普遍存在算法準確性和召回率低、限制條件多、擴展性不好的問題.因此,要想建成面向全球的知識圖譜,第1個挑戰(zhàn)來自開放域信息抽取,主要的問題包括實體抽取、關(guān)系抽取以及屬性抽取.其中,多語種、開放領(lǐng)域的純文本信息抽取問題是當前面臨的重要挑戰(zhàn).
2) 在知識融合環(huán)節(jié),如何實現(xiàn)準確的實體鏈接是一個主要挑戰(zhàn).雖然關(guān)于實體消歧和共指消解技術(shù)的研究已經(jīng)有很長的歷史,然而迄今為止所取得的研究成果距離實際應用還有很大距離.主要的研究問題包括開放域條件下的實體消歧、共指消解、外部知識庫融合和關(guān)系數(shù)據(jù)庫知識融合等問題.當前受到學術(shù)界普遍關(guān)注的問題是如何在上下文信息受限(短文本、跨語境、跨領(lǐng)域等)條件下,準確地將從文本中抽取得到的實體正確鏈接到知識庫中對應的實體.
3) 知識加工是最具特色的知識圖譜技術(shù),同時也是該領(lǐng)域最大的挑戰(zhàn)之所在.主要的研究問題包括:本體的自動構(gòu)建、知識推理技術(shù)、知識質(zhì)量評估手段以及推理技術(shù)的應用.目前,本體構(gòu)建問題的研究焦點是聚類問題,對知識質(zhì)量評估問題的研究則主要關(guān)注建立完善的質(zhì)量評估技術(shù)標準和指標體系.知識推理的方法和應用研究是當前該領(lǐng)域最為困難,同時也是最為吸引人的問題,需要突破現(xiàn)有技術(shù)和思維方式的限制,知識推理技術(shù)的創(chuàng)新也將對知識圖譜的應用產(chǎn)生深遠影響.
4) 在知識更新環(huán)節(jié),增量更新技術(shù)是未來的發(fā)展方向,然而現(xiàn)有的知識更新技術(shù)嚴重依賴人工干預.可以預見隨著知識圖譜的不斷積累,依靠人工制定更新規(guī)則和逐條檢視的舊模式將會逐步降低比重,自動化程度將不斷提高,如何確保自動化更新的有效性,是該領(lǐng)域面臨的又一重大挑戰(zhàn).
5) 最具基礎(chǔ)研究價值的挑戰(zhàn)是如何解決知識的表達、存儲與查詢問題,這個問題將伴隨知識圖譜技術(shù)發(fā)展的始終,對該問題的解決將反過來影響前面提出的挑戰(zhàn)和關(guān)鍵問題.當前的知識圖譜主要采用圖數(shù)據(jù)庫進行存儲,在受益于圖數(shù)據(jù)庫帶來的查詢效率的同時,也失去了關(guān)系型數(shù)據(jù)庫的優(yōu)點,如SQL語言支持和集合查詢效率等.在查詢方面,如何處理自然語言查詢,對其進行分析推理,翻譯成知識圖譜可理解的查詢表達式以及等價表達式等也都是知識圖譜應用需解決的關(guān)鍵問題.
6結(jié)束語
互聯(lián)網(wǎng)正從包含網(wǎng)頁和網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)(Web of document)轉(zhuǎn)變成包含大量描述各種實體和實體之間豐富關(guān)系的數(shù)據(jù)萬維網(wǎng)(Web of data).知識圖譜作為下一代智能搜索的核心關(guān)鍵技術(shù),具有重要的理論研究價值和現(xiàn)實的實際應用價值.本文從知識圖譜構(gòu)建的視角,對知識圖譜的內(nèi)涵,以及知識圖譜構(gòu)建關(guān)鍵技術(shù)的研究發(fā)展現(xiàn)狀進行了全面調(diào)研和深入分析,并對知識圖譜構(gòu)建工作面臨的重要挑戰(zhàn)和關(guān)鍵問題進行了總結(jié).
知識圖譜的重要性不僅在于它是一個全局知識庫,是支撐智能搜索和深度問答等智能應用的基礎(chǔ),而且在于它是一把鑰匙,能夠打開人類的知識寶庫,為許多相關(guān)學科領(lǐng)域開啟新的發(fā)展機會.從這個意義上來看,知識圖譜不僅是一項技術(shù),更是一項戰(zhàn)略資產(chǎn).本文的主要目的是介紹和宣傳這項技術(shù),希望吸引更多人重視和投入這項研究工作.
參考文獻
[1]Christian B, Heath T, Berners-Lee T. Linked data-the story so far[J]. International Journal on Semantic Web and Information Systems, 2009, 5(3): 1-22
[2]Chen Xueqi, Jin Xiaolong, Wang Yuanzhuo, et al. Survey on big data system and analytic technology[J]. Journal of Software, 2014, 25(9): 1889-1908 (in Chinese) (程學旗, 靳小龍, 王元卓, 等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學報, 2014, 25(9): 1889-1908)
[3]Wang Yuanzhuo, Jia Yantao, Liu Dawei, et al. Open Web knowledge aided information search and data mining[J]. Journal of Computer Research and Development, 2014, 52(2): 456-474 (in Chinese) (王元卓, 賈巖濤, 劉大偉, 等. 基于開放網(wǎng)絡知識的信息檢索與數(shù)據(jù)挖掘[J]. 計算機研究與發(fā)展, 2014, 52(2): 456-474)
[4]Cowie J, Lehnert W. Information extraction[J]. Communications of the ACM, 1996, 39(1): 80-91
[5]Chinchor N, Marsh E. Muc-7 information extraction task definition[C]Proc of the 7th Message Understanding Conf. Philadelphia: Linguistic Data Consortium, 1998: 359-367
[6]Rau L F. Extracting company names from text[C]Proc of the 7th IEEE Conf on Artificial Intelligence Applications. Piscataway, NJ: IEEE, 1991: 29-32
[7]Liu Xiaohua, Zhang Shaodian, Wei Furu, et al. Recognizing named entities in tweets[C]Proc of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2011: 359-367
[8]Lin Yifeng, Tsai Tzonghan, Chou Wenchi, et al. A maximum entropy approach to biomedical named entity recognition[C]Proc of the 4th ACM SIGKDD Workshop on Data Mining in Bioinformatics. New York: ACM, 2004: 56-61
[9]Sekine S, Sudo K, Nobata C. Extended named entity hierarchy[C]Proc of the 3rd Language Resources and Evaluation Conf. New York: European Language Resources Association, 2002: 1818-1824
[10]Ling Xiao, Weld D. S. Fine-grained entity recognition[C]Proc of the 26th Conf on Association for the Advancement of Artificial Intelligence. Menlo Park, CA: AAAI, 2012: 94-100
[11]Zhao Jun, Liu kang, Zhou Guangyou, et al. Open information extraction[J]. Journal of Chinese Information Processing, 2011, 25(6): 98-110 (in Chinese)(趙軍, 劉康, 周光有, 等. 開放式文本信息抽取[J]. 中文信息學報, 2011, 25(6): 98-110)
[12]Whitelaw C, Kehlenbeck A, Petrovic N, et al. Web-scale named entity recognition[C]Proc of the 17th ACM Conf on Information and Knowledge Management. New York: ACM, 2008: 123-132
[13]Jain A, Pennacchiotti M. Open entity extraction from Web search query logs[C]Proc of the 23rd Int Conf on Computational Linguistics. Stroudsburg, PA: ACL, 2010: 510-518
[14]Kambhatla N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]Proc of the 42nd Association for Computational Linguistics. Stroudsburg, PA: ACL, 2004: 1-22
[15]Liu Kebin, Li Fang, Liu Lei, et al. Implementation of a kernel-based chinese relation extraction system[J]. Journal of Computer Research and Development, 2007, 44(8): 1406-1411 (in Chinese)(劉克彬, 李芳, 劉磊, 等. 基于核函數(shù)中文關(guān)系自動抽取系統(tǒng)的實現(xiàn)[J]. 計算機研究與發(fā)展, 2007, 44(8): 1406-1411)
[16]Carlson A, Betteridge J, Wang R C, et al. Coupled semi-supervised learning for information extraction[C]Proc of the 3rd ACM Int Conf on Web Search and Data Mining. New York: ACM, 2010: 101-110
[17]Chen Liwei, Feng Yansong, Zhao Dongyan. Extracting relations from the Web via weakly supervised learning[J]. Journal of Computer Research and Development, 2013, 50(9): 1825-1835 (in Chinese)(陳立瑋 馮巖松 趙東巖. 基于弱監(jiān)督學習的海量網(wǎng)絡數(shù)據(jù)關(guān)系抽取[J]. 計算機研究與發(fā)展, 2013, 50(9): 1825-1835)
[18]Zhang Yiming, Zhou J F. A trainable method for extracting Chinese entity names and their relations[C]Proc of the 2nd Workshop on Chinese Language Conjunction with the 38th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2000: 66-72
[19]Banko M, Cafarella M J, Soderland S, et al. Open information extraction for the Web[C]Proc of the 20th Int Joint Conf on Artificial Intelligence. New York: ACM, 2007: 2670-2676
[20]Wu Fei, Weld D S. Open information extraction using Wikipedia[C]Proc of the 48th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2010: 118-127
[21]Fader A, Soderland S, Etzioni O. Identifying relations for open information extraction[C]Proc of the Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2011: 1535-1545
[22]Mausam, Schmitz M, Bart R, et al. Open language learning for information extraction[C]Proc of the Joint Conf on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg, PA: ACL, 2012: 523-534
[23]Banko M, Etzioni O. The Tradeoffs between open and traditional relation extraction[C]Proc of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2008: 28-36
[24]Zhu Jun, Nie Zaijiang, Liu Xiaojiang, et al. StatSnowball: A statistical approach to extracting entity relationships[C]Proc of the 18th Int Conf on World Wide Web. New York: ACM, 2009: 101-110
[25]Alan A, Alexander L. KrakeN: N-ary facts in open information extraction[C]Proc of the Joint Workshop on Automatic Knowledge Base Construction and Web-scale Knowledge Extraction. Stroudsburg, PA: ACL, 2012: 52-56
[26]McCallum A. Joint inference for natural language processing[C]Proc of the 13th Conf on Computational Natural Language Learning. Stroudsburg, PA: ACL, 2009: 1
[27]Guo Jianyi, Li Zhen, Yu Zhengtao, et al. Extraction and relation prediction of domain ontology concept instance, attribute and attribute[J]. Journal of Nanjing University:Natural Sciences, 2012, 48(4): 383-389 (in Chinese)(郭劍毅, 李真, 余正濤, 等. 領(lǐng)域本體概念實例、屬性和屬性值的抽取及關(guān)系預測[J]. 南京大學學報: 自然科學版, 2012, 48(4): 383-389)
[28]Suchanek F M, Kasneci G, Weikum G. Yago: A core of semantic knowledge[C]Proc of the 16th Int Conf on World Wide Web. New York: ACM, 2007: 697-706
[29]Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a Web of open data[C]Proc of the 6th Int Semantic Web Conf. Berlin: Springer, 2007: 722-735
[30]Wu Fei, Weld D S. Autonomously semantifying wikipedia[C]Proc of the 16th ACM Conf on Information and Knowledge Management. New York: ACM, 2007: 41-50
[31]Wang Yu, Tan Songbo, Liao Xiangwen, et al. Extracted domin model based named attribute extraction[J]. Journal of Computer Research and Development, 2010, 47(9): 1567-1573 (in Chinese)(王宇, 譚松波, 廖祥文, 等. 基于擴展領(lǐng)域模型的有名屬性抽取[J]. 計算機研究與發(fā)展, 2010, 47(9): 1567-1573)
[32]Li Yang, Wang Chi, Han Fangqiu, et al. Mining evidences for named entity disambiguation[C]Proc of the 19th Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2013: 1070-1078
[33]Han Xianpei, Sun Le, Zhao Jun. Collective entity linking in Web text: A graph-based method[C]Proc of the 34th Int ACM Conf on Research and Development in Information Retrieval. New York: ACM, 2011: 765-774
[34]Bagga A, Baldwin B. Entity-based cross-document coreferencing using the vector space model[C]Proc of the 17th Int Conf on Computational linguistics. Stroudsburg, PA: ACL, 1998: 79-85
[35]Pedersen T, Purandare A, Kulkarni A. Name discrimination by clustering similar contexts[G]Proc of the 6th Int Conf on Intelligent Text Processing and Computational Linguistics. Berlin:Springer, 2005: 220-231
[36]Malin B, Airoldi E, Carley K. A network analysis model for disambiguation of names in lists[J]. Computational & Mathematical Organization Theory, 2005, 11(2): 119-139
[37]Han Xianpei, Zhao Jun. Named entity disambiguation by leveraging wikipedia semantic knowledge[C]Proc of the 18th ACM Conf on Information and Knowledge Management. New York: ACM, 2009: 215-224
[38]Bunescu R, Pasca M. Using encyclopedic knowledge for named entity disambiguation[C]Proc of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2006: 9-16
[39]Sen P. Collective context-aware topic models for entity disambiguation[C]Proc of the 21st Int Conf on World Wide Web. New York: ACM, 2012: 729-738
[40]Shen Wei, Wang Jianyong, Luo Ping, et al. Linden: Linking named entities with knowledge base via semantic knowledge[C]Proc of the 21st Int Conf on World Wide Web. New York: ACM, 2012: 449-458
[41]Ratinov L, Roth D, Downey D, et al. Local and global algorithms for disambiguation to wikipedia[C]Proc of the 49th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2011: 1375-1384
[42]Ochs C, Tian T, Geller J, et al. Google knows who is famous today—building an ontology from search engine knowledge and DBpedia[C]Proc of the 5th IEEE Int Conf on Semantic Computing. Piscataway, NJ: IEEE, 2011: 320-327
[43]Hobbs J R. Resolving pronoun references[J]. Lingua, 1978, 44(4): 311-338
[44]Grosz B J, Weinstein S, Joshi A K. Centering: A framework for modeling the local coherence of discourse[J]. Computational Linguistics, 1995, 21(2): 203-225
[45]Lappin S, Shalom H J. An algorithm for pronominal anaphora resolution[J]. Computational Linguistics, 1994, 20(4): 535-561
[46]McCarthy J F, Lehnert W G. Using decision trees for coreference resolution[C]Proc of the 14th Int Joint Conf on Artificial Intelligence. San Francisco: Morgan Kaufmann, 1995: 1050-1055
[47]Bean D L, Riloff E. Unsupervised learning of contextual role knowledge for coreference resolution[C]Proc of the Human Language Technologies North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2004: 297-304
[48]Turney P. Mining the Web for synonyms: PMI-IR versus LSA on TOEFL[C]Proc of the 12th European Conf on Machine Learning. Berlin: Springer, 2001: 491-502
[49]Cheng Tao, Lauw H W, Paparizos S. Entity synonyms for structured Web search[J]. IEEE Trans on Knowledge and Data Engineering, 2012, 24(10): 1862-1875
[50]Pantel P, Crestan E, Borkovsky A, et al. Web-scale distributional similarity and entity set expansion[C]Proc of the 2009 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2009: 938-947
[51]Chakrabarti K, Chaudhuri S, Cheng Tao, et al. A framework for robust discovery of entity synonyms[C]Proc of the 18th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2012: 1384-1392
[52]Deshpande O, Lamba D S, Tourn M, et al. Building, maintaining, and using knowledge bases: A report from the trenches[C]Proc of the 32nd ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2013: 1209-1220
[53]Mendes P N, Mühleisen H, Bizer C. Sieve: Linked data quality assessment and fusion[C]Proc of the 2nd Int Workshop on Linked Web Data Management at Extending Database Technology. New York: ACM, 2012: 116-123
[54]Sahoo S S, Halb W, Hellmann S, et al. A survey of current approaches for mapping of relational databases to RDF[R]. Cambridge, MA: The W3C RDB2RDF Working Group, 2009
[55]Michel F, Montagnat J, Faron-Zucker C. A survey of RDB to RDF translation approaches and tools[R]. Nice, France: Informatics, Signals & Systems Lab (I3S), University of Nice-Sophia Antipolis, 2014
[56]Studer R, Benjamins V R, Fensel D. Knowledge engineering: Principles and methods[J]. Data & Knowledge Engineering, 1998, 25(1): 161-197
[57]Wong W, Liu Wei, Bennamoun M. Ontology learning from text: A look back and into the future[J]. ACM Computing Surveys, 2012, 44(4): 20123915468506
[58]Wu Wentao, Li Hongsong, Wang Haixun, et al. Probase: A probabilistic taxonomy for text understanding[C]Proc of the 31st ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2012: 481-492
[59]Shi Shuming. Automatic and semi-automatic knowledge extraction[J]. Communications of the CCF, 2013, 9(8): 65-73 ( in Chinese)(史樹明. 自動和半自動知識提取[J]. 中國計算機學會通訊, 2013, 9(8): 65-73)
[60]Harris Z S. Distributional structure[J]. Word, 1954, 10(23): 146-162
[61]Zeng Yi, Wang Dongsheng, Zhang Tielin, et al. CASIA-KB: A multi-source chinese semantic knowledge base built from structured and unstructured Web data[G]Semantic Technology. Berlin: Springer, 2014: 75-88
[62]Wang Zhigang, Li Juanzi, Li Shuangjie, et al. Cross-lingual knowledge validation based taxonomy derivation from heterogeneous online wikis[C]Proc of the 28th Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2014: 180-186
[63]Wang Chi, Danilevsky M, Desai N, et al. A phrase mining framework for recursive construction of a topical hierarchy[C]Proc of the 19th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mning. New York: ACM, 2013: 437-445
[64]Liu Xueqing, Song Yangqiu, Liu Shixia, et al. Automatic taxonomy construction from keywords[C]Proc of the 18th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2012: 1433-1441
[65]Lee T W, Lewicki M S, Girolami M, et al. Blind source separation of more sources than mixtures using overcomplete representations[J]. Signal Processing Letters, 1999, 6(4): 87-90
[66]Lu Shaoyuan, Hsu K H, Kuo Lijing. A semantic service match approach based on wordnet and SWRL rules[C]Proc of the 10th IEEE Int Conf on E-Business Engineering. Piscataway, NJ: IEEE, 2013: 419-422
[67]Socher R, Chen Dandi, Manning C D, et al. Reasoning with neural tensor networks for knowledge base completion[C]Proc of Neural Information Processing Systems. Nevada, USA: NIPS, 2013: 926-934
[68]Lao Ni, Mitchell T, Cohen W W. Random walk inference and learning in a large scale knowledge base[C]Proc of the Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2011: 529-539
[69]Yang Li, Hu Shouren. Knowledge base inference and maintain system[J]. Joural of National University of Defense Technology, 1991, 13(2): 127-133 (in Chinese)(楊莉, 胡守仁. 知識庫推理和維護系統(tǒng) (KBIMS)[J]. 國防科技大學學報, 1991, 13(2): 127-133)
[70]Lu Daoshe, Yang Shihan, Wu Jinzhao, et al. Interdisciplinary reasoning on description logic[J]. Journal of Application Research of Computers, 2013, 29(12): 4503-450 (in Chinese)(盧道設, 楊世瀚, 吳盡昭, 等. 基于描述邏輯的組合知識庫推理[J]. 計算機應用研究, 2013, 29(12): 4503-4506)
[71]Dong Xin, Gabrilovich E, Heitz G, et al. Knowledge vault: A Web-scale approach to probabilistic knowledge fusion[C]Proc of the 20th Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2014: 601-610
[72]Tan C H, Agichtein E, Ipeirotis P, et al. Trust, but verify: Predicting contribution quality for knowledge base construction and curation[C]Proc of the 7th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2014: 553-562
[73]Wang Zhigang, Li Juanzi, Wang Zhichun, et al. XLore: A large-scale english-chinese bilingual knowledge graph[C]Proc of the 12th Int Semantic Web Conf. New York: ACM, 2013: 121-124
[74]Nguyen T, Moreira V, Nguyen H, et al. Multilingual schema matching for wikipedia infoboxes[J]. The Proceedings of the VLDB Endowment, 2011, 5(2): 133-144
[75]Wang Zhigang, Li Zhixing, Li Juanzi, et al. Transfer learning based cross-lingual knowledge extraction for wikipedia[C]Proc of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL. 2013: 641-650
[76]Fu B, Brennan R, Declan O S. Cross-lingual ontology mapping and its use on the multilingual semantic Web[C]Proc of the 1st Workshop on the Multilingual Semantic Web, at the 19th Int World Wide Web Conf (WWW 2010). Tilburg, Netherlands: CEUR-WS, 2010: 13-20
[77]Wang Zhichun, Li Juanzi, Wang Zhigang, et al. Cross-lingual knowledge linking across wiki knowledge bases[C]Proc of the 21st Int Conf on World Wide Web. New York: ACM, 2012: 459-468
[78]Wang Zhichun, Li Juanzi, Tang Jie. Boosting cross-lingual knowledge linking via concept annotation[C]Proc of the 23rd Int Joint Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2013: 2733-2739
[79]Yao Xuchen, Benjamin V D. Information extraction over structured data: question answering with freebase[C]Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2014: 956-966
[80]Berant J, Liang P. Semantic parsing via paraphrasing[C]Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2014: 1415-1425
[81]Fader A, Zettlemoyer L, Etzioni O. Open question answering over curated and extracted knowledge bases[C]Proc of the 20th ACM Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2014: 1156-1165
[82]Berant J, Chou A, Frostig R, et al. Semantic parsing on freebase from question-answer pairs[C]Proc of the Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2013: 1533-1544
Liu Qiao, born in 1974. PhD, associate professor. Member of China Computer Federation. His main research interests include machine learning, data mining, natural language processing, and social network analysis.
Li Yang, born in 1990. Master, student member of China Computer Federation. His main research interests include knowledge graph, machine learning and natural language processing(kedashqs@163.com).
Duan Hong, born in 1974. Master, lecturer. His main research interests include machine learning and data mining, natural language processing, and social network analysis(dhpro@sina.com).
Liu Yao, born in 1978. PhD, lecturer. Member of China Computer Federation. Her main research interests include social network analysis, data mining, and network measurement(liuyao@uestc.edu.cn).
Qin Zhiguang, born in 1956. PhD, professor. Senior member of China Computer Federation. His main research interests include information security and mobile computing(qinzg@uestc.edu.cn).
中圖法分類號TP18
基金項目:國家“八六三”高技術(shù)研究發(fā)展計劃基金項目(2011AA010706);國家自然科學基金項目(61133016,61272527);教育部-中國移動科研基金項目(MCM20121041)
收稿日期:2014-11-06;修回日期:2015-04-08
This work was supported by the National High Technology Research and Development Program of China (863 Program) (2011AA010706), the National Natural Science Foundation of China (61133016,61272527), and Ministry of Education-ChinaMoblie Communications Corporation Research Funds (MCM20121041).