王曉陽,鄭驍慶,肖仰華
(復(fù)旦大學(xué) 計算機科學(xué)技術(shù)學(xué)院 上海市數(shù)據(jù)科學(xué)重點實驗室,上海 201203)
自萬維網(wǎng)(World Wide Web)誕生以來,經(jīng)歷半個多世紀(jì)的迅速發(fā)展與演化,其形式內(nèi)容與應(yīng)用模式都發(fā)生了顯著的變化。網(wǎng)絡(luò)應(yīng)用模式從由專業(yè)人員開發(fā)、以高訪問量為目標(biāo)的綜合門戶網(wǎng)站為主導(dǎo)的Web1.0時代,發(fā)展至眾人皆可參與、高度交互的社交媒體Web 2.0時期。萬維網(wǎng)正在向更高級的、以語義和智能技術(shù)應(yīng)用為代表的Web3.0發(fā)展,更加強調(diào)通過綜合多源異質(zhì)信息,以提供個性化的智能解答與服務(wù)。
與此同時,大數(shù)據(jù)概念及技術(shù)迅速滲入社會各層面。大數(shù)據(jù)的目標(biāo)是從存在“噪聲”的海量多源異質(zhì)異構(gòu)數(shù)據(jù)中,自動高效地發(fā)掘有價值的信息。將大數(shù)據(jù)分析中技術(shù)共性部分抽取出來,加以擴展,開發(fā)新一代面向網(wǎng)絡(luò)空間的搜索引擎,推進搜索引擎向?qū)ο蠖嘣?、?shù)據(jù)多樣化、信息融合化、解答智能化的方向發(fā)展,從而能夠提供契合用戶搜索意圖的智慧解決方案——“大搜索”的概念也應(yīng)運而生[1]。
大搜索或稱“智慧搜索”,指的是根據(jù)搜索請求,在網(wǎng)絡(luò)空間中進行搜索,形成相應(yīng)的智慧解決方案,最后返回以解決方案為搜索結(jié)果的過程。它與傳統(tǒng)搜索最大的不同在于:它的搜索內(nèi)容和對象由傳統(tǒng)的文本信息擴展到了物體、信息和人物,以及他們之間的關(guān)聯(lián)關(guān)系;它要求從網(wǎng)絡(luò)空間中獲取智能解答方案而非簡單的返回相關(guān)網(wǎng)頁。
實現(xiàn)智慧搜索面臨以下挑戰(zhàn)。1)網(wǎng)絡(luò)空間的數(shù)據(jù)獲取與組織。當(dāng)前網(wǎng)絡(luò)空間中所描述的實體對象(如人、物、概念、事件等)及關(guān)聯(lián)關(guān)系(如朋友、購買、參與等)的數(shù)量巨大、種類繁多。數(shù)據(jù)來源可包括互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、時空數(shù)據(jù)、企業(yè)、運營商等。智慧搜索需要融合多渠道、多模式的各種類型數(shù)據(jù),挖掘和發(fā)現(xiàn)其中潛在的、有價值的信息,并且形成相應(yīng)的知識框架及索引體系,以便于搜索、查詢與利用。2)用戶意圖的準(zhǔn)確理解。用戶查詢輸入方式多樣,充滿了語義方面的歧義。這需要智慧搜索能夠洞察與理解用戶真實的搜索意圖,在海量、多源、異構(gòu)、多態(tài)的數(shù)據(jù)中,利用他們之間語義關(guān)聯(lián)關(guān)系,實現(xiàn)實體對象及其關(guān)聯(lián)關(guān)系相關(guān)信息的有效搜索,提供最貼合用戶需求的搜索結(jié)果。3)滿足用戶查詢需求的智慧方案形成。傳統(tǒng)搜索引擎一般只能為用戶提供符合搜索要求的存在性信息(相關(guān)的網(wǎng)頁),而用戶的意圖具有多樣化、個性化等特點,需要根據(jù)其意圖形成一系列可供選擇的智慧解決方案。這需要實現(xiàn)搜索解答方案的智慧化,為用戶求解出智慧答案。因而如何根據(jù)用戶的搜索意圖,基于知識倉庫對有關(guān)知識進行求解,通過推理演算形成若干綜合的智慧解決方案則成為智慧搜索技術(shù)的關(guān)鍵所在。
應(yīng)對上述智慧搜索技術(shù)的挑戰(zhàn),一個重要的任務(wù)就是對實體對象及關(guān)聯(lián)關(guān)系進行建模,將網(wǎng)絡(luò)空間包含的各類實體關(guān)聯(lián)知識用有效的組織方式存儲,以支持智慧搜索。這里,“實體對象”或簡稱“實體”應(yīng)被理解為廣義的對象,包含世界中客觀存在的事物以及人類思維空間中的概念,他們之間相互作用、制約,由此形成一定的“關(guān)聯(lián)關(guān)系”或簡稱“關(guān)聯(lián)”。實體可以是名人、城市、球隊、電影、地標(biāo)性建筑、藝術(shù)品、概念、事件等,關(guān)聯(lián)則可以是人與人、概念與地點、人與物品以及地點與物品等之間存在的關(guān)系。利用實體以及他們之間的關(guān)聯(lián),不僅可以提高搜索精度和優(yōu)化搜索結(jié)果,還可以支撐語義分析、關(guān)聯(lián)分析、知識搜索和智能推薦等高層的服務(wù)。
簡單地說,實體對象與關(guān)聯(lián)關(guān)系建模就是要從網(wǎng)絡(luò)空間中抽取實體及關(guān)聯(lián)信息,形成知識庫。這是個工業(yè)界及學(xué)術(shù)界共同關(guān)心的問題,谷歌和百度的知識圖譜、搜狗的知立方都是這類知識庫的實例。表1顯示部分公開的知識圖譜及它們的規(guī)模。廣義上講,這個建模問題本質(zhì)上是解決如何使用計算機進行大規(guī)模多源知識的獲取、組織和使用的問題。它的必要性表現(xiàn)在以下方面。
1)實體對象及關(guān)聯(lián)關(guān)系建模是跨越語義鴻溝的關(guān)鍵,背景知識缺乏是語義鴻溝難以跨越的一個重要原因。現(xiàn)有機器可讀的知識庫在質(zhì)量上和完整性方面仍然難以達到人類語義理解的基本水平,但近年來研究開發(fā)的基于知識圖譜的知識庫,相對于傳統(tǒng)知識表示方法,在兼顧精準(zhǔn)性的同時,在完整性方面取得了長足的進步,它為用戶意圖理解、語義消歧、信息整合等提供了必要的背景知識,使征服語義鴻溝又前進了一步。谷歌等搜索引擎已將基于知識圖譜的知識庫成功用于提高搜索結(jié)果準(zhǔn)確性。
2)實體對象及關(guān)聯(lián)關(guān)系建模是知識有效運用的基礎(chǔ)。網(wǎng)絡(luò)空間所涉及的實體數(shù)巨大,已有的知識庫中實體數(shù)已達千萬量,關(guān)聯(lián)數(shù)則以億計,它們所形成的是典型的異構(gòu)信息網(wǎng)絡(luò)。實體對象及關(guān)聯(lián)關(guān)系建模呈多模形態(tài),常常需要用某種測度來表達實體及關(guān)系的出現(xiàn)頻率、強度等信息;需要用邊的方向表達關(guān)系的非對稱性;需要用概率體現(xiàn)數(shù)據(jù)源的不確定性等。上述特征對于實體對象及關(guān)聯(lián)關(guān)系模型提出更高的要求,設(shè)計良好的模型是其上進行高效查詢、更新和推理的基礎(chǔ)。
3)實體對象及關(guān)聯(lián)關(guān)系建模是搜索智慧化的前提。實體對象及關(guān)系模型相對于領(lǐng)域本體和傳統(tǒng)語義網(wǎng)絡(luò)而言,其實體覆蓋率更高,語義關(guān)系也更加全面而復(fù)雜。利用實體對象及關(guān)聯(lián)關(guān)系可以對搜索結(jié)果行系統(tǒng)的語義分析,將用戶查詢映射到知識庫的概念上,從而用于優(yōu)化搜索結(jié)果。還可利用已知的實體對象及關(guān)系進行推理,產(chǎn)生新知識,這種能力是問題解答、自動服務(wù)生成、智慧方案形成等的技術(shù)前提。
表1 公開的知識圖譜
以下介紹與討論智慧搜索中實體對象及關(guān)聯(lián)關(guān)系建模相關(guān)的關(guān)鍵技術(shù)與方法,其技術(shù)之間的關(guān)系如圖1所示。
圖1 智慧搜索中實體對象及關(guān)聯(lián)關(guān)系建模關(guān)鍵技術(shù)關(guān)聯(lián)
實體或概念是世界中客觀存在的事物,他們之間相互作用、制約,由此形成一定的關(guān)系。實體與關(guān)系建模本質(zhì)上是解決如何使用計算機進行大規(guī)模多源知識的表示、獲取和使用的問題。目前,實體對象及其關(guān)系建模工作較多地圍繞知識圖譜展開。
知識圖譜是采用語義檢索技術(shù)從多種信息源收集與某一主題相關(guān)的實體或概念,以及他們之間的關(guān)聯(lián)所形成的網(wǎng)絡(luò)圖。圖中的節(jié)點對應(yīng)實體或概念,圖中的弧對應(yīng)實體或概念之間的關(guān)聯(lián)關(guān)系。
大搜索借助知識圖譜,通過深化現(xiàn)實世界中每個實體以及他們之間相互關(guān)系的理解,提高搜索精度和優(yōu)化搜索結(jié)果。語言的歧義性會給搜索帶來了困難,例如當(dāng)用戶輸入查詢詞“蘋果”,傳統(tǒng)搜索引擎無法理解用戶想要查詢的是水果還是公司。基于知識圖譜的智能搜索將所有這些可能性歸納分組,用戶僅需點擊其中一組即可看到針對特定含義的所有搜索結(jié)果。有了知識圖譜,搜索引擎可以更好地理解用戶的查詢,從而提供與該查詢更相關(guān)的內(nèi)容,即根據(jù)不同的實體,展示最相關(guān)的事實。如圖 2所示,當(dāng)用戶搜索“Marie Curie”(居里夫人)時,不僅可以看到與居里夫人相關(guān)的網(wǎng)頁,還可以看到有關(guān)居里夫人教育經(jīng)歷、科學(xué)貢獻和社會關(guān)系等信息。利用知識圖譜還可以提供語義分析、關(guān)聯(lián)分析、知識搜索和智能推薦等知識服務(wù)。
圖2 知識圖譜優(yōu)化搜索結(jié)果的例子(摘自Google搜索結(jié)果)
知識圖譜需要各種自動化知識獲取方法來補充相關(guān)的知識(即實體及其關(guān)系),其中存儲的知識越豐富,則解決問題的能力也越強。關(guān)聯(lián)信息發(fā)掘是一種面向任務(wù)的信息獲取方式,是指以一定的策略和方法去采集、獲取、發(fā)掘用戶需要的數(shù)據(jù)與信息的過程。關(guān)聯(lián)信息發(fā)掘的工作過程如下。首先,以已有的知識圖譜為引導(dǎo),把所有可能的數(shù)據(jù)源都搜集起來,包括互聯(lián)網(wǎng)上的網(wǎng)站、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)服務(wù)等,以及物聯(lián)網(wǎng)、視音頻監(jiān)控的數(shù)據(jù)等,并且針對每一種數(shù)據(jù)源設(shè)計相應(yīng)的數(shù)據(jù)獲取方式,如網(wǎng)絡(luò)爬蟲方式、API數(shù)據(jù)獲取方式等;之后,對所有數(shù)據(jù)源進行分類,類別層次是一個多層次多維度的分類過程,根據(jù)用戶需求的變化,數(shù)據(jù)源類別層次應(yīng)能做相應(yīng)調(diào)整;當(dāng)接受到用戶的定向獲取任務(wù)時,根據(jù)用戶需求確定數(shù)據(jù)源的類別,并在相應(yīng)類別的數(shù)據(jù)源中進行基于任務(wù)的數(shù)據(jù)獲??;最后,對所有數(shù)據(jù)源獲取的數(shù)據(jù)進行結(jié)果的綜合,包括去重、清洗、結(jié)果融合等,并把最終結(jié)果返回給用戶,并且對其中共性的內(nèi)容用于更新已有知識圖譜。
例如:通過搜索意圖理解確定用戶關(guān)心“達芬奇”相關(guān)的信息,則在互聯(lián)網(wǎng)上獲取維基百科、FreeBase以及普通網(wǎng)頁上關(guān)于達芬奇的介紹、照片,與達芬奇相關(guān)的音視頻等信息,另外,通過深入分析,還可以把達芬奇的作品如“蒙娜麗莎”的相關(guān)信息、圖片,以及同時期的藝術(shù)家“米開朗基羅”的相關(guān)信息等一起獲取過來,之后再對獲取的信息進行去重、清洗等預(yù)處理操作,最后把處理后的數(shù)據(jù)返回給用戶。
關(guān)聯(lián)信息發(fā)掘的關(guān)鍵技術(shù)除了傳統(tǒng)數(shù)據(jù)集成任務(wù)所需的數(shù)據(jù)清洗、數(shù)據(jù)去重、數(shù)據(jù)融合、沖突消解和數(shù)據(jù)轉(zhuǎn)換等數(shù)據(jù)預(yù)處理技術(shù)外,還包括直接和間接信息發(fā)掘技術(shù)。
直接信息獲取來源包括:互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、視頻監(jiān)控、社交網(wǎng)絡(luò)、專業(yè)領(lǐng)域數(shù)據(jù)等。
1)互聯(lián)網(wǎng)數(shù)據(jù)獲取是指對互聯(lián)網(wǎng)中的大數(shù)據(jù)進行高度并行的自動采集,并迅速收集到系統(tǒng)中的數(shù)據(jù)獲取過程?;ヂ?lián)網(wǎng)數(shù)據(jù)獲取包括網(wǎng)頁類獲取和服務(wù)類數(shù)據(jù)獲取2種方式,其中,網(wǎng)頁類服務(wù)獲取主要采用網(wǎng)絡(luò)爬蟲自動獲取網(wǎng)頁上的內(nèi)容,網(wǎng)絡(luò)爬蟲可以按照一定的策略自動在互聯(lián)網(wǎng)上蔓延以獲取更多相關(guān)信息;服務(wù)類數(shù)據(jù)獲取主要采用服務(wù)接口調(diào)用的方式獲得網(wǎng)絡(luò)服務(wù)數(shù)據(jù)。
2)物聯(lián)網(wǎng)數(shù)據(jù)獲取是指通過RFID數(shù)據(jù)采集技術(shù)或者無線傳感器網(wǎng)技術(shù)等方式獲取物聯(lián)網(wǎng)數(shù)據(jù)。RFID數(shù)據(jù)采集技術(shù)是通過標(biāo)簽閱讀器和標(biāo)簽接收器,定時或?qū)崟r地收集人、物體、設(shè)備、環(huán)境、狀態(tài)等基本信息。無線傳感網(wǎng)技術(shù)是由許多在空間中分布的傳感節(jié)點組成的一種無線通信計算機網(wǎng)絡(luò),這些傳感節(jié)點協(xié)作地監(jiān)控不同位置的物理或環(huán)境狀況(如溫度、聲音、振動、壓力、運動或污染物),其應(yīng)用涉及軍事、城市公共安全、公共衛(wèi)生、安全生產(chǎn)、智能交通、智能家居、環(huán)境監(jiān)控等領(lǐng)域。
3)視頻監(jiān)控數(shù)據(jù)獲取是對于視頻監(jiān)控系統(tǒng)和互聯(lián)網(wǎng)上的視頻數(shù)據(jù)進行收集并集成到系統(tǒng)中的過程。視頻監(jiān)控系統(tǒng)一般擁有大量的視頻監(jiān)控設(shè)備,視頻監(jiān)控設(shè)備產(chǎn)生的視頻數(shù)據(jù)通過專用網(wǎng)絡(luò)實時傳輸至視頻監(jiān)控系統(tǒng)的數(shù)據(jù)存儲設(shè)備上,對于已存儲的視頻數(shù)據(jù)可以通過其調(diào)用接口進行獲取?;ヂ?lián)網(wǎng)上的視頻一般具有特定的數(shù)據(jù)格式和相應(yīng)的文本說明,可以通過網(wǎng)絡(luò)爬蟲利用合理的爬取策略來獲取視頻數(shù)據(jù)。
4)社交網(wǎng)絡(luò)數(shù)據(jù)獲取是指對于各類社交網(wǎng)站中的相關(guān)數(shù)據(jù)進行自動收集并迅速集成到系統(tǒng)的過程。社交網(wǎng)絡(luò)數(shù)據(jù)有表層和深層網(wǎng)絡(luò)數(shù)據(jù)2類,如科研合作網(wǎng)絡(luò)DBLP屬于表層網(wǎng)絡(luò),而新浪微博屬于深層網(wǎng)絡(luò)。對于表層網(wǎng)絡(luò)中網(wǎng)頁信息的獲取,可以直接使用爬蟲程序?qū)@些存儲信息的網(wǎng)頁進行解析,從標(biāo)簽屬性值中抽取需要的信息。與表層網(wǎng)絡(luò)相反,深層網(wǎng)絡(luò)將頁面信息存儲在后臺數(shù)據(jù)庫中,只有通過查詢接口查詢才能由服務(wù)器動態(tài)生成并返回或者獲取權(quán)限后才能查看,并沒有超鏈接指向這些網(wǎng)頁,不能被傳統(tǒng)的搜索引擎索引到。因此,獲取這些數(shù)據(jù)主要包含2種方式:一是通過查詢接口查詢由服務(wù)器動態(tài)生成并返回查詢結(jié)果;二是僅對注冊用戶開放的信息,只有登錄后才可查看專有網(wǎng)絡(luò)信息。
5)專業(yè)領(lǐng)域數(shù)據(jù)獲取是根據(jù)需要,收集與某專業(yè)領(lǐng)域相關(guān)信息的過程。以醫(yī)療健康數(shù)據(jù)獲取為例,它是對于醫(yī)療健康相關(guān)的信息系統(tǒng)和互聯(lián)網(wǎng)上有關(guān)醫(yī)療健康的大數(shù)據(jù)進行高度并行的自動采集,迅速收集到系統(tǒng)中的數(shù)據(jù)獲取過程。醫(yī)療健康信息系統(tǒng)包括醫(yī)院信息系統(tǒng)、放射信息系統(tǒng)、實驗室信息系統(tǒng)、醫(yī)學(xué)影像存檔與通信系統(tǒng)、臨床信息系統(tǒng)、公關(guān)衛(wèi)生信息系統(tǒng)、電子病歷信息系統(tǒng)等,而互聯(lián)網(wǎng)上有關(guān)醫(yī)療健康的數(shù)據(jù)有醫(yī)學(xué)新聞博文、專業(yè)期刊雜志等。
基于用戶的搜索需求,間接信息發(fā)掘通過與智慧搜索知識推演系統(tǒng)的交互,基于知識推演給出深層次的搜索任務(wù),從而獲得更多面向任務(wù)的數(shù)據(jù),并對獲取的數(shù)據(jù)進行融合,最終滿足用戶的搜索需求。
間接信息發(fā)掘主要包含以下步驟。
1)以用戶的搜索需求和直接數(shù)據(jù)獲取技術(shù)得到的數(shù)據(jù)作為輸入,將其提交給智慧搜索知識推演系統(tǒng)。
2)知識推演系統(tǒng)根據(jù)用戶的搜索需求和已經(jīng)獲得的數(shù)據(jù)進行推演,如果該搜索需求仍不存在知識推演系統(tǒng)中,則將其返回給間接信息發(fā)掘系統(tǒng)。
3)間接信息發(fā)掘系統(tǒng)根據(jù)當(dāng)前收集相關(guān)數(shù)據(jù)和查詢需求,發(fā)出新的查詢請求,并將收集到的數(shù)據(jù)返回給智慧搜索知識推演系統(tǒng)。
4)知識推演系統(tǒng)對用戶的搜索需求和獲得的信息進行推演,判斷其是否滿足用戶的搜索需求。如果滿足,則直接返回,推演結(jié)束;如果不滿足,則重復(fù)步驟2)到步驟4),直到獲取的數(shù)據(jù)滿足用戶的搜索需求。
5)將滿足用戶搜索需求的結(jié)果返回給用戶。
例如,用戶搜索“2014年全球總體失業(yè)率是多少”。使用直接數(shù)據(jù)獲取技術(shù)會得到一些零散的與失業(yè)相關(guān)的數(shù)據(jù),無法滿足用戶搜索需求。此時,間接信息發(fā)掘系統(tǒng)將用戶的搜索需求以及已經(jīng)獲得零散數(shù)據(jù)提交給智慧搜索知識推演系統(tǒng)。知識推演系統(tǒng)推演得出全球的總體失業(yè)率可以通過綜合不同國家和地區(qū)的失業(yè)率數(shù)據(jù)得到,因此,將各國的失業(yè)率作為查詢需求返回給間接信息發(fā)掘系統(tǒng)。間接信息發(fā)掘系統(tǒng)進行查詢并將得到的數(shù)據(jù)返回給知識推演系統(tǒng)。系統(tǒng)推演發(fā)現(xiàn),除了美國,其他各國2014年的失業(yè)率數(shù)據(jù)都可以得到。知識推演系統(tǒng)進一步推演得出通過查詢美國每個季度的失業(yè)率來綜合得到的美國年平均失業(yè)率。因此,將這一查詢請求提交給間接信息發(fā)掘系統(tǒng)。間接信息發(fā)掘系統(tǒng)進行查詢并將查詢得到的數(shù)據(jù)返回給知識推演系統(tǒng)。知識推演系統(tǒng)推演發(fā)現(xiàn)將所有數(shù)據(jù)融合即可得到滿足用戶搜索需求的數(shù)據(jù)。因此,知識推演系統(tǒng)將最終融合后的數(shù)據(jù)返回給間接信息發(fā)掘系統(tǒng),間接信息發(fā)掘系統(tǒng)將結(jié)果返回用戶。
知識圖譜包羅萬象,可以看成是比較初級和粗糙的知識。為了能夠支持高層的智能搜索、分析和推理服務(wù),需要對知識圖譜中所包含的數(shù)據(jù)進一步深度加工。在知識圖譜中,一個實體可能存在著數(shù)量眾多的關(guān)聯(lián)關(guān)系,并且具備相同特征的實體又散布在圖譜的各處,而基于知識圖譜的具體處理和分析任務(wù)往往僅涉及部分子圖和某些實體的部分關(guān)系。如何在語義層面對知識圖譜中存儲的知識進一步的組織和建模成為最大程度地發(fā)揮知識圖譜作用的關(guān)鍵。這個層次的建模需要支持對知識圖譜中符合某一語義定義的實體進行快速聚合,并且能夠從多個維度對相關(guān)的實體集合進行分析,從而有利于發(fā)現(xiàn)各種規(guī)律或現(xiàn)象。此外,預(yù)先對知識圖譜中的數(shù)據(jù)從不同維度進行組織和聚合,從而形成知識倉庫,能夠加快完成各種查詢和分析的任務(wù)。
知識倉庫是在整個知識圖譜上,或者在滿足預(yù)先定義或動態(tài)生成模式所形成的目標(biāo)對象和關(guān)聯(lián)對象所形成的子圖上,通過系統(tǒng)地加工、匯總和整理所得到的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。知識倉庫采用基于圖的索引和分布式處理等技術(shù)能夠?qū)D中的對象從不同維度(或?qū)傩裕┖蛯哟芜M行聚合(aggregate)、鉆取(roll up/drill down)和旋轉(zhuǎn)(pivot)等操作,以利于其上進行聯(lián)機分析處理、數(shù)據(jù)挖掘,進而快速有效地從大量數(shù)據(jù)中分析出有價值的資訊。如圖3所示,根據(jù)定義模式從知識圖譜中定位和收集目標(biāo)人群及其關(guān)聯(lián)人群之后,可以通過地域、性別、年齡3個不同維度對目標(biāo)人群和關(guān)聯(lián)人群所組成的網(wǎng)絡(luò),結(jié)合其他相關(guān)信息進行焦點對象發(fā)現(xiàn)、多維度統(tǒng)計分析、對象行為預(yù)測、網(wǎng)絡(luò)結(jié)構(gòu)相似度分析等。
圖3 基于知識倉庫多維分析的例子
知識圖譜上的查詢處理是管理和使用知識圖譜的前提,也是獲取蘊含于知識圖譜中語義信息的基本操作。例如獲取概念間的語義距離,獲取一個或者一組實體的概念描述,獲取句子的主題,對多義詞進行消歧等任務(wù),都可以轉(zhuǎn)化為在知識圖譜上的查詢操作。知識圖譜上的推理是從已知的知識產(chǎn)生新知識的過程。例如:從“配偶 + 男性”推理出“丈夫”概念、從“應(yīng)天是南京明朝時的名稱 +建康是南京古稱”推理出“應(yīng)天和建康是同一城市在不同時期的稱謂”。推理可以用于補充知識圖譜的知識,也可以根據(jù)需要即時執(zhí)行。
大數(shù)據(jù)是智慧搜索的處理對象,將搜索響應(yīng)時間控制在合理的范圍之內(nèi)是系統(tǒng)成功的關(guān)鍵因素之一。知識圖譜作為大數(shù)據(jù)的數(shù)據(jù)源之一,往往包含千萬量級的實體和關(guān)系。為了提高知識圖譜的查詢性能,需要將知識圖譜劃分成若干子圖,并且存儲在不同的設(shè)備,然后通過分布式處理、并行計算、查詢優(yōu)化、索引技術(shù)來縮短查詢的完成時間。知識圖譜的推理一般采用基于規(guī)則的方法,規(guī)則既可以是基于數(shù)理邏輯學(xué)的邏輯規(guī)則,也可以是基于認知心理學(xué)的產(chǎn)生式規(guī)則。規(guī)則既可以人工定義,也可以通過學(xué)習(xí)獲得。由于知識來源于動態(tài)、開放的網(wǎng)絡(luò),具有不可靠性,因而規(guī)則推理系統(tǒng)一般需要具備處理不確定推理的能力。
如果充分利用網(wǎng)頁鏈接關(guān)系蘊含的信息是Web搜索引擎超越傳統(tǒng)信息檢索系統(tǒng)的基礎(chǔ),那么如何高效利用網(wǎng)絡(luò)空間巨規(guī)模實體關(guān)聯(lián)信息,將是智慧搜索取得成功的基礎(chǔ)。智慧搜索能帶來巨大的價值,不僅僅是因為利用了更多種類的數(shù)據(jù)或某一類型更大量的數(shù)據(jù)量,更主要在于其將充分發(fā)掘不同實體對象的跨域關(guān)聯(lián)信息。
實體關(guān)聯(lián)可以采用表和圖2種方式來表達。相比之下,圖更適合表達稀疏、高維、海量的關(guān)聯(lián)數(shù)據(jù),表則會面臨極高的連接、查詢和存儲的開銷。因此,圖是智慧搜索系統(tǒng)面向網(wǎng)絡(luò)數(shù)據(jù)的一種最合理的表達抽象。智慧搜索支撐平臺主要需要提供巨規(guī)模實體關(guān)聯(lián)數(shù)據(jù)的存儲和處理能力。
知識的演化與更新是指知識在時間軸上不斷發(fā)展的一種動態(tài)變化,代表了知識的流動和變遷,即通過往知識倉庫中添加新節(jié)點,并與網(wǎng)絡(luò)中已有的節(jié)點進行連接,從而實現(xiàn)對知識的演化和更新。
例如,維基百科可以將用戶發(fā)布的知識作為一個新的節(jié)點,通過將這一節(jié)點加入已有的知識網(wǎng)絡(luò),從而實現(xiàn)對知識庫中原有知識網(wǎng)絡(luò)結(jié)構(gòu)的動態(tài)更新。又如,隨著計算機技術(shù)的發(fā)展,以前所未聞的可穿戴式計算機應(yīng)運而生,從而賦予了移動式計算機新的技術(shù)內(nèi)涵??纱┐魇接嬎銠C為可穿戴于身上外出進行活動的微型電子設(shè)備,對于這種以前未在知識網(wǎng)絡(luò)中出現(xiàn)的新知識,如何將其添加到知識庫中,從而實現(xiàn)知識的演化和更新呢?其實,可以根據(jù)可穿戴式計算機的定義,利用知識網(wǎng)絡(luò)中實體之間的關(guān)系,采用數(shù)據(jù)挖掘中的相關(guān)技術(shù),如聚類技術(shù),將其劃入相應(yīng)的知識社區(qū)中,從而實現(xiàn)知識網(wǎng)絡(luò)的動態(tài)更新,最終更新知識庫系統(tǒng)。
知識更新演化過程既反映知識網(wǎng)絡(luò)的時序結(jié)構(gòu)變遷,又體現(xiàn)知識和概念的內(nèi)在涵義流變,演化模型是知識網(wǎng)絡(luò)內(nèi)在作用模式及作用過程的抽象表達。對演化過程的探討既是分析知識網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ),也是探討知識熱點形成及創(chuàng)新趨勢形成的基礎(chǔ)。
數(shù)據(jù)存儲與計算支撐平臺用于存儲、管理泛在網(wǎng)絡(luò)空間的數(shù)據(jù),支持智慧搜索的查詢、統(tǒng)計和分析處理,包括高效知識提取和秒級搜索匹配等。
支撐平臺的挑戰(zhàn)主要包括2個方面。1)數(shù)據(jù)普適化,包括文本數(shù)據(jù)、音視頻、地理數(shù)據(jù)、社交媒體關(guān)系數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等,這些大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)需要通用的存儲和計算模型來進行有效管理。2)查詢、挖掘和分析多樣復(fù)雜(如關(guān)鍵字查詢、大圖查詢、時空查詢、聚合查詢、聚類分類、時序挖掘等),且具有嚴(yán)格的反饋時間要求。對普適化網(wǎng)絡(luò)空間數(shù)據(jù)的存儲、組織和管理是保證實體關(guān)系、知識抽取、搜索匹配能力的核心問題。
關(guān)系數(shù)據(jù)庫管理系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng)已經(jīng)在過去幾十年中發(fā)展成為一項較為成熟的技術(shù),主要用于管理結(jié)構(gòu)化數(shù)據(jù),無法有效存儲組織形式松散的網(wǎng)絡(luò)文本、多媒體等非結(jié)構(gòu)化數(shù)據(jù),并且由于大量的加鎖操作和日志登記限制了數(shù)據(jù)更新性能。隨著網(wǎng)絡(luò)檢索和大數(shù)據(jù)技術(shù)的快速發(fā)展,近些年在非結(jié)構(gòu)化數(shù)據(jù)管理方面進一步形成了基于GFS和HDFS等分布文件系統(tǒng)的NoSQL家族,典型產(chǎn)品包括 HBase、Cassandra、MongoDB、Redis、Neo4J等,以及著名的Map-Reduce分布式計算框架。這些數(shù)據(jù)庫普遍采用列存的方式來達到更好的數(shù)據(jù)壓縮,數(shù)據(jù)庫集群具有較好的可伸縮性,并且提供了傳統(tǒng)搜索引擎所需的簡單索引。但是這些NoSQL數(shù)據(jù)庫無法有效支持新一代“智能搜索”,其主要原因如下。
1)智能搜索是一種情景敏感、基于語義內(nèi)容的智能檢索,根據(jù)不同搜索需要以多層次多維度的方式快速定位數(shù)據(jù),因此現(xiàn)有數(shù)據(jù)庫的數(shù)據(jù)索引和查詢優(yōu)化需要以可兼容的方式擴充,為大搜索處理提供底層的定制支持。
2)現(xiàn)有數(shù)據(jù)庫主要基于單一的數(shù)據(jù)模式,例如圖模式、鍵值對模式以及關(guān)系模式等,分別對應(yīng)著單一模式的數(shù)據(jù)。但是智能搜索集成了泛在網(wǎng)絡(luò)空間數(shù)據(jù),因此需要在模式層進行整合,以更加高效的方式管理普適化的巨規(guī)模網(wǎng)絡(luò)數(shù)據(jù)。
3)智能搜索需要對網(wǎng)絡(luò)數(shù)據(jù)深加工,構(gòu)建知識圖譜并在此基礎(chǔ)上發(fā)掘領(lǐng)域知識,需要執(zhí)行大量的復(fù)雜挖掘和機器學(xué)習(xí)算法,大量的迭代處理無法在常規(guī)的NoSQL框架之下有效運行。隨著內(nèi)存存儲能力的快速提升,可以在系統(tǒng)架構(gòu)中引入內(nèi)存計算框架來解決該類需求。
因此在智能搜索系統(tǒng)構(gòu)建中,需要研發(fā)面向智能搜索的通用數(shù)據(jù)存儲與計算平臺,以分布式框架作為底層支撐,充分利用新型硬件效能(如內(nèi)存計算、固態(tài)硬盤等,顯著降低數(shù)據(jù)掃描的I/O代價),更加合理地組織管理泛在網(wǎng)絡(luò)空間的異構(gòu)數(shù)據(jù),保證大搜索中各類復(fù)雜查詢、統(tǒng)計分析、數(shù)據(jù)挖掘、知識抽取的快速處理。
互聯(lián)網(wǎng)上的搜索引擎已有20多年的歷史,從最初的人工歸類,到自動關(guān)鍵字搜索,一直到最近的知識性搜索服務(wù)。下面圍繞實體對象及關(guān)聯(lián)關(guān)系在網(wǎng)絡(luò)搜索中的應(yīng)用,分析國內(nèi)外研究現(xiàn)狀。
到目前為止,實體對象及其關(guān)系建模工作較多地圍繞知識圖譜(knowledge graph)展開。知識圖譜簡單地說就是一個“主謂賓”三元組的集合,其中“主”和“賓”是實體對象,“謂”是關(guān)聯(lián)關(guān)系。2012年 5月Google發(fā)布了其基于知識圖譜智能化搜索功能,通過對搜索進行系統(tǒng)的語義分析,使用戶的每個查詢關(guān)鍵詞都能映射到知識庫的概念上,從而用于優(yōu)化搜索結(jié)果。知識圖譜相對于本體和傳統(tǒng)語義網(wǎng)絡(luò)而言,實體對象覆蓋率更高、語義關(guān)系也更加全面而復(fù)雜。目前學(xué)術(shù)界與工業(yè)界均呈現(xiàn)出一股構(gòu)建和使用知識圖譜的熱潮。除Google之外,微軟、百度、搜狗等公司都推出了各自的知識圖譜,典型代表包括KnowItAll[2]、TextRunner[3]、Probase[4]、YAGO[5]、DBpedia[6]、Freebase[7]等。
當(dāng)前知識圖譜的研究工作主要從構(gòu)建與應(yīng)用2個方面展開。知識圖譜構(gòu)建從其數(shù)據(jù)源來看可分為2類:一類是萬維網(wǎng)的頁面,另一類是相對結(jié)構(gòu)化的在線百科。以前者為來源的典型知識圖譜包括KnowItAll[2]、TextRunner[3]和 Probase[4]。KnowItAll基于規(guī)則模板抽取實體或概念之間的關(guān)系;TextRunner提出了自監(jiān)督學(xué)習(xí)方法改善了KnowItAll需要人工定義規(guī)則的缺點;為了進一步提高關(guān)系抽取的準(zhǔn)確性,Probase采用基于語義的迭代方法抽取出更多更準(zhǔn)確的ISA關(guān)系。而以在線百科為數(shù)據(jù)來源的知識圖譜包括YAGO和DBpedia等。各類知識圖譜已經(jīng)在各類應(yīng)用中發(fā)揮威力。Google利用Freebase為用戶提供更加智能化的搜索結(jié)果[8]。微軟利用Probase理解Web表格[9]和查找話題[10]。蘋果公司利用知識圖譜進行智能問答[11];利用YAGO增強地圖的實時性[12];利用 DBpedia推薦音樂[13]、標(biāo)簽識別[14]以及信息抽取[15,16]等。
國內(nèi)也有研究團隊從事這方面的研究,比如中科院計算所在知識抽取方面做了大量的工作,有基于圖和圖上推斷的CIIGA方法[17],在非結(jié)構(gòu)化的文本中抽取實體并連接到知識庫中,可以對現(xiàn)有的知識庫做大量的補充。OpenKN[18,19]可用于取大量新的實體和概念,進而不斷對知識庫進行更新。
上述知識圖譜方面的工作,增加了搜索的智能性,在提高用戶體驗方面有著深遠的影響。知識圖譜的研究及開發(fā)也產(chǎn)生了大量的自然語言處理以及機器學(xué)習(xí)方面的理論和方法,極大地推進了領(lǐng)域的成長。文獻[20]的工作主要點在于利用數(shù)據(jù)融合等方法,提高知識圖譜的質(zhì)量,在去除歧義、多名、錯誤等方面,有了長足的進步。但如Sarma等[21]和Kuzey等[22]指出,現(xiàn)行知識圖譜技術(shù)偏重已知的實體,對不斷涌現(xiàn)的新興實體及其關(guān)聯(lián),尤其是事件性的關(guān)聯(lián),仍沒有相應(yīng)方法。
RDF作為語義萬維網(wǎng)技術(shù)的資源表示標(biāo)準(zhǔn),許多知識圖譜都選擇RDF或者類似RDF的方式來表示知識。目前RDF查詢研究重點在于查詢語言的有效實現(xiàn)方法,但對查詢模型的語義缺乏必要考慮。早期RDF查詢多實現(xiàn)在關(guān)系數(shù)據(jù)庫系統(tǒng)之上,利用關(guān)系表存儲RDF數(shù)據(jù),再將RDF查詢轉(zhuǎn)換為對應(yīng)的SQL查詢。其中典型的查詢與存儲系統(tǒng)包括:Sesam[23]、Jena2[24]、3store[25]、RDFSuite[26]。近期的焦點在于進一步提升RDF查詢性能。如Eugene[27]使用RDF_MATCH 表函數(shù),Abadi[28]利用垂直分片,Hexastore[29]通過常數(shù)倍的額外索引開來提升 RDF查詢性能。近RDF查詢研究的核心是SPARQL查詢語言,提高查詢性能關(guān)鍵是減少Join操作的開銷,MonetDB[30]和Hexastore[29]都提出了SPARQL的Join優(yōu)化算法。Medha[31]則利用流方式在壓縮的RDF數(shù)據(jù)上生成最終結(jié)果而避免創(chuàng)建代價較高的中間連接表。Markus等[32]研究了SPARQL查詢的靜態(tài)優(yōu)化問題,定義和分析了基本圖模式選擇的啟發(fā)式策略。Angela等[33]和Thomas[34~36]利用圖挖掘技術(shù)計算并記錄RDF圖中的頻繁最優(yōu)路徑來估計不同Join順序的代價,用于查詢優(yōu)化。Huang等[37]通過分割RDF數(shù)據(jù)和分解SPARQL查詢來提高查詢效率。Binna等[38]設(shè)計了內(nèi)存數(shù)據(jù)庫SpiderStore來管理 RDF數(shù)據(jù)和快速執(zhí)行SPARQL查詢。Weaver等[39]提出了并行的RDFS閉包計算方法,而Urbani等[40]使用MapReduce實現(xiàn)類似的計算。Myung 等[41]和 Rohlo 等[42]研究使用MapReduce實現(xiàn)SPARQL查詢。Manish Gupta等研究Top-k子圖的查詢[43]。
在國內(nèi),北京大學(xué)和中國人民大學(xué)在RDF數(shù)據(jù)管理方面做了較多研究工作。比如,gStore[44]是一種由圖作為存儲方式的能夠有效在動態(tài)RDF數(shù)據(jù)集上處理SPARQL查詢的方法,Zou等[45]提出了基于RDF數(shù)據(jù)的解決自然語言自動問答的方法,Yang等[46]提出了自動分割RDF數(shù)據(jù)的方法來提升查詢效率并同時考慮了減少數(shù)據(jù)冗余,Du等[47]研究了在集群環(huán)境下RDF數(shù)據(jù)分割和替換的策略,Bian等[48]還提出了基于實體屬性表單來補充知識庫中RDF數(shù)據(jù)的方法。
RDF本質(zhì)上以“主謂賓”的方式表達實體之間的關(guān)聯(lián)關(guān)系。理論上,這個形式有很強的表達能力,但對復(fù)雜實體(比如事件性實體時)一般采用隱含式表達。比如,在“事件本體模型”[49]中,事件作為實體,和事件有關(guān)的實體與此事件實體的關(guān)聯(lián)(事件S涉及實體A)即可用“主謂賓”模式建立,而事件的時間、地點,則也作為實體與事件實體簡單關(guān)聯(lián)。Trame等[50]對怎樣用RDF表示事件有所討論,結(jié)論是簡單的RDF很難自然地表達事件。即使是時間這個屬性(也有把時間概念作為實體),基于RDF的表達也不夠自然[50]。智慧搜索對各類顯性及隱性實體必須用簡單的方法,使之與人類一般認知規(guī)則相配,以便查詢。
由于現(xiàn)行各類知識以簡單RDF形式存儲,故大量的圖查詢模型及技術(shù)可以應(yīng)用知識庫查詢處理。目前大圖查詢研究工作主要圍繞可達性查詢、最短路徑或距離查詢、圖匹配查詢以及關(guān)鍵字查詢開展。這些研究一般剝離圖數(shù)據(jù)本身的領(lǐng)域背景,只在抽象的圖查詢模型上開展研究。圖算法固然在知識查詢方面有其作用,但當(dāng)知識庫在簡單圖上進行擴充,得以表達事件類實體時,需要考慮在知識庫上的其他操作。
目前圖查詢算法大致有4類。1)可達性查詢。這一問題主要研究特定約束條件下的可達查詢,這些約束一方面使問題更為復(fù)雜,另一方面也為高效剪枝創(chuàng)造了條件?;镜募s束是節(jié)點或邊上的標(biāo)簽約束[51,52]和更為復(fù)雜的正則表達式約束[53]。2)最短距離或路徑查詢。當(dāng)前主流方案都采用基于摘要(sketch)的框架。其基本思想是為每個節(jié)點創(chuàng)建固定大小的摘要,利用摘要估計節(jié)點之間的距離。目前有2類摘要方法:一是以到一組路標(biāo)(landmark)節(jié)點的最短距離作為節(jié)點的摘要[54~58];二是以節(jié)點在幾何空間中的坐標(biāo)作為摘要[59,60]。這些方案以線性空間索引實現(xiàn)常量時間的查詢回答。第1類方法的研究側(cè)重于提高距離估計準(zhǔn)確性。第2類方法的研究集中于幾何空間的選擇。Zhao等[59,60]先后提出基于歐式空間和雙曲空間最短距離查詢方案,并證實基于雙曲空間優(yōu)于歐式空間。3)圖匹配查詢。這一問題的研究主要圍繞2個核心問題開展:非精確匹配意義下的子圖查詢、大圖上的子圖查詢。在非精確匹配方面,F(xiàn)an等[61]率先提出基于圖模擬的圖匹配,將子圖匹配中邊到邊的嚴(yán)格映射放松為邊到給定長度內(nèi)的路徑之間的映射。Zou等[62]進一步改進圖模擬高效算法。Ma等[63]則提出了強模擬以進一步強化匹配約束。為了處理大圖,Sun[64]、Ma[65]分別提出了相應(yīng)的分布式子圖查詢方法和圖模擬算法從而支持快速大圖匹配。4)關(guān)鍵字查詢。這類問題是尋找圖中含有關(guān)鍵字的點和邊,各研究的差異主要在于返回子圖的結(jié)構(gòu)約束不同,比如r半徑斯坦納(Steiner)圖[66],r-極大團[67]。針對r半徑斯坦納圖,Li等[66]給出了一種基于圖劃分的快速查詢方法。Kargar[67]針對基r-極大團的圖上關(guān)鍵字查詢提出了一個返回top-k的近似算法。
數(shù)據(jù)立方(data cube)的概念于1996年由Gray[68]引入數(shù)據(jù)分析領(lǐng)域。數(shù)據(jù)立方建立在關(guān)系數(shù)據(jù)庫之上,為分析者提供簡單易懂的概念模型和操作界面,把數(shù)據(jù)分析的操縱權(quán)從程序員手里奪走,交還給了分析用戶,為數(shù)據(jù)分析研究和產(chǎn)業(yè)做出了革命性的貢獻。對于這個成功,究其深層原因,是將數(shù)據(jù)以接近用戶習(xí)慣的認知方式呈現(xiàn)給用戶:將數(shù)據(jù)以多維度的形式,每個維度對應(yīng)一類概念(如時間、空間),而每個概念又可以以不同粒度來觀察數(shù)據(jù)。
研究人員已將數(shù)據(jù)立方相關(guān)的概念用于其他分析工作。如Jiawei Han所帶領(lǐng)的研究團隊開展了文本數(shù)據(jù)的多粒度特性方面的研究[69,70],支持文本數(shù)據(jù)多粒度分析,將大量的文本信息組織成層次結(jié)構(gòu),而后數(shù)據(jù)分析可以利用上卷、下鉆等操作在不同粒度上進行訪問。近期,該研究團隊又在圖數(shù)據(jù)上引入OLAP數(shù)據(jù)立方的概念,研究圖立方(graph OLAP和graph cube)[71,72]對圖數(shù)據(jù)分析的用途。
智慧搜索將會為人們帶來嶄新的搜索方式——知識服務(wù),它是指從各種知識來源(包括知識圖譜和知識倉庫)中按照用戶的個性需求有針對性地提煉知識,并且用來解決用戶問題的高級階段信息服務(wù)過程。與傳統(tǒng)信息服務(wù)強調(diào)信息資源獲?。ㄈ缥墨I檢索)不同,知識服務(wù)側(cè)重于提供個性化、面向解決方案的服務(wù)。它根據(jù)用戶問題語義和上下文環(huán)境分析確定用戶的需求,通過多源信息和知識的重組與融合形成符合需要的知識產(chǎn)品。
實現(xiàn)大搜索的愿景,目前還面臨許多的挑戰(zhàn),但同時也帶來眾多的研究機會。目前急需解決的難題包括:根據(jù)查詢的需求,從包括海量實體以及關(guān)系的泛在網(wǎng)絡(luò)空間中準(zhǔn)確地獲取數(shù)據(jù);全面和深度地理解用戶的真實搜索意圖;融合多渠道、多模式和實時復(fù)雜的數(shù)據(jù),挖掘和發(fā)現(xiàn)其中潛在、有價值的信息;確保大搜索使用過程安全可信;根據(jù)用戶的搜索意圖,基于知識倉庫對關(guān)聯(lián)知識進行推理和求解,形成若干可行的智慧綜合解決方案。
大搜索是新一代具有“智慧”的搜索,能準(zhǔn)確洞察和理解用戶的搜索意圖,在海量、多源、異構(gòu)、多態(tài)、不確定的數(shù)據(jù)中,實現(xiàn)對與人物、物體和內(nèi)容等相關(guān)信息的對象級搜索,為用戶提供最貼切的搜索結(jié)果。這勢必影響我國的社會、經(jīng)濟和生活等各個方面,具有廣闊的應(yīng)用前程。
[1] 方濱興,等.大搜索技術(shù)白皮書[M].北京:電子工業(yè)出版社,2015.FANG B X,et al.Big Search Technology White Paper[M].Beijing:Electronic Industry Press,2015.
[2]ETZIONI O,CAFARELLA M,DOWNEY D,et al.Web-scale information extraction in knowitall:(preliminary results)[A].Proceedings of the 13th International Conference on World Wide Web[C].ACM,2004.100-110.
[3]YATES A,CAFARELLA M,BANKO M,et al.Textrunner:open informationextractionontheweb[A].ProceedingsofHuman Language Technologies:The Annual Conference of the North American Chapter of the Association for Computational Linguistics:Demonstrations Association for Computational Linguistics[C].2007.25-26.
[4] WU W,LI H,WANG H,et al.Probase:a probabilistic taxonomy for text understanding[A].ACM SIGMOD International Conference on Management of Data[C].ACM,2012.481-492.
[5]SUCHANEK F M,KASNECI G,WEIKUM G.Yago:a core of semantic knowledge[A].16th International Conference on World Wide Web[C].ACM,2007.697-706.
[6] AUER S,BIZER C,KOBILAROV G,et al.Dbpedia:a Nucleus for a Web of Open Data[M].Springer Berlin Heidelberg,2007.
[7]BOLLACKER K,EVANS C,PARITOSH P,et al.Freebase:a collaboratively created graph database for structuring human knowledge[A].ACM SIGMOD International Conference on Management of Data[C].ACM,2008.1247-1250.
[8] SINGHAL A.Introducing the Knowledge Graph:Things,Not Strings Official Blog(of Google)[EB/OL].http://googleblog.blogspot.com/2012/05/introducing-knowledge-graph-things-not.html.Retrieved.
[9]WANG J,WANG H,WANG Z,et al.Understanding Tables on the Web Conceptual Modeling[M].Springer Berlin Heidelberg,2012.141-155.
[10]WANG Y,LI H,WANG H,et al.Toward Topic Search on the Web[R].Technical report,Microsoft Research,2010.
[11]Apple-Siri-frequently asked questions.Apple[EB/OL].http://www.siriuserguide.com/siri-faq/.
[12]HOFFART J,SUCHANEK F M,BERBERICH K,et al.YAGO2:exploring and querying world knowledge in time,space,context,and many languages[A].20th International Conference Companion on World Wide Web[C].ACM,2011.229-232.
[13]PASSANT A.Dbrec—music recommendations using DBpedia[A].The Semantic Web-ISWC 2010[C].Springer Berlin Heidelberg,2010.209-224.
[14]GARCIA A,SZOMSZOR M,ALANI H,et al.Preliminary results in tag disambiguation using DBpedia[A].Collective Knowledge Capturing and Representation[C].California,2009.
[15]Wu F,Weld D S.Automatically refining the wikipedia infobox ontology[A].17th International Conference on World Wide Web[C].ACM,2008.635-644.
[16]KASNECIG,RAMANATHM,SUCHANEKF,etal.The YAGO-NAGA approach to knowledge discovery[J].ACM SIGMOD Record,2009,37(4):41-47.
[17]LIN H,JIA Y,WANG Y,et al.Populating knowledge base with collective entity mentions:a graph-based approach[A].Advances in Social Networks Analysis and Mining(ASONAM),2014 IEEE/ACM International Conference on[C].IEEE,2014.604-611.
[18]JIA Y,WANG Y,CHENG X,et al.OpenKN:an open knowledge computational engine for network big data[A].Advances in Social Networks AnalysisandMining(ASONAM),2014IEEE/ACM International Conference on[C].IEEE,2014.657-664.
[19]王元卓,賈巖濤,趙澤亞,等.OpenKN——網(wǎng)絡(luò)大數(shù)據(jù)時代的知識計算引擎[J].CCF通訊,2014,10(11):30-35.WANG Y Z,JIA Y T,ZHAO Z Y,et al.OpenKN—— knowledge computing engine in the big data era[J].CCF Communication,2014,10(10):30-35.
[20]LI Q,LI Y L,GAO J,et al.Resolving conflicts in heterogeneous data by truth discovery and source reliability estimation[A].Proceedings of the 2014 SIGMOD[C].2014.
[21]SARMA D JAIN A A,YU C.Dynamic relationship and event discovery[A].Fourth ACM International Conference on Web Search and Data Mining[C].ACM,2011.207-216.
[22]KUZEY E,VREEKEN J,WEIKUM G.A fresh look on knowledge bases:Distilling named events from news[A].23rd ACM International Conference on Information and Knowledge Management[C].ACM,2014.1689-1698.
[23]BROEKSTRA J,KAMPMAN A,VAN HARMELEN F.Sesame:an architecture for storing and querying rdf data and schema information[J].Spinning the Semantic Web:Bringing the World Wide Web to Its Full Potential,2003,197.
[24]WILKINSON K,SAYERS C,KUNO H A,et al.Efficient RDF Storage and retrieval in Jena2[A].The First International Workshop on Semantic Web and Databases[C].2003,3:131-150.
[25]HARRIS S,GIBBINS N.3store:efficient bulk RDF storage[A].Workshop on Practical and Scalable Semantic Systems[C].2003.
[26]ALEXAKI S,CHRISTOPHIDES V,KARVOUNARAKIS G,et al.The ICS-FORTH RDFSuite:managing voluminous RDF description bases[A].SemWeb[C].Hong Kong,China,2001.
[27]CHONG E I,DAS S,EADON G,et al.An efficient SQL-based RDF querying scheme[A].31st International Conference on Very Large Data Bases VLDB Endowment[C].2005.1216-1227.
[28]ABADI D J,MARCUS A,MADDEN S R,et al.Scalable semantic web data management using vertical partitioning[A]. 33rd International Conference on Very Large Data Bases[C].2007.411-422.
[29]WEISS C,KARRAS P,BERNSTEIN A.Hexastore:sextuple indexing for semantic Web data management[J].Proceedings of the VLDB Endowment,2008,1(1):1008-1019.
[30]SIDIROURGOSL,GONCALVESR,KERSTEN M,etal.Column-store support for RDF data management:not all swans are white[J].Proceedingsofthe VLDB Endowment,2008,1(2):1553-1563.
[31]ATRE M,CHAOJI V,ZAKI M J,et al.Matrix bit loaded:a scalable lightweight join query processor for RDF data[A].19th International Conference on World Wide Web[C].ACM,2010.41-50.
[32]STOCKER M,SEABORNE A,BERNSTEIN A,et al.SPARQL basic graph pattern optimization using selectivity estimation[A].17th International Conference on World Wide Web[C].ACM,2008.595-604.
[33]MADUKO A,ANYANWU K,SHETH A,et al.Estimating the cardinality of RDF graph patterns[A].Proceedings of the 16th International Conference on World Wide Web[C].ACM,2007.1233-1234.
[34]NEUMANN T,WEIKUM G.RDF-3X:a RISC-style engine for RDF[J].Proceedings of the VLDB Endowment,2008,1(1):647-659.
[35]NEUMANN T,WEIKUM G.The RDF-3X engine for scalable management of RDF data[J].The VLDB Journal,2010,19(1):91-113.
[36]NEUMANN T,WEIKUM G.Scalable join processing on very large RDF graphs[A].Proceedingsofthe 2009 ACM SIGMOD International Conference on Management of Data[C].ACM,2009.627-640.
[37]HUANG J,ABADI D J,REN K.Scalable SPARQL querying of large RDF graphs[J].Proceedings of the VLDB Endowment,2011,4(11):1123-1134.
[38]BINNA R,GASSLER W,ZANGERLE E,et al.Spiderstore:exploiting main memory for efficient RDF graph representation and fast querying[A].Proceedings of Workshop on Semantic Data Management(SemData@VLDB)[C].2010.
[39]WEAVER J,HENDLER J A.Parallel Materialization of the Finite RDFs Closure for Hundreds of Millions of Triples[M].Springer Berlin Heidelberg,2009.
[40]URBANI J,KOTOULAS S,OREN E,et al.Scalable Distributed Reasoning Using MapReduce[M].Springer Berlin Heidelberg,2009.
[41]MYUNG J,YEON J,LEE S.SPARQL basic graph pattern processing with iterative MapReduce[A].Proceedings of the 2010 Workshop on Massive Data Analytics on the Cloud[C].ACM,2010.
[42]ROHLOFF K,SCHANTZ R E.High-performance,massively scalable distributed systems using the MapReduce software framework:the SHARD triple-store[A].Programming SupportInnovationsfor Emerging Distributed Applications[C].ACM,2010.
[43]GUPTA M,GAO J,YAN X F,et al.Top-Kinteresting subgraph discovery in information networks[A].2014 International Conference on Data Engineering[C].2014.
[44]ZOU L,?ZSU M T,CHEN L,et al.gStore:a graph-based SPARQL query engine[J].The VLDB Journal—the International Journal on Very Large Data Bases,2014,23(4):565-590.
[45]ZOU L,HUANG R,WANG H,et al.Natural language question answering over RDF:a graph data driven approach[A].Proceedings of the 2014 ACM SIGMOD International Conference on Management of data[C].ACM,2014.313-324.
[46]YANG T,CHEN J,WANG X,et al.Efficient S`PARQL query evaluation via automatic data partitioning[A].Database Systems for Advanced Applications[C].Wuhan,2013.
[47]DU F,BIAN H,CHEN Y,et al.Efficient SPARQL query evaluation in a database cluster[A].Big Data,2013 IEEE International Congress on[C].2013.165-172.
[48]BIAN H,CHEN Y,DU X,et al.MetKB:enriching RDF knowledge bases with web entity-attribute tables[A].22nd ACM International Conference on Conference on Information & Knowledge Management[C].ACM,2013.2461-2464.
[49]RAIMOND Y,et al.The event ontology[EB/OL].http://motools.sourceforge.net/event/event.html.2007.
[50]TRAME J,KE?LER C,KUHN W.Linked Data And Time–Modeling Researcher Life Lines By Events[M].Spatial Information Theory.Springer International Publishing,2013.
[51]JIN R,HONG H,WANG H,et al.Computing label-constraint reachability in graph databases[A].2010 ACM SIGMOD International Conference on Management of data[C].ACM,2010.123-134.
[52]XU K,ZOU L,YU J X,et al.Answering label-constraint reachability in large graphs[A].Proceedings of the 20th ACM International Conference on Information and Knowledge Management[C].ACM,2011.1595-1600.
[53]FAN W,LI J,MA S,et al.Adding regular expressions to graph reachability and pattern queries[A].Data Engineering(ICDE),2011 IEEE 27th International Conference on[C].2011.39-50.
[54]GUBICHEV A,BEDATHUR S,SEUFERT S,et al.Fast and accurate estimation of shortest paths in large graphs[A].Proceedings of the 19th ACM International Conference on Information and Knowledge Management[C].ACM,2010.499-508.
[55]POTAMIAS M,BONCHI F,CASTILLO C,et al.Fast shortest path distance estimation in large networks[A].18th ACM Conference on Information and Knowledge Management[C].ACM,2009.867-876.
[56]TRETYAKOV K,ARMAS-CERVANTES A,GARCíA-BA?UELOS L,et al.Fast fully dynamic landmark-based estimation of shortest path distances in very large graphs[A].20th ACM International Conference onInformationandKnowledgeManagement[C].ACM,2011.1785-1794.
[57]DAS SARMA A,GOLLAPUDI S,NAJORK M,et al.A sketch-based distance oracle for Web-scale graphs[A].Proceedings of the Third ACM International Conference on Web Search and Data Mining[C].ACM,2010.401-410.
[58]GOLDBERG A V,HARRELSON C.Computing the shortest path:a search meetsgraph theory[A].Sixteenth AnnualACM-SIAM Symposium on Discrete Algorithms Society for Industrial and Applied Mathematics[C].2005.156-165.
[59]ZHAO X,SALA A,WILSON C,et al.Orion:shortest path estimation for large social graphs[J].Networks,2010,1:5.
[60]ZHAO X,SALA A,ZHENG H,et al.Fast and scalable analysis of massive social graph[J].arXiv preprint arXiv:1107.5114,2011.
[61]FAN W,LI J,MA S,et al.Graph pattern matching:from intractable to polynomial time[J].Proceedings of the VLDB Endowment,2010,3(1-2):264-275.
[62]ZOU L,CHEN L,?ZSU M T,et al.Answering pattern match queries in large graph databases via graph embedding[J].International Journal on Very Large Data Bases,2012,21(1):97-120.
[63]MA S,CAO Y,FAN W,et al.Capturing topology in graph pattern matching[J].Proceedings of the VLDB Endowment,2011,5(4):310-321.
[64]SUN Z,WANG H,WANG H,et al.Efficient subgraph matching on billion node graphs[J].Proceedings of the VLDB Endowment,2012,5(9):788-799.
[65]MA S,CAO Y,HUAI J,et al.Distributed graph pattern matching[A].21st International Conference on World Wide Web[C].2012.949-958.
[66]LI G,OOI B C,FENG J,et al.EASE:an effective 3-in-1 keyword search method for unstructured,semi-structured and structured data[A].ACM SIGMOD International Conference on Management of Data[C].2008.903-914.
[67]KARGAR M,et al.A.Keyword search in graphs:finding r-cliques[J].Proceedings of the VLDB Endowment,2011,4(10):681-692.
[68]GRAY J,CHAUDHURI S,Bosworth A,et al.Data cube:a relational aggregation operator generalizing group-by,cross-tab,and sub-totals[J].Data Mining and Knowledge Discovery,1997,1(1):29-53.
[69]LIN C X,DING B,HAN J,et al.Text cube:computing ir measures for multidimensional text database analysis[A].Data Mining,ICDM'08.Eighth IEEE International Conference on[C].2008.905-910.
[70]ZHANG D,ZHAI C,HAN J.Topic cube:topic modeling for OLAP on multidimensional text databases[A].SDM[C].2009,9:1124-1135.
[71]CHEN C,YAN X,ZHU F,et al.Graph OLAP:towards online analyticalprocessing on graphs[A].Eighth IEEE International Conference on Data Mining[C].2008.
[72]ZHAO P,LI X,XIN D,et al.Graph cube:on warehousing and OLAP multidimensional networks[A]. ACM SIGMOD International Conference on Management of data[C].2011.853-864.