方濱興,賈焰,李愛平,殷麗華
(1.北京郵電大學 計算機學院,北京 100876;2.國防科學技術大學 計算機學院,湖南 長沙 410073;3.中國科學院 信息工程研究所,北京100093)
搜索引擎是指從互聯網搜集信息,經過一定整理以后,提供給用戶進行查詢的系統(tǒng)。搜索引擎填補了人們和信息空間之間的信息鴻溝,在促進互聯網飛速發(fā)展、加快互聯網應用普及等方面,起到了非常重要的作用。然而,隨著網絡空間逐漸由互聯網擴展到由互聯網、物聯網、傳感網、社交網絡、工業(yè)控制系統(tǒng)等信息系統(tǒng)所構成的泛在網絡空間發(fā)展,網絡應用模式也從Web 1.0發(fā)展到了Web 3.0[1],隨著大數據時代的到來[2],搜索內容已由單純信息向多維度拓展,傳統(tǒng)的搜索引擎已經不能滿足需求,新時代的搜索——“網絡空間大搜索”應運而生。
網絡空間大搜索是具有“智慧”的搜索,在網絡空間技術及應用蓬勃發(fā)展的今天,將在未來對我國政治、經濟、技術、生活等各個方面產生重要的影響,具有極其重要的戰(zhàn)略意義,具體包括如下。
1)影響和推動經濟發(fā)展。搜索引擎將以幾何基數增長的形式帶動相關行業(yè)經濟發(fā)展。首先,用戶數增長是基礎,2014年中國移動搜索用戶已達到4.5億,移動搜索市場規(guī)模比2010年上漲32倍。其次,廣告增長是收入來源,2013年11月,Google在線廣告推薦系統(tǒng)收入已經超過全美報紙、雜志行業(yè)廣告收入的總和。Gartner預計全球移動廣告支出有望由2014年的180億美元增加至2017年的419億美元。2014年中國搜索引擎市場迎來較為高速的發(fā)展,市場規(guī)模達到587.2億元,到2017年將翻一番。
2)支撐和推動IT技術進步。網絡空間大搜索將搜索對象由單純的互聯網信息擴展到了人、物體和信息組成的三維信息空間。三維信息空間具有明顯的5V大數據特征(規(guī)模大、類型多、速度快、不確定性、價值性)。據IDTechEx預測,未來10年全球的智能終端節(jié)點數量將達到10萬億。2013年5月中國工業(yè)和信息化部發(fā)布的《物聯網標識白皮書》表明,未來我國的物聯網終端數量將達到100億~1 000億。在2011年全球產生互聯網數據量已經達到1.8 ZB,種類包括文本、視頻、音頻、圖片等,中國聯通上網記錄每秒83萬條,這一切都表明大數據無論是規(guī)模、種類還是產生速度,都已產生了革命性變化。大搜索將以橋梁連接作用促進物聯網、移動互聯網、大數據、云計算四大IT技術的發(fā)展。正如搜索引擎與網絡技術及Web應用的相輔相成的關系一樣,大搜索的發(fā)展也必將與四大IT技術相互促進,推動信息產業(yè)的繁榮。
3)提升人民的生活水平。大搜索將在環(huán)保、醫(yī)療、教育、交通等方面的應用,將有效提高政府、企業(yè)、機構及個人的決策能力,提供快捷、全面、準確的決策依據,大大提高決策能力,提升決策透明度。大搜索以發(fā)掘大數據深層信息的“深挖”能力,連接各行業(yè)全方位信息的“貫通”能力,為用戶提供問題解答的“智慧”能力,有效提升人民的生活水平。
4)為國家安全提供情報。搜索引擎可以通過技術措施操控人們獲得信息的范圍,誰掌握了搜索引擎,誰就擁有了為人們提供信息甚至答案的權利,由此產生的政治、經濟和社會驅動力日益受到各國重視。搜索引擎通過對用戶的搜索問題進行戰(zhàn)略性統(tǒng)計和計算,這將對國家、社會和商業(yè)具有重要意義。
網絡空間大搜索面向泛在網絡空間的人、物體和信息,在正確理解用戶意圖基礎上,基于從網絡空間大數據獲取的知識,從信息、時間、空間的角度給出滿足用戶需求的智慧解答。其中,用戶意圖理解是在用戶多模態(tài)輸入及消除歧義的基礎上,結合用戶的上下文和語義知識,迅速、準確地理解和定位用戶的真實意圖,從而縮短用戶與搜索引擎的交互流程,達到提高用戶感受、獲得精準搜索結果的目的。智慧解答是在綜合利用大數據價值和知識體系基礎上,經過匹配、推理、計算以及眾包等技術和方法,形成若干個智慧的綜合解決方案,給出真正滿足用戶需求的可供選擇的解決方案體系,而不僅僅是基于簡單匹配的存在性信息搜索結果。
已有搜索引擎按其工作方式主要可分為3種,分別是全文搜索引擎、垂直搜索引擎[3]和元搜索引擎[4]。其中,全文搜索引擎是從互聯網上提取各網站的信息創(chuàng)建數據庫,并將網頁按相關度排序,用戶輸入關鍵詞,搜索引擎將匹配的網頁鏈接返回給用戶[5],如Google、Baidu和Bing等;垂直搜索專注于特定的搜索領域和搜索需求,是搜索引擎的細分和延伸,可劃分為人搜索、物體搜索、服務搜索和領域搜索等[6],如大眾點評網、同城網和房產搜索等[7,8];元搜索引擎是同時在其他多個引擎上進行搜索,并將結果返回給用戶,如MetaCrawler等[9]。
一般地,大搜索至少包含知識倉庫的構建和管理、用戶搜索意圖的準確理解、表示與匹配、安全與隱私保護,因此,下面從這些方面來展示國內外現狀。
知識倉庫是知識管理與知識服務的基礎,目前知識倉庫的構建和管理主要圍繞知識圖譜(knowledge graph)展開,從而增加搜索的智能性,提高用戶體驗。知識圖譜的數據源主要包括2類,一類是Web頁面[7~9],一類是在線百科[10~12]。在知識倉庫的建立和管理中,資源的有效表示與查詢至關重要。RDF作為Web資源的表示標準,許多知識圖譜都選擇RDF(或類RDF)來表示知識。早期RDF查詢多先利用關系數據庫中的關系表存儲RDF數據,而后期將RDF查詢轉換為SQL查詢[13,14]的焦點在于進一步提升RDF查詢性能,其相關技術包括垂直分片[15]、額外索引[16]等。目前大多知識均以簡單RDF形式存儲,這使多數圖查詢模型及技術可應用到知識庫查詢處理中,主要包括:可達性查詢[17]、最短路徑或距離查詢[18,19]、圖匹配查詢[20,21]、序列查詢及關鍵字查詢[23]。
已有的知識圖譜技術偏重已知的實體,對不斷涌現的新興實體及其關聯,尤其是事件性及隱性實體的關聯,尚沒有完善的解決方法。
只有充分理解用戶真正的檢索意圖,才有可能快速準確地找到查詢結果,為用戶提供準確的檢索服務。因此,對搜索意圖進行建模是信息檢索領域的研究重點之一。最直接方法是基于用戶對搜索結果的點擊行為進行搜索意圖建模。如Li等[24,25]提出一種半監(jiān)督學習方法,利用查詢詞與搜索結果之間的點擊二分圖及部分已標注信息生成分類器,達到推斷查詢詞對應的搜索意圖的目的。另外,Etzioni等提出了基于規(guī)則模板抽取實體/概念之間的關系來描述和理解搜索意圖。Madhu等[26]利用語義網工具和技術提供分層模塊的方法解決搜索引擎對語義內容的理解。
在基于用戶點擊行為的建模方法的基礎上,引入時序相關性分析法分析用戶一段時間內的搜索日志可以提高建模的準確性[27~30]。Chilton等[27]通過分析大量的用戶搜索及點擊記錄,發(fā)現用戶重復的搜索行為與搜索關鍵詞的價值之間的關聯關系,進而利用這一關系判斷用戶之后的關鍵詞輸入行為所對應的準確搜索意圖。He等[28]基于持續(xù)的部分可觀測馬爾可夫模型(POMD,partially observable Markov model with duration)分析用戶搜索日志中包含的空間與時間信息,獲取用戶的一些隱性行為特征,并通過這些特征構建用戶搜索意圖模型。Agichtein[29]則根據對用戶的搜索記錄的分析,提出一種對用戶較長一段時間內可能發(fā)生的行為的預測方法,從而達到為用戶提供準確檢索結果的目的。
此外,研究者提出了基于語義相關性的意圖建模方法。Sadikov等[31]結合用戶查詢后點擊的文件和查詢關鍵詞等所包含的語義信息分析用戶的查詢意圖。Jethava等[32]分析用戶查詢關鍵詞除自身語義外所包含的多維信息,建立從粗糙到精細的樹狀結構,根據查詢詞的聚類結果進行意圖建模。在構造查詢詞的樹狀結構時,這些算法都需要利用自然語言處理的方法對查詢詞之間的關系進行分析[33]。Li等[34]同時結合搜索意圖在時間上和語義上的相關性分析,提出了基于高維Hawkes點過程模型的用戶搜索意圖識別和分類模型,統(tǒng)一了上述建模方法。
用戶意圖匹配的研究工作主要包括文本模型和圖模型?;谖谋灸P偷囊鈭D匹配通過將以關鍵詞查詢檢索的方式來把用戶的意圖進行語義轉換和目標文檔的匹配,并獲取相關度排序?;趫D模型的意圖匹配通過圖搜索來實現搜索意圖與搜索空間中目標項的查找和匹配,主要包括關鍵詞圖搜索技術、子圖匹配技術和近似圖匹配技術等[35]。
雖然研究者在用戶搜索意圖的理解、表示與匹配方面已經取得了不少成果,但是現有的搜索意圖理解多是經驗式的,僅是分析性的而非預測性的,目前仍缺少統(tǒng)一的理論和算法框架對搜索意圖的建模進行指導。此外,現有的基于搜索意圖的交互式搜索方法往往是被動探索用戶意圖而非主動地啟發(fā)用戶更明確表達其搜索意圖。另外,現有的研究幾乎忽略了用戶在與搜索引擎交互過程中表現出來的間接行為(如頭部運動),研究這些間接行為將成為搜索意圖建模的發(fā)展趨勢。
大搜索的數據可能來源于物聯網、工控網、移動互聯網,甚至是與國家安全相關的基礎設施。相應地,攻擊者可能利用大搜索系統(tǒng)獲得個人隱私、商業(yè)甚至國家機密。因此,面向大搜索的安全與隱私保護至關重要。訪問控制作為保障安全的關鍵技術之一,在搜索領域有廣泛的應用。在大搜索中,數據與搜索者具有高度動態(tài)性、海量性等特征,這使適用于封閉環(huán)境的傳統(tǒng)訪問控制不再適合于大搜索。基于屬性的訪問控制將主體和客體的屬性作為基本的決策要素,屬性是主體和客體內在固有的,不需要手工分配,同時訪問控制是多對多的方式,管理上相對簡單。這些優(yōu)點使基于屬性的訪問控制在大搜索中具有廣闊的應用前景。
基于屬性的訪問控制中用戶權限僅與其屬性相關,具有較強的匿名性,為惡意用戶濫用其所擁有的權限帶來了方便,惡意攻擊者可能利用大搜索作惡,因此必須研究基于屬性的身份認證、追蹤、權限更新與撤銷機制。結合數字簽名思想,文獻[36,37]提出了基于屬性的簽名機制,該機制中簽名者可聲稱其簽名對應某一組特定的屬性或某種特定訪問控制結構,驗證者可驗證簽名是否由相應的屬性或訪問結構擁有者所簽署。根據追蹤方法輸入的不同,用戶可追蹤方法可分為白盒追蹤(white-box traceability)[38]及黑盒追蹤[39](black-box traceability)機制。在權限管理方面,Ostrovsky等[40]首先提出了基于CP-ABE的直接撤銷機制,但這種方式增加了密文和用戶私鑰的大小。為了減小授權機構的負擔同時實現細粒度的訪問權限管理,研究者提出了間接管理的方法[41,42]。
在隱私保護方面,文獻[43]將密文檢索理論應用到物聯網隱私保護中,用戶可以在不泄漏位置信息的情況下檢索服務器上的任意數據項。文獻[44]提出一種基于可查詢加密的隱私保護框架,在數據加密的情況下實現好友之間簽到位置的查詢。文獻[45]提出了基于差分隱私的查詢處理技術。文獻[46,47]將分權機制引入到搜索代理平臺,在搜索過程中搜索平臺無法準確獲知用戶的身份信息,進而保護用戶的搜索模式。
雖然研究者在面向搜索的安全與隱私保護方面取得了不少成果,但多數工作圍繞著以訪問控制等為核心的技術展開。大搜索模式具有扁平性、搜索用戶的開放性與海量性、節(jié)點動態(tài)性等特征,在該模式下如何實現搜索權限的實時撤銷與更新、如何在數據加密數據中實現搜索、如何有效分割數據、如何添加噪音以防止信息被搜索者推演獲取有待進一步研究與完善。
與傳統(tǒng)的搜索引擎相比,網絡空間大搜索具有以下“5S”特點。
1)泛網獲?。╯ourcing from the cyber)。根據給定的目標和任務獲取數據,其數據空間是涵蓋了人、物、信息的泛在網絡空間,獲取的數據類型包括人、物、事件、時間、空間等各類信息,并進行有效組織、存儲和管理,為智慧解答奠定基礎。
2)意圖感知(sensing the context)是對用戶搜索意圖的精確化理解。為此,大搜索結合用戶請求的上下文、時空特性、場景感知、動作情感等方式,支持在語義級別上對用戶搜索意圖進行理解,并以恰當的方式進行表示,提交給搜索引擎,意圖感知是大搜索的基礎。
3)多源綜合(synthesis from multiple channels)是基于多模態(tài)數據(如文本、位置、傳感器、交通、圖片、音視頻等數據)進行多源關聯推理,并給出的多維度、多屬性、多模態(tài)智慧解答。
4)安全可信(security privacy and trust)要求搜索結果的可信性和用戶的隱私保護。不同于傳統(tǒng)搜索引擎給出的存在性搜索,大搜索需要對數據進行挖掘、分析和加工,在此基礎上給出綜合的解答,因此其結果的可信性至關重要;搜索中的關聯分析可能挖掘出用戶的隱私,因此需要進行隱私保護。
5)智慧解答(intelligent solutions)。傳統(tǒng)搜索引擎的搜索結果只包含用戶輸入關鍵詞的匹配網頁,而網絡空間大搜索引擎返回的答案是經過理解和推理綜合的解答。具體過程根據用戶的搜索意圖,基于知識倉庫對關聯的知識進行求解,通過推理、統(tǒng)計、眾包等多種推理演算方法形成若干個智慧綜合的解決方案,并將之以合適的方式提交給用戶。
網絡空間大搜索引擎填補人與物理世界、信息世界的斷層,其體系結構如圖1所示,其研究范疇主要包括5個部分。
1)泛在網空間信息獲取與發(fā)掘方法。以一定的策略和方法,面向給定任務目標在網絡空間中采集、獲取和推演相關數據和信息,主要技術包括如下。
①面向目標任務的多來源、多模態(tài)數據獲取方法:面向各種應用領域和不同數據模態(tài)的目標任務表示、匹配及獲取技術;面向實時數據流的目標信息采集技術;目標驅動的異構、異質數據的協(xié)同采集技術;巨規(guī)模采集任務并行計算和管理平臺技術;目標采集數據的完整性和精確性評估模型等。
②面向目標任務的關聯數據發(fā)掘方法:數據關聯推演知識的表示、管理及基于推演的間接數據獲取方法;基于上下文的多模態(tài)數據關聯挖掘方法;場景、時空感知的關聯數據挖掘分析方法;基于眾包、標注等方法的關聯數據挖掘方法等。
③巨規(guī)模、多模態(tài)實時數據流的清洗方法:基于滑動窗口數據摘要及優(yōu)先隊列的重復數據刪除技術;基于編輯距離算法的異構相似數據匹配技術;基于情景語義描述模型的噪音數據清洗技術等。
④泛在網絡空間數據融合與沖突消解方法:基于數據依賴關系圖的多模態(tài)異構數據的融合計算模型;情境驅動的多層次融合和情景語義描述模型;基于本體論的多層次(數據級、特征級、決策級)數據沖突消解方法等。
2)知識倉庫的構建和管理模型。在給出泛在空間巨規(guī)模實體關系統(tǒng)一建模知識表示的基礎上,再對知識從不同維度、不同層次等方面進行聚合、組織和關聯,并維護其最新狀態(tài),提供高效的查詢、匹配和推演等操作,主要技術包括如下。
①巨規(guī)模實體關系的表示模型和方法:基于超圖的統(tǒng)一實體關系表示模型;實體間巨復雜關聯關系及其演化的表示方法;實體多維屬性的及其時空變化的表示方法;基于實體關系表示模型的實體查找、關聯、推演等演算方法。
②基于實體關系模型的知識倉庫組織和管理:面向概念、事件、人物等目標的巨規(guī)模知識組織管理方法;多維度、多尺度的知識高效匹配和查詢技術;高可擴展、可演化的知識倉庫體系架構;知識倉庫的支撐計算平臺技術等。
③知識倉庫的實時演化和更新:基于概率統(tǒng)計的巨規(guī)模關聯知識推演方法;基于大數據關聯分析的知識挖掘方法;基于面向知識倉庫的規(guī)則推演的知識發(fā)現方法;基于眾包的知識沖突消解方法;知識倉庫質量的評價方法等。
3)用戶搜索意圖的準確理解與表示模型?;谟脩舨樵冚斎氲年P鍵詞、語音、手勢等內容,在語義級上準確理解用戶的意圖,并采用支持高效查詢推演的統(tǒng)一模型進行表示。主要技術包括如下。
①搜索意圖的統(tǒng)一表示和語義建模:面向多模態(tài)數據的語義級用戶意圖的統(tǒng)一表示方法;用戶意圖時空特性的表示方法;用戶意圖的場景相關特性的表示方法;用戶意圖的情感相關特性的表示方法等。
②語義級用戶意圖準確理解方法:基于上下文感知的用戶意圖理解方法;基于時空特性的用戶意圖理解方法;基于統(tǒng)計分析的用戶意圖理解方法;基于情感分析的用戶意圖理解方法;基于事件推演的用戶意圖理解方法;多維度綜合的用戶意圖理解方法;用戶意圖理解評價模型和方法等。
4)用戶意圖的高效匹配和推演方法。是指運用統(tǒng)一表示的用戶意圖在知識倉庫中進行匹配推演,求解問題,并給出一組有序的推薦解答方案的過程。主要技術包括如下。
①基于圖模型、文本模型等的搜索意圖匹配技術:大圖的高效索引和分布式組織管理技術;大圖劃分和分布式緩存理論與方法;面向大圖結構的特性分析技術,基于大圖的高效查詢及其優(yōu)化技術;基于大圖的用戶意圖高效推演技術等。
②面向用戶意圖的解答排序與評估技術:研究異構信息聚合搜索評價技術,分析服務信息源和用戶意圖的關系,評價返回的各種類型的信息之間的相互作用、信息源的排序來綜合評價整體結果質量;研究搜索結果評估體系,主要實現不同設備上的搜索體驗的評估;針對大搜索下的用戶行為分析與建模,建模評價需求和目標的用戶滿意度等。
5)大搜索安全可信與隱私保護技術。主要解決源數據獲取、融合分析、結果返回使用等環(huán)節(jié)中的信息來源可信、數據訪問安全和隱私泄漏保護等問題。主要技術包括如下。
①數據源可信與信息溯源技術:研究數據源可信方法,包括數據來源真實性的快速驗證、不完整數據快速清洗與恢復、數據質量管理機制與方法;研究數據在演化過程中的縱向溯源演化的理論模型和方法;研究搜索結果的推理過程溯源方法。
②細粒度的搜索訪問控制技術:研究支持數據復用的訪問控制模型及其動態(tài)策略調整機制;不同數據源綜合結果的所有權動態(tài)劃分及其訪問控制;針對不同隱私保護方案的訪問控制模型及其機制的融合、沖突消解等問題。
圖1 搜索引擎架構示意
③防關聯分析的隱私數據處理方法與技術:研究信息隱私與行為隱私的綜合建模與測評;研究面向情景感知的深度融合隱私保護機制,研究面向搜索的高效隱私保護理論;研究設計能夠抵御關聯分析的隱私保護策略;研究隱私保護方案的動態(tài)調整機制,實現對海量用戶的高并發(fā)隱私保護方案。
從上面分析可以看出,網絡空間大搜索引擎的研究范疇與傳統(tǒng)搜索引擎存在重大差別,體現在如下幾個方面。第一,是關聯信息發(fā)掘,即對泛在網絡空間中的數據獲取和信息發(fā)掘,包括互聯網、物聯網、社交網絡、醫(yī)療健康、視頻監(jiān)控、地理信息等空間中的各類數據。第二,是知識倉庫構建和管理,即面向泛在網絡空間的海量對象及關系進行建模,該模型支持語義級、巨規(guī)模實體、關系、及其演化的表示,并形成知識立方。第三,是搜索意圖理解,即結合用戶的上下文和語義知識等方法,迅速、準確地理解用戶的真實意圖。第四,是知識推演,經過匹配、推理、計算乃至眾包等技術和方法,形成若干個滿足用戶真正意圖的智慧綜合的解決方案。第五,是安全隱私保護,即保證用戶搜索的全程安全,使數據源可信、搜索過程可控、搜索結果可過濾。
由于大搜索從泛在網絡空間中的數據獲取、支持語義知識倉庫構建和管理、能準確理解搜索意圖、在保障安全與隱私的條件下形成滿足用戶真正意圖的智慧綜合解決方案。因此,相對于傳統(tǒng)的互聯網搜索,網絡空間大搜索引擎將對用戶體驗與應用產生革命性的提升和改善。
在泛在網絡空間大搜索引擎的基礎理論發(fā)展趨勢方面,尚需要針對大搜索研究范疇中的5個部分進行突破,具體包括:1)針對數據間顯式或隱式形成的巨大實體關聯網絡,構建面向巨規(guī)模實體與數據搜索的知識倉庫,設計與之相配的管理方法;2)結合用戶上下文與環(huán)境等信息,實現對用戶搜索意圖的準確理解;3)解決海量異構數據的定向獲取問題,并實現基于推演等的間接知識發(fā)現;4)基于子圖匹配、計算統(tǒng)計、規(guī)則推理、眾包等技術解決大規(guī)模/不完備的知識倉庫與用戶意圖的實時匹配,有效地從大量數據中搜索定位目標實體和目標關系,實現秒級的知識匹配、推理和統(tǒng)計;5)大搜索中的安全與隱私保護問題,解決開放數據的源可信問題、搜索過程的可控問題、用戶的隱私保護問題以及暴力色情等有害信息的過濾問題。
在網絡空間大搜索的應用試驗床發(fā)展趨勢方面,主要是應對物聯網、社交網絡和視音頻等領域需求,構建大搜索試驗床,具體包括:1)安全物聯網搜索試驗床,覆蓋多類傳感器、攝像頭、SCADA網絡、位置服務等多種應用,研發(fā)基于物理實體發(fā)現的多維時空高動態(tài)索引系統(tǒng),建立支持實時搜索的跨地域分布式物理實體與信息的安全搜索試驗環(huán)境;2)社交網絡搜索試驗床,覆蓋微博、博客、人人等多通道,集成Twitter、新浪微博、騰訊微博等國內外最大社交網絡數據,建立支持PB級數據處理能力跨地域分布式試驗環(huán)境;3)音視頻搜索試驗床,覆蓋視覺、聽覺、高動態(tài)圖像、全光圖像等多模態(tài)信息,建立網間視音頻數據的融合、互聯與共享通道,實現跨網數據融合與全局化,建立具有廣覆蓋性的跨網一致性關聯與融合的視音頻檢索平臺。
在應用系統(tǒng)方面,可能的具體發(fā)展趨勢包括:1)在音視頻監(jiān)控領域,實現全天候真實環(huán)境下的人臉、人體、車輛等典型運動目標的實時檢測、跟蹤與識別技術;異常行為和事件的監(jiān)測、預測與評估技術。數據時空協(xié)同分析、理解與價值挖掘;2)針對社交網絡領域,在PB級數據空間上,實現事件、人物、網絡群體、相互關系、信息事件、情感演化等的實時搜索;3)針對醫(yī)學健康領域,在隱私保護的前提下,實現電子病歷、診療數據、專業(yè)論文、疾病癥狀、治療護理推薦、醫(yī)院醫(yī)師等的個性化搜索;4)在物聯網領域,在隱私保護的前提下,實現與人(如可搜索和跟蹤指定穿戴設備的信息)、物體及狀態(tài)信息(如醫(yī)院剩余床位數量)、感知趨勢(如溫度、氣壓、噪音等狀態(tài)信息)及行程有關的搜索。
在共性大搜索引擎的發(fā)展趨勢方面,在以上具體領域成功應用的基礎上,探索構建通用共性的大搜索系統(tǒng),具體包括:支持涵蓋了信息、人物和物體的泛在網絡空間,Web 2.0和Web 3.0互聯網應用模式,在大數據環(huán)境中支持對用戶真實意圖的理解,支持構建知識倉庫,并返回智能解決方案,并支持對搜索的全生命周期的安全訪問控制和隱私保護。
搜索引擎可以通過技術措施操控人們獲得信息的范圍,誰掌握了搜索引擎,誰就掌握了信息網絡空間的入口,掌握了為人們提供信息甚至答案的權利,由此產生的經濟和社會驅動力日益受到各國重視,面向網絡空間的下一代搜索引擎——“大搜索”已具有迫切的需求。本文以網絡空間大搜索的需求和挑戰(zhàn)為研究目標,提出了網絡空間大搜索應具有的5S特征,探索了支撐5S特征的研究范疇,指明了大搜索技術的發(fā)展趨勢。從國際宏觀上看,目前大搜索技術仍然處于起步階段,應當把握切入大搜索的機會機遇,努力與發(fā)達國家展開技術競爭,搶占大搜索引擎這一產業(yè)的制高點,力爭掌握相關自主知識產權,以爭取在下一輪的信息革命中占據先機,從而提高社會運轉效率,推動國家經濟的健康發(fā)展。
[1] HENDLER J.Web 3.0 emerging[J].Computer,2009,42(1):111-113.
[2]MANYIKA J,CHUI M,BROWN B,et al.Big Data:The Next Frontier for Innovation,Competition,and Productivity[M].Mckinsey Global Institute.2011.
[3] CHAU M,CHEN H.Comparison of three vertical search spiders[J].Computer,2003,36(5):56-62.
[4] HOWE A E,DREILINGER D.Savvysearch:a meta-search engine that learns which search engines to query[J].AI Magazine,1997,18(2):19-25.
[5] PAGE L,BRIN S,MOTWANIR,et al.The PageRank Citation Ranking:Bringing Order to the We[R].1999.
[6] WILKINSON K,SAYERS C,KUNO H,et al.Efficient RDF storage and retrieval in jena2[A].International Workshop on Semantic Web and Databases[C].2003.35-43.
[7] ETZIONI O,KOK S,SODERLAND S,et al.Web-scale information extraction in knowltAll[A].International World Wide Web Conference Proceedings[C].2004.100-110.
[8]YATES A,CAFARELLA M,BANKO M,et al.Textrunner:open information extraction on the Web[A].Proceedings of Human Language Technologies[C].2007.25-26.
[9] WU W,LI H,WANG H,et al.Probase:a probabilistic taxonomy for text understanding[A].Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data[C].2012.481-492.
[10]FABIAN M,GJERGJI K,GERHARD W.YAGO:a core of semantic knowledge unifying wordnet and wikipedia[A].International Conference on World Wide Web.2007.697-706.
[11]AUER S,BIZER C,KOBILAROV G,et al.DBpedia:a nucleus for a Web of open data[A].International Semantic Web Conference and 2nd Asian Semantic Web Conference[C].2007.11-15.
[12]LIU Q,WU D,LIU Y,et al.Extracting attributes and synonymous attributes from online encyclopedias[A].International Joint Conferences on Web Intelligence and Intelligent Agent Technologies[C].2014.290-296.
[13]BROEKSTRA J,KAMPMAN A,VAN H.Sesame:an architecture for storing and querying RDF data and schema information[J].Semantics for the Word Wide Web,2001:197-222.
[14]ALEXAKI S,CHRISTOPHIDES V,KARVDVNARAKIS G,et al.The RDFSuite:managing voluminous RDF description bases[J].International Workshop on the Semantic Web,2001:1-13.
[15]ABADI D J,MARCUS A,MADDEN S R,et al.Scalable semantic web data management using vertical partitioning[A].International Conference on Very Large Data Bases[C].2007.411-422.
[16]WEISS C,KARRAS P,BERNSTEIN A,et al.Hexastore:sextuple indexing for semantic web data management[J].Proceedings of the VLDB EndowmentArchive,2008,1(1):1008-1019.
[17]FAN W,LI J,MA S,et al.Adding regular expressions to graph reachability and pattern queries[J].Frontiers of Computer Science in China,2012,6(3):313–338.
[18]GUBICHEV A,BEDATHUR S,SEUFERT S,et al.Fast and accurate estimation of shortest paths in large graphs[A].International Conference on Information and Knowledge Management[C].2010.499-508.
[19]POTAMIAS M,BONCHI F,CASTILLO C,et al.Fast shortest path distance estimation in large networks[A].ACM Conference on Information and Knowledge Management[C].2009.867-876.
[20]WANG H,WANG H,SHAO B.Efficient subgraph matching on billion node graphs[J].Proceedings of the Very large Data Base,2012,5(9):788-799.
[21]CAO Y,SHUAI M,WO T.Distributed graph pattern matching[A].International Conference on World Wide Web[C].2012.949-958.
[22]LI A,JIN S,ZHANG L,et al.A sequential decision-theoretic model for medical diagnostic system[J].Technology and Health Care,2015,23(s1):37-42.
[23]LI G,OOI B C,FENG J,et al.EASE:an effective 3-in-1 keyword search method for unstructured,semi-structured and structured data[A].Proceedings of the 2008 ACM SIGMOD international conference on Management of data[C].2008.903-914.
[24]LI X,WANG Y,ACERO A.Learning query intent from regularized click graphs[A].Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C].2008.339-346.
[25]LI X,WANG Y Y,SHEN D,et al.Learning with click graph for query intent classification[J].ACM Transactions on Information Systems,2010,28(3):1-20.
[26]MADHU G,GOVARDHAN A,RAJINIKANTH T K V.Intelligent semantic web search engines:a brief survey[J].International journal of Web&Semantic Technology,2011,2(1):34-42.
[27]CHILTON L B,TEEVAN J.Addressing people’s information needs directly in a web search result page[A].Proceedings of the 20th International Conference on World wide Web[C].2011.27-36.
[28]HE Y,WANG K.Inferring search behaviors using partially observable markov model with duration(POMD)[A].Proceedings of the Fourth ACM International Conference on Web Search and Data Mining-WSDM’11[C].2011.415-424.
[29]AGICHTEIN E,WHITE R W,DUMAIS S T,et al.Search,interrupted:understanding and predicting search task continuation[A].Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval-SIGIR’12[C].2012.315-324.
[30]WANG H,SONG Y,CHANG M W,et al.Modeling Action-level satisfaction for search task satisfaction prediction[A].Proceedings of the 37th International ACM SIGIR Conference on Research&Development in Information Retrieval[C].2014.123-132.
[31]SADIKOV E.MADHAVAN J.WANG L,et al.Clustering query re fi nements by user intent[A].Proceedings of the 19th International Conference on World Wide Web[C].2010.841-850.
[32]JETHAVA V,CALDERóN B L,BAEZA Y R,et al.Scalable multi-dimensional user intent identification using tree structured distributions[A].Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval[C].2011.395-404.
[33]XU J,ZHANG Q,HUANG X.Understanding the Semantic Intent of Domain-Specific Natural Language Query[A].International Joint Conference on Nataral Language Processing[C].Nagoya,Japan,2013.552-560.
[34]LIANGDA LI,DENG H,DONG A,et al.Identifying and labeling search tasks via query-based hawkes processes[A].Proceedings of the 20thACM SIGKDD InternationalConferenceon Knowledge Discovery and Data Mining[C].2014.731-740.
[35]FAN W,LI J,MA S,et al.Graph homomorphism revisited for graph matching[J].Proceedings of the VLDB Endowment,2010,3(2):1161-1172.
[36]MAJI H K,PRABHAKARAN M,ROSULEK M.Attribute-based signatures:achieving attribute-privacy and collusion-resistance[J].IACR Cryptology ePrint Archive,2008:1-23.
[37]RIVEST R L,SHAMIR A,TAUMAN Y.How to leak a secret[A].The 7th International Conference on Theory and Application of Cryptology and Information Security[C].Gold Coast,Australia,2001.552-565.
[38]LIJ,REN K,KIM K.AABE:Accountable Attribute-Based Encryption for Abuse Free Access Control[R].Cryptology Eprint Archive,2009.
[39]YU S,REN K,LOU W,et al.Defending against key abuse attacks in KP-ABE enabled broadcastsystems[J].Security & Privacy in Communication Networks,2009,19:311-329.
[40]OSTROVSKY R,SAHAI A,WATERS B.Attribute-based encryption with non-monotonic access structures[A].Proceedings of the 14th ACM Conference on Computer and Communications Security[C].New York,USA,2007.195-203.
[41]PIRRETTIM,TRAYNOR P,MCDANIEL P,etal.Secure attribute-based systems[A].Proceedings of the 13th ACM Conference on Computer and Communications Security[C].New York,USA,2006.99-112.
[42]YANG K,JIA X.Expressive,efficient,and revocable data access control for multi-authority cloud storage[J].IEEE Transactions on Parallel and Distributed Systems,2014,25(7):1735-1744.
[43]HENGARTNER U.Hiding location information from location-based services[A].International Conference on Mobile Data Management[C].2007.268-272.
[44]ZHAO X,LI L,XUE G.Checking in without worries:Location privacy in location based social networks[A].IEEE Conference on Computer Communications[C].2013.3003-3011.
[45]DWORK C,NAOR M,VADHAN S.The privacy of the analyst and the power of the state[A].IEEE 53rd Annual Symposium on Foundations of Computer Science[C].2012.400-409.
[46]DE CAPITANI DI VIMERCATI S,FORESTI S,JAJODIA S,et al.On information leakage by indexes over data fragments[A].IEEE International Conference on Data Engineering Workshops(ICDEW)[C].2013.94-98.
[47]WATERS B.Ciphertext-Policy Attribute-Based Encryption:An Expressive,Efficient,and Provably Secure Realization[M].Public Key Cryptography–PKC 2011.Springer Berlin Heidelberg,2011.