賈焰,甘亮,李愛平,徐菁
(國防科學(xué)技術(shù)大學(xué) 計算機(jī)學(xué)院,湖南 長沙 410073)
在線社交網(wǎng)絡(luò)是一種在信息網(wǎng)絡(luò)上由社會個體集合及個體之間的連接關(guān)系構(gòu)成的社會性結(jié)構(gòu)。在線社交網(wǎng)絡(luò)可分為 4類:1)即時消息類應(yīng)用,是一種提供在線實時通信的平臺,如QQ、微信等;2)在線社交類應(yīng)用,是一種提供在線社交關(guān)系的平臺,如 Facebook、人人網(wǎng)等;3)微博類應(yīng)用,是一種提供雙向發(fā)布短信息的平臺,如Twitter、新浪微博等;4)共享空間等其他類應(yīng)用,是其他可以相互溝通但結(jié)合不緊密的Web2.0應(yīng)用,如論壇、博客等。當(dāng)前,在線社交網(wǎng)絡(luò)應(yīng)用正處在蓬勃發(fā)展期,F(xiàn)acebook已擁有超過14億的用戶,成為第一大“人口國”,新浪微博用戶數(shù)已達(dá)到5.36億,騰訊微博用戶數(shù)已達(dá)到5.7億。在線社交網(wǎng)絡(luò)應(yīng)用正深刻地影響著人們生活的各個方面。
在線社交網(wǎng)絡(luò)數(shù)據(jù)具有豐富價值,并蘊(yùn)含著大量智慧。主要體現(xiàn)在:1)蘊(yùn)含了大量用戶情感、立場和觀點,進(jìn)而可發(fā)掘人類的思想和行為;2)包含了各類具有時空特性的話題、事件信息,進(jìn)而可對它們的起源、傳播和發(fā)展規(guī)律進(jìn)行揭示和挖掘;3)記錄了用戶和話題間豐富的關(guān)系數(shù)據(jù),進(jìn)而可發(fā)現(xiàn)朋友關(guān)系、社交圈子、用戶與話題、話題與話題等之間關(guān)系;4)充滿了針對專業(yè)問題的豐富討論,進(jìn)而可匯聚群體智慧,服務(wù)于人們的工作和生活。
傳統(tǒng)的搜索引擎技術(shù),主要是面向 Web1.0靜態(tài)網(wǎng)頁,是基于關(guān)鍵詞的“存在性搜索”,不能支持面向Web2.0/3.0應(yīng)用,具有5V特性的大數(shù)據(jù),及其滿足用戶需求智慧解答的搜索。因此不能發(fā)掘豐富的在線社交網(wǎng)絡(luò)智慧,且服務(wù)于用戶。本文研究在線社交網(wǎng)絡(luò)智慧搜索技術(shù),定義如下。
在線社交網(wǎng)絡(luò)智慧搜索是在正確理解用戶意圖的基礎(chǔ)上,基于社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行加工、推演處理發(fā)掘知識,進(jìn)而給出智慧解答。在線社交網(wǎng)絡(luò)大搜索具有“4S”特點:1)意圖感知(sensing the context),結(jié)合用戶請求的上下文、時空特性、場景感知等方式,支持在語義級別上對用戶搜索意圖進(jìn)行準(zhǔn)確理解;2)多源綜合(synthesis from multiple channels),綜合、關(guān)聯(lián)多通道、多來源(不同社交網(wǎng)絡(luò))的社交網(wǎng)絡(luò)數(shù)據(jù)和信息,進(jìn)行統(tǒng)一的知識發(fā)掘和推演;3)安全可信(security privacy and trust),在線社交網(wǎng)絡(luò)搜索結(jié)果的安全可信的,并且支持隱私保護(hù);4)智慧解答(intelligent solution),搜索的結(jié)果是基于在線社交網(wǎng)絡(luò)數(shù)據(jù)和信息,經(jīng)過發(fā)掘、推理和計算而得到的一組有序智慧解答。
在線社交網(wǎng)絡(luò)智慧搜索涉及的相關(guān)理論和技術(shù)包括:搜索引擎技術(shù)、在線社交網(wǎng)絡(luò)分析、復(fù)雜對象關(guān)系建模、意圖理解與匹配及知識構(gòu)建與推演等。
當(dāng)前的搜索引擎技術(shù)主要包括互聯(lián)網(wǎng)搜索引擎和在線社交網(wǎng)絡(luò)搜索。主要的互聯(lián)網(wǎng)搜索引擎包括全文搜索、元搜索引擎和垂直搜索引擎等。在互聯(lián)網(wǎng)搜索引擎中,為優(yōu)化搜索結(jié)果,通常采用倒排索引技術(shù)對網(wǎng)頁信息進(jìn)行索引,并采用排序算法對搜索結(jié)果進(jìn)行等級排名,典型的算法包括PageRank[1]和 HITS[2]等;為提高搜索結(jié)果的關(guān)聯(lián)性,Google、百度、搜狗等引入知識圖譜技術(shù);為實現(xiàn)搜索信息的高效存儲管理,各互聯(lián)網(wǎng)廠商紛紛提出了解決方案,如Google的Bigtable[3],Amazon的 Dynamo[4]、Yahoo 的 PNUTS[5]等。在在線社交網(wǎng)絡(luò)搜索方面,360推出的 “我的搜索”,引入微博、微信等社交因素的影響,并在搜索結(jié)果中進(jìn)行展示。Facebook推出的社會搜索引擎 Graph Search,用戶可在社交網(wǎng)絡(luò)中對好友、照片、地點等進(jìn)行搜索。微軟推出的人立方關(guān)系搜索,自動地計算每一個人名與關(guān)鍵詞的距離,并可展示人的社會化關(guān)系。
在線社交網(wǎng)絡(luò)分析為社交網(wǎng)絡(luò)中知識的獲取和推演提供了相應(yīng)的方法。主要的社交網(wǎng)絡(luò)分析包括話題發(fā)現(xiàn)與演化、虛擬社區(qū)發(fā)現(xiàn)與演化、信息傳播以及影響力分析等。話題發(fā)現(xiàn)與演化能有效支撐網(wǎng)絡(luò)時代的信息決策。代表性工作包括:Blei[6]提出的隱含狄利克雷分布的LDA模型、Lin等[7]提出的潛在擴(kuò)散路徑方法、美國馬里蘭大學(xué)研究的詞項間共現(xiàn)頻率反映語義關(guān)聯(lián)原理的方法[8]。虛擬社區(qū)發(fā)現(xiàn)與演化有助于發(fā)現(xiàn)社交網(wǎng)絡(luò)中的拓?fù)浣Y(jié)構(gòu)信息。代表性工作包括:Newman等[9]提出的模塊性方法、Chakrabarti等[10]提出的社區(qū)演化模型、Mucha等[11]提出的多層網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)、Tang等[12]研究的多模態(tài)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)等。社交信息傳播機(jī)制有助于對社會網(wǎng)絡(luò)的認(rèn)識。代表性工作包括:Gruhl等[13]基于SIRS傳染病模型、Han等提出的高斯條件隨機(jī)場模型、Antulov-Fantulin等[14]提出的統(tǒng)計推理框架溯源方法。影響力分析能發(fā)現(xiàn)社交網(wǎng)絡(luò)中高影響力用戶和影響強(qiáng)度。代表性工作包括:Ellison等[15]研究了在線社交關(guān)系對現(xiàn)實社交關(guān)系的群體互動影響;Woolley等[16]分析了心理因素、認(rèn)知空間對群體聚集的影響;Wen等[17]根據(jù)關(guān)注網(wǎng)絡(luò)和用戶興趣相似性計算個體在每個話題上的影響力;Romero等[18]綜合考慮了影響力與冷漠性,提出了類 HITS的算法。
對象關(guān)系模型是構(gòu)建在線社交網(wǎng)絡(luò)搜索知識倉庫的基礎(chǔ)。當(dāng)前復(fù)雜對象關(guān)系的建模通常用圖結(jié)構(gòu)來表示,常用圖模型包括 Property Graph[19]、RDF[20]、MultiGraph 模型[21]等。Property Graph 在節(jié)點和邊上可以存在任意數(shù)量的鍵值對表示屬性或標(biāo)簽,因而其表達(dá)能力很強(qiáng)。RDF用三元組SPO(subject, property, object)來描述實體之間的關(guān)系,是當(dāng)前表示實體以及其關(guān)系的一種常見模式。MultiGraph模型可在 2個實體之間保留多條邊以表示多種關(guān)系。近來年,許多研究將時空信息融入到復(fù)雜對象關(guān)系的建模中。微軟亞洲研究院分別從用戶、地理位置和事件3個層面對基于位置的地理社交網(wǎng)絡(luò)進(jìn)行了研究,發(fā)現(xiàn)單純社會網(wǎng)絡(luò)中個體之間無法表現(xiàn)的關(guān)系[22]。Shekhar[23]將時空因素考慮到在線社交網(wǎng)絡(luò)數(shù)據(jù)分析中,提出一種時間聚集的圖模型。
用戶意圖理解與匹配是搜索中的關(guān)鍵技術(shù)。在用戶意圖理解方面,Wolframalpha通過從公眾的和獲得授權(quán)的資源中發(fā)掘、構(gòu)建的數(shù)據(jù)庫,能夠理解用戶問題并直接給出答案。搜狗的“知立方”通過引入“語義理解”技術(shù),試圖理解用戶的搜索意圖,對搜索結(jié)果進(jìn)行重新優(yōu)化計算。Etzioni等提出了基于規(guī)則模板抽取實體/概念之間的關(guān)系來描述和理解搜索意圖。Madhu等[24]利用語義網(wǎng)工具和技術(shù)提供分層模塊的方法解決搜索引擎對語義內(nèi)容的理解。在意圖匹配方面,主要包括文本模型和圖模型?;谖谋灸P偷囊鈭D匹配通過將以關(guān)鍵詞查詢檢索的方式來把用戶的意圖進(jìn)行語義轉(zhuǎn)換和目標(biāo)文檔的匹配,并獲取相關(guān)度排序?;趫D模型的意圖匹配通過圖搜索來實現(xiàn)搜索意圖與搜索空間中目標(biāo)項的查找和匹配,主要包括[25]:關(guān)鍵詞圖搜索技術(shù)、子圖匹配技術(shù)和近似圖匹配技術(shù)等。
知識是實現(xiàn)智慧搜索的關(guān)鍵。當(dāng)前,知識構(gòu)建較多地從知識圖譜構(gòu)建角度加以展開,以互聯(lián)網(wǎng)網(wǎng)頁為來源的典型知識圖譜包括 KnowItAll[26]、TextRunner[27]和Probase[28],以在線百科為數(shù)據(jù)來源的知識圖譜包括YAGO[29]和DBPedia[30]等。知識推演是在給定目標(biāo)的情況下,在知識庫或網(wǎng)絡(luò)空間中進(jìn)行推演求解,以獲得答案并產(chǎn)生新的知識。當(dāng)前知識推演的操作過程包括利用統(tǒng)計、知識推理和眾包等方法。其中,主要的推理方法包括:正向推理、逆向推理、雙向推理、非精確推理、基于語義的推理和基于案例的推理等。
上述技術(shù)的發(fā)展為在線社交網(wǎng)絡(luò)智慧搜索的研究奠定了研究基礎(chǔ),在理論、方法和技術(shù)方面存在諸多挑戰(zhàn),主要包括:在線社交網(wǎng)絡(luò)中智慧與知識的發(fā)掘與推演、用戶真實搜索意圖的理解與表示、滿足用戶真實意圖的智慧解答在線響應(yīng)。
目前,社交網(wǎng)絡(luò)智慧搜索與當(dāng)前的社交網(wǎng)絡(luò)搜索的區(qū)別主要體現(xiàn)在智慧的能力,而智慧處理過程是以知識圖譜為基礎(chǔ),主要研究內(nèi)容可劃分為在線社交網(wǎng)絡(luò)知識發(fā)掘與推演、知識聚合與組織管理、用戶搜索意圖理解、用戶意圖的搜索與匹配等部分,各研究點間交互形成總體框架如圖1所示。
社交網(wǎng)絡(luò)知識發(fā)掘與推演。可支持對在線社交網(wǎng)絡(luò)空間中的數(shù)據(jù)獲取和推理,包括微博、博客、論壇、維基、共享網(wǎng)站等空間中采集文本、圖片、語音、視頻等各種類型的多模態(tài)數(shù)據(jù),以及各類已存在的對象知識和關(guān)系知識。數(shù)據(jù)獲取與采集過程不間斷進(jìn)行,采集后的數(shù)據(jù)和知識是后續(xù)推理和搜索的基礎(chǔ)。
知識聚合與組織管理。面向在線社交網(wǎng)絡(luò)空間的海量對象知識及關(guān)系知識進(jìn)行建模;在此模型實例化的基礎(chǔ)上通過知識聚合,構(gòu)建知識倉庫空間,并通過索引、關(guān)聯(lián)和演算等聚合操作預(yù)先形成知識聚合體。知識倉庫中的知識是不斷經(jīng)過二次加工的,經(jīng)過用戶的查詢、修改、反饋和自演化的過程,逐步完善,根據(jù)應(yīng)用建立各類索引,同時滿足用戶搜索時的準(zhǔn)確性需求和實時性需求。
圖1 總體框架
用戶搜索意圖理解。面向意圖理解的準(zhǔn)確性和歧義消除的基本需求。結(jié)合用戶的上下文和語義知識等方法,迅速、準(zhǔn)確地理解用戶的真實意圖,并轉(zhuǎn)變成與知識倉庫可匹配推演的表示方式。
用戶意圖的搜索與匹配?;谝鈭D理解表示和知識倉庫,經(jīng)過匹配、推理、計算、乃至眾包等技術(shù)和方法的處理,形成若干個滿足用戶真正意圖的智慧綜合的解決方案,并通過結(jié)果評價排序方式給出其優(yōu)先級,為用戶提供智慧的解答方案。
在線社交網(wǎng)絡(luò)中的對象知識具有多樣化特性,可通過文本解析、實體抽取、關(guān)系抽取、元數(shù)據(jù)分析、指代消解等技術(shù)來獲得在線社交網(wǎng)絡(luò)中的不同側(cè)面對象知識,并以特征關(guān)聯(lián)的形式對其進(jìn)行描述,建立針對個體對象的內(nèi)容語義描述模型。
在線社交網(wǎng)絡(luò)中的內(nèi)在多層次、演化的關(guān)系型知識需要進(jìn)一步提取和挖掘,一般可采用支持語義關(guān)系的語義圖模型表達(dá);綜合對象知識和關(guān)系型知識,可借鑒目前時態(tài)地理信息系統(tǒng)以及數(shù)據(jù)分析領(lǐng)域中的資源描述框架(RDF)、屬性圖(property graph)、多圖(multi-graph)等模型方法,通過模型的組合以及擴(kuò)展等方法,并通過整合現(xiàn)有語義庫(包括Freebase和 Probase等)來統(tǒng)一表示語義信息。
在線社交網(wǎng)絡(luò)知識獲取與推演具有多樣化、關(guān)系復(fù)雜與演化等需求,可從個體行為及立場分析、群體社區(qū)發(fā)現(xiàn)及極化規(guī)律、話題的緣起與發(fā)展和信息傳播規(guī)律等在線社交網(wǎng)絡(luò)的角度出發(fā),進(jìn)行發(fā)掘和推演。研究主要針對社交實體的對象交互特性、時空特性、規(guī)模特性、多源特性等方面。
在線社交網(wǎng)絡(luò)中的對象具有豐富的交互關(guān)系進(jìn)行推理挖掘,可采用基于時序語義圖的關(guān)聯(lián)算法。支持時空特性是社交網(wǎng)絡(luò)知識的主要特性,可基于相似性計算與多尺度空間匹配等方法,以及面向在線社交網(wǎng)絡(luò)的時態(tài)邏輯推理算法,利用關(guān)系傳遞和協(xié)同過濾等技術(shù),對在線社交網(wǎng)絡(luò)知識推理。在線社交網(wǎng)絡(luò)中的對象屬性具有個數(shù)規(guī)模大的特點,可通過目標(biāo)驅(qū)動的基于屬性依賴關(guān)系的可伸縮的模態(tài)推理技術(shù),實現(xiàn)基于刻面的社交網(wǎng)絡(luò)大規(guī)模屬性推理。社交網(wǎng)絡(luò)中的知識含有大量多源異構(gòu)交互信息,可通過離線眾包推理與反饋相結(jié)合的多源知識融合方法,實現(xiàn)社交網(wǎng)絡(luò)交互信息的眾包推理與多專家信息的智慧解答的有機(jī)融合。
發(fā)掘和推演生成的知識是粗糙、低層次的,可通過知識聚合來生成精煉、物化和泛化的知識來滿足用戶搜索的需求,并形成知識倉庫。
知識預(yù)先聚合、組織并生成知識聚合體過程應(yīng)具有效性、準(zhǔn)確性和順序性,在社交網(wǎng)絡(luò)知識表示模型基礎(chǔ)上,可參考 Wikipedia/DBpedia/ Freebase等多種語義概念層次,參考聯(lián)機(jī)分析處理的聚合計算機(jī)理,建立在線社交網(wǎng)絡(luò)中面向領(lǐng)域的對象知識、關(guān)系知識間的聚類方法,以及各概念層次間的聚合函數(shù)。在此基礎(chǔ)上,基于特征空間的降維分解方法研究高維空間中各維度的可聚合性及相應(yīng)的聚合函數(shù)。其中,對于時空屬性的聚合計算,將采用多時間粒度聚合、基于地理位置的空間聚合等方法,研究時空聚合計算函數(shù)和有效計算方法;在聚合計算的基礎(chǔ)上,采用基于時空相似度散列的知識聚合體模型表示和存儲方法,將時、空上相似或相近的對象和關(guān)系就近存儲并建立高效索引;在概率Skyline和概率Top-k算法框架下,可研究時變、不確定環(huán)境下的知識聚合體的動態(tài)排序與更新演化算法。
用戶搜索意圖主要體現(xiàn)在用戶的歷史行為、場景環(huán)境、語言表達(dá)等方面,其研究也基于各個方面的綜合感知和理解。
用戶搜索歷史行為,可按照由個體到群體,從點到軌跡的思路,采用頻繁模式挖掘相關(guān)技術(shù),挖掘用戶的行為模式和搜索模式,建立用戶搜索時空場景知識庫,用以識別用戶的行為、情感、意圖、經(jīng)驗和生活模式。
用戶場景環(huán)境,是用戶所處的時間上下文、空間上下文、歷史行為上下文、社交關(guān)系上下文等環(huán)境,一般采用基于內(nèi)容以及協(xié)同過濾等推薦方法和機(jī)器學(xué)習(xí)相結(jié)合的方法,增強(qiáng)用戶意圖理解的準(zhǔn)確性,并結(jié)合用戶偏好和當(dāng)前位置,按照用戶的滿意度、興趣度選擇與用戶當(dāng)前需求相關(guān)的信息,進(jìn)行空間信息的語義搜索,并建立基于語義的信息聚合模型,將個性化需求的信息進(jìn)行整合。
用戶語言表達(dá),是用戶的自然語言文字或語音表述,在此方面有大量研究成果??紤]搜索過程的特殊性,應(yīng)針對用戶的搜索意圖的一些不定和模糊表達(dá)等特征,在稀疏的搜索空間中,通過一些數(shù)據(jù)降維嵌入和相近分析等方法來進(jìn)行有效的推理演算,更好地支持用戶意圖的理解和匹配,并通過交互、反饋等方式對理解有偏差的意圖進(jìn)行糾正。
在線知識匹配求解是知識倉庫中知識的查詢匹配、推理求解以及搜索答案生成過程。
知識聚合體中的文本類知識的快速匹配算法,可基于深度學(xué)習(xí)思想,研究不同關(guān)鍵詞間的深度語義關(guān)聯(lián),并在語義空間中研究基于時空相似的快速匹配算法,實現(xiàn)知識聚合體能快速準(zhǔn)確滿足搜索用戶需求。針對知識聚合體中的關(guān)系類知識的快速匹配算法,可基于圖的分布式處理方法,研究大圖和巨圖并行匹配的分解算法及優(yōu)化方法,支持大圖和巨圖的高效查詢。對于混合屬性查詢請求,可采用地理信息等時空特性的知識快速匹配為重點,處理地理信息、時空特性的快速知識匹配算法。針對用戶意圖的解答排序與評估反饋,可采用半監(jiān)督增強(qiáng)學(xué)習(xí)方法和自反饋理論,突破在學(xué)習(xí)因素和反饋特征因子數(shù)量大、維度高的情況下高效反饋學(xué)習(xí)算法,實現(xiàn)搜索過程的自我演化與更新需求。
社交網(wǎng)絡(luò)智慧搜索發(fā)展研究,將聚焦于3個主要問題,包括社交網(wǎng)絡(luò)中智慧與知識的挖掘與發(fā)現(xiàn)、用戶真實搜索意圖的理解與表示、快速給出滿足用戶需求的智慧解答。在應(yīng)用方面,重點考慮滿足政府決策的民意調(diào)查、輿情分析,以及企業(yè)市場的社會化營銷等各行業(yè)領(lǐng)域現(xiàn)實需求。為滿足以上3個問題,主要關(guān)鍵技術(shù)發(fā)展將包括以下5個方面內(nèi)容,如圖2所示。
針對在線社交網(wǎng)絡(luò)中的人物情感立場、事件緣起發(fā)展、群體互動與聚集等巨規(guī)模、復(fù)雜、演化的對象和關(guān)系,需要研究支持時空特性的社交網(wǎng)絡(luò)知識表示模型,實現(xiàn)對社交網(wǎng)絡(luò)知識的建模。關(guān)鍵技術(shù)發(fā)展將包括以下幾方面。
1) 在線社交網(wǎng)絡(luò)中的對象知識表示方法。針對在線社交網(wǎng)絡(luò)中的對象知識多樣化特性,包括人物、話題、信息等各種各樣的社交網(wǎng)絡(luò)對象,且每個對象屬性多樣,深層挖掘?qū)ο蟮母鞣N屬性的特點及其隨時間演化的規(guī)律,研究統(tǒng)一的對象建模與知識表示模型。
2) 在線社交網(wǎng)絡(luò)巨復(fù)雜關(guān)系型知識表示方法。針對在線社交網(wǎng)絡(luò)中各種關(guān)系規(guī)模巨大、種類繁多,粒度不同、時間演化的特點,包括用戶、社區(qū)、話題之間的各種關(guān)系,需要分析關(guān)系的不同特點及演化規(guī)律,建立適合社交網(wǎng)絡(luò)對象關(guān)系的統(tǒng)一語義表示模型。
3) 在線社交網(wǎng)絡(luò)對象與關(guān)系統(tǒng)一融合的表示計算模型。針對不同來源、跨通道的在線社交網(wǎng)絡(luò)中的復(fù)雜對象與關(guān)系,需要研究能夠統(tǒng)一融合表示的在線社交網(wǎng)絡(luò)知識歸一化表示模型,實現(xiàn)對巨規(guī)模、復(fù)雜、演化的在線社交網(wǎng)絡(luò)知識建模。
針對在線社交網(wǎng)絡(luò)中知識多樣化,關(guān)系復(fù)雜及時空演化等特點,包括個體行為及立場分析、群體社區(qū)發(fā)現(xiàn)及極化規(guī)律、話題的緣起與發(fā)展和信息傳播規(guī)律等,研究以復(fù)雜社會計算為基礎(chǔ)的在線社交網(wǎng)絡(luò)知識的發(fā)掘和推演。關(guān)鍵技術(shù)發(fā)展如下所示。
圖2 技術(shù)發(fā)展及相互關(guān)系
1) 面向在線社交網(wǎng)絡(luò)關(guān)系的新型關(guān)聯(lián)推理機(jī)制。針對在線社交網(wǎng)絡(luò)中的對象具有豐富的交互關(guān)系,以及知識之間具有關(guān)聯(lián)關(guān)系的特點,需要研究適合于在線社交網(wǎng)絡(luò)知識的表性、隱性、虛實結(jié)合的關(guān)聯(lián)關(guān)系挖掘與發(fā)現(xiàn)推理方法。
2) 面向在線社交網(wǎng)絡(luò)知識時空屬性的推演機(jī)制。針對在線社交網(wǎng)絡(luò)知識具有豐富的時空屬性的特點,需要研究時空相似性計算和時空推理技術(shù),及面向社交網(wǎng)絡(luò)的時態(tài)邏輯推理技術(shù),實現(xiàn)多尺度的時空數(shù)據(jù)融合推理。
3) 基于刻面的在線社交網(wǎng)絡(luò)大規(guī)模屬性推理機(jī)制。針對在線社交網(wǎng)絡(luò)中的對象屬性個數(shù)規(guī)模眾多的特點,需要研究目標(biāo)驅(qū)動的基于屬性依賴關(guān)系的可伸縮的模態(tài)推理模型,以及面向多屬性刻面的沖突消解方法。
4) 面向在線社交網(wǎng)絡(luò)交互信息的眾包推理與融合。針對在線社交網(wǎng)絡(luò)中的知識含有大量交互信息的特點,需要研究基于離線眾包推理的智能知識的挖掘框架,以及基于標(biāo)注與反饋相結(jié)合的多源知識融合機(jī)理。
針對在線社交網(wǎng)絡(luò)知識具有層次性和多粒度特點,以及用戶不可預(yù)測的在線知識查詢需求,需要對知識進(jìn)行預(yù)先聚合與組織,生成在線社交網(wǎng)絡(luò)知識聚合體,并進(jìn)行有效排序,從而支持實時多維度的搜索請求。關(guān)鍵技術(shù)發(fā)展將包括以下幾方面。
1) 高維特征空間的知識聚合計算。針對在線社交網(wǎng)絡(luò)知識跨時空、多層次、多維度的特點,基于發(fā)掘與推演技術(shù),需要研究在線社交網(wǎng)絡(luò)知識聚合計算方法,及各知識聚合計算的相關(guān)性與計算策略技術(shù)。
2) 社交知識聚合體的表示與存儲模型。針對在線社交網(wǎng)絡(luò)聚合體歸一化表示問題和存儲空間隨維度增加呈指數(shù)增長的維災(zāi)難特點,需要研究面向在線社交網(wǎng)絡(luò)搜索的社交知識聚合體的模型表示和存儲管理方法。
3) 社交知識聚合體的排序與更新演化模式。針對用戶搜索需求不斷變化和無法預(yù)測的特點,需要研究在線社交網(wǎng)絡(luò)知識聚合體的索引排序,以及獲取的數(shù)據(jù)不斷更新過程中,知識聚合體的自我演化與更新模型。
面向用戶查詢輸入的關(guān)鍵詞、語音、手勢等內(nèi)容,結(jié)合用戶手機(jī)終端、所處運(yùn)動軌跡的時空場景以及歷史記錄和個人偏好等信息,準(zhǔn)確理解用戶的意圖,并采用支持高效查詢推演的統(tǒng)一模型進(jìn)行表示。關(guān)鍵技術(shù)發(fā)展將包括以下幾方面。
1) 支持時空屬性的用戶搜索意圖建模。針對在線社交網(wǎng)絡(luò)的各種時空軌跡數(shù)據(jù),體現(xiàn)了用戶當(dāng)前在真實世界中的場景的特點,需要研究基于時空信息的用戶行為模式分析技術(shù),實現(xiàn)對用戶真實搜索意圖的建模。
2) 支持上下文的語義級用戶意圖理解方法。針對用戶搜索意圖與上下文緊密相關(guān)的特點,需要研究基于上下文感知的用戶意圖理解方法,及基于情感分析的用戶意圖理解方法,實現(xiàn)語義級用戶意圖的理解。
3) 基于交互式的用戶搜索意圖理解方法。針對用戶搜索意圖單次表述具有二義性等特點,需要研究基于交互式的用戶意圖理解方法,實現(xiàn)交互步驟最小優(yōu)化模型,以最少交互開銷了解用戶潛在搜索意圖。
知識匹配求解是獲取匹配用戶需求搜索結(jié)果的關(guān)鍵技術(shù)。針對用戶的在線社交網(wǎng)絡(luò)搜索請求復(fù)雜多樣和要求在線響應(yīng)的特點,需研究在社交網(wǎng)絡(luò)知識聚合體中的快速匹配求解推演算法,以及相應(yīng)的實驗驗證系統(tǒng)。關(guān)鍵技術(shù)發(fā)展將包括以下幾方面。
1) 基于文本的快速在線匹配與解答排序。針對用戶搜索需求多以關(guān)鍵詞等文本進(jìn)行表示的特點,需研究基于文本進(jìn)行的在線社交網(wǎng)絡(luò)搜索快速在線匹配與排序方法,實現(xiàn)社交網(wǎng)絡(luò)知識聚合體中快速準(zhǔn)確滿足搜索用戶需求的方法。
2) 基于子圖的面向用戶意圖的快速匹配求解。針對在線社交網(wǎng)絡(luò)知識多以圖結(jié)構(gòu)表示的特點,需要研究面向大圖結(jié)構(gòu)的特性分析技術(shù),基于大圖的高效查詢及其優(yōu)化技術(shù),以及基于大圖的用戶意圖高效推演等技術(shù)。
3) 支持時空特性的社交網(wǎng)絡(luò)知識快速匹配。針對在線社交網(wǎng)絡(luò)知識的時空特性,研究基于語義圖模型和協(xié)同過濾等方法,以及支持時空特性的社交網(wǎng)絡(luò)知識匹配算法,高效完成對用戶搜索意圖的快速準(zhǔn)確匹配。
4) 面向用戶意圖的解答排序與評估反饋。針對在線社交網(wǎng)絡(luò)搜索自我演化與更新的需求,研究異構(gòu)信息聚合搜索評價技術(shù),評價返回的各種類型的信息之間的相互作用與評估體系,實現(xiàn)不同搜索解答的評估與反饋優(yōu)化。
在 Web2.0蓬勃發(fā)展的環(huán)境,在線社交網(wǎng)絡(luò)智慧搜索具有迫切的需求,本文采用理論研究和實證研究相結(jié)合的方法對當(dāng)前研究進(jìn)展及未來發(fā)展趨勢進(jìn)行了歸納和預(yù)測。主要探索用戶搜索真實意圖的理解與表示機(jī)理;解決社交網(wǎng)絡(luò)中復(fù)雜海量的知識以及知識之間關(guān)系的模型構(gòu)建與知識發(fā)現(xiàn)以及推演機(jī)制描述方法;研究用戶意圖在搜索空間的快速匹配模型和方法,以構(gòu)建面向社交網(wǎng)絡(luò)大搜索的運(yùn)行支撐平臺及環(huán)境。
長期發(fā)展將以面向政府決策的民意調(diào)查、輿情分析和社會化營銷等重大需求為目標(biāo),構(gòu)建在線社交網(wǎng)絡(luò)大搜索的示范驗證系統(tǒng),從而提升我國在社交網(wǎng)絡(luò)大搜索的原始創(chuàng)新能力和國際影響力,推動信息技術(shù)發(fā)展,搶占IT技術(shù)的戰(zhàn)略高地。
[1] PAGE L, BRIN S, MOTWANI R, et al. The PageRank citation ranking:bringing order to the web[A]. Stanford Info Lab[C]. 1999.1-14.
[2] KLEINBERG J. Authoritative sources in a hyperlinked environment[J].Journal of the ACM, 1999, 46(5): 604-632.
[3] CHANG F, DEAN J, GHEMAWAT S. Bigtable: a distributed storage system for structured data[J]. ACM Transactions on Computer Systems. 2008, 26(2):205-218.
[4] DECANDIA G, HASTORUN D, JAMPANI M. Dynamo: amazon’s highly available key-value store[A]. SOSP’07[C]. 2007.205-220.
[5] COOPER B F, RAMAKRISHNAN R, SRIVASTAVA U, et al. PNUTS:Yahoo!'s hosted data serving platform[J]. Proceedings of the VLDB Endowment, 2008, 1(2): 1277-1288.
[6] BLEI D, NG A, JORDAN M. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3): 993-1022.
[7] LIN C X, MEI Q, HAN J,et al. The joint inference of topic diffusion and evolution in social communities[A]. IEEE 11th International Conference on Data Mining (ICDM)[C]. IEEE, 2011.378-387.
[8] SAYYADI H, RASCHID L. A graph analytical approach for topic detection[J]. ACM Transactions on Internet Technology (TOIT), 2013,13(2):992-999.
[9] MARK N, ELIZABETH L. Mixture models and exploratory analysis in networks[J]. Proc Natl Acad Sci 2007, 104(23): 9564-9569.
[10] CHAKRABARTI D, KUMAR R, TOMKINS A. Evolutionary clustering[A]. Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining[C].2006.554-560.
[11] MUCHA P, RICHARDSON T, MACON K. Community structure in time-dependent, multiscale, and multiplex networks[J]. Science, 2010,328 (5980): 876-878.
[12] TANG L, LIU H, ZHANG J. Identifying evolving groups in dynamic multimode networks[J]. IEEE Transation on Knowledge and Data Engineering, 2012, 24 (1) : 72-85.
[13] GRUHL D, MEREDITH D N, PIEPER J H, et al. The Web beyond popularity: a really simple system for web scale rss[A]. Proceedings of the 15th International Conference on World Wide Web[C]. 2006.183-192.
[14] ANTULOV-FANTULIN N, LANCIC A, STEFANCIC H, et al. Statistical inference framework for source detection of contagion processes on arbitrary network structures[A]. 2014 IEEE Eighth International Conference on Self-Adaptive and Self-Organizing Systems Workshops(SASOW)[C]. 2014.78-83.
[15] STEINFIELD C, ELLISON N B, LAMPE C. Social capital,self-esteem, and use of online social network sites: a longitudinal Analysis[J]. Journal of Applied Developmental Psychology, 2008,29(6): 434-445.
[16] WOOLLEY A W, CHABRIS C F, PENTLAND A, et al. Evidence for a collective intelligence factor in the performance of human groups[J].Science, 2010, 330(6004): 686-688.
[17] WENG J, LIM E P, JIANG J, et al. Twitterrank: finding topic-sensitive influential twitterers[A]. The 3rd ACM International Conference on Web Search and Data Mining (WSDM’10)[C]. New York, USA, 2010.261-270.
[18] ROMERO D M, GALUBA W, ASUR S, et al. Influence and passivity in social media[A]. Proc European Conference on Machine Learning and Knowledge Discovery in Databases (ECML PKDD)[C]. 2011.18-33
[19] ADAM N, ATLURI V, JANEJA V, et al. Semantic graph based knowledge discovery from heterogeneous information sources[A].Conference on Public/Private R&D Partnerships in Homeland Security[C]. 2005.
[20] ZOU L, MO J, CHEN L, et al. GStore: answering SPARQL queries via subgraph matching[J]. Proc VLDB Endow. 2011, 4(8): 482-493.
[21] BERLINGERIO M, COSCIA M, GIANNOTTI F, et al. Multidimensional Networks: Foundations of Structural Analysis [J]. World Wide Web, 2013,16 (5-6): 567–593.
[22] BAO J, ZHENG Y, MOKBEL M F. Location-based and preference-aware recommendation using sparse geo-social networking data[A]. ACM SIGSPATIAL GIS 2012[C]. 2012.199-208.
[23] GEORGE B, SHEKHAR S. Time-aggregated graphs for modeling spatio-temporal networks[A]. Conceptual Modeling - Theory and Practice[C]. Springer Berlin Heidelberg, 2006. 85-99.
[24] MADHU G, GOVARDHAN A, RAJINIKANTH T. Intelligent semantic web search engines: a brief survey[J]. International Journal of Web& Semantic Technology, 2011, 2(1): 34-42.
[25] FAN W, LI J, MA S, et al. Graph homomorphism revisited for graph matching[J]. Proceedings of the VLDB Endowment, 2010, 3(1-2):1161-1172.
[26] ETZIONI O, CAFARELLA M, DOWNEY D, et al. Web-scale information extraction in knowitall:(preliminary results)[A]. Proceedings of the 13th International Conference on World Wide Web[C]. 2004.100-110.
[27] YATES A, CAFARELLA M, BANKO M, et al. Textrunner: open information extraction on the Web[A]. Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, Association for Computational Linguistics[C]. 2007. 25-26.
[28] WU W, LI H, WANG H, et al. Probase: a probabilistic taxonomy for text understanding[A]. Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data[C]. 2012. 481-492.
[29] SUCHANEK F M, KASNECI G, WEIKUM G. Yago: a core of semantic knowledge[A]. Proceedings of the 16th International Conference on World Wide Web[C]. 2007. 697-706.
[30] AUER S, BIZER C, KOBILAROV G, et al. Dbpedia: a nucleus for a Web of Open Data[M]. Springer Berlin Heidelberg, 2007.
[31] 方濱興, 劉克, 吳曼青, 等,大搜索技術(shù)白皮書[M]. 北京:電子工業(yè)出版社,2015.FANG B X, LIU K, WU M Q. et al. White Paper of Big Search in CyberSpace[M]. Beijing: Electronic Industry Press, 2015.