石磊,杜軍平,周亦鵬,葉杭,賴金財(cái),何奕江
(1.北京郵電大學(xué) 智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876; 2.北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,北京 100048)
在線社交網(wǎng)絡(luò)挖掘與搜索技術(shù)研究
石磊1,杜軍平1,周亦鵬2,葉杭1,賴金財(cái)1,何奕江1
(1.北京郵電大學(xué) 智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876; 2.北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,北京 100048)
隨著在線社交網(wǎng)絡(luò)的蓬勃發(fā)展,傳統(tǒng)的數(shù)據(jù)挖掘的和搜索方法已經(jīng)不能完全適用于Web 2.0時(shí)代的社交網(wǎng)絡(luò)。社交網(wǎng)絡(luò)具有社交關(guān)系復(fù)雜、數(shù)據(jù)量大、動(dòng)態(tài)更新、數(shù)據(jù)多模態(tài)等特點(diǎn),給數(shù)據(jù)挖掘和搜索的研究來(lái)了巨大的挑戰(zhàn)。因此,研究基于社交網(wǎng)絡(luò)挖掘和搜索的新方法成為學(xué)術(shù)界和工業(yè)界的一項(xiàng)新任務(wù)。文章全面分析了社交網(wǎng)絡(luò)發(fā)展的基本情況和存在的問題,闡述了社交網(wǎng)絡(luò)結(jié)構(gòu)建模、信息傳播機(jī)制、社區(qū)發(fā)現(xiàn)、情感分析、事件監(jiān)測(cè)及社交網(wǎng)絡(luò)搜索排序技術(shù)的主要研究工作,并基于已有研究工作對(duì)社交網(wǎng)絡(luò)挖掘和網(wǎng)絡(luò)搜索技術(shù)進(jìn)行了分析和展望。
社交網(wǎng)絡(luò);數(shù)據(jù)挖掘;搜索;社區(qū)發(fā)現(xiàn);信息傳播
在線社交網(wǎng)絡(luò)也稱社交網(wǎng)絡(luò)服務(wù)(SNS)[1],SNS是由網(wǎng)絡(luò)上每個(gè)獨(dú)立存在的個(gè)體以及個(gè)體之間的相互關(guān)系所構(gòu)成的一個(gè)社會(huì)化媒體網(wǎng)絡(luò)。隨著這種新型網(wǎng)絡(luò)的出現(xiàn),把以前網(wǎng)絡(luò)僅僅是用戶消耗和獲取信息,變成了一個(gè)人人參與、人人可以產(chǎn)生信息,而且用戶之間可以進(jìn)行交流和互動(dòng)的網(wǎng)絡(luò)。目前存在的社交網(wǎng)絡(luò)形式可以分為5類[2]:即時(shí)通信類,如騰訊QQ、MSN、微信等;在線社交平臺(tái)類,如FaceBook、LinkedIn、人人網(wǎng)等;社交微博平臺(tái)類,如Twitter、新浪微博、騰訊微博等;標(biāo)簽協(xié)同平臺(tái)類,如Delicious、Flickr等;科研分享與社交平臺(tái),如ResearchGate、學(xué)術(shù)圈等。用戶通過這些平臺(tái)可以在線交流、交換信息、分享資源、新聞轉(zhuǎn)發(fā)和評(píng)論等。另外,隨著社交網(wǎng)絡(luò)的出現(xiàn),傳統(tǒng)的新聞門戶網(wǎng)站或各大傳統(tǒng)媒體的官方網(wǎng)站也都提供了基于社交網(wǎng)絡(luò)的分享和轉(zhuǎn)發(fā)功能,方便用戶快速分享新聞或電子期刊到相關(guān)社交網(wǎng)絡(luò)平臺(tái)。
隨著在線社交網(wǎng)絡(luò)的蓬勃發(fā)展,數(shù)據(jù)也在快速增長(zhǎng),F(xiàn)aceBook有超過16億的活躍用戶,而中國(guó)的新浪微博也有超過5億的活躍用戶。社交網(wǎng)絡(luò)正日益影響著用戶的生活習(xí)慣,成為用戶生活中的一部分。社交網(wǎng)絡(luò)相比傳統(tǒng)網(wǎng)絡(luò)體現(xiàn)出更加復(fù)雜的綜合特征,使得傳統(tǒng)的挖掘理論和模型難以描述社交網(wǎng)絡(luò)中的用戶行為方式。只有通過有效的挖掘社交網(wǎng)絡(luò)中的文本、圖片等多種信息,分析數(shù)據(jù)中隱含的特有屬性、研究用戶的行為特征,才可以彌補(bǔ)傳統(tǒng)挖掘和搜索方法在社交網(wǎng)絡(luò)中的不足,實(shí)現(xiàn)滿足用戶個(gè)性化需求的智慧化的搜索。當(dāng)前在線社交網(wǎng)絡(luò)挖掘中最具有代表性的研究方向包括社交網(wǎng)絡(luò)結(jié)構(gòu)建模、信息傳播、社區(qū)發(fā)現(xiàn)、情感分析、事件監(jiān)測(cè)等。
在海量數(shù)據(jù)中找到自己想要的或者感興趣的內(nèi)容和信息,通常被稱之為信息搜索,它是指信息按一定的方式組織起來(lái),并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)[3]。信息搜索主要使用傳統(tǒng)的搜索引擎來(lái)進(jìn)行,采用的方法包括基于Web 1.0靜態(tài)網(wǎng)頁(yè),通過BM25等算法計(jì)算內(nèi)容的相似性。在排序方面主要采用了傳統(tǒng)的谷歌PageRank和HITS算法。但這種傳統(tǒng)的搜索算法對(duì)Web 2.0的應(yīng)用不能很好地支持,同時(shí)沒有考慮社交網(wǎng)絡(luò)的5V性[4]。社交網(wǎng)絡(luò)搜索區(qū)別于一般搜索的一個(gè)重要特點(diǎn)是除了對(duì)內(nèi)容的搜索之外,還可以提供對(duì)特定對(duì)象如個(gè)人、群體、社區(qū)的搜索,這就需要挖掘社交網(wǎng)絡(luò)中社交關(guān)系、社區(qū)、事件傳播、情感分析等內(nèi)容來(lái)彌補(bǔ)社交網(wǎng)絡(luò)內(nèi)容搜索的缺陷,因此如何圍繞用戶和網(wǎng)頁(yè)作為中心,實(shí)現(xiàn)如搜索用戶、社會(huì)關(guān)系、社區(qū)發(fā)現(xiàn)、事件來(lái)源等社會(huì)化層面的搜索,并通過理解用戶的意圖等實(shí)現(xiàn)智慧化搜索是社交網(wǎng)絡(luò)搜索研究的關(guān)鍵。
本文主要從社交網(wǎng)絡(luò)結(jié)構(gòu)建模、信息傳播、社區(qū)發(fā)現(xiàn)、情感分析、事件監(jiān)測(cè)、搜索索引及排序等方面對(duì)目前社交網(wǎng)絡(luò)挖掘和搜索相關(guān)研究的現(xiàn)狀進(jìn)行了總結(jié)和論述,并對(duì)社交網(wǎng)絡(luò)挖掘和搜索的發(fā)展趨勢(shì)進(jìn)行了展望。
社交網(wǎng)絡(luò)挖掘作為最近幾年熱門的研究和應(yīng)用,涉及多種理論和技術(shù),包括了數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘技術(shù)、矩陣論等。
數(shù)據(jù)挖掘[5]一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)。而社交網(wǎng)絡(luò)分析與挖掘則是通過數(shù)據(jù)挖掘的方法從社交網(wǎng)絡(luò)數(shù)據(jù)中提取信息的過程[6],目前在社交網(wǎng)絡(luò)分析與挖掘方向主要的研究有社交網(wǎng)絡(luò)結(jié)構(gòu)建模、信息傳播研究、社區(qū)發(fā)現(xiàn)、情感分析及事件監(jiān)測(cè)等。
1.1 社交網(wǎng)絡(luò)結(jié)構(gòu)建模
社交網(wǎng)絡(luò)結(jié)構(gòu)建模是社交網(wǎng)絡(luò)研究的基礎(chǔ),采用結(jié)構(gòu)化方法和數(shù)學(xué)方法來(lái)研究社交網(wǎng)絡(luò)的內(nèi)部各種特征和機(jī)制?;谏缃痪W(wǎng)絡(luò)研究的第一步是對(duì)其結(jié)構(gòu)進(jìn)行建模[7],目的是對(duì)其內(nèi)部結(jié)構(gòu)和演化規(guī)律進(jìn)行深化。一般對(duì)社交網(wǎng)絡(luò)結(jié)構(gòu)建模通過統(tǒng)計(jì)學(xué)習(xí)方法來(lái)構(gòu)造,然后分析社交網(wǎng)絡(luò)的分布規(guī)律、關(guān)系緊密程度、相識(shí)關(guān)系的緊密程度,某個(gè)用戶對(duì)于網(wǎng)絡(luò)中其他用戶對(duì)之間傳遞消息的重要程度等諸多統(tǒng)計(jì)特性。
社交網(wǎng)絡(luò)建模由最初的ER隨機(jī)圖模型到小世界、無(wú)標(biāo)度模型、六度分割等。Moreno等首先將圖論的方法引入了人類社交關(guān)系分析中,隨著技術(shù)的發(fā)展,研究人員發(fā)現(xiàn)ER隨機(jī)圖已經(jīng)不能解決重尾分布等問題,因此能夠解決這些問題的參數(shù)特征小世界網(wǎng)絡(luò)被提出,這是一個(gè)基于統(tǒng)計(jì)的模型。Handcock等提出的隱含位置聚類模型,Watts等分析和驗(yàn)證了“六度分隔”和小世界模型[8]。Kumar等研究了在線社區(qū)的路徑長(zhǎng)度問題,其長(zhǎng)度要大于“六度分隔”。Harary等提出一種有向圖模型來(lái)表示社交網(wǎng)絡(luò)中的單向關(guān)系[8]。HSU等[9]通過應(yīng)用可變的社會(huì)向量時(shí)鐘和權(quán)重變化,構(gòu)建了一個(gè)權(quán)重耦合的定向鏈路生成算法,對(duì)社交網(wǎng)絡(luò)群體結(jié)構(gòu)建模。Dong等[10]通過圖模型研究了社交網(wǎng)絡(luò)中個(gè)人和相關(guān)社會(huì)現(xiàn)象之間的關(guān)系,實(shí)現(xiàn)人口統(tǒng)計(jì)推斷、鏈接推薦、社會(huì)影響預(yù)測(cè)等應(yīng)用。Slaughter等[11]提出基于貝葉斯多層次模型的社交網(wǎng)絡(luò)結(jié)構(gòu)模型,拓展了現(xiàn)有的隨機(jī)圖結(jié)構(gòu),同時(shí)允許組內(nèi)連接結(jié)構(gòu)之間的信息傳輸。Amato等[12]在超圖模型基礎(chǔ)上提出了基于Flickr社交多模態(tài)信息的超圖模型結(jié)構(gòu)模型,利用超圖建立多媒體內(nèi)容之間、用戶和多媒體內(nèi)容之間、用戶和用戶之間的關(guān)系,該模型的引入打破了傳統(tǒng)方法只能引入簡(jiǎn)單的社交關(guān)系的限制,為深入研究社交網(wǎng)絡(luò)提供了方法。
基于非圖結(jié)構(gòu)的研究方面,Bajaj等[13]提出了一種基于Agent的模型,該模型把社交網(wǎng)絡(luò)結(jié)構(gòu)視為一個(gè)外生變量,是一種時(shí)間感知的關(guān)系模型。Mihoub等[14]模擬一個(gè)主體參與的面對(duì)面社交行為,提出了基于貝葉斯網(wǎng)絡(luò)多式聯(lián)運(yùn)的行為模型,并通過實(shí)驗(yàn)驗(yàn)證了其性能優(yōu)于馬爾可夫模型(HMM)和隱馬爾可夫模型(HSMMS)。
由于在線社交網(wǎng)絡(luò)結(jié)構(gòu)具有社交關(guān)系復(fù)雜、內(nèi)容多樣、結(jié)構(gòu)動(dòng)態(tài)變化、數(shù)據(jù)多維等特點(diǎn),所以對(duì)其進(jìn)行深入研究還需要更多有效的建模和計(jì)算方法,而不是僅局限于圖的建模方法。
1.2 社交網(wǎng)絡(luò)信息傳播
社交網(wǎng)絡(luò)的分享和轉(zhuǎn)發(fā)功能使用戶可以隨時(shí)轉(zhuǎn)發(fā)和分享社交信息,其信息數(shù)據(jù)的傳播和擴(kuò)散的范圍迅速擴(kuò)大,通過對(duì)社交網(wǎng)絡(luò)中信息的傳播機(jī)制進(jìn)行研究可以實(shí)現(xiàn)社交網(wǎng)絡(luò)的輿情與態(tài)勢(shì)分析、謠言傳播溯源、事件追蹤、精準(zhǔn)搜索等研究。社交網(wǎng)絡(luò)中的信息傳播分析涉及到社會(huì)學(xué)、傳播學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等,一般的研究只是針對(duì)幾個(gè)熱門的研究點(diǎn)進(jìn)行,這里主要介紹目前學(xué)術(shù)界聚焦的信息傳播建模和社交影響力分析這兩個(gè)方向。
信息傳播主要是通過建立信息傳播模型和社交影響力分析等研究社交網(wǎng)絡(luò)中信息傳播的機(jī)制。目前的研究可以歸納為兩個(gè)模型:解釋模型和預(yù)測(cè)模型。解釋模型的目的是推導(dǎo)出潛在的級(jí)聯(lián)傳遞,得出完整的激活序列。Gomez等[15]提出了基于次模函數(shù)優(yōu)化的NETINF迭代算法,利用節(jié)點(diǎn)間感染次數(shù)的聯(lián)系來(lái)推導(dǎo)出級(jí)聯(lián)傳遞的結(jié)構(gòu),并假設(shè)被激活的節(jié)點(diǎn)以特定的概率傳遞給相鄰節(jié)點(diǎn)。Jones等[16]擴(kuò)展了NETINF算法,通過解決最大似然問題來(lái)推斷出兩兩節(jié)點(diǎn)的傳輸速率和傳遞圖像。Gomez等[17]繼續(xù)擴(kuò)展了NETRATE算法,提出了基于時(shí)間變化的推理算法INFOPATH,采用隨機(jī)梯度提供變化的網(wǎng)絡(luò)中的在線結(jié)構(gòu)和時(shí)序變化分析。Sadikov等[18]基于K樹模型提出了一種可以通過少量的完整被激活序列估計(jì)級(jí)聯(lián)傳遞中的屬性的方法。
預(yù)測(cè)模型的目的是觀察并學(xué)習(xí)過去的傳遞過程中時(shí)間和空間的變化,來(lái)預(yù)測(cè)社交網(wǎng)絡(luò)中傳遞過程的展開方式,分為基于圖和基于非圖兩類模型。
1)基于圖模型。Romero等[19]提出了一個(gè)線性閾值模型來(lái)預(yù)測(cè)傳遞過程的方法,該方法依賴于信息病毒式傳播及成對(duì)用戶之間的影響力和接受信息概率參數(shù)等。Saito等[20]提出了ASIC和ASLT算法,通過提出異步擴(kuò)展,放寬傳統(tǒng)的基于圖形的IC和LT模型的同步性假設(shè)。Guille等[21]將傳播過程建模為異步獨(dú)立級(jí)聯(lián)過程,提出了T-BaSIC模型。Xu等[22]提出隨時(shí)間變化的信息擴(kuò)散模型。該模型主要探討了隨時(shí)間變化的信息擴(kuò)散模型和標(biāo)準(zhǔn)模型的關(guān)系。
2)基于非圖模型。Wen等[23]提出了一個(gè)隨機(jī)節(jié)點(diǎn)水平傳播分析模型,它可以動(dòng)態(tài)地獲取信息傳播時(shí)間和捕獲人們的行為差異,并可以分析社會(huì)參數(shù)對(duì)信息傳播的影響。Tuarob等[24]提出了一個(gè)基于四種網(wǎng)絡(luò)信號(hào)的OIA-SIRS模型,用于觀察網(wǎng)絡(luò)節(jié)點(diǎn)信息在不同節(jié)點(diǎn)中的傳遞情況。Tambuscio等[25]提出了一個(gè)改進(jìn)的SIS模型用于預(yù)測(cè)錯(cuò)誤信息在社交網(wǎng)絡(luò)中的傳遞規(guī)模。模型依賴于4種參數(shù),分別為傳遞速率、輕信程度、驗(yàn)證可能性和遺忘速度。在同構(gòu)網(wǎng)、異構(gòu)網(wǎng)絡(luò)和真實(shí)社交網(wǎng)絡(luò)的實(shí)驗(yàn)中,顯示出錯(cuò)誤信息檢查的可能性的閾值,定量地衡量出根除騙局所必需的最小反應(yīng)。Wang等[26]通過對(duì)新浪微博的信息傳播過程進(jìn)行分析,發(fā)現(xiàn)微博社區(qū)的信息傳播類似于動(dòng)態(tài)模型,故通過數(shù)據(jù)密集型計(jì)算理論對(duì)動(dòng)態(tài)模型的算法進(jìn)行改進(jìn),同時(shí)對(duì)新浪微博數(shù)據(jù)的各種特征進(jìn)行了挖掘和建模,并提出了Seinr模型,取得了較好的效果。
在影響力分析方面。主要有基于網(wǎng)絡(luò)結(jié)構(gòu)的影響力排序算法、結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)和文本內(nèi)容的影響力排序算法、異構(gòu)信息中的影響力算法等。經(jīng)典的影響力分析算法主要有PageRank算法以及相關(guān)的改進(jìn)算法,如SimRank和TwitterRank等。Rometro等[19]提出了一種基于圖的IP算法,與HITS算法類似,為每一個(gè)用戶轉(zhuǎn)發(fā)信息時(shí)分配了一個(gè)相對(duì)影響力和被動(dòng)分?jǐn)?shù);Pal等[27]提出了一種非圖的話題敏感模型,通過對(duì)節(jié)點(diǎn)的集群排名發(fā)現(xiàn)最具影響力和權(quán)威性的人;Suo等[28]提出了基于超網(wǎng)及其拓?fù)浣Y(jié)構(gòu)的模型用于分析社交網(wǎng)絡(luò)中的用戶影響力;吳峴輝等[29]提出了一種基于用戶行為網(wǎng)絡(luò)的改進(jìn)的PageRank算法,稱之為TopicLeaderRank算法,將用戶屬性、網(wǎng)絡(luò)拓?fù)浼敖换バ畔⒌忍卣骶C合考慮;Suppa等[30]考慮到社交網(wǎng)絡(luò)數(shù)據(jù)和圖像的快速增長(zhǎng)造成的計(jì)算復(fù)雜度較大,提出了一種改進(jìn)的Brande算法快速評(píng)估大型網(wǎng)絡(luò)中結(jié)點(diǎn)距離,為了便于選擇主結(jié)點(diǎn),采用Louvian算法進(jìn)行聚類;Yang等[31]通過用戶社會(huì)角色之間的相互聯(lián)系及在信息傳遞時(shí)的影響力調(diào)查,提出了一個(gè)角色導(dǎo)向信息擴(kuò)散模型,將社會(huì)角色識(shí)別和擴(kuò)散模型集成到一個(gè)統(tǒng)一的框架,開發(fā)出基于吉布斯抽樣的算法應(yīng)用于該模型;Subbian等[32]提出了一個(gè)在社會(huì)流量中利用主題和時(shí)間敏感性的方法計(jì)算用戶的實(shí)時(shí)影響力。
上述社交網(wǎng)絡(luò)的信息傳播機(jī)制的研究主要集中在經(jīng)典的傳染病模型的利用和擴(kuò)展上,沒考慮從社交網(wǎng)絡(luò)作為一個(gè)個(gè)體自身去考慮,比如考慮傳播過程中用戶的心理因素、用戶扮演的角色等。在影響力分析方面通常只考慮了社交網(wǎng)絡(luò)用戶的全局影響力或者局部影響力,而沒有根據(jù)實(shí)際情況綜合去考慮,忽視了社交網(wǎng)絡(luò)的尺度多樣性特征。
1.3 社區(qū)發(fā)現(xiàn)
社交網(wǎng)絡(luò)的核心是參與其中的用戶以及用戶之間的關(guān)系。因此,學(xué)術(shù)界通常采用圖模型對(duì)其進(jìn)行建模,其中節(jié)點(diǎn)表示參與社交網(wǎng)絡(luò)中的用戶,而邊則表示社交網(wǎng)絡(luò)中用戶間的關(guān)系,同時(shí)利用每條邊的權(quán)重表示用戶之間關(guān)系強(qiáng)度或親密程度,權(quán)值越大表示關(guān)系強(qiáng)度或者親密程度越大,那些內(nèi)部連接比較緊密的節(jié)點(diǎn)子集合對(duì)應(yīng)的子圖叫做社區(qū),各社區(qū)節(jié)點(diǎn)集合彼此沒有交集的稱為非重疊型社區(qū),有交集的稱為重疊型社區(qū)。網(wǎng)絡(luò)圖中包含一個(gè)社區(qū)的現(xiàn)象稱為社區(qū)結(jié)構(gòu)。給定一個(gè)網(wǎng)絡(luò)圖,找出其社區(qū)結(jié)構(gòu)的過程叫做社區(qū)發(fā)現(xiàn)。一個(gè)典型的社區(qū)如圖1所示,圖中各個(gè)點(diǎn)表示成千上萬(wàn)的用戶,邊表示用戶之間的關(guān)系,每個(gè)點(diǎn)聚集的區(qū)域表示一個(gè)社區(qū),同時(shí)由于每個(gè)人可能有多種愛好,不同的社區(qū)可以發(fā)生重疊。
圖1 典型的社區(qū)圖Fig.1 Typical community graph
社區(qū)發(fā)現(xiàn)技術(shù)可以發(fā)現(xiàn)社交網(wǎng)絡(luò)中相關(guān)的拓?fù)浣Y(jié)構(gòu)以及興趣愛好,通常采用不同的數(shù)據(jù)挖掘算法來(lái)研究,目前的研究方法通常集中在圖論的相關(guān)算法,例如圖分割、圖聚類、圖的修剪等方法。
圖分割的相關(guān)工作認(rèn)為社區(qū)的成因是因?yàn)榫W(wǎng)絡(luò)連邊之間存在“強(qiáng)弱連邊關(guān)系”,主要有兩點(diǎn):“三元閉包”關(guān)系下演化出來(lái)的、節(jié)點(diǎn)之間相互博弈生成的。因此在圖分割視角下的科學(xué)問題就是“如何識(shí)別強(qiáng)弱連邊關(guān)系”。典型的圖分割方法是模塊化的方法和CPM方法。Su等[33]提出了一個(gè)模糊模塊最大化(FMM)的社區(qū)發(fā)現(xiàn)方法,該方法利用了廣義NEWMAN模塊的最大化方法來(lái)發(fā)現(xiàn)社區(qū),然后采用樹的結(jié)構(gòu)局部最優(yōu)化發(fā)現(xiàn)的社區(qū),實(shí)驗(yàn)結(jié)果表明通過該方法可以高效地發(fā)現(xiàn)重疊社區(qū)。Kloster等[34]用一個(gè)基于熱核的算法來(lái)標(biāo)識(shí)社區(qū)的起始節(jié)點(diǎn),提出了一個(gè)確定性的局部算法計(jì)算社區(qū)的產(chǎn)生,并通過度加權(quán)范數(shù)的矩陣指數(shù)模型來(lái)估計(jì)社區(qū)。ALTUNBEY等[35]提出了元啟發(fā)式模塊優(yōu)化算法,該算法通過優(yōu)化網(wǎng)絡(luò)模塊化的適應(yīng)度函數(shù)來(lái)發(fā)現(xiàn)重疊社區(qū),取得了較好的效果。ARAB等[36]提出自下而上的社區(qū)檢測(cè)方法,采用模塊化和NMI的混合方法從細(xì)粒度的社區(qū)開始,逐步發(fā)現(xiàn)真實(shí)社區(qū)。Chen等[37]在基于圖分割策略的基礎(chǔ)上提出了一個(gè)局部菲德勒向量中心算法(LFVC)來(lái)發(fā)現(xiàn)深度社區(qū)。模塊法方法雖然有不錯(cuò)的效果,但其缺點(diǎn)也很明顯,就是存在識(shí)別極限的問題。
當(dāng)前圖聚類的方法主要是基于譜聚類思想。它關(guān)注的科學(xué)問題是“節(jié)點(diǎn)的空間映射問題”。譜聚類算法是解決網(wǎng)絡(luò)生成模型的有效的方法,這種概率生成模型的理論基礎(chǔ)也使得其具有廣泛的普適效應(yīng),成為現(xiàn)今社區(qū)發(fā)現(xiàn)算法的主要研究方向。Zhang等[38]的研究致力于通過譜聚類算法解決重疊社區(qū)發(fā)現(xiàn)的問題。Gao等[39]通過圖聚類的發(fā)放解決了復(fù)雜網(wǎng)絡(luò)的適用性問題。Mahmood等[40]通過線性編碼來(lái)提高算法運(yùn)行速率的問題,取得良好的效果。然而,上述的方法都是從建模網(wǎng)絡(luò)連邊密度入手的,沒有實(shí)際建模網(wǎng)絡(luò)連邊的生成過程。而且上述方法認(rèn)為每個(gè)節(jié)點(diǎn)僅僅屬于一個(gè)社區(qū),忽略了社區(qū)中存在的重疊現(xiàn)象,因此,節(jié)點(diǎn)表達(dá)的思路認(rèn)為每個(gè)節(jié)點(diǎn)都是K個(gè)社區(qū)的分配的表達(dá)。這里的科學(xué)問題就是“如何通過觀測(cè)網(wǎng)絡(luò)學(xué)習(xí)得到這種節(jié)點(diǎn)的隱式表達(dá)”。AIROLDI等[41]提出了混合隸屬度隨機(jī)塊模型,這種基于概率統(tǒng)計(jì)方法的生成式模型更好地解釋了節(jié)點(diǎn)之間的邊是如何生成的以及整個(gè)網(wǎng)絡(luò)是如何生成的,并通過機(jī)器學(xué)習(xí)方法來(lái)學(xué)習(xí)隱變量得到網(wǎng)絡(luò)的重疊劃分。這種方法對(duì)網(wǎng)絡(luò)的解釋性更好,唯一缺點(diǎn)就是優(yōu)化速度慢,可能會(huì)優(yōu)化到局部最優(yōu)。
1.4 情感分析
情感計(jì)算是1997年由MIT的Picard教授提出的,情感計(jì)算是與情感相關(guān),來(lái)源于情感或能夠?qū)η楦惺┘佑绊懙挠?jì)算,而隨著社交網(wǎng)絡(luò)的發(fā)展,基于社交網(wǎng)絡(luò)的情感分析再次成為學(xué)術(shù)界的研究熱點(diǎn),通過情感分析可以對(duì)社交網(wǎng)絡(luò)搜索提供更加精確的理解,提高搜索準(zhǔn)確度。
目前學(xué)術(shù)界基于情感分析的研究方法主要集中在社交網(wǎng)絡(luò)文本的情感詞方法。該方法主要是通過人工整理出程度副詞表、否定詞表和社交網(wǎng)絡(luò)中默認(rèn)表情符號(hào)的褒貶分類,然后在情感詞語(yǔ)計(jì)算的基礎(chǔ)上,考慮上下文中否定詞和程度詞對(duì)修飾情感詞語(yǔ)的情感傾向和情感強(qiáng)度的影響,同時(shí)也設(shè)定規(guī)則計(jì)算表情符號(hào)對(duì)一條微博的情感傾向判斷的作用[42]。Marquez等[43]使用相關(guān)的情感詞典從不同的情緒特征維度出發(fā)來(lái)提升微博情感分類的精度;Hu等[44]通過加入社會(huì)學(xué)的方法來(lái)提高情感分析的準(zhǔn)確性,該方法結(jié)合了情緒感染理論到監(jiān)督學(xué)習(xí)的過程,并利用稀疏學(xué)習(xí)實(shí)現(xiàn)了微博文本中的去噪;Debashis等[45]通過用戶社交網(wǎng)絡(luò)中的對(duì)話,確定用戶的情緒,通過一個(gè)新的詞匯字典和情感的羅素模型識(shí)別情感,并利用隱含狄利克雷分配(LDA)生成模型建立主題和情感分布;Sixto等[46]利用BM25排序函數(shù)與支持向量機(jī)相結(jié)合的監(jiān)督學(xué)習(xí)方法來(lái)對(duì)Twitter進(jìn)行情感分析,具有較好的效果。
隨著社交網(wǎng)絡(luò)和移動(dòng)社交APP的發(fā)展,社交網(wǎng)絡(luò)中其他媒體如圖片、視頻、音樂等數(shù)據(jù)急聚增多,對(duì)社交網(wǎng)絡(luò)中圖像、視頻的情感分析等相關(guān)技術(shù)的研究也成為一個(gè)重要方向。深度學(xué)習(xí)的興起對(duì)跨媒體數(shù)據(jù)分析具有重要意義,You等[47]利用微調(diào)的深度卷積神經(jīng)網(wǎng)絡(luò)構(gòu)架訓(xùn)練圖片情感分析模型,相比傳統(tǒng)的方法具有較好的效果;Chao等[48]利用長(zhǎng)短期記憶神經(jīng)循環(huán)網(wǎng)絡(luò)構(gòu)架和時(shí)間池技術(shù)對(duì)音頻和視頻情感分析;Poria等[49]針對(duì)跨媒體的情感分析進(jìn)行研究并取得了一定的進(jìn)展,其主要利用了各自領(lǐng)域的情感分析方法,然后通過特征級(jí)和決策級(jí)的特征融合來(lái)訓(xùn)練情感分析模型,其結(jié)果較之單一模態(tài)的情感分析方法精度更高。
目前的情感分析方法大多是通過簡(jiǎn)單的使用一些情感詞等基于文本的方法,而忽略了用戶用來(lái)增強(qiáng)情感的圖像及視頻等內(nèi)容,這樣很難符合真實(shí)社交網(wǎng)絡(luò)中用戶復(fù)雜的情感表示,將為社交網(wǎng)絡(luò)情感分析帶來(lái)新的挑戰(zhàn)。
1.5 社交網(wǎng)絡(luò)事件監(jiān)測(cè)
社交網(wǎng)絡(luò)事件監(jiān)測(cè)的目標(biāo)是對(duì)社交內(nèi)容中的事件和熱點(diǎn)話題的自動(dòng)識(shí)別和已知話題的持續(xù)跟蹤。事件監(jiān)測(cè)的基礎(chǔ)方法為計(jì)算文檔之間的相似性。具體方法是預(yù)先設(shè)置關(guān)鍵詞或者突發(fā)詞,然后計(jì)算詞與詞之間相似度來(lái)監(jiān)測(cè)事件,文檔之間相似性常用度量方法為夾角余弦,如式(1)所示:
(1)
式中:sim(D1,D2)表示相似度函數(shù),D1和D2表示文檔內(nèi)容,而Ai和Bi表示兩個(gè)n維向量。
該方法僅適用于靜態(tài)文本語(yǔ)料庫(kù)分析的傳統(tǒng)話題監(jiān)測(cè)技術(shù),而社交網(wǎng)絡(luò)中不但存在大量的靜態(tài)文本,同時(shí)也存在跨媒體內(nèi)容,這就涉及語(yǔ)義分析相關(guān)內(nèi)容,因此這種簡(jiǎn)單計(jì)算文本相似性的方法無(wú)法直接適用于在線社交網(wǎng)絡(luò)產(chǎn)生的跨媒體的海量數(shù)據(jù)中。Kaleel等[50]利用詞頻逆序文檔頻率和局部敏感哈希的方法實(shí)現(xiàn)熱點(diǎn)事件發(fā)現(xiàn),并通過聚類的方法提高事件監(jiān)測(cè)的效率。Andrea等[51]提出了一個(gè)基于微博交通事件實(shí)時(shí)監(jiān)測(cè)系統(tǒng),根據(jù)微博標(biāo)簽和預(yù)設(shè)的搜索條件,利用支持向量機(jī)算法對(duì)事件進(jìn)行分類,最后實(shí)現(xiàn)事件監(jiān)測(cè)。Li等[52]提出了基于Spark的分布式微博突發(fā)事件監(jiān)測(cè)增量時(shí)間主題模型,該模型能夠利用短文本數(shù)據(jù)集和時(shí)間信息監(jiān)測(cè)突發(fā)事件,這種分布式的設(shè)計(jì)大大提高了監(jiān)測(cè)效率。Zhang等[53]提出了突發(fā)事件監(jiān)測(cè)和趨勢(shì)預(yù)測(cè)的方法。該方法利用詞頻和用戶的社交關(guān)系等信息進(jìn)行事件監(jiān)測(cè),并提出了一個(gè)擴(kuò)散模型來(lái)預(yù)測(cè)事件的流行趨勢(shì)。該方法解決了大多數(shù)現(xiàn)有的方法只專注于事件監(jiān)測(cè),但忽略了預(yù)測(cè)未來(lái)趨勢(shì)的問題。Zhou等[54]基于圖的模型提出了一個(gè)監(jiān)測(cè)社會(huì)事件的框架LTT,該框架可以捕捉內(nèi)容、時(shí)間、地點(diǎn)和社交信息,具有良好的適用性。Pohl等[55]提出了社交網(wǎng)絡(luò)事件自動(dòng)監(jiān)測(cè)方法,可以高效地實(shí)現(xiàn)對(duì)Flicker和YouTube的社交事件和子事件進(jìn)行監(jiān)測(cè)。上述方法在事件監(jiān)測(cè)方面都取得了良好的效果,但是上述方法側(cè)重于社交網(wǎng)絡(luò)的文本內(nèi)容的事件監(jiān)測(cè),而忽略了社交相關(guān)內(nèi)容。Guille等[56]提出了異常事件監(jiān)測(cè)方法,該方法主要利用動(dòng)態(tài)鏈接的創(chuàng)作頻率。用戶動(dòng)態(tài)地在微博上插入需要監(jiān)測(cè)重要事件,并估計(jì)對(duì)人群的影響程度。Zhang等[57]提出了基于突發(fā)詞權(quán)重的時(shí)間窗口內(nèi)提取突發(fā)詞方法,然后結(jié)合層次聚類算法,利用突發(fā)詞監(jiān)測(cè)突發(fā)性事件。Yang等[58]利用訓(xùn)練好的社交視頻利用基于字典學(xué)習(xí)的方式實(shí)現(xiàn)社交網(wǎng)絡(luò)事件監(jiān)測(cè)。Abdelhaq等[59]基于Twitter提出了一種局部實(shí)時(shí)社交事件檢測(cè)方法,首先提取時(shí)空關(guān)鍵詞,根據(jù)時(shí)空相似性對(duì)關(guān)鍵詞聚類,最后對(duì)關(guān)鍵詞進(jìn)行評(píng)分來(lái)監(jiān)測(cè)事件,取得了良好的效果。
隨著事件監(jiān)測(cè)研究的不斷進(jìn)步,基于多模態(tài)的社交網(wǎng)絡(luò)事件監(jiān)測(cè)方法成為研究熱點(diǎn)。Manos等[60]提出了一種基于時(shí)間窗的多模態(tài)方法對(duì)海量圖片進(jìn)行事件監(jiān)測(cè)。Gao等[61]利用超圖分割的思想并引入文本內(nèi)容、視覺內(nèi)容、位置信息、時(shí)間信息等實(shí)現(xiàn)社交多媒體的事件監(jiān)測(cè),然后利用新浪微博數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),取得了不錯(cuò)的效果。該方法的優(yōu)點(diǎn)是引入了多模態(tài)信息和時(shí)空特性,為基于時(shí)空特性的事件監(jiān)測(cè)提供了解決方案,但是該方法并沒給出預(yù)測(cè)熱點(diǎn)事件的方法,針對(duì)這個(gè)問題Unankard等[62]提出了基于位置感知的社交網(wǎng)絡(luò)事件監(jiān)測(cè)方法,把Twitter事件和位置信息進(jìn)行統(tǒng)一表示,將用戶位置和事件位置的相關(guān)性的強(qiáng)度進(jìn)行標(biāo)識(shí)來(lái)監(jiān)測(cè)新興事件和預(yù)測(cè)熱點(diǎn)事件。
目前搜索技術(shù)的研究熱主要集中在傳統(tǒng)的搜索引擎技術(shù)和社交網(wǎng)絡(luò)搜索技術(shù)。傳統(tǒng)的搜索引擎一般采用經(jīng)典的倒排索引,然后對(duì)索引結(jié)果根據(jù)相關(guān)算法進(jìn)行重排序,典型的算法有PageRank、HITS等[63]。隨著社交網(wǎng)絡(luò)的發(fā)展,搜索引擎提供商也開發(fā)了基于社交網(wǎng)絡(luò)的搜索功能,而且社交網(wǎng)絡(luò)服務(wù)公司也提供了基于本平臺(tái)的社交搜索引擎。國(guó)內(nèi)的搜狗公司提供了基于微信、知乎等在線社交網(wǎng)絡(luò)的搜索服務(wù),以提供更加適應(yīng)于社交網(wǎng)絡(luò)的搜索技術(shù)。特別地,在社交平臺(tái)搜索方面,F(xiàn)aceBook開發(fā)了備受歡迎的知識(shí)圖譜搜索技術(shù)[64],通過該技術(shù)可以對(duì)用戶發(fā)布的圖片、內(nèi)容、地點(diǎn)等進(jìn)行社會(huì)化的搜索和推薦,相比傳統(tǒng)的搜索引擎,Twitter提供的搜索完全是基于社交網(wǎng)絡(luò)的搜索,提供了基于內(nèi)容的搜索、社交關(guān)系搜索、事件的情感搜索、用戶等搜索功能、熱點(diǎn)事件搜索等。國(guó)內(nèi)的新浪微博也提供基于社交網(wǎng)絡(luò)搜索功能,與Twitter相比新浪微博的搜索比較簡(jiǎn)單,僅提供了相關(guān)話題推薦、熱點(diǎn)事件推薦、用戶搜索、內(nèi)容搜索等功能。
2.1 搜索索引研究
社交網(wǎng)絡(luò)索引的設(shè)計(jì)對(duì)社交網(wǎng)絡(luò)搜索結(jié)果的準(zhǔn)確度和搜索效率有著至關(guān)重要的影響,不同于傳統(tǒng)的搜索索引,社交網(wǎng)絡(luò)有字?jǐn)?shù)限制(一般要求不能超過140字),所以社交網(wǎng)絡(luò)的內(nèi)容相對(duì)比較稀疏,噪聲數(shù)據(jù)較多,傳統(tǒng)的方法已經(jīng)不適用于社交網(wǎng)絡(luò)。目前針對(duì)索引的設(shè)計(jì)主要集中在對(duì)倒排索引的改進(jìn)[65],使之更加適應(yīng)社交網(wǎng)絡(luò)。
Chen等[66]針對(duì)社交網(wǎng)絡(luò)搜索以鍵值存儲(chǔ)形式的不可擴(kuò)展性,設(shè)計(jì)了摘要引的算法,通過該算法可以避免對(duì)鄰居結(jié)點(diǎn)的窮舉查詢,提高索引效率,同時(shí)提出了piggyback策略來(lái)消除冗余信息,提高搜索的速度。Chen等[67]提出了社交網(wǎng)絡(luò)索引的自適應(yīng)方案,在排序算法基礎(chǔ)上設(shè)計(jì)了基于時(shí)間戳的用戶和內(nèi)容聯(lián)合關(guān)系的排序方法,該方法首先對(duì)社交網(wǎng)絡(luò)內(nèi)容和主題進(jìn)行分類,然后對(duì)其動(dòng)態(tài)排序。該方法很好地解決了傳統(tǒng)索引方案實(shí)時(shí)性不強(qiáng)的問題。Li等[68]提出了一種3-D倒排索引技術(shù),引入了社交屬性和時(shí)間屬性用于實(shí)現(xiàn)支持詞頻、社交距離和時(shí)間新鮮度的3個(gè)維度的搜索技術(shù),并應(yīng)用了Dijkstra算法計(jì)算社交網(wǎng)絡(luò)距離來(lái)優(yōu)化算法的冷啟動(dòng)問題。
Zhao等[69]提出了自適應(yīng)融合策略(ls-ams)來(lái)處理用戶對(duì)社交網(wǎng)絡(luò)實(shí)時(shí)查詢的請(qǐng)求,該策略在倒排索引基礎(chǔ)上增加指標(biāo)包來(lái)管理倒排索引,通過這種機(jī)制可以減少合并查詢的開銷,提高查詢性能。Huang等[70]提出了一個(gè)實(shí)時(shí)的分布式索引系統(tǒng),該系統(tǒng)用時(shí)間分割索引,在每一個(gè)分區(qū)中映射一個(gè)哈希表,通過這種機(jī)制可減少特定范圍內(nèi)查詢的時(shí)間;Yuan等[71]提出了基于部分索引機(jī)制的分類和索引方法以提高檢索效率,分類算法將查詢分為候選查詢和流行查詢,并采取單獨(dú)的存儲(chǔ)策略,實(shí)驗(yàn)結(jié)果表明該分類和索引算法可以減少實(shí)時(shí)搜索時(shí)間,提高搜索效率;Ríssola等[72]提出了索引項(xiàng)目失效策略,該策略引入了索引干的概念,索引干負(fù)責(zé)跟蹤基本詞匯的演變和刪除無(wú)效的索引條目,通過該方法大大地提高了索引效率。
2.2 排序研究
目前對(duì)排序算法的研究主要是基于傳統(tǒng)排序算法的改進(jìn)和引入情感計(jì)算、社會(huì)影響力等因素,提高搜索排序算法的精度和準(zhǔn)確性。
Xie等[73]提出了社交網(wǎng)絡(luò)的上下文嵌套搜索模型,通過這個(gè)模型可以有效地捕獲和理解用戶目的,同時(shí)提出了上下文感知的個(gè)性化搜索方法,通過該方法可以動(dòng)態(tài)調(diào)整用戶信息文件中的標(biāo)簽信息,進(jìn)而可以根據(jù)用戶的喜好來(lái)搜索上下文的資源,提高了搜索的效率和準(zhǔn)確性。Liang等[74]提出了一種改進(jìn)的混合排序算法TimeRa,該算法把對(duì)微博單獨(dú)排序生成的結(jié)果進(jìn)行融合,并根據(jù)潛在因素模型推斷文件的排序等級(jí)和分?jǐn)?shù),將最終的排序結(jié)果返回給用戶。Wang等[75]根據(jù)與用戶回復(fù)和轉(zhuǎn)發(fā)數(shù)進(jìn)行評(píng)分,回復(fù)和轉(zhuǎn)發(fā)數(shù)高的評(píng)分越高。為了降低名人微博回復(fù)和轉(zhuǎn)發(fā)數(shù)對(duì)評(píng)分結(jié)果的影響,提出了基于參與用戶時(shí)間窗的異常檢測(cè)方法,把用戶的原始參與引入評(píng)分算法,很好地解決了名人評(píng)分問題。Liu等[76]運(yùn)用LDA推斷微博的主題分布和用戶的興趣取向,通過實(shí)時(shí)Top-k響應(yīng),實(shí)時(shí)微博查詢,然后比較用戶取向和微博主題分布之間的相似度判斷用戶的興趣。該方法是基于社交網(wǎng)絡(luò)搜索算法基礎(chǔ)上的一個(gè)用戶個(gè)性化的搜索算法,可以應(yīng)用在社交網(wǎng)絡(luò)個(gè)性化推薦中。衛(wèi)冰潔等[77]將社交網(wǎng)絡(luò)文本搜索總結(jié)為以下三點(diǎn),時(shí)間感知的文本表示、時(shí)間感知的文檔先驗(yàn)、時(shí)間感知的查詢擴(kuò)展,將查詢相關(guān)文檔分布的高峰時(shí)刻稱為該查詢的熱門時(shí)刻,提出了基于查詢熱門時(shí)刻的4個(gè)系列語(yǔ)言模型。周霞娟等[78]提出了一個(gè)用戶驅(qū)動(dòng)的可視化微博搜索方法。采用特征詞及其權(quán)重來(lái)對(duì)用戶興趣進(jìn)行建模,在此基礎(chǔ)上建立用戶特征詞直接的關(guān)系。搜索微博信息時(shí),首先定位與檢索詞相關(guān)的微博用戶,在相關(guān)微博用戶的微博中篩選與搜索相關(guān)的微博。Severyn等[79]把深度學(xué)習(xí)方法引入社交網(wǎng)絡(luò)搜索,建立了基于卷積神經(jīng)網(wǎng)絡(luò)的短文本對(duì)的重排序方法,取得了較好的效果。Chy等[80]提出融合時(shí)間特征、用戶特征、文本特征的搜索結(jié)果重排序方法,并結(jié)合上述特征加權(quán)的排名模型來(lái)估計(jì)最后的得分。
上述搜索和排序算法大部分都是基于傳統(tǒng)的搜索和排序機(jī)制上的改進(jìn)和擴(kuò)展,盡管提高了搜索的效率,但是沒有從用戶角度去感知用戶的搜索目的和實(shí)現(xiàn)智能化的社交搜索。同時(shí)搜索內(nèi)容都是基于社交網(wǎng)絡(luò)文本或事件的搜索,而缺少對(duì)社交網(wǎng)絡(luò)中跨媒體內(nèi)容的索引和搜索機(jī)制。
本文總結(jié)了社交網(wǎng)絡(luò)結(jié)構(gòu)建模、社交網(wǎng)絡(luò)信息傳播、社區(qū)發(fā)現(xiàn)、情感分析、事件監(jiān)測(cè)及社交網(wǎng)絡(luò)索引、搜索等技術(shù)的研究現(xiàn)狀和最近進(jìn)展。盡管取得了較多成果,但以下方面的研究仍然亟待解決。
現(xiàn)有社交網(wǎng)絡(luò)挖掘工作一般都是基于宏觀層面,很少?gòu)奈⒂^或者更細(xì)粒度層面開展研究,比如情感分析大都只是從積極、消極和中立等情感詞分析進(jìn)行研究,而影響力分析也大都只是從全局影響力開展研究,同時(shí)在線社交網(wǎng)絡(luò)用戶發(fā)表的評(píng)論信息常存在歧義性、模糊性、甚至惡意性等問題,特別是一些影響力較大的用戶的言論,會(huì)對(duì)社會(huì)造成較大的影響,因此需要綜合利用自然語(yǔ)言處理、統(tǒng)計(jì)學(xué)習(xí)和社交網(wǎng)絡(luò)挖掘等各種技術(shù)進(jìn)行處理,這將給觀點(diǎn)挖掘、情感分析、影響力分析等研究帶來(lái)挑戰(zhàn)。
在線社交網(wǎng)絡(luò)挖掘領(lǐng)域中的各熱點(diǎn)話題都面臨著如何研究更有效方法應(yīng)對(duì)在線網(wǎng)絡(luò)的大規(guī)?;?、復(fù)雜化等帶來(lái)的效率和質(zhì)量問題。特別是針對(duì)在線社交網(wǎng)絡(luò)中的海量跨媒體大數(shù)據(jù),如何研究高效率、高質(zhì)量的數(shù)據(jù)挖掘技術(shù),幫助人們從社交網(wǎng)絡(luò)中得到更有價(jià)值的信息,實(shí)現(xiàn)滿足用戶個(gè)性化需求的個(gè)性化搜索,仍然是目前該領(lǐng)域重要的研究方向。
在線社交網(wǎng)絡(luò)搜索技術(shù)對(duì)特定對(duì)象精準(zhǔn)搜索的研究還存在不足,不能從超大規(guī)模、超高維度、不完全的、有噪聲的、模糊的在線社交網(wǎng)絡(luò)跨媒體大數(shù)據(jù)中挖掘出與特定對(duì)象時(shí)空特性、社會(huì)屬性相關(guān)的知識(shí)模式,因此需要研究高質(zhì)量、高效率的跨媒體大數(shù)據(jù)挖掘算法以及支持時(shí)空特性的跨媒體時(shí)空數(shù)據(jù)挖掘體系,根據(jù)時(shí)空特性、社交特性、用戶行為特征,并結(jié)合領(lǐng)域本體知識(shí)庫(kù)推理演算和語(yǔ)義查詢擴(kuò)展,構(gòu)建支持時(shí)空特性的在線社交網(wǎng)絡(luò)對(duì)象的精準(zhǔn)搜索模型。
隨著社交圖譜搜索技術(shù)的發(fā)展,這種與人相關(guān)的時(shí)間、地點(diǎn)、多媒體、社交內(nèi)容等進(jìn)行搜索的技術(shù)必將成為社交網(wǎng)絡(luò)搜索的發(fā)展趨勢(shì),與此同時(shí),結(jié)合深度語(yǔ)義學(xué)習(xí)、情感立場(chǎng)、事件傳播、群體社團(tuán)關(guān)系,實(shí)現(xiàn)對(duì)用戶的社交行為分析、搜索意圖理解的智能化、智慧化搜索是一個(gè)亟待解決的問題。
由于用戶移動(dòng)端的普及,各個(gè)社交網(wǎng)絡(luò)都提供了手機(jī)簽到的功能,通過這個(gè)功能可以獲取用戶的時(shí)間信息、空間信息,如何結(jié)合數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)基于時(shí)空特性的社交網(wǎng)絡(luò)搜索也是一個(gè)需要解決的問題。
[1]李立耀, 孫魯敬, 楊家海. 社交網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)科學(xué), 2015, 42(11): 8-21, 42.LILiyao,SUNLujing,YANGJiahai.Researchononlinesocialnetwork[J].Computerscience, 2015, 42(11): 8-21, 42.
[2]王大玲, 馮時(shí), 張一飛, 等. 社會(huì)媒體多模態(tài)、多層次資源推薦技術(shù)研究[J]. 智能系統(tǒng)學(xué)報(bào), 2014, 9(3): 265-275.WANGDaling,FENGShi,ZHANGYifei,etal.Studyontherecommendationsofmulti-modalandmulti-levelresourcesinsocialmedia[J].CAAItransactionsonintelligentsystems, 2014, 9(3): 265-275.
[3]AGRAWALR,GOLSHANB,PAPALEXAKISE.Whithersocialnetworksforwebsearch[C]//Proceedingsofthe21thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork,NY,USA:ACM, 2015: 1661-1670.
[4]賀超波, 湯庸, 麥輝強(qiáng), 等. 在線社交網(wǎng)絡(luò)挖掘綜述[J]. 武漢大學(xué)學(xué)報(bào): 理學(xué)版, 2014, 60(3): 189-200.HEChaobo,TANGYong,MAIHuiqiang,etal.AsurveyononlinesocialnetworkMining[J].JournalofWuhanuniversity:naturalscienceedition, 2014, 60(3): 189-200.
[5]SHENGQZ,VASILAKOSAV,YUQi,etal.Guesteditorial:bigdataanalyticsandtheweb[J].IEEEtransactionsonbigdata, 2015, 1(4): 123-124.
[6]唐杰, 陳文光. 面向大社交數(shù)據(jù)的深度分析與挖掘[J]. 科學(xué)通報(bào), 2015, 60(5/6): 509-519.TANGJie,CHENWenguang.MAIHuiqiangDeepanalyticsandminingforbigsocialdata[J].Chinesesciencebulletin, 2015, 60(5/6): 509-519.
[7]許進(jìn), 楊揚(yáng), 蔣飛, 等. 社交網(wǎng)絡(luò)結(jié)構(gòu)特性分析及建模研究進(jìn)展[J]. 中國(guó)科學(xué)院院刊, 2015, 30(2): 216-228.XUJin,YANGYang,JIANGFei,etal.Socialnetworkstructurefeatureanalysisanditsmodelling[J].BulletinofChineseacademyofsciences, 2015, 30(2): 216-228.
[8]AGGARWALCC.Socialnetworkanalysis[J].Encyclopediaofsocialnetworkanalysis&mining, 2015, 22(1): 109-127.
[9]HSUTY,KSHEMKALYANIAD.Modelingsocialnetworktopologywithvariablesocialvectorclocks[C]//Proceedingsof2015IEEE/ACMInternationalConferenceonAdvancesinSocialNetworksAnalysisandMining.Paris,France:IEEE, 2015: 584-589.
[10]DONGYuxiao.Usermodelinginlargesocialnetworks[C]//ProceedingsoftheNinthACMInternationalConferenceonWebSearchandDataMining.NewYork,NY,USA:ACM, 2016: 713.
[11]SLAUGHTERAJ,KOEHLYLM.Multilevelmodelsforsocialnetworks:hierarchicalbayesianapproachestoexponentialrandomgraphmodeling[J].Socialnetworks, 2016, 44: 334-345.
[12]AMATOF,MOSCATOV,PICARIELLOA,etal.Multimediasocialnetworkmodeling:aproposal[C]//Proceedingsof2016IEEETenthInternationalConferenceonSemanticComputing.LagunaHills,CA,USA:IEEE, 2016: 448-453.
[13]BAJAJA,SENS.Simulatingtheeffectofsocialnetworkstructureonworkflowefficiencyperformance[J].Socialnetworking, 2014, 3(1): 32-40.
[14]MIHOUBA,BAILLYG,WOLFC,etal.Graphicalmodelsforsocialbehaviormodelinginface-tofaceinteraction[J].Patternrecognitionletters, 2016, 74: 82-89.
[15]RODRIGUEZMG,BALDUZZID,SCH?LKOPFB.UncoveringthetemporaldynamicsofdiffusionNetworks[C]//Proceedingsofthe28thInternationalConferenceonMachineLearning.Bellevue,Washington,USA:ICML, 2011: 561-568.
[16]JONESS,WEUTHENT,HARMERQJ,etal.Modelinginformationpropagationwithsurvivaltheory[J].Philosophicalmagazineletters, 2013, 95(2): 85-91.
[17]RODRIGUEZMG,LESKOVECJ,BALDUZZID,etal.Uncoveringthestructureandtemporaldynamicsofinformationpropagation[J].Networkscience, 2014, 2(1): 26-65.
[18]SADIKOVE,MEDINAM,LESKOVECJ,etal.Correctingformissingdataininformationcascades[C]//ProceedingsoftheFourthACMInternationalConferenceonWebSearchandDataMining.NewYork,NY,USA:ACM, 2011: 55-64.
[19]ROMERODM,GALUBAW,ASURS,etal.Influenceandpassivityinsocialmedia[M]//GunopulosD,HofmannT,HofmannD,etal.MachineLearningandKnowledgeDiscoveryinDatabases.BerlinHeidelberg:Springer, 2010: 18-33.
[20]KIMURAM,SAITOK,OHARAK,etal.Speeding-upnodeinfluencecomputationforhugesocialnetworks[J].Internationaljournalofdatascienceandanalytics, 2016, 1(1): 3-16.
[21]GUILLEA,HACIDH,FAVREC.Predictingthetemporaldynamicsofinformationdiffusioninsocialnetworks[J].Computerscience, 2013, 144(1): 1145-1152.
[22]XUXin,CHENXin,EUNDY.Modelingtime-sensitiveinformationdiffusioninonlinesocialnetworks[C]//Proceedingsof2015IEEEConferenceonComputerCommunicationsWorkshops(INFOCOMWKSHPS).HongKong,China:IEEE, 2015: 408-413.
[23]WENSheng,HAGHIGHIMS,CHENChao,etal.Aswordwithtwoedges:propagationstudiesonbothpositiveandnegativeinformationinonlinesocialnetworks[J].IEEEtransactionsoncomputers, 2015, 64(3): 640-653.
[24]TUAROBS,TUCKERCS,SALATHEM,etal.Modelingindividual-levelinfectiondynamicsusingsocialnetworkinformation[C]//Proceedingsofthe24thACMInternationalonConferenceonInformationandKnowledgeManagement.NewYork,NY,USA:ACM, 2015: 1501-1510.
[25]TAMBUSCIOM,RUFFOG,FLAMMINIA,etal.Fact-checkingeffectonviralhoaxes:amodelofmisinformationspreadinsocialnetworks[C]//Proceedingsofthe24thInternationalConferenceonWorldWideWeb.NewYork,NY,USA:ACM, 2015: 977-982.
[26]WANGRu,RHOS,CHENBowei,etal.Modelingoflarge-scalesocialnetworkservicesbasedonmechanismsofinformationdiffusion:SinaWeiboasacasestudy[J].Futuregenerationcomputersystems, 2016,doi: 10.1016/j.future.2016.03.018.
[27]PALA,COUNTSS.Identifyingtopicalauthoritiesinmicroblogs[C]//ProceedingsoftheFourthACMInternationalConferenceonWebSearchandDataMining.NewYork,NY,USA:ACM, 2011: 45-54.
[28]SUOQi,SUNShiwei,HAJLIN,etal.Userratingsanalysisinsocialnetworksthroughahypernetworkmethod[J].Expertsystemswithapplications, 2015, 42(21): 7317-7325.
[29]吳峴輝, 張暉, 趙旭劍, 等. 基于用戶行為網(wǎng)絡(luò)的微博意見領(lǐng)袖挖掘算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 32(9): 2678-2683.WUXianhui,ZHANGHui,ZHAOXujian,etal.Miningalgorithmofmicrobloggingopinionleadersbasedonuser-behaviornetwork[J].Applicationresearchofcomputers, 2015, 32(9): 2678-2683.
[30]SUPPAP,ZIMEOE.Aclusteredapproachforfastcomputationofbetweennesscentralityinsocialnetworks[C]//Proceedingsof2015IEEEInternationalCongressonBigData.NewYork,NY,USA:IEEE, 2015: 47-54.
[31]YANGYang,TANGJie,LEUNGCWK,etal.Rain:socialrole-awareinformationdiffusion[C]//ProceedingsoftheTwenty-NinthAAAIConferenceonArtificialIntelligence.Austin,Texas,USA:AAAI, 2015: 367-373.
[32]SUBBIANK,AGGARWALCC,SRIVASTAVAJ.Queryingandtrackinginfluencersinsocialstreams[C]//ProceedingsoftheNinthACMInternationalConferenceonWebSearchandDataMining.NewYork,NY,USA:ACM, 2016: 493-502.
[33]SUJianhai,HAVENSTC.Quadraticprogram-basedmodularitymaximizationforfuzzycommunitydetectioninsocialnetworks[J].IEEEtransactionsonfuzzysystems, 2015, 23(5): 1356-1371.
[34]KLOSTERK,GLEICHDF.Heatkernelbasedcommunitydetection[C]//Proceedingsofthe20thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork,NY,USA:ACM, 2014: 1386-1395.
[35]ALTUNBEYF,ALATASB.Overlappingcommunitydetectioninsocialnetworksusingparliamentaryoptimizationalgorithm[J].Internationaljournalofcomputernetworksandapplications, 2015, 2(1): 12-19.
[36]ARABM,AFSHARCHIM.Communitydetectioninsocialnetworksusinghybridmergingofsub-communities[J].Journalofnetworkandcomputerapplications, 2014, 40: 73-84.
[37]CHENPinyu,HEROAO.Deepcommunitydetection[J].IEEEtransactionsonsignalprocessing, 2015, 63(21): 5706-5719.
[38]ZHANGYuan,LEVINAE,ZHUJi.Detectingoverlappingcommunitiesinnetworksusingspectralmethods[J].Physicaa:statisticalmechanicsanditsapplications, 2014, 405: 1-37.
[39]GAOChao,MAZongming,ZHANGAY,etal.Achievingoptimalmisclassificationproportioninstochasticblockmodel[J].Computerscience, 2015, 20(3): 88-90.
[40]MAHMOODA,SMALLM.Subspacebasednetworkcommunitydetectionusingsparselinearcoding[J].IEEEtransactionsonknowledgeanddataengineering, 2016, 28(3): 801-812.
[41]AIROLDIEM,BLEIDM,FIENBERGSE,etal.Mixedmembershipstochasticblockmodels[J].Thejournalofmachinelearningresearch, 2008, 9: 1981-2014.
[42]趙文清, 侯小可, 沙海虹. 語(yǔ)義規(guī)則在微博熱點(diǎn)話題情感分析中的應(yīng)用[J]. 智能系統(tǒng)學(xué)報(bào), 2014, 9(1): 121-125.ZHAOWenqing,HOUXiaoke,SHAHaihong.Applicationofsemanticrulestosentimentanalysisofmicrobloghottopics[J].CAAITransactionsonintelligentsystems, 2014, 9(1): 121-125.
[43]BRAVO-MARQUEZF,MENDOZAM,POBLETEB.Combiningstrengths,emotionsandpolaritiesforboostingTwittersentimentanalysis[C]//ProceedingsoftheSecondInternationalWorkshoponIssuesofSentimentDiscoveryandOpinionMining.NewYork,NY,USA:ACM, 2013: 2.
[44]HUXia,TANGLei,TANGJiliang,etal.Exploitingsocialrelationsforsentimentanalysisinmicroblogging[C]//ProceedingsoftheSixthACMInternationalConferenceonWebSearchandDataMining.NewYork,NY,USA:ACM, 2013: 537-546.
[45]NASKARD,MOKADDEMS,REBOLLOM,etal.Sentimentanalysisinsocialnetworksthroughtopicmodeling[C]//Proceedingsofthe10thEditionoftheLanguageResourcesandEvaluationConference(LREC) 2016.Portoroz:LREC, 2016.
[46]SIXTOJ,ALMEIDAA,LPEZ-DE-IPIAD.Improvingthesentimentanalysisprocessofspanishtweetswithbm25[M]//MéTAISE,MEZIANEF,SARAEEM,etal.NaturalLanguageProcessingandInformationSystems.Switzerland:Springer, 2016: 285-291.
[47]YOUQuanzeng,LUOJiebo,JINHailin,etal.Robustimagesentimentanalysisusingprogressivelytrainedanddomaintransferreddeepnetworks[C]//ProceedingsoftheTwenty-NinthAAAIConferenceonArtificialIntelligence.Austin,Texas,USA:AAAIPress, 2015: 381-388.
[48]CHAOLinlin,TAOJianhua,YANGMinghao,etal.Longshorttermmemoryrecurrentneuralnetworkbasedmultimodaldimensionalemotionrecognition[C]//Proceedingsofthe5thInternationalWorkshoponAudio/VisualEmotionChallenge.NewYork,NY,USA:ACM, 2015: 65-72.
[49]PORIAS,CAMBRIAE,HOWARDN,etal.Fusingaudio,visualandtextualcluesforsentimentanalysisfrommultimodalcontent[J].Neurocomputing, 2016, 174: 50-59.
[50]KALEELSB,ABHARIA.Cluster-discoveryoftwittermessagesforeventdetectionandtrending[J].Journalofcomputationalscience, 2015, 6: 47-57.
[51]D'ANDREAE,DUCANGEP,LAZZERINIB,etal.Real-timedetectionoftrafficfromtwitterstreamanalysis[J].IEEEtransactionsonintelligenttransportationsystems, 2015, 16(4): 2269-2283.
[52]LIJianxin,WENJianfeng,TAIZhenying,etal.Burstyeventdetectionfrommicroblog:adistributedandincrementalapproach[J].Concurrencyandcomputationpracticeandexperience, 2016, 28(11): 3115-3130.
[53]ZHANGXiaoming,CHENXiaoming,CHENYan,etal.Eventdetectionandpopularitypredictioninmicroblogging[J].Neurocomputing, 2015, 149: 1469-1480.
[54]ZHOUXiangmin,CHENLei.Eventdetectionovertwittersocialmediastreams[J].TheVLDBjournal, 2014, 23(3): 381-400.
[55]POHLD,BOUCHACHIAA,HELLWAGNERH.Socialmediaforcrisismanagement:clusteringapproachesforsub-eventdetection[J].Multimediatoolsandapplications, 2015, 74(11): 3901-3932.
[56]GUILLEA,FAVREC.Mention-anomaly-basedeventdetectionandtrackingintwitter[C]//Proceedingsof2014IEEE/ACMInternationalConferenceonAdvancesinSocialNetworksAnalysisandMining.Beijing,China:IEEE, 2014: 375-382.
[57]ZHANGYu,QUZhiyi.Anovelmethodforonlineburstyeventdetectionontwitter[C]//Proceedingsofthe2015 6thIEEEInternationalConferenceonSoftwareEngineeringandServiceScience(ICSESS).Beijing,China:IEEE, 2015: 284-288.
[58]YANYan,YANGYi,MENGDeyu,etal.Eventorienteddictionarylearningforcomplexeventdetection[J].IEEEtransactionsonimageprocessing, 2015, 24(6): 1867-1878.
[59]ABDELHAQH,SENGSTOCKC,GERTZM.Eventweet:onlinelocalizedeventdetectionfromtwitter[J].ProceedingsoftheVLDBendowment, 2013, 6(12): 1326-1329.
[60]SCHINASM,PAPADOPOULOSS,PETKOSG,etal.Multimodaleventdetectionandsummarizationinlargescaleimagecollections[C]//Proceedingsofthe2016ACMonInternationalConferenceonMultimediaRetrieval.NewYork,NY,USA:ACM, 2016: 421-422.
[61]GAOYue,ZHAOSicheng,YANGYang,etal.Multimediasocialeventdetectioninmicroblog[M]//HEXiangjian,LUOSuhuai,TAODacheng,etal.MultiMediaModeling.Switzerland:SpringerInternationalPublishing, 2015: 269-281.
[62]UNANKARDS,LIXue,SHARAFMA.Emergingeventdetectioninsocialnetworkswithlocationsensitivity[J].Worldwideweb, 2015, 18(5): 1393-1417.
[63]BOUADJENEKMR,HACIDH,BOUZEGHOUBM.Socialnetworksandinformationretrieval,howaretheyconverging?Asurvey,ataxonomyandananalysisofsocialinformationretrievalapproachesandplatforms[J].Informationsystems, 2016, 56: 1-18.
[64]劉嶠, 李楊, 段宏, 等. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600.LIUQiao,LIYang,DUANHong,etal.Knowledgegraphconstructiontechniques[J].Journalofcomputerresearchanddevelopment, 2016, 53(3): 582-600.
[65]費(fèi)洪曉, 莫天池, 秦啟飛, 等. 社交網(wǎng)絡(luò)相關(guān)機(jī)制應(yīng)用于搜索引擎的研究綜述[J]. 計(jì)算技術(shù)與自動(dòng)化, 2014, 33(1): 1-9.FEIHongxiao,MOTianchi,QINQifei,etal.Theresearchesofapplyingsocialnetworkingmechanismtosearchengine:asurvey[J].Computingtechnologyandautomation, 2014, 33(1): 1-9.
[66]CHENChun,LIFeng,OOIBC,etal.Ti:anefficientindexingmechanismforreal-timesearchontweets[C]//Proceedingsofthe2011ACMSIGMODInternationalConferenceonManagementofData.NewYork,NY,USA:ACM, 2011: 649-660.
[67]CHENHanhua,JINHai.Efficientkeywordsearchinginlarge-scalesocialnetworkservice[J].IEEEtransactionsonservicescomputing, 2015,doi: 10.1109/TSC.2015.2464819.
[68]LIYuchen,BAOZhifeng,LIGuoliang,etal.Realtimepersonalizedsearchonsocialnetworks[C]//Proceedingsofthe2015IEEE31stInternationalConferenceonDataEngineering.Seoul,SouthKorea:IEEE, 2015: 639-650.
[69]ZHAOFeng,LIUJun,ZHOUJingyu,etal.LS-AMS:anadaptiveindexingstructureforrealtimesearchonmicroblogs[J].IEEEtransactionsonbigdata, 2015, 1(4): 125-137.
[70]HUANGHaifei,LIJianxin,ZHANGRichong,etal.Liveindex:adistributedonlineindexsystemfortemporalmicroblogdata[C]//Proceedingsof2015IEEE17thInternationalConferenceonHighPerformanceComputingandCommunications(HPCC),the2015IEEE7thInternationalSymposiumonCyberspaceSafetyandSecurity(CSS), 2015IEEE12thInternationalConferenonEmbeddedSoftwareandSystems(ICESS).NewYork,NY,USA:IEEE, 2015: 884-887.
[71]YUANJingbo,WANGBairong,DINGShunli.Areal-timesearchstructureandclassificationalgorithmofmicroblogbasedonpartialindexing[J].Indonesianjournalofelectricalengineeringandcomputerscience, 2014, 12(3): 2271-2277.
[72]RSSOLAEA,TOLOSAGH.Invertedindexentryinvalidationstrategyforrealtimesearch[C]//ProceedingsofXXICongresoArgentinodeCienciasdelaComputación.Junín:CACIC, 2015.
[73]XIEHaoran,LIXiaodong,WANGTao,etal.Personalizedsearchforsocialmediaviadominatingverbalcontext[J].Neurocomputing, 2016, 172: 27-37.
[74]LIANGShangsong,RENZhaochun,WEERKAMPW,etal.Time-awarerankaggregationformicroblogsearch[C]//Proceedingsofthe23rdACMInternationalConferenceonConferenceonInformationandKnowledgeManagement.NewYork,NY,USA:ACM, 2014: 989-998.
[75]WANGWenbo,DUANLei,KOULA,etal.YouRank:letuserengagementrankmicroblogsearchresults[C]//ProceedingsoftheEighthInternationalAAAIConferenceonWeblogsandSocialMedia.PaloAlto,California:AAAI, 2014.
[76]LIULijun.Researchonreal-timepersonalizedrecommendationalgorithm[J].Internationaljournalofu-ande-service,scienceandtechnology, 2014, 7(5): 359-368.
[77]衛(wèi)冰潔, 王斌. 面向微博搜索的時(shí)間感知的混合語(yǔ)言模型[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(1): 229-239.WEIBingjie,WANGBin.Time-awaremixedlanguagemodelformicroblogsearch[J].Chinesejournalofcomputers, 2014, 37(1): 229-239.
[78]周霞娟, 汪飛, 金玲, 等. 用戶驅(qū)動(dòng)的微博可視化搜索[J]. 中國(guó)圖象圖形學(xué)報(bào), 2015, 20(5): 715-723.ZHOUXiajuan,WANGFei,JINLing,etal.User-drivenvisualmicro-blogsearch[J].Journalofimageandgraphics, 2015, 20(5): 715-723.
[79]SEVERYNA,MOSCHITTIA.Learningtorankshorttextpairswithconvolutionaldeepneuralnetworks[C]//Proceedingsofthe38thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork,NY,USA:ACM, 2015: 373-382.
[80]CHYAN,ULLAHMZ,AONOM.Combiningtemporalandcontentawarefeaturesformicroblogretrieval[C]//Proceedingsofthe2015 2ndInternationalConferenceonAdvancedInformatics:Concepts,TheoryandApplications(ICAICTA).Chonburi,Thailand:IEEE, 2015: 1-6.
石磊,男,1986年生,博士研究生,主要研究方向?yàn)槿斯ぶ悄芎蛿?shù)據(jù)挖掘。
杜軍平,女,1963 年生,教授,博士生導(dǎo)師,博士,中國(guó)人工智能學(xué)會(huì)常務(wù)理事,智能服務(wù)專業(yè)委員會(huì)主任,主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)分析、數(shù)據(jù)挖掘、運(yùn)動(dòng)圖像處理,主持國(guó)家“863”、“973”計(jì)劃項(xiàng)目、國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目、國(guó)家自然科學(xué)基金重大國(guó)際合作項(xiàng)目、北京市自然科學(xué)基金重點(diǎn)項(xiàng)目等多項(xiàng)。
周亦鵬,男, 副教授,博士,主要研究方向?yàn)閃eb挖掘、跨媒體信息檢索。
A survey on online social network mining and search
SHI Lei1, DU Junping1, ZHOU Yipeng2, YE Hang1, LAI Jincai1, HE Yijiang1
(1. Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia, Beijing University of Posts and Telecommunications, Beijing 100876, China; 2. School of Computer Science and Information Engineering, Beijing Technology and Business University, Beijing 100048, China)
With the vigorous development of online social networks, the traditional technologies of data mining and searching cannot solve the problems of social networks in the Web 2.0 era. Social networks, accompanied by complex social relationships, large amounts of data, dynamic updates, multimodal data, etc. have brought great challenge to the study of data mining and searching. Therefore, the research of novel algorithms of social network mining and searching has become a new task in both academia and industry. This paper summarized the basic situation and problems of social networks, and analyzed structural modeling techniques, information transmission mechanisms, community detection, sentiment analysis, event detection and search ranking techniques of social networks. Based on the analysis of previous researches, the prospect of social network data mining and search technologies was forecasted in this paper.
social networks; data mining; search; community detection; information transmission
10.11992/tis.201612007
http://www.cnki.net/kcms/detail/23.1538.TP.20170111.1619.002.html
2016-12-06.
國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61532006);國(guó)家自然科學(xué)基金重大國(guó)際合作項(xiàng)目(61320106006).
杜軍平. E-mail:junpingdu@126.com.
TP393
A
1673-4785(2016)06-0777-11
石磊,杜軍平,周亦鵬,等. 在線社交網(wǎng)絡(luò)挖掘與搜索技術(shù)研究[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(6): 777-787.
英文引用格式:SHI Lei, DU Junping, ZHOU Yipeng, et al. A survey on online social network mining and search[J]. CAAI Transactions on Intelligent Systems, 2016, 11(6): 777-787.
作者簡(jiǎn)介: