魏利梅
摘要:隨著當前網(wǎng)絡(luò)信息技術(shù)不斷發(fā)展,網(wǎng)絡(luò)在社會上各個方面均得到廣泛應(yīng)用,并且發(fā)揮的作用也越來越重要,在社交領(lǐng)域的應(yīng)用就是十分重要的一點,使得社交網(wǎng)絡(luò)得以形成。在當前社交網(wǎng)絡(luò)應(yīng)用及發(fā)展中,越來越多的新技術(shù)得以應(yīng)用,圖數(shù)據(jù)挖掘就是其中比較重要的一種,因而對該技術(shù)進行合理應(yīng)用也就十分必要。該文就圖數(shù)據(jù)挖掘在社交網(wǎng)絡(luò)中的應(yīng)用進行分析,從而為圖數(shù)據(jù)挖掘應(yīng)用提供理論支持。
關(guān)鍵詞:社交網(wǎng)絡(luò);圖數(shù)據(jù)挖掘;應(yīng)用
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2018)23-0031-02
在當前網(wǎng)絡(luò)技術(shù)不斷快速發(fā)展的大背景下,社交網(wǎng)絡(luò)已經(jīng)成為現(xiàn)代人們社交的一種主要途徑及方式,也是必要手段,因而促進社交網(wǎng)絡(luò)更好發(fā)展十分必要。在社交網(wǎng)絡(luò)發(fā)展中,圖數(shù)據(jù)挖掘的應(yīng)用可使社交網(wǎng)絡(luò)的作用及功能得以更好發(fā)揮,使社交網(wǎng)絡(luò)能夠在人們?nèi)粘=涣鞣矫嫣峁└梅?wù),因而應(yīng)當對圖數(shù)據(jù)挖掘加強認識,并且應(yīng)當對其進行合理應(yīng)用,使圖數(shù)據(jù)挖掘得到更加理想的應(yīng)用效果,為社交網(wǎng)絡(luò)更好發(fā)展提供較好支持與保障。
1 圖數(shù)據(jù)挖掘應(yīng)用
1.1圖數(shù)據(jù)庫
對于圖數(shù)據(jù)庫而言,其屬于新型數(shù)據(jù)庫,這種數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫完全不同,其主要就是對規(guī)模較大數(shù)據(jù)及不斷改變需求進行處理,其所利用的主要就是圖結(jié)構(gòu)、節(jié)點及邊與屬性等相關(guān)存儲數(shù)據(jù)。在社交網(wǎng)絡(luò)中節(jié)點所代表的就是社交群體中個體,而邊所代表的就是不同個體之間聯(lián)系。就當前圖數(shù)據(jù)庫應(yīng)用實際情況而言,應(yīng)用比較廣泛,而應(yīng)用效果比較理想的主要包括Infinuite Graph、Neo4J、Dex、InfoGrid以及VertesDB、HyperGraphDB與Sontes等。
Infinuite Graph屬于圖形類數(shù)據(jù)庫,這種數(shù)據(jù)庫需要當作服務(wù)項目進行安裝,這一特點與傳統(tǒng)數(shù)據(jù)庫比較類似。在Infinuite Graph數(shù)據(jù)庫中對面向?qū)ο蟾拍钸M行借鑒,因而數(shù)據(jù)庫中每個節(jié)點及邊線均可作為一個對象,特別是所有節(jié)點類均會擴展成為Base Vertex基本類,且全部邊線類均會擴展成為BaseEdge基本類。Neo4J為開源圖數(shù)據(jù)庫,這一數(shù)據(jù)庫屬于比較先進的一種數(shù)據(jù)庫,在實際應(yīng)用過程中其選擇直觀圖模型存儲形式,以及以磁盤為基礎(chǔ)進行持久儲存,在數(shù)據(jù)庫中具備較高可利用的分布式集群,通過利用Java可實現(xiàn)ACID完全兼容。同時,Neo4J數(shù)據(jù)庫內(nèi)核就是速度較快的一種圖形引擎,具備數(shù)據(jù)庫產(chǎn)品全部特點,如兩階段提交、恢復(fù)以及符合XA等特點。DEX屬于具有較高性能的一種圖形類數(shù)據(jù)庫,具備比較理想的可擴展性,在實際應(yīng)用過程中最多能夠支持節(jié)點可達到100萬,且能夠支持.Net教程及Java教程。HyperGraphDB為開源數(shù)據(jù)存儲機制,其是在BerkeleyDB數(shù)據(jù)庫基礎(chǔ)上而得以實現(xiàn)的,該數(shù)據(jù)庫中圖形模型為直接式超圖形,就數(shù)學角度而言,超圖形能夠?qū)崿F(xiàn)一條邊線所指節(jié)點達到兩個以上,與其他圖形類數(shù)據(jù)庫相比較而言,這種數(shù)據(jù)庫能夠?qū)Ω鄰?fù)雜結(jié)構(gòu)進行處理。InfoGrid屬于網(wǎng)頁圖形數(shù)據(jù)庫,這種數(shù)據(jù)庫所具備的一些功能就是面向網(wǎng)頁應(yīng)用程序,并且在OpenID項目中InfoGrid也具有一定應(yīng)用。
1.2圖數(shù)據(jù)挖掘算法及實現(xiàn)
在圖數(shù)據(jù)挖掘中圖數(shù)據(jù)挖掘算法屬于核心內(nèi)容,在實施圖數(shù)據(jù)挖掘中具備決定性作用。就當前實際情況而言,圖數(shù)據(jù)挖掘算法主要包括四種不同類型,分別為圖查詢算法、圖聚類算法以及圖分類算法與頻繁子圖挖掘。
第一,圖查詢算法。在圖查詢問題方面,相關(guān)研究人員提出GraphGreP算法,這種算法主要就是將路徑作為特征結(jié)構(gòu),從而構(gòu)建索引;而有些研究人員提出Glndex算法,這種算法就是選擇頻繁子圖作為關(guān)鍵特點,從而進行索引;還有些研究人員提出TreePi算法,在這種算法中將生成樹當作索引結(jié)構(gòu);同時,還有研究人員提出Tree+△算法,這種算法就是以樹結(jié)構(gòu)為主而判斷圖為輔實行索引。在大圖上可達性查詢方面,最早出現(xiàn)的索引方法為以區(qū)間編碼為基礎(chǔ)進行索引,之后通過對這種索引方法進行改進,從而獲得GRIPP算法。
第二,圖聚類算法。對于圖聚類而言,其主要目的就是將具有相似性基于圖結(jié)構(gòu)相關(guān)各個頂點進行劃分,使其歸于集群中,而這些頂點相互之間存在聯(lián)系,或者在集群中存在聯(lián)系。就基于群體識別方面而言,圖聚類主要包括兩種類型,其中一種為對預(yù)定義節(jié)點間距離進行計算,另外一種為將最優(yōu)聚類比聚類找出。對于當前圖聚類算法而言,其主要包括層次方法、劃分方法及最小生成樹聚類算法。就劃分方法而言,最為常用的就是k中心點算法及k-means算法。而層次算法的組成主要包括分裂層次算法及凝聚層次算法兩種。
第三,圖分類算法。在圖分類方面,目前實際應(yīng)用中主要包括兩種類型算法,其中一種為圖特征提取方法,這類方法中的代表就是FSG算法,另外一種為圖核函數(shù)方法,這類方法中代表為CPK分類算法。對于圖分類算法而言,其是在數(shù)據(jù)挖掘分類算法為基礎(chǔ)而得以出現(xiàn),并且得以發(fā)展的,相關(guān)分類算法由單一分類方法中可分為幾種不同類型,分別為貝葉斯、決策樹以及人工網(wǎng)絡(luò)與K-近鄰,還包括組合單分類方法中集成算法,不如Boosting及Bagging等。在實際應(yīng)用過程中,通過改進這些算法結(jié)合圖特點,可使其與數(shù)據(jù)挖掘?qū)嶋H需求更好適應(yīng),以實現(xiàn)更好應(yīng)用。
第四,頻繁子圖挖掘算法。對于當前頻繁子圖挖掘算法而言,其分類方式主要包括三種,第一種就是依據(jù)模式挖掘算法輸入類型,主要包括兩種類型,即single-graph與graph-tranction;第二種就是依據(jù)所選擇度量不同,分為三種,即支持度、支持度-置信度以及MDL三種;第三種為依據(jù)所挖掘出頻繁子圖類型,將其分為連通子圖、一般子圖以及誘導(dǎo)子圖。然而,這些分類思路均以遞歸作為基礎(chǔ),對全部頻繁子圖進行挖掘,在此基礎(chǔ)上將全部頻繁集挖掘出來[1-2]。
2 社交網(wǎng)絡(luò)中圖數(shù)據(jù)挖掘的應(yīng)用
在當前互聯(lián)網(wǎng)媒體中,社交網(wǎng)絡(luò)已經(jīng)成為交流、交友的一種主要平臺,并且也是實現(xiàn)資源共享及信息傳遞的主要方式,通過對其實行挖掘,可使其能夠與用戶實際需求更好符合,實現(xiàn)其更好應(yīng)用。在實際應(yīng)用過程中,為能夠使這一目標得以較好實現(xiàn),應(yīng)當與數(shù)據(jù)挖掘特點相結(jié)合,有針對性地實行數(shù)據(jù)分類以及分析等相關(guān)研究,從而使社交網(wǎng)絡(luò)能夠更好服務(wù)于人們。
2.1社交網(wǎng)絡(luò)中圖數(shù)據(jù)挖掘應(yīng)用背景及意義
隨著當前社交網(wǎng)絡(luò)不斷快速發(fā)展,社交網(wǎng)絡(luò)表現(xiàn)出指數(shù)級增長趨勢,并且在數(shù)據(jù)方面也由以往單一字符型結(jié)構(gòu)化數(shù)據(jù)發(fā)生轉(zhuǎn)變,逐漸加入音頻及視頻等相關(guān)多媒體非結(jié)構(gòu)數(shù)據(jù),對于這些數(shù)據(jù)而言,隨著人們表達及互動方式改變而逐漸發(fā)生改變。就當前人們利用互聯(lián)網(wǎng)進行溝通方面,社交網(wǎng)絡(luò)產(chǎn)生較大程度影響,比如在微博上對自身比較感興趣相關(guān)話題進行搜索,搜索社會上名人比較感興趣相關(guān)話題,通過向具有豐富經(jīng)驗的人進行學習,可使自身知識素養(yǎng)得以提升,而這些利用傳統(tǒng)互聯(lián)網(wǎng)工具無法實現(xiàn)。就當前社交網(wǎng)絡(luò)發(fā)展情況而言,其在社會上各個行業(yè)及領(lǐng)域內(nèi)均有著十分廣泛的應(yīng)用,通過研究社交網(wǎng)絡(luò)相關(guān)領(lǐng)域,可對正確信息提取方法及技術(shù)進行合理選擇,從而可將高質(zhì)量豐富信息獲取。在社交網(wǎng)絡(luò)中,通過圖數(shù)據(jù)挖掘技術(shù)的應(yīng)用,可由結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)中對各種不同類型信息及數(shù)據(jù)進行提取,并且能夠?qū)@些信息進行過濾,從而得到符合自身需求的相關(guān)各種數(shù)據(jù)。此外,對于社交網(wǎng)絡(luò)而言復(fù)雜數(shù)據(jù)關(guān)系的一個集合,在對這些數(shù)據(jù)進行處理方面,利用傳統(tǒng)數(shù)據(jù)挖掘方式會查詢及分類等復(fù)雜程度增加,而利用圖數(shù)據(jù)挖掘方式可實心信息篩選及分析,從而使傳統(tǒng)數(shù)據(jù)挖掘中存在的不足及缺陷得以彌補。因此,在社交網(wǎng)絡(luò)中應(yīng)用數(shù)據(jù)挖掘技術(shù)具有明顯的優(yōu)勢及作用,具有較高價值。
2.2社交網(wǎng)絡(luò)中圖數(shù)據(jù)挖掘研究方法
對于社交網(wǎng)絡(luò)這一較大數(shù)據(jù)圖而言,在實行圖數(shù)據(jù)挖掘過程中,可對圖數(shù)據(jù)挖掘中挖掘方法進行應(yīng)用。在實際實施數(shù)據(jù)挖掘中,所選擇運用算法全部運用圖數(shù)據(jù)挖掘中全部算法,對于這一結(jié)合而言,其具體實現(xiàn)過程包括以下內(nèi)容:其一,將社交網(wǎng)絡(luò)中相關(guān)數(shù)據(jù)集獲?。黄涠?,對社交網(wǎng)絡(luò)中相關(guān)數(shù)據(jù)實行預(yù)處理,其內(nèi)容主要包括數(shù)據(jù)清理、數(shù)據(jù)集成及變化,還有數(shù)據(jù)規(guī)約;其三,選擇適當特征;其四,選擇數(shù)據(jù)挖掘中適當算法;其五,實行圖數(shù)據(jù)挖掘;其六,對挖掘結(jié)果進行解釋及評估;其七,對所發(fā)現(xiàn)相關(guān)規(guī)則及模式進行利用。在社交網(wǎng)絡(luò)實際應(yīng)用過程中,對于不同應(yīng)用場景,圖數(shù)據(jù)挖掘技術(shù)也表現(xiàn)出不同應(yīng)用模式,因而在圖數(shù)據(jù)挖掘?qū)嶋H應(yīng)用過程中,相關(guān)技術(shù)人員應(yīng)當對實際應(yīng)用場景進行清除認識及分析,依據(jù)實際具體場景對圖數(shù)據(jù)挖掘進行合理選擇,從而保證圖數(shù)據(jù)挖掘能夠更好符合實際需求,使其得以更好應(yīng)用。
2.3在社交網(wǎng)絡(luò)中圖數(shù)據(jù)挖掘的應(yīng)用發(fā)展
在當前社交網(wǎng)絡(luò)中,為能夠使圖數(shù)據(jù)挖掘得以更好應(yīng)用,應(yīng)當促使其實現(xiàn)更好發(fā)展,保證其能夠發(fā)揮出更大的作用。為能夠使其得以更好應(yīng)用,應(yīng)當對圖數(shù)據(jù)挖掘進一步加深研究,研發(fā)具有更高水平的圖數(shù)據(jù)挖掘技術(shù)及方法,從而使圖數(shù)據(jù)挖掘技術(shù)應(yīng)用范圍得以擴展,使其在社交網(wǎng)絡(luò)中能夠得到更加理想的應(yīng)用。另外,對于圖數(shù)據(jù)挖掘技術(shù)人員而言,應(yīng)當不斷激進型學習及研究,提升自身水平及能力,在此基礎(chǔ)上才能夠?qū)D數(shù)據(jù)挖掘技術(shù)進行更好應(yīng)用,確保圖數(shù)據(jù)挖掘技術(shù)在實際應(yīng)用過程中得以更好發(fā)揮。此外,在圖數(shù)據(jù)挖掘技術(shù)應(yīng)用中,還應(yīng)當注意結(jié)合當前時代發(fā)展趨勢,保證圖數(shù)據(jù)挖掘技術(shù)應(yīng)用能夠更加符合時代發(fā)展特點,從而使社交網(wǎng)絡(luò)實際需求能夠得到較好滿足,實現(xiàn)更理想發(fā)展[3-4]。
3 結(jié)語
隨著當前數(shù)據(jù)挖掘技術(shù)不斷發(fā)展,圖數(shù)據(jù)挖掘技術(shù)也得以較好發(fā)展,并且在很多方面均得到十分廣泛的應(yīng)用,而在社交網(wǎng)絡(luò)中的應(yīng)用就是比較重要的一個方面,有利于社交網(wǎng)絡(luò)更好發(fā)展。因此,為能夠使社交網(wǎng)絡(luò)更好滿足社會各方面需求,相關(guān)人員需要對圖數(shù)據(jù)挖掘應(yīng)用加強認識,并且促使圖數(shù)據(jù)挖掘在社交網(wǎng)絡(luò)中實現(xiàn)更好應(yīng)用,為社交網(wǎng)絡(luò)的進一步發(fā)展提供較好的技術(shù)支持。
參考文獻:
[1] 崔景洋.圖數(shù)據(jù)挖掘研究[J].太原師范學院學報(自然科學版),2018,17(01):38-40+46.
[2] 張素智,張琳,曲旭凱.圖數(shù)據(jù)挖掘技術(shù)的現(xiàn)狀與挑戰(zhàn)[J].現(xiàn)代計算機(專業(yè)版),2015(26):52-57.
[3] 李桃陶,周斌,王忠振.基于社交網(wǎng)絡(luò)的圖數(shù)據(jù)挖掘應(yīng)用研究[J].計算機技術(shù)與發(fā)展,2014,24(10):6-11
[4] 丁悅,張陽,李戰(zhàn)懷,王勇.圖數(shù)據(jù)挖掘技術(shù)的研究與進展[J].計算機應(yīng)用,2012,32(01):182-190.
【通聯(lián)編輯:光文玲】