易成岐+鮑媛媛+薛一波
Social Networks Based on Big Data: Analytical Framework and Key Techniques
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1009-6868 (2014) 01-0005-006
摘要 提出了一套社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)的分析框架,并分析了其關(guān)鍵和核心技術(shù)。介紹了基于該框架的清華社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)(THSNAS),從個(gè)體、群體、事件和整體四個(gè)方面給出了系統(tǒng)分析結(jié)果。社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)的分析框架既能為社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)的深入分析提供理論依據(jù)和指導(dǎo)方法,又能為廣告精準(zhǔn)投放、個(gè)性化信息推薦、社會(huì)管理等方面帶來重要價(jià)值。
關(guān)鍵詞: 社會(huì)網(wǎng)絡(luò);大數(shù)據(jù);分析框架
Abstract: This paper proposes an analytical framework for social networking based on big data, and it elaborates on key techniques. In addition, this paper introduces Tsinghua Social Network Analysis System (THSNAS) based on the above framework and shows results in terms of individual, group, event and holistic analysis. The analytical framework can provide theoretical and practical guidance for social network analysis, and has great value in terms of precision advertising, personalized information recommendation, and social management.
Key words: social network; big data; analytical framework
隨著Web2.0技術(shù)的不斷發(fā)展,社會(huì)網(wǎng)絡(luò)[1]發(fā)展勢頭強(qiáng)勁,已經(jīng)成為用戶數(shù)最多、傳播影響最大的新媒體平臺(tái)。其巨大的用戶群實(shí)時(shí)產(chǎn)生的龐大信息量是典型的大數(shù)據(jù),具有大數(shù)據(jù)的4V特性:數(shù)量(Volume)、類型(Variety)、速度(Velocity)和可用性(Veracity),具體特征如下:
(1)超大規(guī)模的數(shù)據(jù)量
截止目前為止,F(xiàn)acebook、Twitter、新浪微博、騰訊微博的用戶量已經(jīng)分別超過12億、5.5億、5.4億和5.8億,此外,四大社會(huì)網(wǎng)絡(luò)的每日消息量也已經(jīng)分別超過了10億、2.5億、2億和2億。這些超大規(guī)模的數(shù)據(jù)量為信息挖掘提供了豐富的資源。
(2)紛繁復(fù)雜的數(shù)據(jù)類型
社會(huì)網(wǎng)絡(luò)中的每個(gè)用戶都具有基本屬性信息,這些屬性包括用戶名稱、性別、所屬位置、描述、創(chuàng)建時(shí)間、好友數(shù)量等;用戶與用戶的好友關(guān)系構(gòu)成了關(guān)系數(shù)據(jù);用戶基于已經(jīng)存在的關(guān)系或者共同興趣構(gòu)成了多種團(tuán)體,產(chǎn)生了團(tuán)體數(shù)據(jù);用戶每時(shí)每刻發(fā)表的觀點(diǎn)、評(píng)論、轉(zhuǎn)發(fā)等信息形成了非結(jié)構(gòu)化的信息數(shù)據(jù);用戶上傳的圖片、音頻、視頻形成了多類別的非結(jié)構(gòu)化數(shù)據(jù)等。社會(huì)網(wǎng)絡(luò)中包含的數(shù)據(jù)類型繁多、結(jié)構(gòu)不一。這些數(shù)據(jù)類型的多樣性,為信息分析和挖掘帶來了巨大的挑戰(zhàn)[2]。
(3)極快的增長速度
伴隨著社會(huì)網(wǎng)絡(luò)火熱發(fā)展的同時(shí),社會(huì)網(wǎng)絡(luò)中的數(shù)據(jù)量也呈現(xiàn)極快的增長的態(tài)勢。截至2013年6月30日,F(xiàn)acebook用戶數(shù)比上年同期增長21%;截至2013年9月,Twitter用戶數(shù)比2012年底增長了16.7%;截至2013年3月底,新浪微博用戶數(shù)比2012年底增長了6.6%;截至2013年9月,騰訊微博用戶數(shù)比上年年底增長了6.8%,此外,社會(huì)網(wǎng)絡(luò)中的消息量也隨之快速增長。
(4)可觀的數(shù)據(jù)可用性
社會(huì)網(wǎng)絡(luò)的出現(xiàn)觸發(fā)了個(gè)人、企業(yè)、國家等不同層面的興奮點(diǎn)[3],個(gè)人想通過社會(huì)網(wǎng)絡(luò)分析了解自身或者他人的個(gè)人愛好和行為習(xí)慣,企業(yè)想通過社會(huì)網(wǎng)絡(luò)分析謀求更大的商業(yè)利益,國家想通過社會(huì)網(wǎng)絡(luò)分析進(jìn)行高效的社會(huì)管理。社會(huì)網(wǎng)絡(luò)已經(jīng)引起了國家戰(zhàn)略、企業(yè)規(guī)劃、商業(yè)模式、營銷策略、生活觀念、行為習(xí)慣等方面的變化[4]。
目前,已經(jīng)出現(xiàn)了一股研究社會(huì)網(wǎng)絡(luò)的熱潮,之所以諸多國家、企業(yè)、專家、學(xué)者都在積極研究社會(huì)網(wǎng)絡(luò)[5],是因?yàn)樯鐣?huì)網(wǎng)絡(luò)猶如金礦、石油、天然氣一樣,蘊(yùn)含著巨大的信息寶藏。社會(huì)網(wǎng)絡(luò)也認(rèn)證了“數(shù)據(jù)為王”,誰能更快、更準(zhǔn)、更全地掌握數(shù)據(jù),誰能更有效地分析挖掘社會(huì)網(wǎng)絡(luò)所隱含的信息價(jià)值,誰能預(yù)測信息的傳播規(guī)律和發(fā)展態(tài)勢,誰便能掌握主動(dòng)權(quán)和戰(zhàn)略權(quán)。
本文結(jié)合社會(huì)網(wǎng)絡(luò)的數(shù)據(jù)類型、數(shù)據(jù)特征以及分析目的,提出了一套社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)的分析框架,并對(duì)其關(guān)鍵和核心技術(shù)進(jìn)行詳細(xì)描述,該技術(shù)方法對(duì)廣告精準(zhǔn)投放、個(gè)性化信息推薦、社會(huì)管理等方面都具有一定的指導(dǎo)意義和實(shí)用價(jià)值。
1 社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)分析框架
社會(huì)網(wǎng)絡(luò)分析技術(shù)是一項(xiàng)關(guān)鍵技術(shù),也是一項(xiàng)熱門的研究[6-7],涵蓋了社會(huì)學(xué)、人類學(xué)、社會(huì)語言學(xué)、地理、社會(huì)心理學(xué)、通信研究、資訊科學(xué)、社會(huì)網(wǎng)絡(luò)分析與探勘、組織研究、經(jīng)濟(jì)學(xué)以及生物學(xué)等多個(gè)領(lǐng)域,是一項(xiàng)多學(xué)科交叉技術(shù)。社會(huì)網(wǎng)絡(luò)又包涵巨大的用戶數(shù)據(jù)、關(guān)系數(shù)據(jù)和信息數(shù)據(jù),為了有效地對(duì)社會(huì)網(wǎng)絡(luò)的大數(shù)據(jù)進(jìn)行分析和挖掘,我們提出了一個(gè)層次化的分析框架,如圖1所示。
該分析框架包括數(shù)據(jù)層、分析層、支撐層和結(jié)果展示層四大部分。其中數(shù)據(jù)層是整個(gè)框架的基石,分析層和支撐層是整個(gè)框架的核心,結(jié)果展示層則是技術(shù)與應(yīng)用的橋梁,能友好、簡潔、形象地展示分析結(jié)果。endprint
(1)數(shù)據(jù)層
數(shù)據(jù)層包括數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理和數(shù)據(jù)存儲(chǔ)3個(gè)部分,其中數(shù)據(jù)獲取主要通過網(wǎng)絡(luò)流量方式、應(yīng)用程序接口(API)方式、非API方式及其他方式進(jìn)行有效地獲取數(shù)據(jù)。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)打標(biāo)和數(shù)據(jù)關(guān)聯(lián),能夠?qū)楹罄m(xù)存儲(chǔ)和分析提供規(guī)范化保障。數(shù)據(jù)存儲(chǔ)通過關(guān)系型數(shù)據(jù)庫或者非關(guān)系型數(shù)據(jù)庫進(jìn)行多類型數(shù)據(jù)存儲(chǔ)。
(2)分析層
分析層包括了個(gè)體分析、群體分析、事件分析和整體分析,從四個(gè)維度對(duì)社會(huì)網(wǎng)絡(luò)進(jìn)行分析。
(3)支撐層
支撐層包括機(jī)器學(xué)習(xí)、分布式并行處理、數(shù)據(jù)挖掘、自然語言處理、流量識(shí)別、可視化等多種具有共性的關(guān)鍵技術(shù)。
(4)結(jié)果展示層
結(jié)果展示層與分析層互相映射,包括個(gè)體展示、群體展示、事件展示和整體展示。
通過該框架,可以擬合成多種應(yīng)用,主要包括社會(huì)管理、廣告精準(zhǔn)投放、企業(yè)營銷、個(gè)性化信息推薦、信息態(tài)勢感知、不良用戶和信息發(fā)現(xiàn)等。
2 社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)分析的
關(guān)鍵技術(shù)
上述框架的各個(gè)層次都擁有大量的關(guān)鍵技術(shù)予以保障,下面將詳述各層中的不同關(guān)鍵技術(shù)。
2.1 數(shù)據(jù)層
數(shù)據(jù)層的設(shè)計(jì)理念是以數(shù)據(jù)為中心,以數(shù)據(jù)流向?yàn)閷?dǎo)向,主要包括數(shù)據(jù)獲取、數(shù)據(jù)打標(biāo)和數(shù)據(jù)關(guān)聯(lián)3個(gè)部分。
(1)數(shù)據(jù)獲取
數(shù)據(jù)獲取是社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)分析的基石,如何快速、有效獲取社會(huì)網(wǎng)絡(luò)的數(shù)據(jù)至關(guān)重要。針對(duì)這一問題,我們提出了2種社會(huì)網(wǎng)絡(luò)數(shù)據(jù)獲取方式:
(a)網(wǎng)絡(luò)流量方式
對(duì)于非加密的社會(huì)網(wǎng)絡(luò)流量而言,可以通過流量的識(shí)別和解析快速獲取社會(huì)網(wǎng)絡(luò)數(shù)據(jù)。首先需要對(duì)目標(biāo)社會(huì)網(wǎng)絡(luò)流量進(jìn)行分析,抽取目標(biāo)社會(huì)網(wǎng)絡(luò)流量的強(qiáng)特征,再從背景流量中識(shí)別出目標(biāo)流量;其次,對(duì)目標(biāo)社會(huì)網(wǎng)絡(luò)流量進(jìn)行解析,提取用戶Profile數(shù)據(jù)、用戶關(guān)系數(shù)據(jù)、發(fā)布信息數(shù)據(jù)、信息轉(zhuǎn)發(fā)數(shù)據(jù),等等。
(b)API/非API方式
目前大多數(shù)社會(huì)網(wǎng)絡(luò)都提供相關(guān)API,可以進(jìn)行數(shù)據(jù)獲取,比較常見的是OAuth 1.0和OAuth 2.0兩種用戶身份驗(yàn)證和授權(quán)方式。但社交網(wǎng)絡(luò)所提供的API都會(huì)存在一定程度的次數(shù)和速度的限制,以防止開發(fā)者以蠻橫、暴力的方式獲取數(shù)據(jù)。因此通過API方式獲取數(shù)據(jù)時(shí),需要進(jìn)行超限判斷,保證數(shù)據(jù)獲取的正常進(jìn)行。此外,為了規(guī)避API方式的限制,也可以采用網(wǎng)頁解析方式,依靠網(wǎng)絡(luò)爬蟲技術(shù)模擬用戶登錄進(jìn)行數(shù)據(jù)獲取,網(wǎng)頁解析方式的數(shù)據(jù)獲取雖然在一定程度上不受限制,但其缺點(diǎn)是網(wǎng)頁解析的數(shù)據(jù)類型是有限的,和API方式相比缺乏數(shù)據(jù)完整性,因此需要兩者配合使用。同時(shí),為了批量獲取社會(huì)網(wǎng)絡(luò)數(shù)據(jù),可以采用分布式爬蟲并行爬取。
除上述兩種方式外,還需要其他獲取方式,以滿足不同需求。例如,通過元搜索方式進(jìn)行定量、定性的數(shù)據(jù)獲??;采用基于用戶屬性、用戶關(guān)系、用戶信息3層過濾機(jī)制,通過特定團(tuán)體獲取方式,獲取社會(huì)網(wǎng)絡(luò)上的特定團(tuán)體;通過增量式爬蟲獲取增量數(shù)據(jù),等等。
(2)數(shù)據(jù)預(yù)處理
通過上述方式獲得的社會(huì)網(wǎng)絡(luò)數(shù)據(jù)往往是有噪音的、雜亂的、非結(jié)構(gòu)化的,無法直接進(jìn)行數(shù)據(jù)分析,需要通過數(shù)據(jù)預(yù)處理技術(shù)對(duì)數(shù)據(jù)進(jìn)行清洗、打標(biāo)及關(guān)聯(lián)。
(a)數(shù)據(jù)清洗
數(shù)據(jù)清洗主要從數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、唯一性、適時(shí)性、有效性等幾個(gè)方面來處理數(shù)據(jù)。對(duì)于遺漏數(shù)據(jù)需要對(duì)默認(rèn)值填充;對(duì)于異常數(shù)據(jù)需要對(duì)其消除,以防止干擾后續(xù)分析工作;對(duì)于噪聲數(shù)據(jù)需要對(duì)其平滑;對(duì)于所有數(shù)據(jù)都需要進(jìn)行歸一化處理。由于社會(huì)網(wǎng)絡(luò)有很多重復(fù)數(shù)據(jù),可以采用布隆過濾方法對(duì)其去重;由于大部分?jǐn)?shù)據(jù)是文本數(shù)據(jù),為了節(jié)約存儲(chǔ)空間,可使用壓縮技術(shù)對(duì)其進(jìn)行壓縮。
(b)數(shù)據(jù)打標(biāo)
社會(huì)網(wǎng)絡(luò)數(shù)據(jù)往往十分繁雜,面對(duì)實(shí)時(shí)分析處理的苛刻需求,數(shù)據(jù)打標(biāo)的工作勢在必行。根據(jù)社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)分析的經(jīng)驗(yàn),我們將社會(huì)網(wǎng)絡(luò)數(shù)據(jù)打標(biāo)細(xì)分為:人物打標(biāo)、群體打標(biāo)、事件打標(biāo)、關(guān)系權(quán)重打標(biāo)、推文/微博打標(biāo)。其中,人物打標(biāo)是對(duì)興趣、圈子、規(guī)律、影響力等進(jìn)行打標(biāo);群體打標(biāo)主要是對(duì)群體數(shù)量、活躍程度、群體興趣等進(jìn)行打標(biāo);事件打標(biāo)主要是指對(duì)事件傳播的廣度、深度、參與數(shù)、受眾數(shù)等進(jìn)行打標(biāo);關(guān)系權(quán)重打標(biāo)是計(jì)算并存儲(chǔ)用戶間的權(quán)重值;推文/微博打標(biāo)主要是對(duì)信息類型、抽取后的關(guān)鍵詞進(jìn)行打標(biāo)。
(c)數(shù)據(jù)關(guān)聯(lián)
由于目前存在很多類型的社會(huì)網(wǎng)絡(luò),當(dāng)對(duì)它們進(jìn)行多源數(shù)據(jù)獲取后,如何對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)也十分重要。首先,是多源帳號(hào)關(guān)聯(lián)技術(shù)?,F(xiàn)實(shí)社會(huì)中的用戶往往會(huì)存在于多個(gè)社會(huì)網(wǎng)絡(luò)中,例如Facebook、Twitter、新浪微博、人人網(wǎng)等,多個(gè)社會(huì)網(wǎng)絡(luò)的賬號(hào)會(huì)關(guān)聯(lián)到同一實(shí)體用戶上,而且這些賬號(hào)往往具有相同或相似的特征,利用多源帳號(hào)關(guān)聯(lián)技術(shù)可以將多個(gè)虛擬賬號(hào)關(guān)聯(lián)到某一實(shí)體用戶上,從而為跨平臺(tái)社會(huì)網(wǎng)絡(luò)的分析奠定基礎(chǔ);其次,是多源數(shù)據(jù)整合技術(shù)。多平臺(tái)數(shù)據(jù)的特征會(huì)存在趨同現(xiàn)象,例如同一個(gè)事件會(huì)同時(shí)在新浪微博和騰訊微博上進(jìn)行傳播。多源數(shù)據(jù)整合技術(shù)可以將多個(gè)平臺(tái)的數(shù)據(jù)進(jìn)行擬合或合并,既可以減少存儲(chǔ)空間,又可以以全局角度統(tǒng)籌分析多平臺(tái)數(shù)據(jù)。
(3)數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)的不斷增長造成單機(jī)系統(tǒng)性能不斷下降,即使不斷提升硬件配置也難以應(yīng)對(duì)數(shù)據(jù)的增長速度。因此,需要根據(jù)業(yè)務(wù)不同將社會(huì)網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)分為數(shù)據(jù)存儲(chǔ)、特征存儲(chǔ)、日志存儲(chǔ)和歷史庫存儲(chǔ)。其中數(shù)據(jù)存儲(chǔ)是為了存儲(chǔ)當(dāng)前需要分析的元數(shù)據(jù);特征存儲(chǔ)是為了將數(shù)據(jù)預(yù)處理的打標(biāo)結(jié)果與其他數(shù)據(jù)分離,達(dá)到更優(yōu)的分析速度;日志存儲(chǔ)是為了存儲(chǔ)系統(tǒng)運(yùn)行所產(chǎn)生的大量日志;歷史庫存儲(chǔ)是將歷史數(shù)據(jù)分離存儲(chǔ),以減少實(shí)時(shí)分析的壓力。此外,用戶Profile、用戶關(guān)系、信息轉(zhuǎn)發(fā)關(guān)系等結(jié)構(gòu)化數(shù)據(jù),多采用關(guān)系型數(shù)據(jù)庫進(jìn)行存儲(chǔ);用戶發(fā)布和轉(zhuǎn)發(fā)的信息等非結(jié)構(gòu)化數(shù)據(jù)多采用非關(guān)系型數(shù)據(jù)進(jìn)行存儲(chǔ)。endprint
2.2 分析層
分析層是整個(gè)框架的核心,分為個(gè)體分析、團(tuán)體分析、事件分析、整體分析。
(1)個(gè)體分析
個(gè)體分析的目標(biāo)是了解和洞察人物的身份、關(guān)系、社交圈、資本、位置、地位、行為、情感等社會(huì)屬性,這些屬性往往比較抽象,需要對(duì)其進(jìn)行量化及測算。如圖1所示,個(gè)體圈子分析主要是對(duì)人物所在的實(shí)體關(guān)系(具有直接聯(lián)系的節(jié)點(diǎn))和虛擬關(guān)系(人物節(jié)點(diǎn)的興趣團(tuán)體)進(jìn)行分析,總結(jié)出圈子對(duì)人物各項(xiàng)屬性的影響與關(guān)聯(lián);還可以對(duì)個(gè)體圈子演化過程和趨勢進(jìn)行分析。行為特征分析是對(duì)人物的基本屬性和行為進(jìn)行刻畫,利用人物的時(shí)間序列、行為規(guī)律等信息來描述人物個(gè)體的行為狀況;緊密度分析是指通過用戶相似度計(jì)算用戶緊密度好友;情感分析是指分析用戶情感傾向性,主要分為正面情感、負(fù)面情感和中性情感;興趣分析通過對(duì)人物的背景標(biāo)簽和用戶發(fā)表的推文進(jìn)行分析,抽取人物所關(guān)注用戶的興趣點(diǎn),由于用戶關(guān)注代表了用戶的真實(shí)興趣,因此可以根據(jù)關(guān)系屬性推導(dǎo)人物個(gè)體興趣。
(2)群體分析
群體分析的目標(biāo)是分析群體邊界、身份、群內(nèi)關(guān)系、群際關(guān)系、群體凝聚力、群體興趣、群體行為、群體心理、社會(huì)地位、群體變化等,從而更深層次洞察群體特性。如圖1所示,特定群體發(fā)現(xiàn)主要是通過特征匹配技術(shù)對(duì)特定群體進(jìn)行發(fā)現(xiàn),主要匹配的目標(biāo)有發(fā)布信息、關(guān)注主題、圈子興趣等數(shù)據(jù);由于群內(nèi)個(gè)體與個(gè)體之間存在強(qiáng)關(guān)系,群與群之間存在弱關(guān)系,因此可以通過群內(nèi)人物個(gè)體的鏈路分析其關(guān)聯(lián)狀態(tài),群體關(guān)系分析可以將用戶群作為一個(gè)整體,將視角放大,通過群之間的微量用戶關(guān)聯(lián)性分析群與群之間的弱關(guān)系;潛在群體成員推薦是指分析個(gè)體與目標(biāo)群體的相似度情況,將相似度高的個(gè)體進(jìn)行推薦;群體意見領(lǐng)袖分析是指通過群體的關(guān)系網(wǎng)絡(luò)以及網(wǎng)絡(luò)中心密度進(jìn)行測算,度量每個(gè)節(jié)點(diǎn)在群內(nèi)的影響力;因?yàn)槊總€(gè)群體都是由于共同的興趣而存在,因此如何測算群體興趣至關(guān)重要,群體興趣發(fā)現(xiàn)是指通過群內(nèi)關(guān)系相關(guān)迭代分析算法對(duì)其進(jìn)行界定,通過群內(nèi)的話題流傳播對(duì)群體興趣進(jìn)行分析。
(3)事件分析
事件分析的目標(biāo)是分析事件在傳播過程中的結(jié)構(gòu)、內(nèi)容、演化、意圖、涌現(xiàn)性、行為、心理、受眾、廣度、深度、態(tài)勢等。如圖1所示,事件發(fā)現(xiàn)是以發(fā)布內(nèi)容為中心,對(duì)事件的主題進(jìn)行文本聚類,從而發(fā)現(xiàn)熱門事件及參與的用戶與群體;路徑還原是通過事件傳播方向進(jìn)行刻畫,通過獲取到的傳播信息,以正向的方式對(duì)傳播路徑進(jìn)行還原;源頭追溯是路徑還原的逆過程,是通過傳播的反向方式對(duì)節(jié)點(diǎn)進(jìn)行回溯,最終尋找事件發(fā)生的源頭節(jié)點(diǎn);事件傳播規(guī)律分析是指分析事件的熱度、趨勢、傳播層數(shù)等,以掌握事件的發(fā)展?fàn)顩r;事件意見領(lǐng)袖分析是指通過事件傳播過程中的爆發(fā)點(diǎn)特征計(jì)算節(jié)點(diǎn)的影響力,從而分析挖掘傳播過程中的意見領(lǐng)袖。
(4)整體分析
整體分析主要分為熱門人物和事件排序、整體統(tǒng)計(jì)分析、全局拓?fù)浣Y(jié)構(gòu)分析和按區(qū)域熱點(diǎn)事件分析,其技術(shù)手段多用于基礎(chǔ)統(tǒng)計(jì)分析和數(shù)據(jù)挖掘技術(shù),主要目的是了解和掌握社會(huì)網(wǎng)絡(luò)當(dāng)前的全局情況,同時(shí)預(yù)測全局網(wǎng)絡(luò)的未來狀況。
2.3 支撐層
該分析框架中的很多模塊都需要一些關(guān)鍵技術(shù)給予支撐,因此我們將這些共性技術(shù)抽取成支撐層,主要包括:機(jī)器學(xué)習(xí)、分布式并行處理、數(shù)據(jù)挖掘、流量識(shí)別、自然語言處理、可視化等多種關(guān)鍵技術(shù),這些技術(shù)為整個(gè)框架提供技術(shù)保障,共性支撐技術(shù)之間既各司其職、又相互配合,既相對(duì)獨(dú)立、又相輔相成。
2.4 結(jié)果展示層
結(jié)果展示層是直接面對(duì)用戶的一種展現(xiàn)方式,其作為技術(shù)與應(yīng)用之間的橋梁,具有交互性、多維性和可視性等特點(diǎn)。結(jié)果展示的目標(biāo)是將分析結(jié)果進(jìn)行直觀的、友好的、簡潔的展示。
利用上述4個(gè)層次的多種關(guān)鍵技術(shù),可以有效地分析和洞察社會(huì)網(wǎng)絡(luò)中不同對(duì)象的獨(dú)有特征和行為規(guī)律,也可根據(jù)不同需求構(gòu)建不同應(yīng)用。
3 清華社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)
分析系統(tǒng)
本文利用上述社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)分析框架的構(gòu)建思想,設(shè)計(jì)并實(shí)現(xiàn)了清華社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)(THSNAS),下面將介紹THSNAS的系統(tǒng)架構(gòu)及部分分析結(jié)果。
3.1 THSNAS系統(tǒng)架構(gòu)
基于社會(huì)網(wǎng)絡(luò)的數(shù)據(jù)流向及上述框架的核心思想,THSNAS的系統(tǒng)架構(gòu)如圖2所示,主要包括數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、消息中心、數(shù)據(jù)分析、結(jié)果展示幾個(gè)部分。THSNAS支持多種社會(huì)網(wǎng)絡(luò)的數(shù)據(jù)實(shí)時(shí)不間斷獲取,同時(shí),可以對(duì)社會(huì)網(wǎng)絡(luò)中的個(gè)體、相關(guān)群體、特定事件和網(wǎng)絡(luò)整體進(jìn)行便捷、多粒度、多維度的分析并友好展示。
3.2 THSNAS系統(tǒng)分析結(jié)果
下面主要從個(gè)體分析結(jié)果、群體分析結(jié)果、事件分析結(jié)果和整體分析結(jié)果4個(gè)方面,簡要介紹THSNAS的系統(tǒng)分析結(jié)果。
(1)個(gè)體分析結(jié)果
個(gè)體分析結(jié)果如圖3所示,主要包括個(gè)體Profile分析、個(gè)體圈子分析、個(gè)體情感分析、個(gè)體關(guān)鍵詞抽取、個(gè)體行為分析和個(gè)體緊密度分析。其中,個(gè)體Profile分析是對(duì)某個(gè)用戶的基本概況(包括用戶姓名、頭像、用戶ID、最近發(fā)布信息等)進(jìn)行展示;個(gè)體圈子分析是對(duì)與用戶頻繁交互的團(tuán)體關(guān)系網(wǎng)絡(luò)進(jìn)行構(gòu)建,此關(guān)系網(wǎng)絡(luò)不僅包括用戶與圈子的關(guān)系,也包括圈子內(nèi)部成員之間的關(guān)系;個(gè)體情感分析是對(duì)用戶的情感波動(dòng)及情感傾向性情況進(jìn)行分析,此處情感包括正面、負(fù)面、中性3種;個(gè)體關(guān)鍵詞抽取是對(duì)用戶最近發(fā)布的信息及轉(zhuǎn)發(fā)信息進(jìn)行關(guān)鍵詞抽取,以詞云的方式對(duì)近期用戶興趣及關(guān)注點(diǎn)進(jìn)行展示;個(gè)體行為分析是對(duì)用戶近期的發(fā)帖行為和轉(zhuǎn)發(fā)行為進(jìn)行規(guī)律分析;個(gè)體緊密度分析是對(duì)目標(biāo)用戶的相似用戶進(jìn)行推薦。
(2)群體分析結(jié)果
群體分析結(jié)果如圖4所示,主要包括群體劃分和群體意見領(lǐng)袖排行。其中,群體劃分是通過CNM(以Clauset、Newman和Moore命名的社團(tuán)發(fā)現(xiàn)算法)、GN(以Girvan和Newman命名的社團(tuán)發(fā)現(xiàn)算法)和LPA(基于標(biāo)簽傳播的社團(tuán)發(fā)現(xiàn)算法),基于用戶關(guān)系進(jìn)行群體邊界測算,可以對(duì)群內(nèi)成員的細(xì)粒度分布進(jìn)行直觀展現(xiàn);群體意見領(lǐng)袖排行是對(duì)整個(gè)群體以及劃分后的小團(tuán)體進(jìn)行影響力計(jì)算,并且對(duì)群體內(nèi)部的意見領(lǐng)袖進(jìn)行排行顯示。endprint
(3)事件分析結(jié)果
事件分析結(jié)果如圖5所示,主要包括事件Profile分析、事件意見領(lǐng)袖分析、真實(shí)路徑還原、事件漲勢熱度分析、事件關(guān)鍵詞抽取和受眾情感分析。其中,事件Profile分析是對(duì)事件的基本概況(包括發(fā)起用戶、事件內(nèi)容、發(fā)布時(shí)間、傳播層數(shù)及每層節(jié)點(diǎn)數(shù)等)進(jìn)行展示;事件意見領(lǐng)袖分析是對(duì)事件傳播過程中的態(tài)勢推手進(jìn)行分析,同時(shí)與情感分析進(jìn)行結(jié)合,選取正向觀點(diǎn)的意見領(lǐng)袖與負(fù)向觀點(diǎn)的意見領(lǐng)袖;真實(shí)路徑還原是將事件的轉(zhuǎn)發(fā)過程進(jìn)行刻畫,同時(shí)將關(guān)鍵節(jié)點(diǎn)和關(guān)鍵路徑進(jìn)行高亮度顯示;事件漲勢熱度分析是從事件的生命周期角度,對(duì)事件形成過程中的參與用戶數(shù)量進(jìn)行分析;事件關(guān)鍵詞抽取是對(duì)原創(chuàng)信息和所有轉(zhuǎn)發(fā)信息進(jìn)行擬合,同時(shí)抽取具有重要作用的關(guān)鍵詞;受眾情感分析是對(duì)事件影響受眾的情感波動(dòng)情況進(jìn)行量化及分析。
(4)整體分析結(jié)果
整體分析結(jié)果如圖6所示,主要包括關(guān)注比例分析、粉絲比例分析、用戶增長量分析、用戶地理分布分析、主題抽取分析和終端分布分析等。其中,關(guān)注比例分析是統(tǒng)計(jì)全網(wǎng)用戶的關(guān)注數(shù)分布;粉絲比例分析是統(tǒng)計(jì)全網(wǎng)用戶的粉絲數(shù)分布;用戶增長量分析是對(duì)整體網(wǎng)絡(luò)用戶增減情況進(jìn)行統(tǒng)計(jì);用戶地理分布是對(duì)用戶所在地理位置進(jìn)行統(tǒng)計(jì);主題抽取分析是通過Tweets分析事件段內(nèi)主題;終端使用分析是分析一個(gè)時(shí)間段內(nèi)的終端使用分布。
上述是THSNAS的部分分析結(jié)果,可以在一定程度上呈現(xiàn)個(gè)體、群體、事件和整體的行為規(guī)律及隱藏價(jià)值。此外,THSNAS也驗(yàn)證了社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)分析框架的正確性、可用性及實(shí)用性。
4 結(jié)束語
隨著Web2.0時(shí)代的來臨,社會(huì)網(wǎng)絡(luò)的不斷發(fā)展也促使其蘊(yùn)含了巨大的、有待挖掘的價(jià)值。為了更有效地分析挖掘社會(huì)網(wǎng)絡(luò)所帶來的隱含價(jià)值,本文嘗試提出社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)分析框架及其關(guān)鍵技術(shù),以達(dá)到拋磚引玉的目的。該框架能夠有效分析挖掘社會(huì)網(wǎng)絡(luò)的潛在價(jià)值,也可以以此為參考構(gòu)建多種社會(huì)網(wǎng)絡(luò)應(yīng)用。
參考文獻(xiàn)
[1] 維基百科:社會(huì)網(wǎng)絡(luò) [EB/OL]. (2013-10-26). http://zh.wikipedia.org/wiki/%E7%A4%BE%E4%BC%9A%E7%BD%91%E7%BB%9C.
[2] BOND R M, FARISS C J, JONES J J. A 61-million-person experiment in social influence and political mobilization [J]. Nature, 2012, 489: 295-298. doi:10.1038/nature11421.
[3] PUJARI M, KANAWATI R. Supervised rank aggregation approach for link prediction in complex networks [C]//Proceedings of the 21st international conference companion on World Wide Web, 2012, ACM, New York, NY, USA:ACM. 2012: 1189-1196. doi:10.1145/2187980.2188260.
[4] GUILLE A, HACID H. A predictive model for the temporal dynamics of information diffusion in online social networks [C]//Proceedings of the 21st international conference companion on World Wide Web, 2012, ACM, New York, NY, USA:ACM. 2012: 1145-1152. doi: 10.1145/2187980.2188254.
[5] YANG X, ZHANG Z, WANG K. Human Behavior Dynamics in Online Social Media: A Time Sequential Perspective [C]//Proceedings of the 6th SNA-KDD Workshop12 (SNA-KDD12), August 12, 2012, Beijing, China: ACM. 2012.
[6] 張賽, 徐恪, 李海濤. 微博類社交網(wǎng)絡(luò)中信息傳播的測量與分析 [J]. 西安交通大學(xué)學(xué)報(bào), 2013,47(2):130-136.
[7] 竇炳琳, 李澍淞, 張世永. 基于結(jié)構(gòu)的社會(huì)網(wǎng)絡(luò)分析 [J]. 計(jì)算機(jī)學(xué)報(bào), 2012,35(4):99-111.
作者簡介
易成岐,哈爾濱理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院在讀博士研究生;主要研究領(lǐng)域?yàn)樯鐣?huì)網(wǎng)絡(luò)、信息傳播、云計(jì)算等。
鮑媛媛,清華大學(xué)信息技術(shù)研究院博士后;主要研究領(lǐng)域?yàn)樯鐣?huì)網(wǎng)絡(luò)、行為動(dòng)力學(xué)等。
薛一波,中國科學(xué)院計(jì)算技術(shù)研究院博士畢業(yè);清華大學(xué)信息技術(shù)研究院研究員、CCF高級(jí)會(huì)員、IEEE/ACM會(huì)員;主要研究領(lǐng)域?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)、信息安全、并行處理、分布式系統(tǒng);已發(fā)表論文130余篇。endprint