趙玲 張靜
〔摘要〕移動(dòng)互聯(lián)網(wǎng)的發(fā)展為微博的發(fā)展提供了更加廣闊的發(fā)展空間,以復(fù)雜網(wǎng)絡(luò)的基本統(tǒng)計(jì)特性為基礎(chǔ),通過(guò)抓取新浪微博中的相關(guān)數(shù)據(jù),對(duì)其進(jìn)行處理分析,詳細(xì)分析微博用戶在信息發(fā)布行為、信息發(fā)布內(nèi)容方面的相關(guān)特性以及用戶的關(guān)注行為和評(píng)論轉(zhuǎn)發(fā)行為進(jìn)行了詳細(xì)地分析,認(rèn)為微博網(wǎng)絡(luò)是典型的小世界網(wǎng)絡(luò),微博網(wǎng)絡(luò)整體密度較小,呈稀疏狀態(tài),但局部密集;微博網(wǎng)絡(luò)用戶的分布呈不均勻的狀態(tài),用戶在信息發(fā)布、分享等方面存在較大的信息不對(duì)稱性,只有小部分用戶擁有較多的信息資源,扮演核心角色,大部分用戶在微博中處于邊緣地位。這為微博營(yíng)銷和微博輿論引導(dǎo)與消解提供了基礎(chǔ)。
〔關(guān)鍵詞〕復(fù)雜網(wǎng)絡(luò);微博用戶;行為;小世界特性;關(guān)注;非均勻網(wǎng)絡(luò)
DOI:10.3969/j.issn.1008-0821.2013.09.007
〔中圖分類號(hào)〕G202〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2013)09-0035-09
伴隨著移動(dòng)通信技術(shù)的不斷發(fā)展,移動(dòng)互聯(lián)網(wǎng)日趨成熟,為微博的發(fā)展提供了發(fā)展契機(jī)。Twitter是產(chǎn)生最早的微博,據(jù)Semiocast發(fā)布的數(shù)據(jù)調(diào)查數(shù)據(jù)顯示,截至2012年12月,Twitter用戶數(shù)達(dá)到517億,成為僅次于Facebook的全球第二大社交網(wǎng)站,其中141億美國(guó)用戶;2012年6月,Twitter用戶一共發(fā)布消息1058億條[1],這個(gè)信息量是任何一家媒體,無(wú)論是傳統(tǒng)媒體還是網(wǎng)絡(luò)媒體,都無(wú)法企及的。目前國(guó)內(nèi)較具代表性的微博主要以門戶網(wǎng)站為主,如新浪微博、騰訊微博、人民網(wǎng)微博等,它們依靠網(wǎng)站自身的影響力與巨大的用戶群,幾乎占據(jù)了微博的全部用戶,有著較大的影響力。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的最新報(bào)告,2012年12月底,我國(guó)微博用戶規(guī)模為309億,其中手機(jī)微博用戶規(guī)模達(dá)到202億,手機(jī)成為微博用戶的首選終端,微博逐漸移動(dòng)化發(fā)展[2]。
自2005年Twitter出現(xiàn)后,學(xué)術(shù)界關(guān)于微博行為的研究的不斷增加,對(duì)于用戶行為、用戶關(guān)系、用戶興趣等都進(jìn)行了較為深入的研究,也取得了較多成果。麥田(2009)認(rèn)為,以Twitter為代表的微博信息發(fā)布平臺(tái)能夠成功的主要原因有:可迅速發(fā)布的內(nèi)容,可迅速發(fā)布的網(wǎng)站結(jié)構(gòu)以及病毒式的信息傳播[3]。所以,微博自身的信息傳播模式的便利性與快捷性對(duì)于用戶來(lái)說(shuō)吸引力是極大的。彭蘭教授在《微博發(fā)展的動(dòng)力》(2009)中指出,微博的發(fā)展除了來(lái)自微博形式的自動(dòng)力外,還有來(lái)自微博用戶需求的拉動(dòng)力和微博社會(huì)功能的主動(dòng)力[4]。實(shí)踐方面,主要研究微博用戶行為的動(dòng)機(jī),以及其對(duì)微博用戶行為的影響程度,在此基礎(chǔ)上對(duì)微博用戶行為的表現(xiàn)進(jìn)行預(yù)測(cè),以及微博用戶行為對(duì)興趣構(gòu)成和購(gòu)買行為的影響;理論方面,主要運(yùn)用相關(guān)的理論基礎(chǔ)來(lái)解釋微博用戶行為,并通過(guò)一些實(shí)證研究對(duì)用戶行為的具體表征進(jìn)行統(tǒng)計(jì)分析。
基于復(fù)雜網(wǎng)絡(luò)和社會(huì)網(wǎng)絡(luò)的理論研究微博是近年來(lái)的一個(gè)熱點(diǎn),它能夠較好的解釋微博用戶的信息發(fā)布、評(píng)論、轉(zhuǎn)發(fā)等行為所呈現(xiàn)的網(wǎng)絡(luò)關(guān)系,也可以從中挖掘出關(guān)鍵用戶,可以較好的反映出用戶之間的關(guān)系,并對(duì)用戶行為進(jìn)行預(yù)測(cè)。李林紅和李榮榮認(rèn)為,新浪微博社會(huì)網(wǎng)絡(luò)是一個(gè)自組織系統(tǒng),從整體網(wǎng)絡(luò)、個(gè)體網(wǎng)絡(luò)、小團(tuán)體、小世界效應(yīng)構(gòu)建模型,通過(guò)實(shí)證研究考慮用戶在信息“發(fā)布、轉(zhuǎn)發(fā)、評(píng)論、@、回復(fù)”之間的關(guān)系,認(rèn)為微博中存在自組織行為,通常整體的自組織現(xiàn)象弱,局部明顯,而且這種關(guān)系的形成往往依據(jù)用戶角度的不同,形成的自組織網(wǎng)的凝聚力也是不同的[5]。易蘭麗(2012)利用人類動(dòng)力學(xué)和復(fù)雜網(wǎng)絡(luò)的相關(guān)理論,從網(wǎng)絡(luò)互動(dòng)的角度出發(fā),對(duì)用戶的信息發(fā)布、轉(zhuǎn)發(fā)和評(píng)論行為進(jìn)行統(tǒng)計(jì)分析,了解三者之間的關(guān)系,并建立用戶信息評(píng)論模型和興趣驅(qū)動(dòng)模型,對(duì)微博用戶的行為做了較詳細(xì)的分析[6]。
從以上的分析可以看出,研究者主要是通過(guò)直觀的靜態(tài)分布的網(wǎng)絡(luò)形態(tài)表現(xiàn)用戶在關(guān)注、評(píng)論和轉(zhuǎn)發(fā)方面的特征,大多是從數(shù)學(xué)和技術(shù)方面考慮,較少地考慮社會(huì)因素和用戶因素。本文以復(fù)雜網(wǎng)絡(luò)的基本統(tǒng)計(jì)特性為基礎(chǔ),以新浪微博為例,通過(guò)抓取相關(guān)數(shù)據(jù),對(duì)其進(jìn)行處理分析,對(duì)微博用戶的關(guān)注行為和轉(zhuǎn)發(fā)評(píng)論行為的網(wǎng)絡(luò)特性進(jìn)行分析,提出微博網(wǎng)絡(luò)是典型的小世界網(wǎng)絡(luò);微博網(wǎng)絡(luò)較為稀疏,但也存在部分密集的社群,即微博群體;微博網(wǎng)絡(luò)是一個(gè)不均勻的網(wǎng)絡(luò),在信息傳播與分享方面存在較大的信息不對(duì)稱。
1數(shù)據(jù)獲取與處理
通過(guò)新浪微博發(fā)布的最新數(shù)據(jù)報(bào)告可知,目前新浪微博的用戶已超過(guò)4億,同時(shí)在騰訊微博、人民網(wǎng)微博等平臺(tái)上也擁有大量的用戶;但在用戶總量、活躍用戶數(shù)量、微博影響力與代表性方面,新浪微博有著顯著的優(yōu)勢(shì)。所以本文選取新浪微博中的數(shù)據(jù)作為研究樣本,以期能夠較好的反映微博的復(fù)雜網(wǎng)絡(luò)特性,完整地呈現(xiàn)微博用戶行為的基本特性。
目前獲取微博中的數(shù)據(jù)有兩大主流方式:一是通過(guò)新浪微博開(kāi)放端口,利用API平臺(tái)獲取。這種方式獲取較為簡(jiǎn)潔、方便、高效,便是數(shù)據(jù)數(shù)量有一定的限制;二是網(wǎng)絡(luò)爬蟲(chóng)。通過(guò)設(shè)定的URL地址,按照一定的爬行策略抓取信息,這種方式獲取的信息數(shù)量大且全,但是較為繁瑣,且效率低,后期數(shù)據(jù)處理難度也較大。所以本文通過(guò)新浪的API平臺(tái)抓取數(shù)據(jù)。
本文采用滾雪球抽樣的方法,選中其中一個(gè)節(jié)點(diǎn),對(duì)其粉絲的信息進(jìn)行抓取,再對(duì)粉絲的粉絲信息抓取,持續(xù)若干輪,共獲取節(jié)點(diǎn)信息65 536個(gè)、100萬(wàn)余條用戶關(guān)系信息、10萬(wàn)條微博信息等。抓取的用戶信息內(nèi)容主要包括:用戶ID、昵稱、姓名、省、市、地區(qū),個(gè)人描述、URL、圖像URL、性別、粉絲數(shù)、關(guān)注數(shù)、收藏?cái)?shù)、創(chuàng)建時(shí)間、是否加V、是否允許定位等用戶的基本信息,用戶評(píng)論信息主要包括:評(píng)論ID、評(píng)論內(nèi)容、來(lái)源URL、發(fā)布方式、發(fā)布時(shí)間、發(fā)布者ID、評(píng)論者ID等基本信息。微博內(nèi)容信息主要包括:內(nèi)容ID、創(chuàng)建時(shí)間、具體內(nèi)容、來(lái)源URL、發(fā)布方式、收藏?cái)?shù)、發(fā)布時(shí)間、發(fā)布者ID等基本信息。以這種方式獲取的微博數(shù)據(jù)使一些孤立的節(jié)點(diǎn)和“僵尸粉”也被囊括其中,使得網(wǎng)絡(luò)密度可能較稀疏;但在很大程度上反映了微博的整體特性,無(wú)論是活躍用戶,還是僵尸粉,都是分析數(shù)據(jù)的組成部分。
在進(jìn)行實(shí)際分析的過(guò)程中,為了確保分析的準(zhǔn)確性和真實(shí)性,剔除無(wú)效信息后,對(duì)獲取的64 961條信息進(jìn)行基本分析。在數(shù)據(jù)庫(kù)中,選取1 021個(gè)關(guān)注信息,組成關(guān)注矩陣,對(duì)其關(guān)注行為進(jìn)行分析;提取1123*386的微博評(píng)論矩陣和1122*537的微博轉(zhuǎn)發(fā)矩陣,對(duì)微博用戶的評(píng)論轉(zhuǎn)發(fā)行為進(jìn)行分析。
2微博用戶行為的復(fù)雜網(wǎng)絡(luò)特性
2.1小世界網(wǎng)絡(luò)特性分析
小世界網(wǎng)絡(luò)最基本的特征是有較短的平均路徑長(zhǎng)度和較大的聚類系數(shù)。用N表示節(jié)點(diǎn)數(shù)量,dij表示節(jié)點(diǎn)之間的最短距離,那么網(wǎng)絡(luò)平均路徑長(zhǎng)度的計(jì)算公式如下所示:
L=21N(N-1)∑N-11i=1∑N1j=i+1dij
另外,假設(shè)節(jié)點(diǎn)i與其他Ki個(gè)節(jié)點(diǎn)都相連,如果這Ki個(gè)節(jié)點(diǎn)也相互連接,那么它們之間應(yīng)該有Ki(Ki-1)/2條邊;但這Ki個(gè)節(jié)點(diǎn)之間實(shí)際存的邊數(shù)只有Ei,那么二者之比即為聚類系數(shù)Ci,用公式表示如下:
Ci=2Ei1Ki(Ki-1)
其中Ki是表示節(jié)點(diǎn)數(shù)量,Ei表示實(shí)際的邊數(shù),Ci表示節(jié)點(diǎn)的聚類系數(shù)。由此可知,整個(gè)網(wǎng)絡(luò)的平均聚類系數(shù)C可以定義為網(wǎng)絡(luò)中所有節(jié)點(diǎn)聚類系數(shù)的平均值,如下所示:
C=11N∑N1i=1Ci