[摘要] 博客網(wǎng)流量巨大,存在相當大的商業(yè)價值,本文從博客廣告投放存在的問題出發(fā),論述了博客網(wǎng)的社會特征、社會網(wǎng)絡分析過程,并通過實例說明了博客廣告位置選擇的一般方法。此方法對博客網(wǎng)廣告的發(fā)展具有重要意義,由此可以大大提升博客網(wǎng)的盈利能力。
[關鍵詞] 社會網(wǎng)絡分析 廣告投放 博客
一、博客網(wǎng)存在的問題
博客網(wǎng)是指提供博客產(chǎn)品及服務,并依此贏取商業(yè)利益的網(wǎng)站,是Web2.0的主要應用之一。它分為三種類型:綜合服務類,如博客網(wǎng)、中國博客網(wǎng)等;門戶類,如新浪博客、搜狐博客等;專業(yè)服務類,如企業(yè)博客網(wǎng)等。綜合服務類博客網(wǎng)出現(xiàn)時間最早,服務種類最為齊全,對用戶的影響也最大;門戶類博客網(wǎng)依托門戶網(wǎng)站,品牌知名度較高,盈利壓力較小,發(fā)展最為迅速;專業(yè)服務類博客網(wǎng)由于只專注于某一特殊行業(yè),博客人數(shù)相對較少。
據(jù)中國互聯(lián)網(wǎng)絡信息中心公布的《2006年中國博客調(diào)查報告》顯示,截至2006年8月底,中國博主規(guī)模已達1750萬,其中每月更新一次以上的活躍博主接近770萬,注冊的所有博客空間數(shù)接近3400萬,博文讀者達7500萬,其中活躍的博文讀者高達5470萬。由此可見,中國博客網(wǎng)人流量巨大,存在商業(yè)價值,在用戶體驗、知識傳播、網(wǎng)絡營銷等方面尤為突出。
雖然博客網(wǎng)影響越來越大,但目前的盈利模式與盈利能力,卻與其地位很不相稱,與傳統(tǒng)的網(wǎng)絡應用相比差距很大。究其原因,主要有這幾方面:博客的所有權(quán)問題得不到很好解決。博客廣告投放的位置問題沒有得到解決?!懊瞬┛汀焙汀安莞┛汀钡拿軟]有得到解決。
對以上問題進行分析,不難發(fā)現(xiàn),影響博客廣告發(fā)展的主要因素在于四個方面,分別是:博客廣告應投放到什么位置?投放的博客廣告內(nèi)容應是什么?如何投放?投放的收益如何分配?弄清了這四個因素,對博客廣告的發(fā)展無疑具有重要意義。
四個因素中的關鍵在于第一個,即尋找合適的博客廣告投放位置。注意,這里的合適投放位置不是指名人博客(事實上有時可能是),而是指博客網(wǎng)中的關鍵結(jié)點。尋找到合適的廣告投放位置之后,通過分析投放位置處的博客內(nèi)容,就知道了應該投放的博客廣告內(nèi)容。
二、博客廣告擇位
1.博客網(wǎng)的社會特征
博客網(wǎng)上聚集了大量的人群,他們撰寫各種主題的博文,以發(fā)表自己的觀點,表達自己的情感等。按博文主題的不同,可以將這些人群分為不同的角色,歸屬于不同的社交圈。不管屬于哪種類型的社交圈,要獲得這些信息,都需要對博文內(nèi)容進行數(shù)據(jù)挖掘和分析。目前,對博文內(nèi)容進行數(shù)據(jù)挖掘的方式主要有以下幾種,一是對博文內(nèi)容進行挖掘,二是對博文結(jié)構(gòu)進行挖掘,三是對博文利用方式進行挖掘。通過對博文內(nèi)容的挖掘,可以找出博文中有用的信息,如文本、圖象、聲音、視頻等,以便進行資源發(fā)現(xiàn)、文檔分類與聚合、信息提取等。而博文結(jié)構(gòu)挖掘主要是建立博文與博文間鏈接的結(jié)構(gòu)模型,以便對網(wǎng)頁特別是搜索引擎的結(jié)果進行排序,實現(xiàn)類似于Google的PageRank那樣的應用。博文利用方式挖掘主要是使用數(shù)據(jù)挖掘的技術來對一些搜索日志進行挖掘,以便找出有意義的博文閱讀模式,以獲取博文讀者的相關資料。
網(wǎng)絡類型,分為三種,分別為隨機網(wǎng)絡、小世界網(wǎng)絡和無刻度的網(wǎng)絡。隨機網(wǎng)絡中,任意兩個結(jié)點之間,存在連接的概率總是為p,結(jié)點具有同源性,沒有明顯差異,因而不可能形成一個個社交圈;小世界網(wǎng)絡,結(jié)點差異較大,存在明顯的群聚現(xiàn)象;而無刻度網(wǎng)絡,大量的結(jié)點之間只存在少量的連接,而少數(shù)的結(jié)點之間卻存在大量的連接(這些結(jié)點成為了網(wǎng)絡中的Hubs結(jié)點),網(wǎng)中存在個體差異,也會形成不同的社交圈。
2.社會網(wǎng)絡分析與關鍵結(jié)點
社會網(wǎng)絡,屬于社會科學的一個分支,它以社會成員(人)為結(jié)點,以人與人之間的關系為連線,構(gòu)建網(wǎng)絡圖,以此為模型來研究人與人、人與社會群體、社會群體與社會群體之間的互動關系和相互影響。社會網(wǎng)絡與隨機網(wǎng)絡有根本的差別。
社會網(wǎng)絡分析(SNA),是指通過對社會網(wǎng)絡模型中各社會成員(結(jié)點)之間關系和相互交往模式的分析,發(fā)現(xiàn)對應的社會網(wǎng)絡結(jié)構(gòu)。目前,社會網(wǎng)絡分析已廣泛用于組織行為分析、組織關系分析、人工智能、數(shù)據(jù)通信與信息安全等方面。當然,社會網(wǎng)絡分析也不是萬能的,也存在一些缺陷,如只能對靜態(tài)數(shù)據(jù)進行分析,對動態(tài)數(shù)據(jù)分析的能力很弱,無法觀察因時間因素和結(jié)點互動而造成的圈體演化過程,一些重要的影響因子有時也會被遺漏。
在社會網(wǎng)絡模型圖中,結(jié)點的個數(shù)總和稱為結(jié)點大?。⊿ize),結(jié)點與結(jié)點之間的連結(jié)程度成為密度(Density),每個結(jié)點所具有的連線稱為度(Degree),結(jié)點與結(jié)點之間的路徑長度稱為距離(Distance),網(wǎng)絡中所有結(jié)點之間的最大路徑稱為網(wǎng)絡直徑(Diameter)。社會網(wǎng)絡分析的目的,最基本的是要找出網(wǎng)絡中的一些關鍵結(jié)點,如Hub結(jié)點、Betweenness結(jié)點、Closeness結(jié)點等,如圖1所示。在圖1中,Andre與Carol結(jié)點之間有交互,但與Ike結(jié)點之間沒有交互,因此Andre與Carol結(jié)點之間用一根直線相連,而與Ike結(jié)點之間沒有用直線相連。社會網(wǎng)絡中,存在三種不同類型的關鍵結(jié)點,即三種類型的中心點,分別為Degree Centrality、Betweenness Centrality、Closeness Centrality。Degree Centrality又稱Hub結(jié)點,是指具有最大度的結(jié)點,如Diane結(jié)點,它一般是社交圈中的領導或?qū)<?,很多成員需要與他進行聯(lián)系。Betweenness Centrality又稱橋接點,是圖中關鍵路徑上的點,一般可連接兩個不同的社區(qū),如Heather結(jié)點,離開它Ike、Jane結(jié)點就不能與圈中的其他成員進行交互,它一般是經(jīng)紀人。Closeness Centrality是指結(jié)點與其他結(jié)點的距離總和最短,它雖不處于網(wǎng)絡的中心位置,但具有網(wǎng)絡中的最佳視野,能夠觀察到網(wǎng)絡中的所有流通的信息。
圖1 一個社會網(wǎng)絡模型
顯而易見,對于博客網(wǎng),若在這三種類型的關鍵點上投放廣告,要比在其他結(jié)點上投放廣告,所聚合的受眾人數(shù)要高得多,同時效率也高得多;再結(jié)合分析關鍵點上的博文內(nèi)容,也就能掌握社交圈的主題,對提高定向廣告的精準性有很大好處。
3.博客廣告投放位置的選擇
博客網(wǎng)具有社會網(wǎng)絡的特征,網(wǎng)上存在不同類型的社交圈,通過數(shù)據(jù)挖掘和社會網(wǎng)絡分析,找出博客網(wǎng)不同社交圈中的三種類型的關鍵點,作為博客廣告的最佳投放位。
三、查找關鍵結(jié)點的一般方法
在博客網(wǎng)上查找關鍵結(jié)點的一般方法,分為四個過程,分別為:搜集博文、對博文內(nèi)容進行提取、網(wǎng)絡分析、可視化輸出,如圖2。
圖2 關鍵結(jié)點查找的過程
1.搜集博文
搜集博文的一般方法是利用網(wǎng)絡爬行程序,從相關的博客網(wǎng)上搜集并下載所要的博文。
2.信息提取
在獲得博文之后,需要對信息進行提取。由于不同的博主可能使用不同的博文摸板,因此信息提取的過程也比較復雜,需要使用一些諸如模式匹配和實體抽取的技術,實際操作時,可根據(jù)具體情況進行簡化處理。
3.網(wǎng)絡分析
網(wǎng)絡分析是發(fā)布博文定向廣告最重要的環(huán)節(jié)。網(wǎng)絡分析主要集中在三個方面:拓撲分析、關鍵結(jié)點分析和群體分析。
拓撲分析的目的主要是驗證博客網(wǎng),在拓撲分析的過程中,使用了幾種統(tǒng)計分析指標,如平均最短路徑長度、聚合系數(shù)、度的分布。平均最短路徑長度反映了網(wǎng)絡中各個結(jié)點之間的總體最短路徑,可用來衡量結(jié)點間通信的效率;聚合系數(shù)表明了網(wǎng)中結(jié)點聚合成群體的可能性大?。欢鹊姆植几怕蔖(k)能表明一個結(jié)點有k個連接的概率大小。
經(jīng)過拓撲分析之后,接下來就可以利用社會網(wǎng)絡分析的方法來分析網(wǎng)絡社交圈中的各個關鍵結(jié)點。三種類型的關鍵結(jié)點,Degree Centrality結(jié)點的degree最高,其活躍程度也最高,是博客網(wǎng)中的Hub結(jié)點,也是博客社交圈中的“領導”或“專家”。Betweenness Centrality結(jié)點是橋接點,其值也最高,需要經(jīng)過它才能訪問到其他結(jié)點,它是博客社交圈中的“經(jīng)紀人”。Clossness Centrality值最小,表明其在博客網(wǎng)中的視野最好。
若將社交圈看作是一個結(jié)點,大型博客網(wǎng)可能存在由不同規(guī)模的社區(qū)圈構(gòu)成的泛社交圈。運用BlockModel技術,也可找出泛社區(qū)中的關鍵結(jié)點。
4.可視化輸出
網(wǎng)絡提取與分析的最終結(jié)果,需要通過多維縮放(MDS)或圖形化的方式展示給人看。當用圖形方式展示時,往往將接近度較高的結(jié)點靠近顯示,而將接近度較低的結(jié)點分離顯示。
四、一個實例
新浪博客網(wǎng)是在中國規(guī)模較大,較有影響的一家網(wǎng)站。作為研究的實例,利用開源的網(wǎng)絡爬行程序:Web-Harvest,從新浪博客上隨機選擇500篇博文,先按博文的用戶名將這些博文歸類到136個不同的博主下。為了獲知這些博主分別屬于哪些社交圈,對所有博文進行社會網(wǎng)絡分析。為簡化分析的過程,分析之前先將新浪博客的社交圈歸結(jié)為:幾種不同的類型;然后對每一種社交圈,分別設置若干種不同的模式匹配關鍵詞,如對財富金融社交圈設置模式匹配關鍵詞:{行情、港股、美股、新股、權(quán)證、大盤、個股、公司、公告、研究、期指}等。
接下來,對每一篇博文進行社會網(wǎng)絡分析。生成網(wǎng)絡圖,每個結(jié)點對應一個博主。為了簡化分析的過程,不進行網(wǎng)絡拓撲分析,只對關鍵結(jié)點進行分析,分析時遵循以下規(guī)則:
第一,匹配博文內(nèi)容與社交圈關鍵詞,命中時對應結(jié)點的相應社交圈可能值加1。
第二,博文中若出現(xiàn)到某個社交圈或好友的鏈接,則將此博文對應的結(jié)點與圈主或好友結(jié)點確定為同一個社交圈結(jié)點。
第三,博文中若存在到其他博主的鏈接,則在對應的兩個結(jié)點間用線相連。
第四,提取每篇博文中博主的特征信息,如性別、年齡、愛好、職業(yè)等。
經(jīng)過上述過程處理之后,對各結(jié)點的若干社交圈可能值進行加權(quán)排序,以確定各個結(jié)點所在的社交圈,最后用可視化的方法進行輸出。
五、結(jié)束語
以上通過社會化網(wǎng)絡分析,獲得的三個比較大的社交圈:情感交流、財富金融、文學藝術,基本上與新浪網(wǎng)所設定的社交圈人氣指標相一致,結(jié)果令人滿意。但由于分析之前,人為設定了S集合的內(nèi)容,同時由于沒有對實例中的網(wǎng)絡圖進行拓撲分析,網(wǎng)絡的非隨機性沒能得到驗證,加上社會網(wǎng)絡分析存在的固有缺陷,使得結(jié)果的真實性還存在一點點疑問;另外,在關鍵結(jié)點上投放博客廣告的效果也有待實踐檢驗。
參考文獻:
[1]Anonymous, Web數(shù)據(jù)挖掘,http://fly-net-cn.javaeye.com/blog/123759,2007.12.8
[2]Gibson,D.,J.Kleinberg,Raghavan,Inferring Web Communities from Link Topology,Proceedings of the 9th ACM Conference on Hypertext and Hypermedia,1998