高志偉, 李艷松, 范 玉
(1.石家莊鐵道大學 信息科學與技術學院,河北 石家莊 050043;2.中國教育部信息中心,北京 100816)
中國互聯網協會副理事長高盧麟2009 年1 月說,截至2008 年11 月底,我國博客空間超過1 億,博客作者規(guī)模超過5 000 萬人,其中活躍博客作者( 平均每個月更新一次以上) 1 691.3 萬人,博客讀者已達1億人以上。博客數和博客用戶數均比去年有一定程度的增長,人均擁有博客數與去年相比也略有上升。現在,博客已經成為了互聯網上最受歡迎、發(fā)展最快的應用之一。相應地,學界對于博客的研究也一直層出不窮,研究領域更是跨越了計算機網絡技術、傳播學、新聞學、社會學等各個學科。
目前,國內的博客研究主要還是在傳播學的基本框架下進行的。研究視野顯得單一而狹窄,而國外的博客研究開始延展到社會學、經濟學、人類學、人種學、符號學等多種研究視角。同時,國內的博客研究的話題較雷同,低層次重復研究的現象較為嚴重。在博客研究中,研究方法與手段是一個瓶頸,多數論文無研究方法可言,而少數運用了一定方法的研究項目,也不同程度存在著手段不夠科學、完善的問題。研究方法和手段的缺失制約著博客研究向更廣的領域和更深的層次拓展[1]。借鑒國外博客發(fā)展經驗及其研究成果,通過引入社會網絡分析技術,將研究重點集中到博客中國網站上,目的在于社會網絡分析法在分析數據方面比較單一,具有個體的代表性。文中均采自2010 年3 月至10 月之間的數據,因為一個Blog頁面上的鏈接不是隨時更改的,所以可以認為該博客子圖的結構在一段時間內是相對穩(wěn)定的。
研究的關鍵是博客實際數據( 博客地址) 的提取,系統采用JAVA 語言來開發(fā),使用ECLIPSE 作為開發(fā)環(huán)境,數據庫使用SQL SERVER2000,系統的設計采用到JAVA 語言的多方面,例如多線程。通過分析博客網頁特征,使用開源的全文檢索引擎工具包LUCENE[2]索引網頁數據信息,并使用純JAVA 寫的HTML 解析庫HTML Parser 和正則表達式兩種提取網頁文本信息的方式,提取博客網頁地址。
為實現對博客數據信息的提取,將整個處理過程分成幾大模塊:初始URL 選擇、Web Spider 抓取、提取預處理、頁面分析提取、數據存儲。其系統模型如圖1 所示。
圖1 所示的抽象圖給出了該系統的流程如下:首先從Web 中抓取頁面,然后將抓取到的頁面進行頁面分析,再對頁面鏈接進行相應的提取操作,最后再將提取結果信息存入數據庫。信息提取時,首先利用HTML Parser 遞歸提取各層鏈接的信息,然后利用正則表達式對各鏈接對應頁面進行信息提取。提取博客地址信息算法如下:
圖1 系統提取模型
(1) 通過使用HTML Parser 中的nodeIterator 接口,可以得到頁面中需要提取的Title、Image 和Link 等信息。同時,使用HTML Parser API 編寫的Filter Bean 和String Bean 兩個類,獲取到URL 頁面文檔顯示的所有文本信息,將URL 頁面的所有文本內容存入文本文件中。
(2) 系統使用類DBConnect 建立到SQL SERVER2000 數據庫的連接,同時使用execute Query( ) 方法和execute Update( ) 方法,分別執(zhí)行產生單個結果集及根據參數不同執(zhí)行插入、更新、刪除等操作。
(3) 分析所有博客鏈接頁面并將提取信息存入數據庫。
其中,HTML Parser 提供了提取文本信息的API,可以用來方便的提取特定文本。而正則表達式[3]是功能強大的文本分析工具,正則表達式對象用來規(guī)范一個規(guī)范的表達式( 也就是表達式符不符合特定的要求,比如是不是Blog 網頁地址格式) ,它可以通過自定義的正則模式去精確地提取文本信息。
博客網絡的建立遵循相關規(guī)則,將博客地址作為節(jié)點,將每兩位有鏈接的博客用一條線連接,構成了博客實際網絡圖。由于研究的博客的關系是獨立的,因此所建立的是有向、有權重網絡。
信息提取到所有的博客好友鏈接后,提取的數據需要轉換成相應的格式才能導入軟件進行分析,研究選用社會網絡分析及可視化工具Pajek[4]對提取的社會網絡的數據行分析。轉換后的數據格式為Pajek軟件所需格式,根據此格式將數據導入Pajek 軟件,可視化博客網絡。圖2 顯示了轉化后的Pajek 所需數據格式。
將提取的博客網絡進行導出,導出的結果如圖3 所示,入度由節(jié)點的大小來標定。
該博客網絡的節(jié)點數N =8 663,平均入度和平均出度值為5.12,累計入度和出度的分布如圖4 所示。圖的出度和入度均為冪律分布,提取的子圖具有明顯的無標度特性,其聚類系數為0.23( 遠大于具有同樣結點總數和平均度的ER 隨機圖的聚類系數) 。
通過使用社會網絡分析[5]理論及可視化分析理論測量社會網絡的各種指標,得出對一個社會網絡( 即博客中國構成的社會網絡) 的理性認識。使用Pajek 測量分析結論如表1 所示。
圖2 轉化后的Pajek 所需數據格式
圖3 博客網絡導出圖
圖4 博客網分布圖
密度指的是一個社群圖中各個點之間聯絡的緊密程度( 在本次研究當中,即各個獨立的博客之間的聯絡緊密程度) ,網絡密度用來衡量相關網絡鏈接數,范圍介于0 到1。密度值越大說明網絡連接越緊密,此博客網絡鏈接密度為0.008,這表明該網絡鏈接聯結不高。其“中心性”是社會網絡分析的重點之一,本文測量的是網絡局部中心性,測量得知博客網絡的點度中心度為0.23。社會網絡研究表明,博客( 節(jié)點)的社會成就與其在社會網絡中的位置有緊密聯系,博客的位置可使用點度中心度進行分析。同時,使用Pajek 測量博客網絡的內中心勢為0.016,外中心勢為0.163,整體中心勢為0.096??梢?,相對于整個網絡的中心點博客并不存在。
表1 社會網絡分析結果
通過編程提取博客網絡真實數據信息,再利用可視化工具可視化博客網絡鏈接情況,得到了博客間鏈接信息的一個大致特點。研究數據顯示,局部特定的范圍內,少數博客呈現出連接較充分的情況。但是,整體博客網絡連接密度較低、網絡向心趨勢不明顯,博客之間的交流仍然比較分散和單一。相信隨著這方面的研究越來越深入,博客社會網絡的研究會越來越得到重視。
[1]周海英.我國博客研究現狀的實證分析[J].當代傳播,2006,9(4) : 55-57.
[2]于天恩. 搜索引擎開發(fā)權威經典[M].北京:中國鐵道出版社,2008.
[3]邱哲,符滔滔. 搜索引擎lucene 2.0 +Heritrix[M].北京:人民郵電出版社,2007.
[4]孟微,龐景安. PAJEK 在情報學合著網絡可視化研究中的應用[J].情報理論與實踐,2008,31(4) :573-575.
[5]Jia Lin,Alexander Halavais,Bin Zhang. The Blog network in America: Blogs as indicators of relationships among US cities[J].INSNA,2007,27(2) : 15-23.