王琦 袁潤(rùn)
摘要:借鑒學(xué)術(shù)影響力評(píng)估理論,分別計(jì)算均值測(cè)度指標(biāo)和高影響測(cè)度指標(biāo)下的學(xué)術(shù)博客影響力。設(shè)計(jì)均值測(cè)度和高影響測(cè)度統(tǒng)計(jì)量,借助R語(yǔ)言編程技術(shù),計(jì)算博客用戶影響力測(cè)度指標(biāo)。研究表明,均值測(cè)度指標(biāo)不適合于博客用戶影響力評(píng)估。文章基于博文的被評(píng)論次數(shù)和被推薦次數(shù)兩個(gè)觀測(cè)量計(jì)算得到的學(xué)術(shù)博客博文影響力h指數(shù),能有效評(píng)估學(xué)術(shù)博客影響力。不同觀測(cè)年度的h指數(shù)存在較大差異,這反映了博客用戶發(fā)表博文的持續(xù)性。
關(guān)鍵詞:學(xué)術(shù)博客;h指數(shù);R語(yǔ)言;影響力
一、前言
學(xué)術(shù)社交網(wǎng)站的出現(xiàn)和發(fā)展,吸引了大量的學(xué)者加入社區(qū)進(jìn)行學(xué)術(shù)分享和交流。學(xué)術(shù)博客(Academic Blog)是學(xué)術(shù)社交網(wǎng)站的一種典型形式,它的存在和發(fā)展不僅可以幫助科研工作者推廣學(xué)術(shù)成果,提升自身的學(xué)術(shù)影響力,還可以拓寬學(xué)術(shù)社交關(guān)系以促進(jìn)更廣泛的科研合作。
對(duì)學(xué)術(shù)博客的概念學(xué)界缺乏統(tǒng)一的界定,史新艷等認(rèn)為廣義學(xué)術(shù)博客是指博客的內(nèi)容與學(xué)術(shù)知識(shí)相關(guān),狹義學(xué)術(shù)博客還要求博客用戶須為某領(lǐng)域的學(xué)術(shù)專(zhuān)家。呂鑫等根據(jù)“學(xué)術(shù)”和“博客”的定義,認(rèn)為“學(xué)術(shù)博客”是用于發(fā)布和交流教學(xué)、科研等的博客。甘春梅等通過(guò)調(diào)研與分析總結(jié)出學(xué)術(shù)博客是由科研人員撰寫(xiě)的以討論學(xué)術(shù)相關(guān)問(wèn)題為主的博客。從現(xiàn)有的研究可以看出,國(guó)內(nèi)學(xué)者對(duì)學(xué)術(shù)博客的界定從爭(zhēng)議逐漸形成共識(shí),認(rèn)為學(xué)術(shù)博客是專(zhuān)業(yè)學(xué)術(shù)社交平臺(tái),與一般的為學(xué)術(shù)社交提供服務(wù)的平臺(tái)不同。
科學(xué)網(wǎng)博客是中文語(yǔ)境下學(xué)術(shù)博客典型代表之一?,F(xiàn)有的研究主要呈現(xiàn)兩個(gè)方向,一是將博客視為提供各種服務(wù)和應(yīng)用的平臺(tái),以平臺(tái)為研究對(duì)象,從平臺(tái)的功能和服務(wù)出發(fā),研究學(xué)術(shù)社交平臺(tái)的價(jià)值、發(fā)展規(guī)律和發(fā)展方向;二是以用戶為研究對(duì)象,通過(guò)調(diào)查問(wèn)卷等方式獲取用戶使用意愿或基于用戶的客觀行為數(shù)據(jù)開(kāi)展研究。
基于用戶客觀行為數(shù)據(jù)的研究更為直接。張曉陽(yáng)等運(yùn)用文獻(xiàn)計(jì)量理論,基于博文及其點(diǎn)擊量構(gòu)建學(xué)術(shù)博客h指數(shù)評(píng)價(jià)科學(xué)家博客;盧露等基于博文主題,從博文數(shù)量和質(zhì)量角度建立博客影響力評(píng)估模型;李墨珺從作者身份、準(zhǔn)確性、時(shí)效性、固定鏈接、引用來(lái)源五個(gè)方面評(píng)價(jià)博文質(zhì)量。周春雷提出鏈接內(nèi)容分析法評(píng)估用戶影響力;鄭超等將博文的評(píng)論次數(shù)納入博客影響力評(píng)估模型;趙傳彪通過(guò)系統(tǒng)分析博客用戶行為數(shù)據(jù)特征設(shè)計(jì)用戶評(píng)價(jià)指標(biāo)體系。曹沖選取博客發(fā)文數(shù)、精選博文數(shù)、好友數(shù)等指標(biāo)評(píng)價(jià)博客影響力;王琛利用Delphi法和層次分析法確定指標(biāo)權(quán)重,構(gòu)建學(xué)術(shù)博客影響力評(píng)價(jià)模型。
本文以博文為媒介,從用戶發(fā)表博文數(shù)量和互動(dòng)質(zhì)量?jī)煞矫嬖O(shè)計(jì)指標(biāo)體系。借鑒文獻(xiàn)計(jì)量的均值測(cè)度和髙影響特征測(cè)度學(xué)術(shù)評(píng)價(jià)指標(biāo),借助R語(yǔ)言編程技術(shù)計(jì)算博文互動(dòng)影響力h指數(shù)評(píng)估博客影響力。
二、理論與方法
學(xué)術(shù)客體的數(shù)量和質(zhì)量是評(píng)價(jià)學(xué)術(shù)主體的學(xué)術(shù)績(jī)效的最為直接的數(shù)據(jù)。博客發(fā)文量(B)越大,表明其分享意愿越強(qiáng),與其他用戶互動(dòng)的幾率越大,其發(fā)布的博文會(huì)引起其他用戶的好奇進(jìn)而閱讀、建立好友關(guān)系等,借此博客內(nèi)容可以被更多人知曉,從而產(chǎn)生較大影響力。借助于博文推薦次數(shù)(Rds)和評(píng)論次數(shù)(Cts)等指標(biāo)表征博文質(zhì)量。
(一)均值測(cè)度
均值測(cè)度是單位時(shí)間內(nèi)博文統(tǒng)計(jì)量的篇均值。按照年度觀測(cè)博客所有發(fā)表博文的篇均推薦次數(shù)(Rds/B)、篇均評(píng)論次數(shù)(Cts/B)等,本文應(yīng)用R語(yǔ)言函數(shù)scale實(shí)現(xiàn)統(tǒng)計(jì)量的標(biāo)準(zhǔn)化處理,構(gòu)造統(tǒng)計(jì)量M:
M=mean(scale(Rds/B)+scale(Cts/B))
(二)高影響特征測(cè)度
h指數(shù)是典型的髙影響特征測(cè)度,根據(jù)h指數(shù)的推論,定義觀測(cè)統(tǒng)計(jì)量C為博文互動(dòng)量如下:
C=Rds+Cts
參照學(xué)術(shù)論文h指數(shù)的定義,統(tǒng)計(jì)量C定義為博文互動(dòng)量,借以表征博文質(zhì)量。若將博客用戶的每篇博文的C值大小倒敘排列,則可以在(B,C)曲線上得到表征博客用戶影響力大小的h指數(shù),表示博客用戶至少有h篇博文的互動(dòng)量C值不低于h。
(三)加權(quán)高影響特征測(cè)度
根據(jù)不同時(shí)間窗口測(cè)算的h指數(shù)有較大差異,反映了博客發(fā)表博文的連續(xù)性、持久性。
為此,本文根據(jù)統(tǒng)計(jì)時(shí)間窗口測(cè)算了10年、5年、2年三個(gè)時(shí)間段的h指數(shù)(H10,H5,H2),再構(gòu)造統(tǒng)計(jì)量H如下:
H=W1*H10+W2*H5+W3*H2
稱(chēng)H為加權(quán)高影響特征測(cè)度指標(biāo),簡(jiǎn)稱(chēng)為加權(quán)H指數(shù)。
其中,
W1=sum(H10)/(sum(H10)+sum(H5)+sum(H2))
W2=sum(H5)/(sum(H10)+sum(H5)+sum(H2))
W3=sum(H2)/(sum(H10)+sum(H5)+ sum(H2))
三、數(shù)據(jù)來(lái)源與數(shù)據(jù)處理
本文數(shù)據(jù)來(lái)源于科學(xué)網(wǎng)博客,2017年11月16日通過(guò)Python語(yǔ)言自動(dòng)獲取。獲取的原始數(shù)據(jù)簡(jiǎn)單的人工處理后得到543位用戶的208331條博文記錄。網(wǎng)絡(luò)平臺(tái)記錄的博客好友數(shù)、博客主頁(yè)訪問(wèn)量、博客在線時(shí)長(zhǎng)、博客活躍度等指標(biāo)與博客的影響力正相關(guān)。統(tǒng)計(jì)每位博客用戶使用情況可得到用戶行為數(shù)據(jù)如表1所示。
四、結(jié)果分析
博客用戶的好友數(shù)、活躍度、主頁(yè)訪問(wèn)量和在線時(shí)長(zhǎng)等行為指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)概覽情況如表2所示。
(一)均值測(cè)度指標(biāo)結(jié)果分析
結(jié)果表明,博文數(shù)量對(duì)均值指標(biāo)有較大影響,Top10當(dāng)中超過(guò)50%的博客只發(fā)表了1~2篇博文,但因其自身的社會(huì)影響較大(例如施一公,Id=46212),其博文的互動(dòng)指標(biāo)亦較大。m10反映了平臺(tái)自上線開(kāi)始博客用戶的博文統(tǒng)計(jì)量的篇均值情況,m10均大于零。m5和m2存在值為零的情況,則在該觀測(cè)年度內(nèi)存在發(fā)文量或統(tǒng)計(jì)量為零。越是有影響力的用戶在平臺(tái)上應(yīng)該越活躍,只有在平臺(tái)上建立廣泛的好友關(guān)系,長(zhǎng)時(shí)間、高頻率使用博客并持續(xù)貢獻(xiàn)高質(zhì)量?jī)?nèi)容才會(huì)是平臺(tái)上具有高影響力的用戶。這類(lèi)用戶的均值測(cè)度指標(biāo)雖然較大,但是除了個(gè)別用戶,他們的好友數(shù)、活躍度、主頁(yè)訪問(wèn)量和在線時(shí)長(zhǎng)等指標(biāo)都比較小,且遠(yuǎn)低于指標(biāo)對(duì)應(yīng)的平均值,采用均值測(cè)度指標(biāo)評(píng)價(jià)博客用戶影響力具有明顯的局限性。
(二)高影響特征測(cè)度和加權(quán)高影響特征測(cè)度結(jié)果分析
2年期h指數(shù)可以發(fā)現(xiàn)高影響力新用戶,5年或10年期的h指數(shù)可以發(fā)現(xiàn)老用戶,這些用戶能夠持續(xù)地發(fā)表有較大影響力的博文。h值的大小可以顯著地反映用戶高互動(dòng)博文的分布情況,h值越大則高互動(dòng)博文數(shù)量越多,用戶影響力也越大。通過(guò)橫向?qū)Ρ炔煌^測(cè)年度的h指數(shù),發(fā)現(xiàn)不同觀測(cè)年度的h指數(shù)存在較大差異,這反映了博客用戶發(fā)表博文的持續(xù)性。計(jì)算結(jié)果顯示,h值大的用戶,其好友數(shù)、活躍度、主頁(yè)訪問(wèn)量和在線時(shí)長(zhǎng)等指標(biāo)均表現(xiàn)較好,除了個(gè)別用戶指標(biāo)值低于平均值,大部分用戶的各項(xiàng)指標(biāo)均顯著高于平均值,該現(xiàn)象反映出h值大的用戶在平臺(tái)上十分活躍。他們?cè)诓┛推脚_(tái)上持續(xù)貢獻(xiàn)優(yōu)質(zhì)內(nèi)容,為自己建立了廣泛的人脈關(guān)系,具有較高的活躍度。
加權(quán)H指數(shù)是不同觀測(cè)年度h指數(shù)的加權(quán)平均值,加權(quán)H指數(shù)大的用戶,他們的好友數(shù)、活躍度、主頁(yè)訪問(wèn)量和在線時(shí)長(zhǎng)等指標(biāo)均表現(xiàn)較好,除個(gè)別用戶指標(biāo)值低于平均值,其他用戶均顯著高于平均值。從H值的分布情況看,克服了高影響特征測(cè)度指數(shù)h變化不靈敏這一缺點(diǎn),新用戶通過(guò)一定時(shí)間的積累也能積累出較高的H值。以楊正瓴(Id=107667)為例,雖然在2008年便注冊(cè)了博客,但直到最近兩年才開(kāi)始在平臺(tái)上活躍,他在兩年內(nèi)發(fā)表了43篇高互動(dòng)量的博文,占其總博文數(shù)的78.18%,而其H值排名達(dá)到了59位。
五、結(jié)論與不足
研究表明,三種測(cè)度方法中,均值測(cè)度指標(biāo)計(jì)算的數(shù)學(xué)邏輯存在明顯的缺陷,指標(biāo)的計(jì)算雖然同時(shí)考慮到了博文數(shù)量和統(tǒng)計(jì)觀測(cè)量的大小,但是簡(jiǎn)單的均值計(jì)算容易將極端情況(博文數(shù)量極小但統(tǒng)計(jì)觀測(cè)量很大)視作用戶的影響力;高影響特征測(cè)度只考慮了特定觀測(cè)年度內(nèi)高互動(dòng)博文的數(shù)量,而忽視了不同用戶在不同觀測(cè)年度下的用戶特征差異,使得指標(biāo)的設(shè)計(jì)存在不足;加權(quán)髙影響特征測(cè)度不僅克服了均值測(cè)度指標(biāo)的數(shù)學(xué)邏輯缺陷,也彌補(bǔ)了高影響特征測(cè)度忽視用戶在不同觀測(cè)年度下特征差異的不足,整合考慮了不同觀測(cè)年度下,用戶發(fā)文質(zhì)量和發(fā)文數(shù)量對(duì)用戶影響力評(píng)估的作用,較好地進(jìn)行量化分析用戶間的具體差距。
本文尚存在以下局限。首先,影響博客用戶影響力的因素有很多,綜合H指數(shù)僅僅反映了一個(gè)方面,比較適用于評(píng)價(jià)博文數(shù)量大的用戶。此外,具有不同特征的用戶在線學(xué)術(shù)社交行為可能存在較大的差異,需要更多的數(shù)據(jù)來(lái)證實(shí),以科學(xué)網(wǎng)博客為例,精選博文用戶數(shù)以千計(jì),樣本數(shù)量更大,可以作為后續(xù)研究核心用戶使用行為特征的數(shù)據(jù)源。
參考文獻(xiàn):
[1]賀靚.科學(xué)網(wǎng)博客研究[D].湖南大學(xué),2014.
[2]史新艷,肖仙桃.國(guó)外學(xué)術(shù)博客研究進(jìn)展與趨勢(shì)[J].情報(bào)資料工作,2010(02).
[3]呂鑫,袁勤儉,宗乾進(jìn),等.學(xué)術(shù)博客研究述評(píng)[J].圖書(shū)情報(bào)工作,2012(06).
[4]甘春梅,王偉軍.學(xué)術(shù)博客的概念、類(lèi)型與功能[J].信息資源管理學(xué)報(bào),2015(01).
[5]吳鋼.博客對(duì)圖書(shū)情報(bào)學(xué)傳統(tǒng)學(xué)術(shù)交流影響的實(shí)證分析[J].情報(bào)資料工作,2009(03).
[6]張琦,徐志武,賀鈺瀅.科學(xué)網(wǎng)博客用戶價(jià)值研究[J].知識(shí)管理論壇,2017(04).
[7]徐佳寧,孫婧.基于社會(huì)網(wǎng)絡(luò)分析的博客自組織實(shí)證研究[J].情報(bào)探索,2014(12).
[8]王曰芬,王怡,賈新露.學(xué)術(shù)博客核心用戶內(nèi)容創(chuàng)作行為特征研究[J].圖書(shū)與情報(bào),2017(03).
[9]張曉陽(yáng),李曉亮.科學(xué)家博客h指數(shù)評(píng)價(jià)及其相關(guān)性分析[J].圖書(shū)情報(bào)工作,2010(02).
[10]盧露,丁才昌.社區(qū)中最具影響力博客的探測(cè)模型[J].計(jì)算機(jī)科學(xué),2011(S1).
[11]李墨珺.博客質(zhì)量的評(píng)價(jià)及其對(duì)學(xué)術(shù)交流的影響[J].情報(bào)資料工作,2008(02).
[12]周春雷.鏈接內(nèi)容分析視角下的科學(xué)網(wǎng)博客評(píng)價(jià)探索[J].圖書(shū)情報(bào)知識(shí),2012(04).
[13]鄭超,陳峰.科學(xué)家博客h指數(shù)與科學(xué)家h指數(shù)相關(guān)性分析[J].圖書(shū)館學(xué)研究,2013(03).
[14]趙傳彪.基于科學(xué)網(wǎng)的圖書(shū)館學(xué)學(xué)者學(xué)術(shù)影響力的評(píng)價(jià)與研究[J].圖書(shū)情報(bào)工作,2015(S1).
[15]曹沖.科學(xué)網(wǎng)圖情博主學(xué)術(shù)影響力分析[D].鄭州大學(xué),2017.
[16]王琛.學(xué)術(shù)博客影響力評(píng)價(jià)研究[D].山西財(cái)經(jīng)大學(xué),2018.
[17] 葉鷹.國(guó)際學(xué)術(shù)評(píng)價(jià)指標(biāo)研究現(xiàn)狀及發(fā)展綜述[J].情報(bào)學(xué)報(bào),2014(02).
(作者單位:江蘇大學(xué)科技信息研究所)