王林 潘陳益 朱文靜
〔摘 要〕考慮到微博與傳統(tǒng)文獻(xiàn)的相似性,本文旨在探索h指數(shù)、g指數(shù)和p指數(shù)在微博影響力評價中的應(yīng)用,通過對比三者的評價結(jié)果來探索3種指數(shù)在微博影響力評價上的合理性和各自的特點。首先,基于信息計量領(lǐng)域中的h指數(shù)、g指數(shù)和p指數(shù)的定義,針對微博轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)構(gòu)建9項微博影響力評價指標(biāo);然后,以40所“雙一流”高校的微博為實證對象,通過整體對比、相關(guān)性分析等方法,將h指數(shù)、g指數(shù)和p指數(shù)對微博影響力的評價結(jié)果進(jìn)行了對比。結(jié)果表明3個指數(shù)在微博影響力評價中都有一定合理性;在區(qū)分度方面,g指數(shù)和p指數(shù)都優(yōu)于h指數(shù),其中,p指數(shù)最具優(yōu)勢,并能挖掘高影響力的非活躍用戶;在敏感度方面,h指數(shù)不易受極端值影響,更適合評價微博影響力。
〔關(guān)鍵詞〕微博;影響力;評價;h指數(shù);g指數(shù);p指數(shù)
DOI:10.3969/j.issn.1008-0821.2018.06.002
〔中圖分類號〕G206 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2018)06-0011-08
〔Abstract〕Considering the similarities between microblog and traditional literature,this paper aimed to explore the application of h-index,g-index and p-index in the evaluation of microblogs impact and compared the evaluation results of the three to explore the rationality and characteristics of the three indexes on the evaluation of microblogs impact.First of all,based on the definitions of h-index,g-index and p-index in the field of information measurement,this study put forward nine indexes for the evaluation of microblogs impact for forwarding,commenting and liking.Then,it took the campus microblog as the research object,through the overall comparison,correlation analysis and other methods,to compare the evaluation results of microblogs impact based on h-index,g-index and p-index.The results showed that the three indices had their rationality in the evaluation of microblogs impact.In terms of discrimination,both the g-index and the p-index were better than the h-index.Among them,the p-index had the most advantages and could find high-impact inactive users.In terms of sensitivity,the h-index was less susceptible to extreme values,which was more suitable for the evaluation of microblogs impact.
〔Key words〕microblog;impact;evaluation;h-index;g-index;p-index
微博自2009年開始內(nèi)測之后,依賴其巨大的用戶數(shù)量、便捷的信息發(fā)布途徑以及裂變式的多點線面的信息傳播方式,逐漸成為信息傳播和共享的重要平臺。2016年,微博的活躍用戶出現(xiàn)了高速增長,月活躍用戶數(shù)達(dá)到3.13億,而日活躍人數(shù)也達(dá)到1.39億[1]。自2010年的微博熱潮,政府、企業(yè)紛紛加入,各高校也逐漸開通微博。截至2017年10月,在新公布的42所“雙一流”大學(xué)中,已有40所高校開通官方微博。高校微博對于促進(jìn)學(xué)校信息公開、增加學(xué)校與師生溝通交流、塑造學(xué)校親民形象、增強(qiáng)學(xué)生凝聚力等具有重大影響[2],如何科學(xué)客觀地評價高校微博影響力成為微博運(yùn)營團(tuán)隊和學(xué)者們關(guān)注的重要課題。
相對于傳統(tǒng)的文獻(xiàn),微博信息可以看成是由大眾創(chuàng)造的非正式、篇幅短小的文獻(xiàn)[3]。因此可以將微博視作短篇文獻(xiàn)進(jìn)行研究,繼而一些文獻(xiàn)計量學(xué)的相關(guān)指標(biāo)也能夠被移植到微博影響力評價的應(yīng)用中,如h指數(shù)就是其中的重要借鑒指標(biāo)[4-6]。但基于h指數(shù)延伸的改進(jìn)指數(shù),如g指數(shù)和p指數(shù),卻很少應(yīng)用到微博影響力評價中。因此,本文以h指數(shù)、h指數(shù)和p指數(shù)為基礎(chǔ),構(gòu)建微博影響力評價指數(shù),并選取高校微博為實證對象,對其微博影響力進(jìn)行評價,通過對三者的評價結(jié)果進(jìn)行對比來探索3種指數(shù)在微博影響力評價上的合理性和各自的特點。這對完善微博影響力評價方法和拓寬信息計量指標(biāo)的應(yīng)用領(lǐng)域具有一定理論意義,同時,客觀準(zhǔn)確地評價高校微博影響力對高校微博建設(shè)也有一定實踐意義。
1 微博影響力相關(guān)研究
微博影響力是微博用戶直接或間接產(chǎn)生影響的能力[7],由于用戶行為可以影響他人或被他人影響[8],因此常被用來作為影響力評價的主要因素。微博用戶行為主要包括轉(zhuǎn)發(fā)、評論和點贊等。
如何更好地評價微博影響力是近年來關(guān)于微博研究的熱點之一。當(dāng)前對微博影響力評價方法最常見的有2種:1)通過對微博影響力相關(guān)因素的考量進(jìn)行指標(biāo)的選取,利用統(tǒng)計學(xué)分析確定微博影響力評價指標(biāo)。如國外學(xué)者Cha等利用被跟隨、轉(zhuǎn)推(Retweet)和提及(Mention)3種行為來表征Twitter用戶的影響力,并利用斯皮爾曼等級相關(guān)系數(shù)對3種影響力進(jìn)行兩兩比較從而確定最終結(jié)果[7];國內(nèi)學(xué)者郝曉玲等從粉絲、博主行為、微博、博主關(guān)注者4個部分對企業(yè)家微博影響力的構(gòu)成要素進(jìn)行分析,最后利用主成分分析方法對要素進(jìn)行歸類,確認(rèn)受眾廣度、微博受關(guān)注度、微博價值度、好友圈價值度4個構(gòu)成要素[9]。2)通過將傳統(tǒng)的網(wǎng)頁等級指標(biāo)PageRank移植到微博環(huán)境中,利用社交網(wǎng)絡(luò)大數(shù)據(jù)對微博用戶影響力進(jìn)行評價,即利用微博用戶與網(wǎng)頁鏈接之間的相似性,建立適合微博的指標(biāo)。比如Weng等人為了尋找高影響力的Twitter用戶,構(gòu)造了基于PageRank的TwitterRank排序算法[10],Boyd等人則將PageRank與用戶行為結(jié)合起來,構(gòu)造了Twitter User Rank[11],在此基礎(chǔ)上,李軍等人針對中國微博環(huán)境提出了Weibo User Rank[8]。
上述評價方法較為常見,但綜合來看亦存在一些不足:1)相關(guān)因素的選取過程易受學(xué)者主觀因素影響,缺乏客觀性;2)相關(guān)因素之間的相關(guān)性將會影響結(jié)果的準(zhǔn)確性,使統(tǒng)計分析過程變得繁瑣;3)以PageRank為基礎(chǔ)的計算方法需要繪制用戶微博關(guān)系圖,并利用社會網(wǎng)絡(luò)知識確定權(quán)重,其中的數(shù)據(jù)獲取和計算過程較為復(fù)雜。
基于此,有學(xué)者將文獻(xiàn)計量指標(biāo)移植到微博環(huán)境中,相較而言,利用這種方法進(jìn)行評價時只需要獲取與用戶行為相關(guān)的轉(zhuǎn)發(fā)、評論和點贊數(shù)據(jù),在數(shù)據(jù)的獲取和計算方面更為便捷,計算結(jié)果也更加客觀?,F(xiàn)已移植的文獻(xiàn)計量指標(biāo)只有h指數(shù),比如,Bornmann等人以h指數(shù)為基礎(chǔ)構(gòu)造新指標(biāo)對Twitter的影響力進(jìn)行研究[4],安璐等人利用h指數(shù)對高校微博影響力進(jìn)行評價[5]。h指數(shù)被證明可以移植到微博環(huán)境中,但其本身存在的一些不足也被帶入到微博環(huán)境,比如,對高被引文獻(xiàn)不敏感,對擁有相同h指數(shù)的2個研究人員缺乏區(qū)分度等。h指數(shù)的2個改進(jìn)指標(biāo)——g指數(shù)和p指數(shù),在靈敏度和區(qū)分度上有了很大的改進(jìn),但他們在微博影響力評價中的應(yīng)用較少。
綜上所述,本文嘗試選取h指數(shù)、g指數(shù)和p指數(shù)3種文獻(xiàn)計量指標(biāo),構(gòu)建微博影響力的評價指標(biāo),并通過實證來對比三者的評價結(jié)果,探索3種指數(shù)在微博影響力評價上的合理性和各自的特點。
2 基于h、g、p指數(shù)的微博影響力評價指標(biāo)的構(gòu)建
由于微博與文獻(xiàn)存在一定的相似性,如用戶在一定時間內(nèi)的發(fā)博數(shù)與學(xué)者的發(fā)文量相似,單篇微博的轉(zhuǎn)發(fā)量與學(xué)者單篇論文的被引頻次也存在一定的相似性,已有不少文獻(xiàn)針對h指數(shù)在微博中的應(yīng)用做了研究,并驗證了其合理性[4-6]??紤]到g指數(shù)和p指數(shù)均是h指數(shù)的改進(jìn)指標(biāo),本文嘗試借鑒前人使用h指數(shù)評價微博影響力的經(jīng)驗,將g指數(shù)和p指數(shù)應(yīng)用于評價微博影響力。接下來,本文將先概述原始概念,再在其基礎(chǔ)上,構(gòu)建基于h指數(shù)、g指數(shù)和p指數(shù)的微博影響力評價指標(biāo)。
2.1 相關(guān)概念
2.1.1 h指數(shù)
H指數(shù)由Jorge E Hirsch最初提出,旨在評價科學(xué)家學(xué)術(shù)成就,其定義為:若一位科學(xué)家的h指數(shù)為h,那么說明他的N篇論文中有h篇論文,其中每一篇論文的被引次數(shù)至少為h,且其它的(N-h)篇論文中每一篇的被引次數(shù)都小于h[12]。由于其計算簡單、可移植性強(qiáng)、結(jié)果相對穩(wěn)定準(zhǔn)確且易操作[13],經(jīng)常被用于其他領(lǐng)域,比如期刊[14]、高校[15]、機(jī)構(gòu)[16]等。h指數(shù)雖簡單易用,但仍存在對集中的高被引論文不敏感、對擁有相同h指數(shù)的研究者缺乏區(qū)分度、不利于對年輕科學(xué)家進(jìn)行評價等難以克服的缺陷[17]。
2.1.2 g指數(shù)
針對h指數(shù)對高被引文獻(xiàn)不敏感的缺點,Egghe在2006年提出g指數(shù)[18],其定義為:將論文按被引次數(shù)高低排序,并且計算排序序號的平方,將被引次數(shù)逐次累加,當(dāng)序號平方等于累計被引次數(shù)時,該序號就被定義為g指數(shù)。如果序號平方不能恰好等于而是小于對應(yīng)的累計被引次數(shù),則最接近累計被引次數(shù)的序號就是g指數(shù)。g指數(shù)能很好地反映高被引文獻(xiàn),體現(xiàn)了高被引文獻(xiàn)對學(xué)者影響力的作用,彌補(bǔ)了h指數(shù)對高被引文獻(xiàn)不敏感的不足,但依然存在區(qū)分度低和操作繁瑣的缺陷。
2.1.3 p指數(shù)
h指數(shù)提出之后,不少學(xué)者通過數(shù)學(xué)推理證明了其與發(fā)文量和引文量之間的關(guān)系,最后G.Prathap在前人的研究基礎(chǔ)上認(rèn)為(C2/N)1/3的內(nèi)涵豐富,可模擬h指數(shù)的功能,提出了p指數(shù),p指數(shù)公式見公式(1)。其中,C代表學(xué)者所發(fā)表文章的總被引頻次,C/N代表篇均被引率[19-20]。
p指數(shù)可繼承h指數(shù)的優(yōu)點,兼顧論文的數(shù)量(C)與質(zhì)量(C/N),同時,又可以彌補(bǔ)h指數(shù)區(qū)分度低的缺陷[8]。因此,目前,p指數(shù)在學(xué)者影響力[20-21]、期刊影響力[22]和網(wǎng)絡(luò)期刊的傳播力[23]評價方面都有了很好的應(yīng)用效果。
2.2 微博影響力指標(biāo)構(gòu)建
在微博環(huán)境中,用戶行為是影響力評價的主要因素[10],與文獻(xiàn)影響力主要由被引頻次表征不同,每位用戶對微博的轉(zhuǎn)發(fā)、評論或點贊均能體現(xiàn)微博影響力。因此將3個指數(shù)應(yīng)用到微博影響力評價時,被引頻次延伸為微博的轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù),即h指數(shù)將對應(yīng)微博中的轉(zhuǎn)發(fā)h指數(shù)、評論h指數(shù)和點贊h指數(shù),g指數(shù)和p指數(shù)同理。接下來,本文將參考前人的研究,針對微博的轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù),分別基于h指數(shù)、g指數(shù)和p指數(shù)構(gòu)建微博影響力評價指標(biāo)。
2.2.1 基于h指數(shù)
參考h指數(shù)的定義以及前人對h指數(shù)應(yīng)用的研究,本文將構(gòu)建基于h指數(shù)的轉(zhuǎn)發(fā)h指數(shù)(用符號ht表示)、評論h指數(shù)(用符號hc表示)和點贊h指數(shù)(用符號hl表示)。其中ht指數(shù)的定義為:若一段時間內(nèi),1個微博用戶的ht指數(shù)為ht,那么說明他的N篇微博中,有ht篇微博每一篇微博的轉(zhuǎn)發(fā)數(shù)至少為ht,且其它的(N-ht)篇微博中每一篇的轉(zhuǎn)發(fā)數(shù)都小于ht。具體獲取時,可以將一段時間內(nèi)某一個微博用戶所有微博轉(zhuǎn)發(fā)數(shù)降序排列,并標(biāo)明序號;然后,找出其中序號不大于其對應(yīng)轉(zhuǎn)發(fā)數(shù)的最大值,這個序號即是該用戶的ht指數(shù)。由定義可知,ht指數(shù)是轉(zhuǎn)發(fā)數(shù)大于等于序號的最大序號,而這ht篇微博是最能反映微博用戶轉(zhuǎn)發(fā)水平的核心微博,因此,最能反映用戶轉(zhuǎn)發(fā)水平的核心微博越多,ht指數(shù)越大,其微博影響力也就越大。
評論h指數(shù)和點贊h指數(shù)概念基本類似,此處不再闡述。
2.2.2 基于g指數(shù)
基于g指數(shù)定義,參考微博環(huán)境中h指數(shù)的定義,本文將構(gòu)建基于g指數(shù)的對轉(zhuǎn)發(fā)g指數(shù)(用符號gt表示)、評論g指數(shù)(用符號gc表示)和點贊g指數(shù)(用符號gl表示)。其中g(shù)t指數(shù)的定義為:將微博按轉(zhuǎn)發(fā)數(shù)高低排序,并且將排序的序號平方,轉(zhuǎn)發(fā)數(shù)逐次累加,當(dāng)序號平方等于累計轉(zhuǎn)發(fā)數(shù)時,該序號就被定義為gt指數(shù)。如果序號平方不能恰好等于而是小于對應(yīng)的累計被引次數(shù),則最接近累計被引次數(shù)的序號就是gt指數(shù)。由定義可知,gt指數(shù)是累計轉(zhuǎn)發(fā)數(shù)大于等于序號平方的最大序號,相對于ht指數(shù),其增強(qiáng)了高轉(zhuǎn)發(fā)的影響力,也就是說,轉(zhuǎn)發(fā)數(shù)排序靠前的微博在一定程度上決定了微博最終影響力,排序靠前微博的轉(zhuǎn)發(fā)數(shù)越大,gt指數(shù)將越大,微博影響力將越大。
評論g指數(shù)和點贊g指數(shù)概念基本類似,此處不再闡述。
2.2.3 基于p指數(shù)
基于公式(1),將表征論文數(shù)量的總被引頻次(C)引申為微博轉(zhuǎn)發(fā)數(shù)量、評論數(shù)量和點贊數(shù)量,將表征論文質(zhì)量的篇均被引率(C/N)引申為微博篇均轉(zhuǎn)發(fā)數(shù)、篇均評論數(shù)和篇均點贊數(shù),得到轉(zhuǎn)發(fā)p指數(shù)(用符號pt表示)、評論p指數(shù)(用符號pc表示)和點贊p指數(shù)(用符號pl)的公式(2)~(4)。
P指數(shù)的3個指標(biāo),都直接表征了轉(zhuǎn)發(fā)、評論和點贊的數(shù)量和質(zhì)量。以轉(zhuǎn)發(fā)p指數(shù)為例,其轉(zhuǎn)發(fā)數(shù)量(總轉(zhuǎn)發(fā)數(shù))與轉(zhuǎn)發(fā)質(zhì)量(篇均轉(zhuǎn)發(fā)數(shù))的乘積越大,pt指數(shù)就越大,其微博影響力也越大。
3 實證研究
如何客觀準(zhǔn)確評價高校微博影響力對高校微博建設(shè)有一定指導(dǎo)意義,因此本文將以40所“雙一流”高校微博為實證對象,獲取微博的各項指數(shù),并對各指數(shù)的評價結(jié)果進(jìn)行對比探究,探索3種指數(shù)在微博影響力評價上的合理性,并探究其各自的特點。
3.1 數(shù)據(jù)收集與處理
高校微博研究往往以月或周為時間單位[5-6],為了減少偶然因素的影響,本文將以月為單位。考慮到原創(chuàng)微博才能體現(xiàn)高校微博的創(chuàng)新性和主動性,更能體現(xiàn)校園微博真正的影響力[6],筆者將選取發(fā)博時間在2017年9月1日至2017年9月30日之間的各個高校的原創(chuàng)微博數(shù)據(jù)。利用Gooseeker爬蟲軟件爬取這40個官方微博號在這段時間內(nèi)的所有原創(chuàng)微博及其轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù),總共爬取到7 069條微博,以上信息收集日期為2017年10月18日至2017年10月20日。
對數(shù)據(jù)進(jìn)行簡單整理排序后,利用各指數(shù)的定義計算出40個微博的ht指數(shù)、hc指數(shù)、hl指數(shù)、gt指數(shù)、gc指數(shù)、gl指數(shù)、pl指數(shù)、pc指數(shù)和pl指數(shù)。對數(shù)據(jù)進(jìn)行簡單的描述性統(tǒng)計,結(jié)果見表1。由表1可以看出,g指數(shù)和p指數(shù)的數(shù)值極差和均值都比h指數(shù)大,其中,基于轉(zhuǎn)發(fā)評論的3個指數(shù)均值較為接近,而基于點贊的指數(shù)均值較大。初步可以看出,g指數(shù)和p指數(shù)的區(qū)分度比h指數(shù)大。
將40個高校微博基于每個指數(shù)進(jìn)行排名,排名結(jié)果匯總見表2。由表2可以大致看出,40所“雙一流”高校里,武漢大學(xué)、鄭州大學(xué)、廈門大學(xué)、浙江大學(xué)和北京大學(xué)是微博影響力較大的幾所,而北京航空航天大學(xué)、哈爾濱工業(yè)大學(xué)、新疆大學(xué)則是微博影響力較低的幾所,高影響力高校在轉(zhuǎn)發(fā)、評論和點贊上總有一項表現(xiàn)特別優(yōu)異,而低影響力高校在三者上的表現(xiàn)都較差。
接下來,筆者將針對指數(shù)的計算結(jié)果和基于各指數(shù)的排名結(jié)果對各指數(shù)進(jìn)行分析和對比。
3.2 指標(biāo)分析與對比
由于前人已經(jīng)證明了h指數(shù)應(yīng)用于微博影響力評價的合理性,所以本文在進(jìn)行指標(biāo)對比的過程中,以h指數(shù)作為主要對比對象,基于三者之間的一致性、差異性和相關(guān)性等方面將g指數(shù)(包括gt、gc、gl)和p指數(shù)(包括pt、pc、pl)的結(jié)果跟h指數(shù)(包括ht、hc、hl)的結(jié)果分別進(jìn)行比較,分析并得出最終結(jié)論。
3.2.1 基于各指數(shù)排名的一致性與差異性
對表2基于各指數(shù)的排名結(jié)果匯總進(jìn)行整體對比,對各指標(biāo)的一致性和差異性進(jìn)行分析。
1)一致性
基于轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)對3個指數(shù)分別進(jìn)行對比,發(fā)現(xiàn)排名靠近首尾的高?;鞠嗤?。這說明,3個指數(shù)在對高影響力和弱影響力用戶的微博影響力評價上有一定的一致性,即核心微博、排序靠前的微博以及所有微博的轉(zhuǎn)發(fā)、評論和點贊水平在高影響力和弱影響力的表現(xiàn)上相似。具體的,就轉(zhuǎn)發(fā)指數(shù)而言,武漢大學(xué)在各指標(biāo)上的排名都靠前,不僅反映其轉(zhuǎn)發(fā)水平的核心微博較多,其排序靠前的微博轉(zhuǎn)發(fā)數(shù)也較大,同時,其微博的總轉(zhuǎn)發(fā)數(shù)和篇均轉(zhuǎn)發(fā)數(shù)也處在較高水平,而哈爾濱工業(yè)大學(xué)則3項都表現(xiàn)較差。同時,這也表明,在尋找高影響力微博用戶上,g指數(shù)、p指數(shù)的表現(xiàn)與h指數(shù)相同,證明了g指數(shù)、p指數(shù)評價微博影響力的合理性。
2)差異性
筆者主要從區(qū)分度和敏感度等方面去分析3個指數(shù)的差異性。
區(qū)分度方面,p指數(shù)和g指數(shù)要優(yōu)于h指數(shù),其中p指數(shù)區(qū)分度最優(yōu)。以轉(zhuǎn)發(fā)指數(shù)為例,ht指數(shù)中,40所高校有9個重復(fù)值;而gt指數(shù)有7個重復(fù)值;而所有微博轉(zhuǎn)發(fā)pt指數(shù)都不同。由此可見,3個指數(shù)的區(qū)分度排名為:p指數(shù)>g指數(shù)>h指數(shù)。
敏感度方面,g指數(shù)和p指數(shù)對單條高轉(zhuǎn)發(fā)、高評論或高點贊微博更敏感。在對3項指數(shù)差異較大的微博號進(jìn)行查找時發(fā)現(xiàn),天津大學(xué)ht指數(shù)排序為5,而gt指數(shù)和pt指數(shù)排序升至第一、第二名。通過研究具體博文信息,筆者發(fā)現(xiàn),天津大學(xué)官方微博發(fā)布的一條“#小天分享#【一個過來人的考研心得——獻(xiàn)給考研路上的你】via簡書”,轉(zhuǎn)發(fā)數(shù)達(dá)到2 959,遠(yuǎn)遠(yuǎn)高于其微博平均轉(zhuǎn)發(fā)水平,說明g指數(shù)和p指數(shù)相對h指數(shù)有較高的敏感度。
另外,筆者還發(fā)現(xiàn),相對h指數(shù)和g指數(shù),p指數(shù)受發(fā)博數(shù)量影響較小。通過對3項指數(shù)差異較大的微博號進(jìn)行查找和探索,發(fā)現(xiàn)中國人民大學(xué)微博ht指數(shù)、gt指數(shù)、hc指數(shù)、gc指數(shù)、hl指數(shù)和gl指數(shù)中,ht指數(shù)為9,hc指數(shù)為10,其余全為14,排名維持在33~35,而pt指數(shù)排名在第17,pc指數(shù)排在第24,pl指數(shù)則排在第14。進(jìn)一步探究發(fā)博信息,發(fā)現(xiàn)其在1個月內(nèi)總共發(fā)送14條微博,但轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)都較高,特別是點贊數(shù),最高的為1 894。這說明,對于發(fā)博頻次較低的高校微博來說,h指數(shù)和g指數(shù)易受發(fā)博數(shù)量限制,p指數(shù)更能體現(xiàn)其真正的影響力水平。