楊瑞仙 郭孟含
(1.鄭州大學(xué)信息管理學(xué)院,河南 鄭州 450001;2.鄭州市數(shù)據(jù)科學(xué)研究中心,河南 鄭州 450001)
知識是任何個人、學(xué)術(shù)機(jī)構(gòu)或商業(yè)組織前進(jìn)的動力與源泉,它不是孤立、單一存在的,而是通過知識媒介在不同實(shí)體間不斷地分解、共享、轉(zhuǎn)移、整合和交換,并在此過程中產(chǎn)生新發(fā)現(xiàn)和價值創(chuàng)造[1]。知識流動可以發(fā)生在任何交互、流動的環(huán)境中,如社交媒體與虛擬社區(qū)等,是不同個體間學(xué)習(xí)和協(xié)作的有利條件[2]。隨著社交媒體的發(fā)展,不同國家(地區(qū))、機(jī)構(gòu)和學(xué)者間互動和交流日益增多,經(jīng)管之家(原人大經(jīng)濟(jì)論壇)、科學(xué)網(wǎng)博客、小木蟲學(xué)術(shù)科研互動平臺(以下簡稱“小木蟲論壇”)、丁香園論壇、ResearchGate等學(xué)術(shù)虛擬社區(qū)逐漸成為科研人員涉足的非正式科研交流新場所。在此情景下,科研人員之間建立好友聯(lián)系、評論、推薦或互訪等形式的交流也會帶來知識流動。知識流動現(xiàn)象加速了科學(xué)的發(fā)展,也引發(fā)了不同領(lǐng)域?qū)W者的關(guān)注。長期以來,如何衡量知識流動是研究人員嘗試解決的重點(diǎn)問題。與此同時,學(xué)術(shù)虛擬社區(qū)中的核心用戶是指在人際傳播中為他人提供信息,同時也對他人施加影響的“活躍分子”[3],他們既是信息傳播過程中的主要擴(kuò)散者,也是權(quán)威起源者,由此形成了社交網(wǎng)絡(luò)中的信息級聯(lián)傳播,這在社交網(wǎng)絡(luò)的知識流動過程中發(fā)揮著至關(guān)重要的作用。由于學(xué)術(shù)虛擬社區(qū)核心用戶在知識流動過程中的關(guān)鍵地位,有效識別學(xué)術(shù)虛擬社區(qū)中的核心用戶,圍繞核心用戶開展學(xué)術(shù)虛擬社區(qū)知識流動特征的研究有助于提升社區(qū)的知識流動效率,也對社區(qū)良性發(fā)展有著重要意義。
知識流動是整個知識網(wǎng)絡(luò)的生命力所在,現(xiàn)有研究主要包括以文獻(xiàn)數(shù)據(jù)庫為研究對象和以虛擬社區(qū)為研究對象的知識流動研究。
目前,對于文獻(xiàn)數(shù)據(jù)庫的知識流動研究主要包括引用關(guān)系、共用關(guān)系和合作關(guān)系3個角度。引用關(guān)系主要指論文或期刊的引用。文獻(xiàn)的引證關(guān)系研究目前已較為成熟,如Ding C G等[4]使用專利文獻(xiàn)與學(xué)位論文間的引證數(shù)據(jù),探究知識從科學(xué)研究到實(shí)踐生產(chǎn)中的流動模式;岳增慧等[5]同樣選取文獻(xiàn)引證作為學(xué)科知識傳播路徑載體,對學(xué)科知識擴(kuò)散特征進(jìn)行系統(tǒng)研究,探究學(xué)科知識流動的規(guī)律與模式;而趙艷枝等[6]則從期刊引證關(guān)系出發(fā),以圖書情報學(xué)期刊為例,借助知識流動理論評價科技知識流動狀態(tài)及期刊在知識流動中的貢獻(xiàn)。無論是文獻(xiàn)引用還是期刊引用,其研究均與科學(xué)知識流動的動態(tài)過程密切相關(guān),以此為探尋知識流動的共性規(guī)律提供了可能。共用關(guān)系主要指關(guān)鍵詞或主題詞的共用,關(guān)鍵詞或主題詞的共用可以一定程度上揭示學(xué)科領(lǐng)域知識流動的現(xiàn)狀,如Yan E[7]利用知識貿(mào)易方法理論對JCR中的221個學(xué)科主題類間的知識貿(mào)易關(guān)系及其相關(guān)特點(diǎn)進(jìn)行分析,發(fā)現(xiàn)交通運(yùn)輸科學(xué)與材料科學(xué)的知識貿(mào)易影響力增長較大,而生物醫(yī)學(xué)、數(shù)學(xué)和物理學(xué)等知識的“貿(mào)易順差”額度較大。Darvish H等[8]同樣采用共詞分析和映射,根據(jù)論文標(biāo)題中單詞的共現(xiàn)情況確定土耳其的主要納米技術(shù)研究領(lǐng)域。合作關(guān)系則主要指作者或著者單位的共現(xiàn),作者共現(xiàn)常被用于學(xué)科知識流動網(wǎng)絡(luò)分析之中,在Ma R等[9]對學(xué)科內(nèi)跨學(xué)科交流模式的研究中,就運(yùn)用作者間引文網(wǎng)絡(luò)中的最短距離均值和知識流動均值進(jìn)行了量化;徐曉藝等[10]則基于合著論文參考文獻(xiàn)的學(xué)科分布確定論文的多學(xué)科共現(xiàn)屬性,并根據(jù)此屬性構(gòu)建合著論文的多學(xué)科共現(xiàn)網(wǎng)絡(luò),通過網(wǎng)絡(luò)的整體特征和節(jié)點(diǎn)特征對合著論文的學(xué)科流動網(wǎng)絡(luò)進(jìn)行特征分析。劉愛琴等[11]依據(jù)CNKI數(shù)據(jù)庫,基于引證關(guān)系對知識發(fā)現(xiàn)領(lǐng)域研究群體進(jìn)行知識圖譜構(gòu)建和聚類分析,構(gòu)建了知識發(fā)現(xiàn)領(lǐng)域作者群體與主題多重共現(xiàn)超網(wǎng)絡(luò)模型,提高了文獻(xiàn)數(shù)據(jù)庫知識交流的效率。文獻(xiàn)數(shù)據(jù)庫中的三大關(guān)系研究目前較為明確,通過三類關(guān)系可以對學(xué)科領(lǐng)域間知識流動狀況進(jìn)行有效量化和分析,進(jìn)而揭示文獻(xiàn)數(shù)據(jù)庫中知識流動的模式和規(guī)律。
相關(guān)研究表明,用以分析知識流動狀況的多為學(xué)術(shù)論文,但也有一些學(xué)者將知識流動的研究延伸至基金領(lǐng)域,如吳江等[12]提出基于基金代碼共現(xiàn)的學(xué)科知識流動強(qiáng)度測量方法,并采用社會網(wǎng)絡(luò)分析方法對NSFC信息系統(tǒng)的國家自然科學(xué)基金項(xiàng)目數(shù)據(jù)構(gòu)建學(xué)科知識流動網(wǎng)絡(luò),探究網(wǎng)絡(luò)的演變過程及不同學(xué)科層次內(nèi)知識的流動路徑,這一定程度上說明了知識流動在其他科學(xué)研究載體的延伸。同時,隨著互聯(lián)網(wǎng)技術(shù)的成熟,學(xué)術(shù)虛擬社區(qū)日益成為學(xué)科知識流動的重要陣地,其知識流動狀況亦成為學(xué)術(shù)界關(guān)注的熱點(diǎn)話題。
近年來,越來越多的學(xué)者借助學(xué)術(shù)虛擬社區(qū)開展學(xué)術(shù)知識交流研究。盡管目前利用學(xué)術(shù)虛擬社區(qū)進(jìn)行學(xué)術(shù)知識流動研究存在用戶認(rèn)知度和學(xué)界認(rèn)可度較低、學(xué)術(shù)信息質(zhì)量參差不齊等諸多問題,但Coleman A S[13]認(rèn)為,學(xué)術(shù)虛擬社區(qū)在學(xué)術(shù)交流、知識傳播和在線指導(dǎo)等方面發(fā)揮著積極的作用,因此,開展學(xué)術(shù)虛擬社區(qū)的知識流動研究對整個知識網(wǎng)絡(luò)而言依然具有十分重要的意義。
國內(nèi)對學(xué)術(shù)虛擬社區(qū)的研究主要集中在知識流動和社區(qū)建設(shè)兩方面。在知識流動方面,部分學(xué)者從多維視角進(jìn)行了探討,如胡昌平等[14]從學(xué)術(shù)博客中的知識交流活動出發(fā)分析博客知識交流網(wǎng)絡(luò)中的知識轉(zhuǎn)移;吳小蘭等[15]則以科學(xué)網(wǎng)為例,爬取全部用戶研究方向和好友關(guān)系數(shù)據(jù),利用簡單相關(guān)系數(shù)分析學(xué)部用戶知識流動分布關(guān)系的強(qiáng)弱,同時借助Louvain社區(qū)發(fā)現(xiàn)算法挖掘?qū)W部內(nèi)一級學(xué)科知識流動中的社區(qū)結(jié)構(gòu);彭靜等[16]則更深入地從學(xué)術(shù)虛擬社區(qū)網(wǎng)絡(luò)結(jié)構(gòu)與學(xué)習(xí)者知識構(gòu)建策略的交互作用出發(fā),對不同策略組合的知識流動效果及多因素對知識流動的作用機(jī)理進(jìn)行了探索。在學(xué)術(shù)虛擬社區(qū)建設(shè)方面,白玉[17]從小木蟲社區(qū)某一板塊出發(fā),通過社會網(wǎng)絡(luò)分析方法研究科研人員在該板塊中的交互行為特點(diǎn),探索社區(qū)成員的交流情況及存在問題,為后續(xù)學(xué)術(shù)虛擬社區(qū)的非正式交流提供建議。而李丹[18]和沈波等[19]則從整體社區(qū)出發(fā),先后對“Quora”和“知乎”的社區(qū)管理、運(yùn)行機(jī)制、用戶視角層面進(jìn)行對比分析,為提升網(wǎng)絡(luò)問答社區(qū)的吸引力和互動性提供了啟示。
而國外對學(xué)術(shù)虛擬社區(qū)的研究則主要集中于知識交流作用研究、知識交流過程研究和知識交流效率研究。在知識交流作用研究方面,Tuire P等[20]以芬蘭教育研究小組之間社會合作為對象,利用社會網(wǎng)絡(luò)分析法來探索科學(xué)的內(nèi)部關(guān)系,發(fā)現(xiàn)非正式交流對科學(xué)結(jié)構(gòu)關(guān)系形成具有重要支持作用;Oh J S等[21]以ASNS網(wǎng)站中Mendeley用戶參與在線群組模式為考察對象,著重評估來自不同學(xué)科背景的用戶在這些群體的聚集程度,發(fā)現(xiàn)在線社交網(wǎng)絡(luò)可為來自不同背景的研究人員提供一個平臺,揭示了數(shù)字網(wǎng)絡(luò)環(huán)境下非正式交流對多學(xué)科間合作的正向作用;在知識交流過程研究方面,徐佳寧[22]基于Web2.0的非正式科學(xué)交流是基于用戶創(chuàng)造內(nèi)容、互動、分享理念的新的科學(xué)交流方式,發(fā)現(xiàn)了非正式科學(xué)交流具有在線動態(tài)、多向交互等一系列特性。Jeng W等[23]則基于ResearchGate數(shù)據(jù)集中的3個學(xué)科以比較研究學(xué)術(shù)社交網(wǎng)絡(luò)上的信息交流,采用定性內(nèi)容分析和統(tǒng)計(jì)分析混合方法設(shè)計(jì),對學(xué)者如何交換學(xué)術(shù)信息和展開學(xué)術(shù)交流進(jìn)行了研究。在知識交流效率研究方面,南京大學(xué)袁勤儉團(tuán)隊(duì)[24-25]以ResearchGate平臺中的特定用戶和板塊為例,分別探究了不同用戶特征對知識交流效果和學(xué)科水平對用戶知識交流效果的影響,以期提高學(xué)術(shù)社交網(wǎng)絡(luò)知識交流效果,為改進(jìn)學(xué)術(shù)虛擬社區(qū)知識交流效率提供了思路。劉乙蓉等[26]則從信息聚合的角度出發(fā),單獨(dú)對“Quora”問答平臺中的答案聚合及優(yōu)化進(jìn)行了研究,基于信息生產(chǎn)者、信息源和信息內(nèi)容3方面的聚合對聚合答案質(zhì)量進(jìn)行評估,提出了聚合答案的改進(jìn)方向,有助于促進(jìn)知識交流效率的提高和社區(qū)的良性發(fā)展。
此外,部分學(xué)者對學(xué)術(shù)虛擬社區(qū)中兩種知識交流方式的關(guān)系進(jìn)行了關(guān)注,如張立偉等[27]基于WoS文獻(xiàn)數(shù)據(jù)和Twitter轉(zhuǎn)載數(shù)據(jù)展開了時空計(jì)量及比較分析,研究結(jié)果發(fā)現(xiàn),社交網(wǎng)絡(luò)平臺交流偏好于非正式交流。王翠萍等[28]則對微博學(xué)術(shù)信息交流行為進(jìn)行了問卷調(diào)查和綜合分析,結(jié)果發(fā)現(xiàn),微博中存在正式學(xué)術(shù)信息交流與非正式學(xué)術(shù)信息交流相互演化的趨勢。還有學(xué)者將非正式交流應(yīng)用于領(lǐng)域研究熱點(diǎn)分析,研究發(fā)現(xiàn),在領(lǐng)域研究熱點(diǎn)分析時應(yīng)以正式交流渠道為主,非正式交流渠道為輔[29]。
總體而言,學(xué)術(shù)數(shù)據(jù)庫和學(xué)術(shù)虛擬社區(qū)的發(fā)展均促進(jìn)了知識交流,其研究內(nèi)容也涉及知識交流效率、知識交流作用、知識交流機(jī)理等各個方面。而學(xué)術(shù)數(shù)據(jù)庫偏重正式交流,學(xué)術(shù)虛擬社區(qū)則偏重非正式交流,且在學(xué)術(shù)虛擬社區(qū)中,正式交流與非正式交流逐漸呈現(xiàn)出相輔相成的關(guān)系。目前,有關(guān)知識流動的已有研究大多集中在對文獻(xiàn)數(shù)據(jù)庫的研究,且研究內(nèi)容已趨于成熟。有關(guān)學(xué)術(shù)虛擬社區(qū)的知識流動研究受關(guān)注度不高。相對于文獻(xiàn)數(shù)據(jù)庫而言,學(xué)術(shù)虛擬社區(qū)更易獲得全部學(xué)科知識交流信息,且所涵蓋的學(xué)科知識較為全面,用戶間知識流動的即時交互性更強(qiáng)。此外,學(xué)術(shù)虛擬社區(qū)同樣存在反映知識流動行為的數(shù)據(jù),如好友信息、帖子轉(zhuǎn)載、評論和回復(fù)等,故而開展學(xué)術(shù)虛擬社區(qū)知識流動研究對構(gòu)建整個知識網(wǎng)絡(luò)而言顯得尤為重要。因此,本文以學(xué)術(shù)虛擬社區(qū)核心用戶為研究對象,從核心用戶、地域和研究主題等視角對知識流動特征進(jìn)行研究,以期與傳統(tǒng)知識交流研究結(jié)合,全面研判促進(jìn)學(xué)術(shù)虛擬社區(qū)知識流動的有效方法,促進(jìn)學(xué)術(shù)交流的健康發(fā)展。
作為學(xué)術(shù)虛擬社區(qū)知識流動研究的研究主題之一,用戶影響力的量化與分析對刻畫學(xué)術(shù)虛擬社區(qū)知識交流結(jié)構(gòu)有著重要意義。在用戶影響指標(biāo)體系的相關(guān)研究中,主要從信息傳播和用戶角度進(jìn)行指標(biāo)體系構(gòu)建,如李麗欣[30]結(jié)合社會網(wǎng)絡(luò)分析方法從網(wǎng)絡(luò)結(jié)構(gòu)、用戶綜合活躍度和信息傳播影響力3個維度給出了識別群體核心用戶的主要方法,為核心用戶影響力指標(biāo)體系構(gòu)建提供了基本參考;韓青菊[31]則更系統(tǒng)地從信息傳播視角切入,構(gòu)建結(jié)合用戶行為屬性、節(jié)點(diǎn)價值、博文價值等的用戶影響力評價指標(biāo)體系,進(jìn)一步細(xì)化了用戶影響力指標(biāo),不過對用戶自身指標(biāo)的關(guān)注尚顯不足。而俞彩云[32]則兼顧了兩個角度,并構(gòu)建了用戶與圈子的發(fā)文關(guān)系和關(guān)注關(guān)系兩大網(wǎng)絡(luò)模型,將用戶指標(biāo)和互動指標(biāo)均融合于社區(qū)核心用戶識別過程中,其研究具有較好的參考意義。此外,王琦[33]將學(xué)術(shù)博客平臺用戶行為劃分為主動與被動兩類行為,并設(shè)計(jì)了13個用戶行為指標(biāo)以識別核心用戶,提出較為全面的核心用戶影響力指標(biāo)體系。正是在此研究基礎(chǔ)之上,筆者發(fā)現(xiàn)用戶影響力構(gòu)建均以某一具體社區(qū)展開,部分指標(biāo)在不同學(xué)術(shù)虛擬社區(qū)間未必適用,因此,本文進(jìn)一步構(gòu)建了學(xué)術(shù)虛擬社區(qū)的用戶影響力指標(biāo)體系。
本文綜合考慮數(shù)據(jù)的可獲取性及學(xué)術(shù)虛擬社區(qū)自身的特點(diǎn),將影響學(xué)術(shù)虛擬社區(qū)用戶影響力的主要因素歸納為用戶積極性、用戶權(quán)威性和帖子影響力3個維度,其中用戶積極性的二級指標(biāo)包括:關(guān)注數(shù)、發(fā)帖數(shù)、在線時長;用戶權(quán)威性的二級指標(biāo)包括:精華帖、積分、粉絲數(shù)、丁當(dāng)數(shù);帖子影響力的二級指標(biāo)包括:帖子被收藏數(shù)、帖子被瀏覽數(shù)、帖子積分。然后采用熵權(quán)法計(jì)算各個指標(biāo)的權(quán)重,進(jìn)而計(jì)算用戶影響力的數(shù)值。學(xué)術(shù)虛擬社區(qū)用戶影響力指標(biāo)體系如表1所示。
表1 學(xué)術(shù)虛擬社區(qū)用戶影響力指標(biāo)體系構(gòu)建
PageRank算法是數(shù)據(jù)挖掘領(lǐng)域較常見的一種算法,該算法利用每一頁面的權(quán)威值評估網(wǎng)頁在網(wǎng)站中的重要性。頁面的權(quán)威值被定義為指向該頁面的其他頁面平均分配給該頁面的權(quán)威值之和,通過迭代計(jì)算可以得到該網(wǎng)頁最終等級劃分。假設(shè)用戶在社交網(wǎng)絡(luò)和問答網(wǎng)絡(luò)中均與其他用戶具有相應(yīng)的交互關(guān)系,本文將PageRank算法的思想用于識別學(xué)術(shù)虛擬社區(qū)中的核心用戶。
由于社交網(wǎng)絡(luò)為無權(quán)有向網(wǎng)絡(luò),本文根據(jù)傳統(tǒng)的PageRank算法將用戶的社交網(wǎng)絡(luò)綜合值表示為式(1):
SR(i)=(1-α)+α∑j→iSR(j)/dj
(1)
式中,dj為節(jié)點(diǎn)j的出度,α為阻尼系數(shù),在大多數(shù)情況下α取值為0.85。在真實(shí)的社會網(wǎng)絡(luò)中,若一個用戶具有大量粉絲卻沒有關(guān)注其他用戶,就可能在該頂點(diǎn)出現(xiàn)權(quán)威值滯留現(xiàn)象,使得傳遞受阻。因此,本文引入隨機(jī)沖浪模型及阻尼系數(shù)α進(jìn)行隨機(jī)跳轉(zhuǎn),以解決權(quán)威值不斷滯留的現(xiàn)象。本文將控制迭代結(jié)束的參數(shù)e設(shè)定為10-7。
學(xué)術(shù)虛擬社區(qū)中的問答網(wǎng)絡(luò)為加權(quán)有向網(wǎng)絡(luò),將兩個頂點(diǎn)之間的邊權(quán)重可表示為式(2):
wij=p(i)×Nij
(2)
式中,p(i)為利用熵權(quán)法根據(jù)用戶的積極性、權(quán)威性以及帖子影響力計(jì)算的用戶影響力,Nij為用戶i與用戶j在問答關(guān)系中出現(xiàn)的頻次。由于問答網(wǎng)絡(luò)需要考慮邊的權(quán)重,因此在計(jì)算時需要在每個頂點(diǎn)形成權(quán)威值的不對等傳遞,以真實(shí)地反映每位用戶的影響力。每個頂點(diǎn)i在問答網(wǎng)絡(luò)中的綜合值QR(i)可以表示為式(3):
QR(i)=(1-α)+α∑iQR(j)wji/∑kwjk
(3)
由社交網(wǎng)絡(luò)和問答網(wǎng)絡(luò)可計(jì)算出學(xué)術(shù)虛擬社區(qū)中用戶的綜合值,其計(jì)算過程如式(4)所示:
ZR(i)=w1SR(i)+w2QR(i)
(4)
式中,w1、w2分別表示問答網(wǎng)絡(luò)和社交網(wǎng)絡(luò)的權(quán)重。當(dāng)?shù)玫綄W(xué)術(shù)虛擬社區(qū)中所有用戶的排名后,即可取前N名用戶作為學(xué)術(shù)虛擬社區(qū)中的核心用戶。
2.3 知識流動網(wǎng)絡(luò)分析
在大多數(shù)識別核心用戶的文獻(xiàn)中,社交網(wǎng)絡(luò)分析法具有較為明顯的優(yōu)勢[34]。為了在學(xué)術(shù)虛擬社區(qū)中綜合性地識別核心用戶,本文借鑒郭博等人的研究思路[35],利用學(xué)術(shù)虛擬社區(qū)中用戶間的社交及問答等互動行為信息,構(gòu)建了一個基于學(xué)術(shù)虛擬社區(qū)的多層次綜合評價網(wǎng)絡(luò),即利用其社交關(guān)系、問答關(guān)系以及核心用戶之間的聯(lián)系,構(gòu)建一個雙層知識網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示。
圖1 雙層知識網(wǎng)絡(luò)結(jié)構(gòu)圖
根據(jù)已建立的雙層學(xué)術(shù)虛擬社區(qū)網(wǎng)絡(luò)結(jié)構(gòu),本文首先利用熵權(quán)法構(gòu)建用戶影響力評價指標(biāo)體系,在此基礎(chǔ)上構(gòu)建用戶影響力評估模型。使用用戶影響力評價模型可以得到學(xué)術(shù)虛擬社區(qū)中每位用戶的影響力值,隨后將該結(jié)果與PageRank算法結(jié)合,得到改進(jìn)的綜合性用戶影響力評價模型,用于挖掘?qū)W術(shù)虛擬社區(qū)中的核心用戶,其評估過程如圖2所示。
圖2 用戶影響力評估流程圖
結(jié)合圖1可以看出,本文基于學(xué)術(shù)虛擬社區(qū)的用戶關(guān)系和問答關(guān)系構(gòu)建了一個雙層網(wǎng)絡(luò)結(jié)構(gòu),用戶間的關(guān)注關(guān)系構(gòu)成了第一層網(wǎng)絡(luò),如U1關(guān)注了U3,則有一條從U1指向U3的單向箭頭,U1和U2間相互關(guān)注,則U1和U2間存在一條雙向箭頭。問答網(wǎng)絡(luò)由用戶的發(fā)帖和回復(fù)關(guān)系構(gòu)成,如用戶U1和U5分別提出了問題Q1和Q2,問題A1和A2回答了Q1,因此從A1和A2出發(fā)分別有一條指向Q1的單向箭頭。學(xué)術(shù)虛擬社區(qū)知識網(wǎng)絡(luò)建模過程如下:
本文將學(xué)術(shù)虛擬社區(qū)的社交關(guān)系定義為一個無權(quán)有向圖GSN=(U,E),其中GSN表示學(xué)術(shù)虛擬社區(qū)社交關(guān)系網(wǎng)絡(luò)構(gòu)建的無權(quán)有向圖,U表示用戶頂點(diǎn)集,用戶Ui∈U,E表示邊集,若用戶Ui關(guān)注了Uj,則
3.1 數(shù)據(jù)來源
“丁香園”是面向醫(yī)藥、生命科學(xué)專業(yè)人士的專業(yè)性在線交流平臺,其主站“丁香園論壇”是目前成熟在線健康社區(qū)的典型代表[36]。本文主要以“丁香園社區(qū)”中的“心血管”版塊為研究對象,遵循數(shù)據(jù)可獲得性原則,編寫Python爬蟲程序獲取“心血管”版塊的用戶信息和發(fā)帖回帖信息,其中用戶信息包括關(guān)注數(shù)、發(fā)帖數(shù)、在線時長等用戶積極性信息,精華貼、積分、粉絲數(shù)、丁當(dāng)數(shù)等用戶權(quán)威性信息,帖子被收藏數(shù)、帖子被瀏覽數(shù)以及帖子被投票數(shù)等帖子影響力信息,以及用戶的關(guān)注和粉絲的相關(guān)信息;用戶發(fā)帖回帖信息包括用戶的發(fā)帖及回復(fù)的相關(guān)數(shù)據(jù)項(xiàng),并將所獲取的數(shù)據(jù)項(xiàng)存放于PostgreSQL數(shù)據(jù)庫中。數(shù)據(jù)獲取時間為2020年6月11日—14日,共獲取9 270條用戶相關(guān)數(shù)據(jù),并利用SQL語句對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整理和清洗。
3.2 核心用戶識別
本文使用Python程序分別計(jì)算用戶積極性、用戶權(quán)威性、帖子影響力以及用戶影響力的信息熵e和權(quán)重系數(shù)w。
本文利用熵權(quán)法確定各指標(biāo)權(quán)重的過程如下:
1)原始數(shù)據(jù)標(biāo)準(zhǔn)化。對原始數(shù)據(jù)的標(biāo)準(zhǔn)化處理過程見式(5):
(5)
其中,xij表示原始數(shù)據(jù)第i個評價對象的第j個評價指標(biāo);yij表示標(biāo)準(zhǔn)化后第i個評價對象在第j個指標(biāo)上的值。
2)計(jì)算指標(biāo)j的熵值,見式(6)。
(6)
3)計(jì)算指標(biāo)j的權(quán)重。ej值越小,表明指標(biāo)效用價值越高,在評價指標(biāo)體系中所起的作用越大,權(quán)重越高。指標(biāo)j的權(quán)重見式(7):
(7)
4)各指標(biāo)加權(quán)計(jì)算綜合得分。利用加權(quán)和公式計(jì)算樣本的得分或評價值,見式(8)。
(8)
其中,S為綜合得分,wj為第j個指標(biāo)的權(quán)重。
計(jì)算結(jié)果分別如表2~表5所示。
表2 用戶積極性指標(biāo)信息熵與權(quán)重系數(shù)
表3 用戶權(quán)威性指標(biāo)信息熵與權(quán)重系數(shù)
表4 帖子影響力指標(biāo)信息熵與權(quán)重系數(shù)
表5 用戶影響力指標(biāo)信息熵與權(quán)重系數(shù)
在表2~表5計(jì)算結(jié)果的基礎(chǔ)上,計(jì)算用戶的影響力。本文參照式(10)計(jì)算用戶在社交網(wǎng)絡(luò)中的綜合值SR值,參照式(12)計(jì)算用戶在問答網(wǎng)絡(luò)中的綜合值QR,并利用熵權(quán)法計(jì)算用戶的影響力綜合值ZR,進(jìn)而識別學(xué)術(shù)虛擬社區(qū)中的核心用戶。本文將學(xué)術(shù)虛擬社區(qū)中綜合值排名前20名的用戶作為核心用戶,其綜合值排名如表6所示。
本研究的目的在于從不同維度深層次揭示學(xué)術(shù)虛擬社區(qū)知識流動特征,需要從學(xué)術(shù)虛擬社區(qū)整體網(wǎng)絡(luò)中抽取出反映不同知識屬性的個體關(guān)系網(wǎng)絡(luò),并將知識節(jié)點(diǎn)的特征數(shù)據(jù)與關(guān)系數(shù)據(jù)緊密結(jié)合,以揭示學(xué)術(shù)虛擬社區(qū)中不同主體屬性間的知識流動情況。因此,本文基于對當(dāng)前研究現(xiàn)狀的高度總結(jié),將知識網(wǎng)絡(luò)從更高維度劃分為揭示學(xué)術(shù)虛擬社區(qū)核心用戶間知識流動的核心用戶網(wǎng)絡(luò)、揭示地域間知識流動的地域網(wǎng)絡(luò)、揭示科室間知識流動的學(xué)科網(wǎng)絡(luò),以及揭示主題間知識流動的主題網(wǎng)絡(luò),以分析反映不同個體屬性間的知識流動特征。
表6 前20名用戶影響力綜合值排名(部分)
在此基礎(chǔ)上,根據(jù)學(xué)術(shù)虛擬社區(qū)核心用戶間的關(guān)注關(guān)系分別映射出學(xué)術(shù)虛擬社區(qū)地域、學(xué)科和主題間的知識流動關(guān)系,并運(yùn)用Gephi軟件對核心用戶、地域、學(xué)科以及主題等角度進(jìn)行共現(xiàn)網(wǎng)絡(luò)分析,以揭示學(xué)術(shù)虛擬社區(qū)的知識流動特征。
3.3.1 核心用戶間知識流動
根據(jù)“丁香園論壇”核心用戶間的關(guān)注關(guān)系,利用SQL語句從數(shù)據(jù)庫中匹配出200名核心用戶間的關(guān)注關(guān)系,以用戶為節(jié)點(diǎn)、用戶間的關(guān)注關(guān)系為邊構(gòu)建核心用戶間的非加權(quán)關(guān)注關(guān)系網(wǎng)絡(luò),如圖3所示。
圖3 核心用戶間的關(guān)注關(guān)系網(wǎng)絡(luò)
由圖3可知,核心用戶關(guān)注關(guān)系網(wǎng)絡(luò)圖以核心用戶為節(jié)點(diǎn)、核心用戶間的關(guān)注關(guān)系為邊。模塊化將整個網(wǎng)絡(luò)劃分為數(shù)個子模塊,同一顏色代表同一模塊,節(jié)點(diǎn)大小和標(biāo)簽與該節(jié)點(diǎn)關(guān)注度有關(guān),關(guān)注程度越高,節(jié)點(diǎn)就越大。同時采用ForceAtlas布局。
由圖3可知,入度排名靠前的核心用戶有四葉蟲、逃、zxz068、天天、yzf111等核心用戶,分別為51、48、35、34、32;出度排名靠前的有墨九歌、gerry5413、措姆強(qiáng)巴、hblyf、shwyj001,分別為53、40、39、38、34。節(jié)點(diǎn)度較大的核心用戶的路徑長度相比于邊緣用戶較小,且不同色塊聚類間的核心用戶(如四葉蟲、墨九歌)呈現(xiàn)較強(qiáng)的結(jié)構(gòu)洞特性,成為其他核心用戶間接知識交流的紐帶。同時,同一種顏色的聚類中主要核心用戶之間亦存在緊密聯(lián)系,如粉色聚類中的用戶逃和墨九歌。觀察節(jié)點(diǎn)度數(shù)還發(fā)現(xiàn),該板塊主要核心用戶為墨九歌、四葉蟲、逃、shwyj001、措姆強(qiáng)巴、指靈素、小米家的大米、無忌、吳建民等,且在不同模塊之間核心用戶的關(guān)注程度也較密切;從節(jié)點(diǎn)特征可以發(fā)現(xiàn),核心用戶間知識交流聯(lián)系強(qiáng)度綜合排在前3位的是四葉蟲、墨九歌、逃。從整體特征上看,不同節(jié)點(diǎn)間連線較為密集,整體網(wǎng)絡(luò)密度較大,大多數(shù)核心用戶間的關(guān)注關(guān)系具有明顯的交互性特征,僅有少數(shù)相對獨(dú)立。同時,若干子模塊之間核心用戶間的關(guān)注關(guān)系也較為緊密,這說明不同子模塊間核心用戶的知識交流也較為密切。綜上,從該模塊核心用戶關(guān)注關(guān)系的基本分布特征出發(fā),采用一定策略對社區(qū)內(nèi)影響力較強(qiáng)的核心用戶予以引導(dǎo),增強(qiáng)其他用戶的活躍度和參與度,對于推進(jìn)整個學(xué)術(shù)虛擬社區(qū)中用戶關(guān)系的良性發(fā)展具有借鑒意義。
3.3.2 地域間知識流動特征
為便于進(jìn)行數(shù)據(jù)分析,本節(jié)將學(xué)術(shù)虛擬社區(qū)中用戶的地域信息進(jìn)行標(biāo)準(zhǔn)化處理,統(tǒng)一映射到“省或直轄市”級別,各地域所占比例如表7所示。此外,結(jié)合核心用戶屬性信息,本文從核心用戶間的關(guān)注關(guān)系出發(fā),映射出了地域間的聯(lián)系,以地域名稱為節(jié)點(diǎn),地域間的聯(lián)系為邊,地域間發(fā)生連接次數(shù)為加權(quán)邊,構(gòu)建核心用戶地域間知識流動加權(quán)網(wǎng)絡(luò),如圖4所示。
由表7可知,在核心用戶中有60.5%的用戶分布在北京、江蘇、廣東和上海等發(fā)達(dá)地區(qū)。而中西部地區(qū)尤其是邊疆地區(qū)和國外核心用戶占比相對較少,且整體上大致呈現(xiàn)出核心用戶空間上自東向西遞減的狀況,由此社區(qū)管理者應(yīng)加大激勵力度,鼓勵中西部和國外等地域核心用戶的加入。
從圖4中根據(jù)節(jié)點(diǎn)特征可以發(fā)現(xiàn),該板塊地域間知識流動節(jié)點(diǎn)度排名靠前的核心用戶主要來自北京、浙江、廣東、山東、上海,它們處于社區(qū)知識流動的中心地域,且彼此之間知識流動也呈現(xiàn)較強(qiáng)的特征,其經(jīng)濟(jì)發(fā)展水平和醫(yī)療水平也是較為發(fā)達(dá)的。同時,邊疆省級行政區(qū)核心用戶由于占比較少,因而知識流動呈現(xiàn)出較弱的特征,與上文5個地域之間核心用戶知識流動相比較弱。從整體特征上看,學(xué)術(shù)虛擬社區(qū)中的東部沿海省份之間的知識流動趨勢明顯強(qiáng)于經(jīng)濟(jì)欠發(fā)達(dá)省份,甚至后者大部分趨于邊緣化,因此,社區(qū)管理者應(yīng)采取一定的措施加強(qiáng)經(jīng)濟(jì)欠發(fā)達(dá)省份間的知識流動,著手采用激勵性措施解決核心用戶之間知識流動空間不均的問題。除此之外,社區(qū)的國外核心用戶占比極少,因此大多呈現(xiàn)的是國內(nèi)地域間的知識流動,知識流動相對較為封閉,故而社區(qū)應(yīng)拓寬知識交流范圍,推進(jìn)社區(qū)的國際化。核心用戶來源地域分布一定程度上反映了知識流動的空間關(guān)系,從側(cè)面亦可以進(jìn)一步推測所有地域?qū)W術(shù)虛擬社區(qū)的分布和活躍情況,對進(jìn)一步建立良好的學(xué)術(shù)虛擬社區(qū)知識流動空間格局有啟發(fā)意義。
表7 核心用戶的地域分布
圖4 核心用戶地域間知識流動網(wǎng)絡(luò)
3.3.3 學(xué)科間知識流動特征
同理,本節(jié)結(jié)合核心用戶屬性信息,從核心用戶間的關(guān)注關(guān)系出發(fā),映射出了核心用戶科室間的聯(lián)系。本文將用戶所在科室視為用戶的學(xué)科,以科室信息為節(jié)點(diǎn),學(xué)科信息間的聯(lián)系為邊,不同科室間發(fā)生連接次數(shù)為權(quán)重,構(gòu)建核心用戶學(xué)科間知識流動加權(quán)有向網(wǎng)絡(luò),如圖5所示。
圖5 核心用戶間學(xué)科知識流動網(wǎng)絡(luò)
由圖5可知,不同科室信息間的入度和出度相對較為稀少,平均度為3.5,平均聚類系數(shù)為0.425。神經(jīng)科節(jié)點(diǎn)的度最大,占據(jù)社區(qū)中科室信息知識流動的核心地位,說明該板塊“神經(jīng)科”核心用戶占多數(shù)且較為活躍,與各個科室之間知識流動的聯(lián)系最為緊密,尤其與骨科、未認(rèn)證科、麻醉科、認(rèn)證用戶的知識流動聯(lián)系較為強(qiáng)烈,認(rèn)證醫(yī)師、未知和眼底的度均比較小,并且對于未知、專家CT室、眼底、認(rèn)證醫(yī)師等節(jié)點(diǎn)相對較為孤立,在社區(qū)中與其他學(xué)科知識流動的聯(lián)系比較弱,因此,對核心用戶主要科室和認(rèn)證用戶的知識交流較為關(guān)注,對于輔助科室和未知則關(guān)注較少,核心用戶間學(xué)科知識流動網(wǎng)絡(luò)整體較為分散,大多科室均聚焦于神經(jīng)科節(jié)點(diǎn),學(xué)科知識間聯(lián)系強(qiáng)度的差異很可能與不同學(xué)科知識間的相關(guān)性有關(guān),因?yàn)槿我粚W(xué)科的知識均非孤立存在,必須與關(guān)聯(lián)學(xué)科相結(jié)合才能發(fā)揮某一學(xué)科知識的專業(yè)性,如神經(jīng)科與麻醉科、神經(jīng)科與骨科;而對于專業(yè)學(xué)科外的其他節(jié)點(diǎn),如眼底等,這些科室相對較為孤立,因此在社區(qū)中與其他學(xué)科知識并未產(chǎn)生更多聯(lián)系。此外,在心血管內(nèi)科與神經(jīng)科、神經(jīng)科與未知的知識流動過程中,骨科和未認(rèn)證在其知識流動網(wǎng)絡(luò)中扮演著結(jié)構(gòu)洞的作用,成為節(jié)點(diǎn)度大和節(jié)點(diǎn)度小的科室信息聯(lián)系的樞紐??傮w來看,核心用戶之間科室信息多以神經(jīng)科為主,尤其與未認(rèn)證知識交流較為緊密,同時缺乏一些其他科室信息的知識流動,不能完全反映所有科室信息之間的知識流動狀況。對學(xué)術(shù)虛擬社區(qū)建設(shè)而言,用戶自身學(xué)科知識背景對知識流動強(qiáng)度的貢獻(xiàn)不一,應(yīng)充分發(fā)揮不同學(xué)科背景核心用戶對社區(qū)的建設(shè)合力作用。
3.3.4 核心用戶—主題詞知識流動特征
用戶發(fā)帖內(nèi)容可用于表征用戶興趣的主題方向,用戶發(fā)帖標(biāo)簽可用于概括用戶發(fā)帖信息的內(nèi)涵,故本文將用戶發(fā)帖標(biāo)簽作為表征用戶發(fā)帖標(biāo)簽的主題方向??紤]到數(shù)據(jù)的規(guī)范性,參照“丁香園論壇”的社區(qū)結(jié)構(gòu),本文將用戶的發(fā)帖標(biāo)簽統(tǒng)一映射到用戶發(fā)帖版塊中,以用戶發(fā)帖標(biāo)簽所在版塊表征用戶發(fā)帖的主題方向。為反映用戶近幾年感興趣的主題信息,本文從數(shù)據(jù)庫中篩選出用戶在2015年1月1日—2020年6月11日的發(fā)帖標(biāo)簽作為用戶感興趣的主題詞,并將每位核心用戶近5年發(fā)帖頻次最高的主題方向作為該用戶的興趣主題詞。在此基礎(chǔ)上,利用Gephi軟件生成一個包括50個節(jié)點(diǎn)和539條邊的加權(quán)核心用戶—主題詞頻次共現(xiàn)網(wǎng)絡(luò),以核心用戶主題詞為節(jié)點(diǎn),主題詞之間的聯(lián)系為邊,其權(quán)重為節(jié)點(diǎn)間重復(fù)邊出現(xiàn)的次數(shù),節(jié)點(diǎn)間邊的權(quán)重越大,其連線越粗,構(gòu)建核心用戶主題詞間的加權(quán)有向網(wǎng)絡(luò),如圖6所示。
由圖6可知,從出度和入度的累計(jì)分布來看,入度排名前幾位的主題詞是心血管、科技動態(tài)、心情驛站、骨科、站務(wù),出度排名前幾位的主題詞是心血管、骨科、科技動態(tài)、臨床執(zhí)考、心情驛站,平均度為10.78,且入度和出度均在20以上,大多數(shù)節(jié)點(diǎn)均和其他主題詞存在相互聯(lián)系且低于平均度。此外,還有個別主題詞入度為0,如皮膚性病、感染、規(guī)培。度數(shù)排名前5位的是心血管、科技動態(tài)、骨科、心情驛站、麻醉疼痛,分別為70、63、55、55、44。其中心血管成為最大度的主題詞,這可能是由于本文的研究對象為心血管版塊的用戶。同時,這5個主題詞和其他主題詞聯(lián)系最為頻繁且中心性較大,且四者處于整個主題詞共現(xiàn)網(wǎng)絡(luò)的核心區(qū)域,說明核心用戶之間的知識流動較為緊密。此外,社區(qū)中核心用戶不僅較為關(guān)注與社區(qū)主題相一致的主題詞,而且比較注重與主題詞較為接近的領(lǐng)域。60%的主題詞的聚集系數(shù)在0.4~0.6之間,平均聚類系數(shù)為0.561。節(jié)點(diǎn)中醫(yī)學(xué)類相關(guān)主題詞占多數(shù),同時可以看出該板塊社區(qū)中核心用戶較為關(guān)注的熱點(diǎn)主題詞。值得注意的是,在圖6的主題詞網(wǎng)絡(luò)中,社區(qū)相關(guān)的考試類話題和醫(yī)學(xué)前沿問題也引起了熱切關(guān)注,如考研交流、臨床執(zhí)考、職稱考試、科技動態(tài)、新藥信息、丁香熱點(diǎn)等節(jié)點(diǎn),這說明了“丁香園論壇”社區(qū)的學(xué)科屬性和社員之間知識交流的熱點(diǎn)。從整體的節(jié)點(diǎn)分布特征看,主題詞節(jié)點(diǎn)聯(lián)系的分布密度從中心向四周逐漸遞減,對于出現(xiàn)頻次不是很高的主題詞,大多與某一個或幾個主題詞產(chǎn)生不同主題詞之間的聯(lián)系。關(guān)注學(xué)術(shù)虛擬社區(qū)內(nèi)核心用戶所探討的熱點(diǎn)主題詞,有助于活躍社區(qū)氛圍,提升知識交流效率,揭示知識流動的動態(tài)特征和演化趨勢。
圖6 核心用戶—主題詞共現(xiàn)網(wǎng)絡(luò)
隨著學(xué)者間非知識交流的日益頻繁,探尋學(xué)術(shù)虛擬社區(qū)的知識流動特征亦成為學(xué)術(shù)虛擬社區(qū)建設(shè)的重要任務(wù)。礙于數(shù)據(jù)和技術(shù)等因素的限制,本文難以對呈現(xiàn)所有學(xué)術(shù)虛擬社區(qū)的知識流動特征,因此本文僅以“丁香園論壇”為研究對象,在構(gòu)建用戶影響力指標(biāo)體系的基礎(chǔ)上,應(yīng)用熵權(quán)法、社會網(wǎng)絡(luò)分析方法和PageRank算法計(jì)算用戶的綜合影響力,以此識別核心用戶。最后,利用Gephi軟件從核心用戶、地域、學(xué)科以及主題等多元維度建立共現(xiàn)網(wǎng)絡(luò),以揭示社區(qū)中的知識流動特征:①在核心用戶間的知識流動特征方面,核心用戶間的知識流動呈現(xiàn)出明顯的聚類現(xiàn)象,不同聚類模塊交接處的核心用戶呈現(xiàn)出較強(qiáng)的結(jié)構(gòu)洞特性,成為其他核心用戶間接知識交流的紐帶;②在地域間的知識流動特征方面,北上廣等發(fā)達(dá)地區(qū)位于知識流動網(wǎng)絡(luò)的中心,同時這些地域之間也呈現(xiàn)出較強(qiáng)的知識流動特征,此外,邊疆地區(qū)的知識流動較弱;③在學(xué)科間的知識流動特征方面,學(xué)科知識間的知識流動強(qiáng)度與學(xué)科知識間的內(nèi)在聯(lián)系緊密相關(guān);④在核心用戶—主題詞間的知識流動特征方面,醫(yī)學(xué)領(lǐng)域中的心血管和骨科等主題詞以及學(xué)習(xí)交流領(lǐng)域的科技動態(tài)、心情驛站等相關(guān)主題處于知識流動網(wǎng)絡(luò)中的核心地位,對于整個社區(qū)的知識流動具有關(guān)鍵作用?;谝陨现R流動特征分析,啟示整體學(xué)術(shù)虛擬社區(qū)應(yīng)積極關(guān)注知識交流的主體、趨勢、布局等方面,推進(jìn)社區(qū)知識交流的效率和效果。
本文采用復(fù)雜網(wǎng)絡(luò)的方法對學(xué)術(shù)虛擬社區(qū)中核心用戶間的知識流動特征進(jìn)行分析,為學(xué)術(shù)虛擬社區(qū)知識流動研究奠定了理論和實(shí)踐基礎(chǔ)。同時仍存在一些不足之處,例如僅對“丁香園論壇”心血管版塊的核心用戶進(jìn)行分析,研究對象的數(shù)量偏少。此外,還存在知識流動特征分析不夠深入、對地域間知識流動特征分析時數(shù)據(jù)粒度較大等問題。針對以上問題和不足,筆者將在今后繼續(xù)開展更深層次的研究。