張文君
(江蘇科技大學(xué)圖書館,江蘇鎮(zhèn)江 212100)
當(dāng)下傳統(tǒng)學(xué)術(shù)評(píng)價(jià)體系的弊病顯現(xiàn), 學(xué)術(shù)信息在線交流迅速發(fā)展, 交流模式也更為多樣化。 基于此,互聯(lián)網(wǎng)社交媒體成為學(xué)者在線交流的重要選擇。Mendeley 憑借其強(qiáng)大的社交功能和文獻(xiàn)存儲(chǔ)功能,得到學(xué)者們的廣泛關(guān)注, 成為Altmetrics 的主要指標(biāo)。 縱觀目前國(guó)內(nèi)外對(duì)其研究現(xiàn)狀發(fā)現(xiàn), 學(xué)者對(duì)于Mendeley 的替代計(jì)量學(xué)(Altmetrics)指標(biāo)的閱讀數(shù)研究已經(jīng)非常成熟,但很少有學(xué)者對(duì)Mendeley 平臺(tái)的學(xué)者相關(guān)信息及學(xué)者發(fā)表的文本內(nèi)容進(jìn)行分析。因此,本論文選取Mendeley 社群信息,對(duì)Mendeley平臺(tái)學(xué)者信息以及社群文本內(nèi)容進(jìn)行細(xì)致化研究,從學(xué)者信息、 學(xué)者發(fā)表文本內(nèi)容和文本內(nèi)容情感傾向3 個(gè)方面對(duì)其文本內(nèi)容展開研究,希望可以通過對(duì)文本內(nèi)容的深入分析,查看學(xué)者的學(xué)術(shù)跡象,探究學(xué)者的研究動(dòng)機(jī)和行為,從而進(jìn)一步地促進(jìn)學(xué)術(shù)交流和科學(xué)評(píng)價(jià),推動(dòng)Altmetrics 的深入研究。
內(nèi)容分析法是針對(duì)內(nèi)容開展系統(tǒng)、 定量和客觀的研究方法,在很多方面不同于傳統(tǒng)的分析方法。它將非定量的內(nèi)容轉(zhuǎn)化為定量可測(cè)度的數(shù)據(jù), 根據(jù)數(shù)據(jù)對(duì)材料內(nèi)容中有意義的詞句進(jìn)行定量化的事實(shí)推斷。相比其他方法,內(nèi)容分析法對(duì)組成內(nèi)容的結(jié)構(gòu)和因素會(huì)探究得更為規(guī)范化和細(xì)致化。 2013 年黃炎寧[1]選取了國(guó)內(nèi)三家傳統(tǒng)新聞媒體的官方微博, 采用內(nèi)容分析法和深度訪談法對(duì)其信息的娛樂化進(jìn)行探究,以此來闡釋社會(huì)對(duì)數(shù)據(jù)民主的困惑。 2017 年王鵬飛[2]等人借助文獻(xiàn)研究的方法對(duì)國(guó)內(nèi)外Altmetrics相關(guān)論文進(jìn)行系統(tǒng)梳理, 提出網(wǎng)絡(luò)社交媒體評(píng)價(jià)論文內(nèi)容的歸類方式, 以此作為開展Altmetrics 內(nèi)容分析的基礎(chǔ)。 2018 年劉嘉琪[3]等人將微博作為研究對(duì)象,從用戶和企業(yè)兩個(gè)角度,使用泊松回歸模型對(duì)用戶卷入情感和EGC 溝通內(nèi)容等特征開展研究。研究發(fā)現(xiàn)用戶維度里的點(diǎn)贊數(shù)、 積極的評(píng)論等會(huì)推動(dòng)用戶進(jìn)行有效轉(zhuǎn)發(fā);企業(yè)維度里描述服務(wù)、產(chǎn)品細(xì)節(jié)的內(nèi)容、 有說服力的內(nèi)容也可以刺激用戶進(jìn)行轉(zhuǎn)發(fā)關(guān)注。2018 年甘春梅[4]等人對(duì)獲取的54 篇關(guān)于網(wǎng)絡(luò)用戶行為的論文,使用內(nèi)容分析和兩階段綜述方法,重點(diǎn)分析論文涉及的研究主題、理論、自變量等。 李廣欣[5]采用內(nèi)容分析、統(tǒng)計(jì)分析和大樣本調(diào)查等方法, 探究科技類期刊所開設(shè)的微信公眾號(hào)推送文章內(nèi)容質(zhì)量特色和推送服務(wù)發(fā)展現(xiàn)狀。進(jìn)行文獻(xiàn)梳理,筆者發(fā)現(xiàn)從Altmetrics 內(nèi)容分析角度分析Mendeley平臺(tái)的研究較少, 而且文獻(xiàn)也反映出在線學(xué)術(shù)信息交流已然成為一種學(xué)術(shù)模式, 需要對(duì)其內(nèi)容進(jìn)行更為系統(tǒng)、透徹的分析。 這為筆者開展Altmetrics 內(nèi)容研究提供了一定的契機(jī)。 鑒于社交媒體學(xué)術(shù)交流的發(fā)展趨勢(shì)[6],以及對(duì)Mendeley 文本內(nèi)容探究的不足,本文提出對(duì)Mendeley 平臺(tái)Altmetrics 指標(biāo)文本內(nèi)容進(jìn)行細(xì)致化研究,推進(jìn)學(xué)術(shù)在線交流發(fā)展、改善現(xiàn)行學(xué)術(shù)影響力評(píng)價(jià)機(jī)制、 促進(jìn)Altmetrics 研究和服務(wù)的長(zhǎng)足發(fā)展。
Mendeley 是一個(gè)在線學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái),它可以獲取網(wǎng)頁(yè)上的文獻(xiàn)信息, 并將其添加到個(gè)人圖書館中。利用Python 爬取網(wǎng)站中所有群組的外部信息和內(nèi)部信息作為數(shù)據(jù)樣本,進(jìn)行論文后續(xù)研究的展開。
整個(gè)數(shù)據(jù)爬取[7]的流程一共分為兩大步驟:第一步是檢索出所有能被搜索出來的group 信息和地址并在數(shù)據(jù)庫(kù)層去重, 為了提高效率使用多線程的方式來獲取數(shù)據(jù);第二步是使用去重后的group 地址,獲取group 詳情和所有文本及評(píng)論信息。 在爬取數(shù)據(jù)過程中遇到的難點(diǎn)有兩個(gè): 一個(gè)是只有當(dāng)加載更多顯示在可視范圍內(nèi)才能真正加載數(shù)據(jù); 另一個(gè)是IP 被屏蔽,需要利用切換代理的方法實(shí)現(xiàn)爬取目標(biāo)。
數(shù)據(jù)質(zhì)量的好壞關(guān)乎研究的質(zhì)量, 本文為了探究Mendeley 的Altmetrics 指標(biāo)的文本內(nèi)容情感分析,通過python[8]直接爬取Mendeley 的社群文本學(xué)術(shù)信息數(shù)據(jù), 這在一定程度上保障了本研究的科學(xué)性、專業(yè)性和嚴(yán)謹(jǐn)性。 本文在數(shù)據(jù)處理階段,選擇多種工具相結(jié)合, 以期可以使筆者的數(shù)據(jù)處理過程盡量合理化。
對(duì)Mendeley 中106 174 個(gè)群組進(jìn)行清洗,清洗后得到2 112 個(gè)群組, 每個(gè)群組都有自己討論的專題, 對(duì)人數(shù)前10 的群組成員和組名進(jìn)行可視化分析,得到表1,分析發(fā)現(xiàn),人數(shù)排名靠前的對(duì)生物、醫(yī)學(xué)等學(xué)科較為關(guān)注,同時(shí)論文撰寫、定性研究方法等關(guān)于學(xué)術(shù)研究方法和投稿撰寫論文的較學(xué)術(shù)的群組也備受成員關(guān)注。
表1 Top10 群組人數(shù)及群組名稱
通過對(duì)Mendeley 讀者信息進(jìn)行分類,所有學(xué)科群組的讀者大多是碩士研究生、 博士研究生和博士后,但也有其他學(xué)者參加。根據(jù)平臺(tái)注冊(cè)人員的學(xué)歷進(jìn)行分析,平臺(tái)用戶一般為學(xué)歷較高的高素質(zhì)學(xué)者。
我們爬取社群中每個(gè)用戶在所在的group 所發(fā)的每條文本信息, 通過統(tǒng)計(jì)發(fā)現(xiàn), 清洗之后共得到11 561 條情感文本數(shù)據(jù),筆者利用nltk 分詞方法對(duì)情感文本數(shù)據(jù)進(jìn)行分詞處理,然后進(jìn)行數(shù)據(jù)清洗,去掉冠詞、介詞、代詞等高頻卻沒有意義的詞之后共得到41 696 條分詞,對(duì)分詞進(jìn)行詞云分析、主題分析和內(nèi)容分析。 對(duì)所有文本內(nèi)容進(jìn)行詞云可視化分析得到圖1。
圖1 群組文本內(nèi)容詞云圖
通過對(duì)Mendeley 群組原文信息進(jìn)行人工判讀,發(fā)現(xiàn)Mendeley 群組原文涉及的學(xué)術(shù)內(nèi)容不僅是學(xué)術(shù)論文,它已經(jīng)涉及學(xué)術(shù)產(chǎn)生的整個(gè)流程和軌跡,并對(duì)它的各個(gè)方面加以社會(huì)化宣傳。 本文將人工判讀結(jié)果和現(xiàn)有文獻(xiàn)結(jié)合, 將其涉及的學(xué)術(shù)交流內(nèi)容劃分為三大類,主要包括學(xué)術(shù)前沿、會(huì)議報(bào)告及專業(yè)求助,具體內(nèi)容如表2 所示。
表2 Mendeley 群組內(nèi)容分類
情感分析是自然語言處理中常見的情況, 比如電商平臺(tái)[9]商品評(píng)價(jià)、社交平臺(tái)[10]評(píng)論評(píng)價(jià)、社會(huì)輿情[11]分析等,本論文對(duì)Mendeley 平臺(tái)社群文本信息進(jìn)行情感分析, 可以幫助我們探究相關(guān)用戶對(duì)學(xué)術(shù)信息的認(rèn)同和喜愛程度, 有助于分析社會(huì)大眾對(duì)于多樣化學(xué)術(shù)信息的認(rèn)知是否存在社會(huì)風(fēng)險(xiǎn)。 本文采用搭建門控循環(huán)單元(GRU)網(wǎng)絡(luò)的深度學(xué)習(xí)方法對(duì)群組的討論內(nèi)容進(jìn)行情感分析。
3.3.1 詞向量
從本質(zhì)上講, 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)都是數(shù)字的數(shù)字。用數(shù)學(xué)向量的方式表示單詞的所有含義,用向量的數(shù)值和方向來共同表示,詞嵌入是將高維度的詞降維成多個(gè)低維度詞的過程,以期構(gòu)建語言模型,每個(gè)單詞或短語都映射到實(shí)數(shù)字段中。在底層輸入中,使用詞嵌入來表示詞組的方法極大提升了NLP 中語法分析器和文本情感分析等的效果。 Word Embedding(詞嵌入)就是將單詞映射到向量空間里,并用向量來表示。 本文的初始詞向量由詞語的索引組成,比如詞組[apple,pink]在程序生成的詞典中對(duì)應(yīng)的索引為1、2,那么[apple,pink]可表示為數(shù)組[1,2],為了將詞語進(jìn)行更高維度的表示,需要在GRU 網(wǎng)絡(luò)的第一層加入Word Embedding 層。
3.3.2 搭建GRU 網(wǎng)絡(luò)
GRU 即Gated Recurrent Unit,時(shí)長(zhǎng)短記憶網(wǎng)絡(luò)的一個(gè)最好變體。 LSTM 解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)無法很好處理遠(yuǎn)距離依賴的問題,GRU 和LSTM 具有同樣出色的結(jié)果, 甚至比LSTM 效果還要明顯。GRU 比LSTM 適用范圍更廣, 精確度更高, 由于GRU 的門數(shù)少于LSTM,且參數(shù)較少,因此訓(xùn)練起來也相對(duì)容易,并且可以防止過擬合(訓(xùn)練樣本少的時(shí)候可以使用防止過擬合,訓(xùn)練樣本多的時(shí)候則可以節(jié)省很多訓(xùn)練時(shí)間)。 因此GRU 是一個(gè)非常流行的LSTM 變體, 保持了LSTM 的效果同時(shí)又使結(jié)構(gòu)更加簡(jiǎn)單,本文使用python 的keras 模塊搭建GRU 網(wǎng)絡(luò)。
網(wǎng)絡(luò)結(jié)構(gòu)中最上層是嵌入層, 達(dá)到將低維度的詞向量轉(zhuǎn)為高維度的詞向量表示的效果,GRU 層即GRU 網(wǎng)絡(luò)的主體部分,主要應(yīng)用于自然語言和時(shí)間序列領(lǐng)域, 第三層的Dropout 層在緩解過擬合問題方面有突出貢獻(xiàn),Dense 層即全連接層,最后網(wǎng)絡(luò)的輸出層輸出該內(nèi)容的情感分類評(píng)分, 分?jǐn)?shù)區(qū)間為[0,1],與0 越遠(yuǎn),內(nèi)容更傾向消極;與1 越近,內(nèi)容更傾向積極,本文設(shè)置閾值0.3,即[0,0.3]區(qū)間內(nèi)容被判斷為消極,在[0.3,0.7]區(qū)間內(nèi)容被判斷為中性,在[0.7,1]區(qū)間中內(nèi)容被判斷為積極。
3.3.3 訓(xùn)練GRU 網(wǎng)絡(luò)
本文使用的訓(xùn)練數(shù)據(jù)是50 000 條被標(biāo)注的tweeter 評(píng)論,評(píng)論被標(biāo)注為積極和消極,沒有中性評(píng)論,為了使用這些數(shù)據(jù),同樣需要進(jìn)行分詞、去停用詞等數(shù)據(jù)清洗操作,如表3 所示。
將50 000 條數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,本文隨機(jī)抽取了5 000 條數(shù)據(jù)進(jìn)行測(cè)試不參與訓(xùn)練, 使用訓(xùn)練集對(duì)網(wǎng)絡(luò)迭代40 次后,得到的網(wǎng)絡(luò)損失值折線圖如圖2,在經(jīng)過40 次訓(xùn)練后,網(wǎng)絡(luò)的正確率已經(jīng)達(dá)到90%以上,但由于只要有足夠參數(shù),神經(jīng)網(wǎng)絡(luò)理論上可以擬合任何函數(shù), 所以使用測(cè)試集即進(jìn)行測(cè)試,最后得到網(wǎng)絡(luò)的精確度為80.04%,證明了網(wǎng)絡(luò)的有效性。
圖2 網(wǎng)絡(luò)訓(xùn)練損失
情感分類是情感分析的核心, 情感分類方法包括二分法、三分法和多元情感分類法。 其中,二分法包括積極和消極兩種,三分法包括積極、消極和中性3 種, 多元情感分類法是根據(jù)文本內(nèi)容和作者分類意圖,可以對(duì)情感進(jìn)行更加多層次細(xì)致的劃分,更加清晰的分析文本或者評(píng)論的態(tài)度, 使文本的主觀性態(tài)度可以利用定量的方式表達(dá)出來, 最終的結(jié)果可以對(duì)特定文本中觀點(diǎn)信息進(jìn)行提取, 分析其是支持還是批評(píng)。 本文筆者在對(duì)聊天數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和詞向量轉(zhuǎn)換后, 可以輸入GRU 網(wǎng)絡(luò)中進(jìn)行情感分類,最后得到的分類如圖3 所示。
圖3 情感傾向分類
從圖3 可見他們的絕大多數(shù)推文內(nèi)容 (中性內(nèi)容占87%)都對(duì)文章所涉及的問題進(jìn)行了一般性討論,其中一部分人(6%)根據(jù)文章提供了與之相關(guān)的建議。 這些因素表明了與非學(xué)術(shù)受眾互動(dòng)的真實(shí)案例。 但是,將近7%的帖子對(duì)所討論的問題提出了一些批評(píng)。而在學(xué)術(shù)文章中很少有明確的批評(píng),因此表明Mendeley 是表達(dá)感情更明確的重要科學(xué)活動(dòng)的平臺(tái)。
本文在對(duì)學(xué)術(shù)影響力評(píng)價(jià)方式尋求改變的背景下,選擇了Mendeley 平臺(tái)所有的社群數(shù)據(jù),本文共得到有效個(gè)人組建社群信息106 174 組, 有效機(jī)構(gòu)社群信息209 組。 構(gòu)成本研究的基礎(chǔ)數(shù)據(jù)集。 將Mendeley 社群內(nèi)容劃分為3 個(gè)維度,分別是社群群組維度、 社群群組原文文本維度和社群群組原文文本情感維度。其中:(1)社群群組維度主要探究“誰在使用Mendeley 增加學(xué)術(shù)成果社會(huì)影響力價(jià)值并積極參與公共事務(wù)談?wù)摗?;?) 社群群組原文文本維度主要分析“群組談?wù)撌裁磧?nèi)容”;(3)社群群組原文文本情感維度則探討了“個(gè)人學(xué)術(shù)者,學(xué)術(shù)組織以及游離于學(xué)術(shù)組織之外的學(xué)術(shù)參與大眾對(duì)于這些學(xué)術(shù)成果的情感傾向度是怎樣的”。 研究發(fā)現(xiàn):Mendeley 平臺(tái)社群群組關(guān)注學(xué)術(shù)信息; 學(xué)術(shù)信息發(fā)布者呈多元性和專業(yè)化;學(xué)術(shù)信息內(nèi)容多樣化和差異化;學(xué)術(shù)信息網(wǎng)絡(luò)輿論導(dǎo)向良好。因此Mendeley 平臺(tái)傳遞學(xué)術(shù)信息有質(zhì)量保障,具有可用性,促進(jìn)了網(wǎng)絡(luò)學(xué)術(shù)共同體的成立, 有效提升學(xué)術(shù)成果的社會(huì)價(jià)值和學(xué)術(shù)價(jià)值,在一定程度上降低了知識(shí)鴻溝現(xiàn)象,有利于知識(shí)信息的民主化。
本文的不足主要有以下4 點(diǎn):(1)本文的研究雖然選取了較全面的Mendeley 社群群組學(xué)術(shù)信息數(shù)據(jù),但是因?yàn)榫W(wǎng)站數(shù)據(jù)爬取受限制,涉及的指標(biāo)群組外部信息維度較少,只有群組名稱,群組介紹、群組成員,如果技術(shù)突破,爬取到更多的外部信息的話,分析得會(huì)更加客觀全面。 (2)筆者在對(duì)Mendeley 用戶原文涉及的內(nèi)容進(jìn)行分類時(shí)采用了人工閱讀的方法。人工判讀的方式對(duì)內(nèi)容進(jìn)行分析,不可避免地會(huì)造成一定程度上的誤差。 雖然本論文采用了兩人同時(shí)判讀的方式來預(yù)防和遏制這些可能存在的誤差,但還是會(huì)有小概率的歧義問題。未來的研究中,我們需要尋求更為客觀科學(xué)的方法來應(yīng)對(duì)可能產(chǎn)生的歧義問題。(3)社群文本內(nèi)容采用計(jì)算機(jī)語言和軟件對(duì)情感色彩進(jìn)行判斷, 軟件只能分析出研究主體情感的積極性、消極性、中性,文本內(nèi)容對(duì)主體的作用和意義暫時(shí)都沒有辦法進(jìn)行探究。 對(duì)情感傾向更為細(xì)粒度的研究和分析,也是之后研究的方向,借助其他學(xué)科實(shí)現(xiàn)文本內(nèi)容的細(xì)粒度劃分。 (4)Mendeley 雖然是學(xué)者在線學(xué)術(shù)交流的良好平臺(tái), 但是其自身的易控性,也可能帶來影響力造假,還可以進(jìn)行商業(yè)性的水軍閱讀和轉(zhuǎn)發(fā), 這些都是人為操作而出現(xiàn)的社會(huì)關(guān)注度, 這里面不涉及學(xué)術(shù)信息的交流和理性思考,這不是學(xué)術(shù)影響力而僅是相關(guān)信息的推廣力度。本文的研究并未能深入到此, 這也將是筆者之后研究的重點(diǎn)。
本文緊跟計(jì)量學(xué)發(fā)展新趨勢(shì)和學(xué)術(shù)交流在線化步伐, 以Mendeley 平臺(tái)的官方數(shù)據(jù)為研究出發(fā)點(diǎn),利用Python、Selenium、分詞模塊等工具,采用文獻(xiàn)分析法、 內(nèi)容分析法和情感傾向分析法等,對(duì)Mendeley 的社群群組展開內(nèi)容研究,探究其研究?jī)?nèi)涵和價(jià)值。本論文的研究水平和研究時(shí)間有限,內(nèi)容會(huì)存在某些局限性, 之后對(duì)Mendeley 的Altmetrics指標(biāo)的文本研究可以從以下3 個(gè)方面開展: (1)Mendeley 的Altmetrics 指標(biāo)傳遞出的學(xué)術(shù)信息評(píng)價(jià)標(biāo)準(zhǔn)。 既然希望通過學(xué)術(shù)成果的社會(huì)影響力改善現(xiàn)有的學(xué)術(shù)評(píng)價(jià)機(jī)制, 那我們就有必要對(duì)網(wǎng)絡(luò)化的學(xué)術(shù)信息的評(píng)價(jià)主體與評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行標(biāo)準(zhǔn)化。 國(guó)外高?;蛘哐芯繖C(jī)構(gòu)對(duì)于研究人員的網(wǎng)絡(luò)化學(xué)術(shù)成果的評(píng)定是由“學(xué)術(shù)委員會(huì)”進(jìn)行的,他們對(duì)網(wǎng)絡(luò)化學(xué)術(shù)成果的評(píng)定標(biāo)準(zhǔn)更多的是強(qiáng)調(diào)影響力和原創(chuàng)化,而不僅是閱讀量。 但是不管是國(guó)外學(xué)術(shù)圈還是國(guó)內(nèi)學(xué)術(shù)圈對(duì)于其評(píng)定的標(biāo)準(zhǔn)都難以規(guī)范化, 這也是影響學(xué)術(shù)成果發(fā)展的原因。因此,之后的研究筆者應(yīng)當(dāng)有意識(shí)地致力于網(wǎng)絡(luò)化學(xué)術(shù)信息質(zhì)量評(píng)判標(biāo)準(zhǔn)研究。(2)在情感傾向分析方面。 未來的研究中,筆者希望可以通過更為廣泛的文本探究, 結(jié)合工具從中提取出反映學(xué)術(shù)信息對(duì)學(xué)者、機(jī)構(gòu)和大眾影響的特征,快速自動(dòng)辨別各種態(tài)度和觀點(diǎn), 以此來推動(dòng)學(xué)術(shù)信息傳播的專業(yè)依據(jù)。在今后的研究中,可以嘗試將情感維度細(xì)分化, 從而可以從更微觀的角度探究學(xué)者和公眾對(duì)學(xué)術(shù)信息的認(rèn)知。 (3)Altmetrics 中文數(shù)據(jù)源擴(kuò)充。 我們希望可以對(duì)外文學(xué)術(shù)網(wǎng)站更加深層次的探討可以應(yīng)用到中文學(xué)術(shù)信息數(shù)據(jù)中,比如,微信、科學(xué)網(wǎng)、小木蟲和知乎等,而且現(xiàn)在Altmetric 公司搜集的學(xué)術(shù)信息以英文為主, 這就會(huì)對(duì)其他語言的學(xué)術(shù)成果信息造成一定的影響。因此,為了能夠積極促進(jìn)學(xué)術(shù)數(shù)據(jù)服務(wù)科研工作, 改變國(guó)內(nèi)Altmetrics研究與國(guó)際研究的差距, 推動(dòng)學(xué)者的在線交流和學(xué)術(shù)信息傳播, 筆者在之后的研究中需要推動(dòng)構(gòu)建適用于中文的Altmetrics 指標(biāo)數(shù)據(jù)庫(kù), 同時(shí)鼓勵(lì)國(guó)內(nèi)科研工作者積極使用多元化的科學(xué)協(xié)作和交流工具,以此來激發(fā)研究新思路、提高研究效率。