陳必坤,程孟夏,鐘周燕,章成志
隨著網(wǎng)絡化、數(shù)字化的發(fā)展以及相關技術的進步,科研人員越來越傾向于通過網(wǎng)絡獲取數(shù)字學術文獻從事科學研究,使科研用戶的學術文獻使用數(shù)據(jù)(即學術文獻的HTML格式瀏覽數(shù)據(jù)與PDF等格式的下載數(shù)據(jù)[1])得以被記錄。在此背景下,越來越多的研究者對學術文獻使用數(shù)據(jù)進行采集、整理和挖掘分析,以發(fā)現(xiàn)與用戶使用行為相關的特點、規(guī)律,或者通過學術文獻使用數(shù)據(jù)進行相關性研究,由此產(chǎn)生了被國際學術界稱為Usage Metrics的研究熱點[2]。同時,結構化的學術文獻全文本數(shù)據(jù)也越來越容易獲取,研究者圍繞全文本數(shù)據(jù)展開了全文引文分析和實體計量學等研究,以探索用戶引證動機或者測度文獻及實體的學術影響力[3-4]等。將學術文獻使用數(shù)據(jù)與全文本數(shù)據(jù)結合進行綜合分析,將能夠從全文本數(shù)據(jù)的視角探索用戶瀏覽或下載特征與規(guī)律。
目前Usage Metrics 研究主要包括以下主題:(1)通過使用數(shù)據(jù)研究用戶行為模式,如科學家工作時間[5-6]、用戶使用偏好[7-8]以及用戶時序使用模式[9-10]等;(2)通過使用數(shù)據(jù)研究文獻老化規(guī)律,一般從歷時或共時兩方面進行分析[11-12];(3)運用使用數(shù)據(jù)探測學科領域的研究趨勢[13-14];(4)將使用數(shù)據(jù)作為評價期刊、作者、機構或國家影響力的指標,具體包括作為單個指標進行評價[15-17]或與Altmetrics指標結合進行評價[18-19]兩種形式;(5)探索使用數(shù)據(jù)與其他數(shù)據(jù)的相關性,主要包括使用數(shù)據(jù)與引用數(shù)據(jù)的相關性[20-24]、不同平臺使用數(shù)據(jù)的相關性[2,8]、使用數(shù)據(jù)與作者數(shù)量[25]或基金資助數(shù)據(jù)[26]的相關性等。最近,Chen等以PLoS期刊論文的全文本數(shù)據(jù)為例,選取計算語言學領域的多個指標(包括標題長度、摘要長度、正文長度、句子平均長度、詞匯多樣性、詞匯密度和詞匯復雜度等)對高瀏覽與高下載英文學術論文的語言學特征進行測度,以探索論文使用數(shù)據(jù)與語言學特征之間的關系[27]。
目前全文本分析主要有以下主題:通過全文本數(shù)據(jù)研究引文分析,如引用位置[28]、引文緊密度[29]、引用語境與情感[30]、引用動機和行為[31];通過全文本數(shù)據(jù)研究實體計量學,如科學概念[32]、數(shù)據(jù)集[33]、軟件[34]和算法[35];通過全文本數(shù)據(jù)研究語言寫作風格[36]、高被引或高影響力學術論文語言學特征[37]等。
綜上所述,不同學者從多個方面研究學術文獻使用數(shù)據(jù)和全文本數(shù)據(jù),取得了較豐碩的成果。然而上述Usage Metrics研究的數(shù)據(jù)來源主要限于學術論文題錄數(shù)據(jù),較少關注論文全文本數(shù)據(jù),尤其是中文全文本數(shù)據(jù)。越來越多的中文期刊官網(wǎng)或學術數(shù)據(jù)庫開始提供學術論文的HTML瀏覽數(shù)據(jù)或PDF等格式下載數(shù)據(jù),并提供HTML 格式的全文本數(shù)據(jù),給中文Usage Metrics的研究提供了新契機。從Usage Metrics視角研究中文學術論文全文本數(shù)據(jù),探索有價值的用戶特征或內(nèi)容特征,是本文研究的出發(fā)點。
科研用戶瀏覽和下載學術文獻是復雜的信息行為。一般而言,信息行為的產(chǎn)生過程涉及信息需要、信息環(huán)境、信息意識和信息動機等因素,具體表現(xiàn)為信息查尋、信息選擇和信息利用行為等形式[38]。從已有Usage Metrics研究看,用戶瀏覽和下載受到文獻語種、傳播平臺、文獻類型、文獻主題、作者數(shù)量和資助情況等因素影響。同樣地,作為學術思想和實驗過程的形式化表達,學術文獻寫作是學術文獻生產(chǎn)、傳播和使用等環(huán)節(jié)的基礎。因此,本文假設:學術文獻寫作對用戶瀏覽和下載產(chǎn)生一定程度的影響。
如何量化測度學術文獻寫作?計算語言學領域的語言學特征指標測度是常用方法[36-37]。計算語言學通過建立形式化的數(shù)學模型來分析處理自然語言,并在計算機上用程序來實現(xiàn)分析和處理過程,以達到以機器來模擬人的全部或部分語言能力的目的[39]。測度語言學特征的指標包括句法復雜度和詞匯復雜度。句法復雜度包括句子長度、復雜度等指標;詞法復雜度包括詞匯多樣性、密度和復雜度等指標[40-42]。本文主要研究高下載中文學術論文的語言學特征和不同語言學特征是否對中文學術論文的下載次數(shù)有影響。
筆者自2014年1月起開始追蹤調(diào)研CSSCI中文期刊(均含擴展版)的使用數(shù)據(jù),主要選取當時即開放獲取的期刊(少數(shù)期刊有至多半年的時滯)作為追蹤對象。根據(jù)《中文社會科學引文索引(CSSCI)來源期刊和收錄集刊(2018-2019)目錄》,選取了“圖書館、情報與文獻學”所有期刊作為研究樣本,然后對該學科所有期刊官網(wǎng)進行逐一訪問,比較和篩選不同期刊學術論文的瀏覽與下載數(shù)據(jù)。具體選擇條件如下:
(1)所選期刊為開放獲取期刊,期刊的學術論文可以在期刊官網(wǎng)供用戶瀏覽和下載,且該論文同時也被CNKI 收錄,保證用戶在期刊官網(wǎng)和CNKI都能瀏覽并下載。
(2)所選期刊論文的發(fā)表時間跨度為2014年1 月1 日至2017 年12 月31 日,以保證文獻瀏覽、下載和引用數(shù)據(jù)積累到穩(wěn)定狀態(tài)(通常是論文發(fā)表后的2-3年[43])。
(3)所選期刊官網(wǎng)提供的2014-2017年論文瀏覽或下載數(shù)據(jù)必須完整,若是相應時間段內(nèi)發(fā)表的學術論文瀏覽或下載數(shù)據(jù)缺失,則不納入抽樣范圍,以保證數(shù)據(jù)的有效性。最終選定《情報雜志》《情報資料工作》《圖書情報工作》《圖書情報知識》《現(xiàn)代情報》《信息資源管理學報》和《中國圖書館學報》等7種期刊作為研究對象。
樣本數(shù)據(jù)采集和預處理步驟如下:
(1)從CNKI上獲取所有樣本期刊論文的元數(shù)據(jù),如論文標題、作者、關鍵詞和摘要等,并通過Python語言依次自動從CNKI上采集論文的全文下載次數(shù)、被引次數(shù)和全文文本數(shù)據(jù)。
(2)通過Python語言從期刊官網(wǎng)采集樣本期刊論文的全文瀏覽次數(shù)、全文下載次數(shù)及其他元數(shù)據(jù),如論文標題和作者等。
(3)通過“論文標題and作者”字段將CNKI數(shù)據(jù)與期刊官網(wǎng)數(shù)據(jù)合并。
(4)刪除公告、新聞等,僅保留研究論文。
(5)對標題、摘要和全文數(shù)據(jù)進行處理,調(diào)用Python中文分詞軟件包Jieba對標題、摘要和全文進行分詞、去除停用詞和標點等。CNKI平臺論文元數(shù)據(jù)和使用數(shù)據(jù)獲取與處理時間為2019年7月1-3日;期刊官網(wǎng)的論文元數(shù)據(jù)和使用數(shù)據(jù)獲取與處理時間為2019年7月4-10日;論文標題、摘要和全文數(shù)據(jù)的處理時間為2019年7月11日-9月11日。
CNKI使用數(shù)據(jù)是學術論文的PDF與CAJ格式全文下載次數(shù)總和,期刊官網(wǎng)使用數(shù)據(jù)是學術論文HTML 瀏覽次數(shù)(摘要瀏覽或全文瀏覽)和PDF 全文下載次數(shù)。雖然CNKI 近年開放了HTML在線閱讀功能,但并未提供HTML全文瀏覽次數(shù),無法與期刊官網(wǎng)的全文瀏覽次數(shù)進行比較研究,因此,本文僅研究兩個平臺的學術論文(共6,257篇)全文下載次數(shù)。統(tǒng)計結果見表1。
表1 樣本數(shù)據(jù)
(1)論文分組策略。在科學計量學研究中,研究者大多選取某一期刊、學科或主題在一定時間內(nèi)(如10 年、1 年或1 個月)下載次數(shù)前10、前20、前100或前20%的論文作為研究樣本。根據(jù)“帕累托分布”(二八定律),本文選取不同期刊在不同平臺下載排名前20%的學術論文(界定為“高下載論文”)為研究對象。為了進行對比分析,不同期刊全體論文(界定為“總體論文”)、下載排名后20%的學術論文(界定為“低下載論文”)也被列入本研究范疇。
(2)語言學特征測度指標。基于以上研究,依據(jù)學術論文的基本結構及語言粒度,按照“題名、摘要、正文、句子和詞匯”的思路開展研究。標題長度、摘要長度、摘要句子長度、摘要詞匯多樣性、正文長度、正文段落長度、正文句子長度和正文詞匯多樣性等指標被選擇用來測度語言學特征等見表2。
表2 語言學特征測度指標
“合作作者數(shù)量”未被選用的原因是該指標用來測度“合作情況”[23],與語言學特征無關。此外,值得提出的是,與前期研究[27]不同,本文所選的樣本數(shù)據(jù)為中文學術文獻全文本且選用了三種全新的語言學特征測度指標。
(3)語言學特征測度指標的適用性。為驗證語言學特征測度指標的適用性,分別在期刊官網(wǎng)和CNKI 平臺進行用戶學術論文瀏覽與下載實驗,發(fā)現(xiàn)期刊官網(wǎng)用戶可以直接下載論文,或在瀏覽標題、作者、機構、關鍵詞或摘要等題錄信息后下載論文,CNKI 平臺用戶可以直接下載論文,或在瀏覽題錄信息或正文后下載論文。因此,期刊官網(wǎng)用戶下載論文時無法查看正文(表明正文未對期刊官網(wǎng)用戶下載行為產(chǎn)生影響),CNKI平臺用戶下載論文時可以查看全文(表明正文能對CNKI平臺用戶下載行為產(chǎn)生影響)。考慮到上述用戶下載行為的所有可能(直接下載;瀏覽題錄信息或正文后下載),雖然存在一定誤差,但整體上標題長度、摘要長度、摘要句子長度和摘要詞匯多樣性4個指標適用于期刊官網(wǎng)下載次數(shù),而所有語言學指標均適用于CNKI下載次數(shù)。
統(tǒng)計不同平臺不同期刊論文的語言學特征分布情況,見圖1-3,不同顏色的箱型表示不同期刊,箱型內(nèi)外的點表示不同論文,箱型中的垂直線和中空方框分別代表不同分組論文的中值和均值。應用雙樣本柯爾莫可洛夫-斯米洛夫檢驗[Two- sample Kolmogorov- Smirnov (K- S)Test],對不同平臺不同期刊的高下載論文和低下載論文數(shù)據(jù)進行統(tǒng)計檢驗,p值見表3-4;計算高下載論文次數(shù)與語言學特征指標的斯皮爾曼系數(shù)(Spearman Coefficient),結果見表5-6。
由圖1(a)可知,整體上所有期刊論文的標題長度均值超過7.5個詞。從單個期刊來看,所有期刊高下載論文的標題長度均值和中值均小于本期刊總體論文(CNKI平臺和期刊官網(wǎng)),大部分期刊官網(wǎng)高下載論文的標題長度均值和中值均小于低下載論文,CNKI 平臺則未呈現(xiàn)明顯分布特征。從期刊對比來看,整體上不同平臺不同期刊高下載論文的標題長度均值和中值差別很小。
由圖1(b)可知,整體上所有期刊論文的摘要長度均值介于60~100個詞。與總體論文和低下載論文相比,不同平臺之不同期刊高下載論文的摘要長度未呈現(xiàn)明顯分布特征。從期刊對比來看,《中國圖書館學報》高下載論文的摘要長度均值和中值最大,其次是《圖書情報知識》《圖書情報工作》和《情報雜志》,再次是《信息資源管理學報》《現(xiàn)代情報》和《情報資料工作》。筆者查詢以上期刊的官網(wǎng),發(fā)現(xiàn)《信息資源管理學報》《現(xiàn)代情報》和《情報資料工作》對摘要長度有明確規(guī)定,對以上結果存在影響。
由圖2(a)可知,除《情報資料工作》外,其余6種期刊的學術論文摘要句子長度均值小于40個詞。與總體論文和低下載論文相比,不同平臺之不同期刊高下載論文的摘要句子長度未呈現(xiàn)明顯分布特征。從期刊對比來看,《情報資料工作》高下載論文的摘要句子長度均值和中值最大,其他期刊論文的摘要句子長度差異很小。
由圖2(b)可知,所有期刊論文的摘要詞匯多樣性均值和中值超過0.6。與總體論文和低下載論文相比,整體上不同平臺之不同期刊高下載論文的摘要詞匯多樣性的均值和中值更大或持平(僅《現(xiàn)代情報》期刊官網(wǎng)的高下載論文除外)。從期刊對比來看,《情報資料工作》高下載論文的摘要詞匯多樣性均值和中值最大,其次是《信息資源管理學報》和《現(xiàn)代情報》,再次是其他期刊。
圖1 不同平臺不同期刊學術論文標題與摘要長度分布圖
由圖3(a)可知,所有期刊論文的正文長度均值和中值介于2,500~5,000 個詞。與總體論文和低下載論文相比, 整 體 上CNKI 平臺不同期刊高下載論文的正文長度均值和中值更大或持平(僅《情報資料工作》除外)。從期刊對比來看,《中國圖書館學報》高下載論文的正文長度均值和中值最大,其次是《圖書情報知識》和《圖書情報工作》,再次是其他期刊。筆者查了以上期刊的官網(wǎng),發(fā)現(xiàn)《現(xiàn)代情報》和《情報資料工作》 對正文長度有明確規(guī)定,對以上結果存在影響。
由圖3(b)可知,所有期刊論文的正文段落長度均值和中值高于100個詞。與總體論文和低下載論文相比,整體上CNKI平臺不同期刊高下載論文的正文段落長度均值和中值更大或持平(僅《圖書情報知識》除外)。從期刊對比來看,《中國圖書館學報》高下載論文的正文段落長度均值和中值最大,其他期刊論文的正文段落長度均值和中值差異很小。
由圖3(c)可知,所有期刊論文的正文句子平均長度約35個詞。與總體論文和低下載論文相比,CNKI 平臺高下載論文的正文句子長度未呈現(xiàn)明顯分布特征。從期刊對比來看,各期刊高下載論文的正文句子長度均值和中值差異很小,《圖書情報工作》略高于其他期刊。
圖2 不同平臺不同期刊學術論文摘要句子長度和詞匯多樣性分布圖
由圖3(d)可知,所有期刊論文的正文詞匯多樣性均值和中值介于0.25~0.3之間。與總體論文和低下載論文相比,整體上CNKI 平臺不同期刊高下載論文的正文詞匯多樣性均值和中值更大或持平(僅《信息資源管理學報》和《圖書情報知識》除外)。從期刊對比來看,各期刊高下載論文的正文詞匯多樣性均值和中值差異很小,《現(xiàn)代情報》和《情報資料工作》略高于其他期刊。
由表3可知,僅34%的結果通過顯著性檢驗。從語言學特征來看,摘要長度和摘要詞匯多樣性通過最多,其次是摘要句子長度,最后是標題長度。從期刊來看,《情報雜志》和《現(xiàn)代情報》顯著性檢驗通過率最高,《信息資源管理學報》均未通過。
表3 高下載和低下載論文標題和摘要語言學特征的K-S檢驗p值
圖3 CNKI平臺學術論文正文長度、段落長度、句子長度和詞匯多樣性分布圖
由表4 可知,僅32%的結果通過顯著性檢驗。從語言學特征來看,正文長度和正文詞匯多樣性顯著性檢驗通過率最高,其次是正文段落長度和正文句子長度。從期刊來看,《情報雜志》和《圖書情報工作》顯著性檢驗通過率最高,《圖書情報知識》和《中國圖書館學報》均未通過。
表4 CNKI高下載和低下載論文正文語言學特征的K-S檢驗p值
由表5 可知,不同平臺不同期刊高下載論文標題和摘要語言學特征與下載次數(shù)整體上不存在相關關系,但是部分語言學特征在特定平臺特定期刊存在相關關系。比如,《中國圖書館學報》期刊官網(wǎng)高下載論文的的下載次數(shù)與標題長度呈負弱相關關系,與摘要詞匯多樣性呈正中度相關關系。有研究發(fā)現(xiàn),中文學術論文的標題長度與下載次數(shù)之間不存在相關性[44],從這一點來講本文的研究結果與其相同。由表6 可知,不同期刊CNKI高下載論文正文語言學特征與下載次數(shù)不存在相關關系。
表5 高下載論文標題和摘要語言學特征與下載次數(shù)的斯皮爾曼系數(shù)
表6 CNKI高下載論文正文語言學特征與下載次數(shù)的斯皮爾曼系數(shù)
本文運用計算語言學方法探究高下載中文學術論文的語言學特征,分析不同語言學特征對中文學術論文的下載次數(shù)的影響。從中值和均值看,各期刊高下載論文的標題長度幾乎都小于總體論文和低下載論文,摘要詞匯多樣性、正文長度、正文句子長度和正文詞匯多樣性整體上大于總體論文和低下載論文。從顯著性檢驗結果看,整體上未通過顯著性檢驗,但特定平臺特定期刊的特定語言學特征指標通過了顯著性檢驗。因此,從本文的樣本數(shù)據(jù)來看,整體上語言學特征對中文學術論文下載次數(shù)影響很小,但是在局部范圍,語言學特征仍然具有一定影響。此外,不同平臺及不同期刊高下載論文的語言學特征也存在差異。盡管如此,樣本數(shù)據(jù)在一定程度上揭示了中文學術論文的語言學特征。比如,樣本數(shù)據(jù)的標題長度均值超過7.5個詞,摘要詞匯多樣性均值超過0.6,正文詞匯多樣性均值不超過0.3。
將本文結果與Chen等[27]對PLoS期刊高瀏覽與高下載英文學術論文的語言學特征研究的結果進行對比,從二者的樣本數(shù)據(jù)均發(fā)現(xiàn)整體上語言學特征對學術論文下載次數(shù)影響很小,但是在局部范圍,語言學特征仍然具有一定影響。此外,不同語種的學術論文均有各自獨特的語言學特征。
針對以上研究結果的解讀,筆者認為應該考慮以下因素:一是不同期刊的投稿須知(比如標題長度、摘要長度以及全文長度)、欄目設置(比如偏重理論或者偏重實證)、載文數(shù)量和學術影響力不同;二是不同年齡、職位和學術背景的用戶會選擇不同的學術平臺瀏覽和下載學術論文;三是在實際案例分析過程中,數(shù)據(jù)抽樣策略和數(shù)據(jù)處理細節(jié)也會影響研究結果,比如部分樣本期刊為載文量較低的雙月刊或季刊。
本研究不足:一是選擇的樣本僅為圖書情報學領域的期刊論文數(shù)據(jù),如果選用其他學科的期刊論文數(shù)據(jù),結果可能不同;二是部分樣本期刊為載文量較低的雙月刊或季刊,樣本數(shù)量較少,對研究結果存在影響;三是僅應用較簡單的語言學特征指標,需引入計算語言學領域的其他指標。
正如前文所言,用戶瀏覽和下載是復雜的信息行為,受到用戶信息需求、信息意識以及外在信息環(huán)境等諸多因素的影響。用戶瀏覽和下載數(shù)據(jù)是以上多重因素共同作用的最終結果。目前本文僅由果推因,從特定視角回溯緣由,存在諸多局限。若要系統(tǒng)、全面和深入研究用戶瀏覽和下載行為,最理想的方式是能夠獲取用戶背景數(shù)據(jù)以及信息行為過程數(shù)據(jù)(比如用戶年齡和職位、文獻訪問時長和眼動瀏覽軌跡等),由因推果,從“用戶認知、動機、行為和內(nèi)容”等多個層面進行研究。盡管如此,本文首次將全文本分析引入中文Usage Metrics,對高下載中文學術論文與語言學特征之間的關系進行初步研究,對后續(xù)用戶瀏覽與下載和科學文獻寫作的關系研究有所啟發(fā),也證實全文計量分析將是圖書情報學領域未來研究的增長點,能夠將多個研究方向的研究視野從題錄數(shù)據(jù)擴展至全文本數(shù)據(jù)。