朱玉強(qiáng) 范翠麗
(1.山東師范大學(xué) 圖書館,濟(jì)南 250014;2.山東科學(xué)技術(shù)出版社,濟(jì)南 250002)
文獻(xiàn)調(diào)查不容易被外界干擾,只需投入少量經(jīng)費(fèi)與人力,省時且效率高,可方便快捷地了解前人和他人勞動成果,是獲取知識的捷徑??蒲腥藛T在申請課題、進(jìn)行科學(xué)研究、撰寫學(xué)術(shù)論文前往往要對研究方向進(jìn)行文獻(xiàn)調(diào)研,從而有效避免重復(fù)研究。本文編制程序可在極短時間內(nèi)對大量文獻(xiàn)的關(guān)鍵詞詞頻進(jìn)行統(tǒng)計,為調(diào)查人員提供數(shù)據(jù)支撐及簡單的可視化指標(biāo)。
文獻(xiàn)調(diào)查往往涉及眾多文獻(xiàn)種類及格式,對其內(nèi)容整理分析一般包括定性分析、定量分析及定性定量相結(jié)合分析3種。內(nèi)容分析法最早應(yīng)用于新聞傳播領(lǐng)域,20世紀(jì)60年代末西方圖書情報學(xué)界將其列入圖情學(xué)方法論體系,之后不斷發(fā)展完善,引入了系統(tǒng)論、信息論、符號學(xué)、語義學(xué)、統(tǒng)計學(xué)等方法或技術(shù),[1]一般通過人工編碼將大量碎片化、屬性化的文字轉(zhuǎn)換為系統(tǒng)化、定量化的信息,類似概率論與數(shù)量統(tǒng)計中引入的隨機(jī)變量,從而使研究對象易于分析、便于統(tǒng)計,進(jìn)而歸納發(fā)現(xiàn)有價值的結(jié)論。[2]
廣義上關(guān)鍵詞指出現(xiàn)在文獻(xiàn)篇名、摘要或正文中表達(dá)文獻(xiàn)中心思想、有實際意義的自然語言詞匯;狹義上學(xué)術(shù)論文的關(guān)鍵詞由論文作者自行設(shè)置并寫在文章“關(guān)鍵詞”一欄,作者給出的關(guān)鍵詞或許未能嚴(yán)格遵守《國家標(biāo)準(zhǔn)GB7713-87 科學(xué)論文編寫格式》進(jìn)行,但鑒于作者對作品把握的準(zhǔn)確程度,其給出的關(guān)鍵詞很具參考性。
奉國和等[3]構(gòu)建時間-關(guān)鍵詞頻次矩陣,設(shè)計時間加權(quán)關(guān)鍵詞詞頻分析模型,用于揭示學(xué)科研究熱點及變化趨勢。余豐民[4]通過統(tǒng)計學(xué)術(shù)論文關(guān)鍵詞詞頻初步構(gòu)建研究熱點漂移程度計算模型,揭示學(xué)科研究熱點的變化程度和關(guān)鍵詞詞頻分布規(guī)律。李建偉[5]基于2018年編輯出版學(xué)學(xué)術(shù)論文關(guān)鍵詞詞頻分析,得出2018年編輯出版的研究熱點主要集中在新業(yè)態(tài)、新環(huán)境、新技術(shù)和新內(nèi)容四個層面。陳玲麗[6]等采用關(guān)鍵詞詞頻分析法分析了我國醫(yī)療聯(lián)合體研究文獻(xiàn)的研究內(nèi)容、現(xiàn)狀及趨勢,為醫(yī)聯(lián)體研究提供參考。王海峰[7]對國內(nèi)25種新聞傳播類核心期刊發(fā)文關(guān)鍵詞詞頻進(jìn)行分析,研究了我國新聞傳播專業(yè)學(xué)術(shù)研究熱點及基本趨勢,表明跨學(xué)科與跨領(lǐng)域研究在新聞傳播專業(yè)領(lǐng)域總體呈上升趨勢等。上述及類似論文在做關(guān)鍵詞詞頻分析時,有的明確說明所采集論文關(guān)鍵詞為作者原文給出的關(guān)鍵詞,有的則沒有,沒做具體界定的則可能來自數(shù)據(jù)庫廠商后期修訂、追加等途徑。處理方法一般通過手工導(dǎo)出文獻(xiàn),利用Excel多步操作完成。
本文編制程序,可快速提取、統(tǒng)計論文中作者給出的關(guān)鍵詞,目的明確,針對性強(qiáng),基于導(dǎo)出文獻(xiàn)全自動提取、去重、統(tǒng)計年度詞頻分布,方便快捷,節(jié)省人力物力。
用戶首先在中國知網(wǎng)構(gòu)建檢索策略進(jìn)行文獻(xiàn)檢索,確定并選取欲調(diào)研文獻(xiàn)范圍,使用“導(dǎo)出/參考文獻(xiàn)”按鈕,以“知網(wǎng)研學(xué)(原E-Study)”格式導(dǎo)出純文本型參考文獻(xiàn)?;趯?dǎo)出的參考文獻(xiàn),軟件要實現(xiàn)如下功能:(1)提取參考文獻(xiàn)中所有作者給出的關(guān)鍵詞并去重;(2)統(tǒng)計各關(guān)鍵詞在文獻(xiàn)發(fā)表時段(以年為單位)出現(xiàn)頻次;(3)統(tǒng)計各關(guān)鍵詞在文獻(xiàn)所有時間跨度總頻次;(4)結(jié)果以Excel表寫出,方便按需做更多處理。
主要流程如圖1所示,抽提作者給出關(guān)鍵詞、抽提論文發(fā)表各年度可使用多線程同步進(jìn)行。
以“知網(wǎng)研學(xué)(原E-Study)”格式導(dǎo)出的純文本型參考文獻(xiàn)格式固定,如下所示。
DataType:1
Title-題名:×××
Author-作者:×××;
Source-刊名:×××
Year-年:2015
PubTime-出版時間:2015-01-01
Keyword-關(guān)鍵詞:×××;×××;×××
Summary-摘要:×××。
Period-期:01
PageCount-頁數(shù):2
Page-頁碼:26-27
SrcDatabase-來源數(shù)據(jù)庫:期刊Organ-機(jī)構(gòu):法律出版社;
Link-鏈接:×××
以取“Keyword-關(guān)鍵詞”為例,只需取多組文本串“Keyword-關(guān)鍵詞”與“Summary-摘要”中間文本并去除換行符即可。實踐中可先使用特征字串如“DataType:1”分割各篇論文數(shù)據(jù)進(jìn)文本數(shù)組,遍歷數(shù)組各成員,在成員內(nèi)部執(zhí)行取中間文本操作,算法描述如下:
CString GetMid(CString str,CString strL,CString strR)
{
len = str.Find(strL) + strL.GetLength();
len2 = str.Find(strR);
strs = str.Left(len2);
str = strs.Right(strs.GetLength()-len);
return str;
}
取回關(guān)鍵詞需執(zhí)行去重操作,數(shù)據(jù)量小于10萬條時使用任一常規(guī)方法均可實現(xiàn),否則用HASH算法速度更快。哈希函數(shù)構(gòu)造方法有多種,以對文本串去重為例,算法描述如下,去重同時統(tǒng)計文本串重復(fù)次數(shù):
public void QC()
{
String a[]={"a","b","b","c","c","c"};
Map map = new HashMap
int count=0;
for(int i=0;i { if(map. containsKey(a[i])) count= (Integer) map.get(a[i]); } else { count=0; } map.put(a[i],++count); } } 如3.1在文本去重時已對文本串進(jìn)行頻次統(tǒng)計,實踐中還需要基于整體文本對抽提出來的指定文本進(jìn)行頻次統(tǒng)計,且與年度關(guān)聯(lián)建立年度頻次分布表,核心工作為取某文本在另一文本中出現(xiàn)頻次,算法描述為: Function Count(Str,toSearch)Dim Times,WordLen Times = 0 WordLen = Len(toSearch) For i = 1 To Len(Str)+1-WordLen If Mid(Str,i,WordLen) = toSearch Then Times = Times + 1 End If Next FindCount = Times End function 程序可穩(wěn)定運(yùn)行于32位和64位Windows7與Windows10操作系統(tǒng),運(yùn)行界面如圖2所示。 圖2 程序主界面 在中國知網(wǎng)中,限定時間為2015年1月1日至2020年4月13日,發(fā)文機(jī)構(gòu)名稱限定包含“出版社”,在全部期刊范圍內(nèi)檢索主題包含“數(shù)字出版”的論文,共獲得1160條結(jié)果,去重后共1743個關(guān)鍵詞,寫出的Excel表如圖3所示。 圖3 程序自動寫出的Excel表 在英特爾奔騰處理器2.90GHz、內(nèi)存4.00GB電腦環(huán)境下,寫出Excel表共耗時5秒。圖4展示了總頻次排在前30位的關(guān)鍵詞繪制的柱狀-折線圖。 圖4 選定關(guān)鍵詞的柱狀-折線圖 由所得數(shù)據(jù)及柱狀-折線圖走勢,大致可以推斷,近五年來出版機(jī)構(gòu)對“數(shù)字出版”的研究,主要表現(xiàn)在:(1)關(guān)于傳統(tǒng)出版與數(shù)字出版的對比、討論;(2)出版模式轉(zhuǎn)型的迫切性與掙扎;(3)數(shù)字出版與大數(shù)據(jù)、新媒體、互聯(lián)網(wǎng)+、知識服務(wù)等的融合;(4)數(shù)字出版對版權(quán)的重視保護(hù);(5)數(shù)字出版對教輔類圖書的關(guān)注。用戶還可以根據(jù)年度頻次按需做進(jìn)一步分析,此不贅述。 本文編制程序,具體針對文獻(xiàn)作者給出的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計,功能確切,可全自動操作用戶手工導(dǎo)出的參考文獻(xiàn),耗時少,非常適用于大量文獻(xiàn)調(diào)研工作,為用戶分析、匯總調(diào)研報告提供簡潔有力的數(shù)據(jù)支撐。出版社編輯或情報分析工作者可據(jù)此方便快捷地進(jìn)行信息分析工作,具有推廣價值。3.2 取某文本在另一文本中出現(xiàn)頻次
4 應(yīng)用效果評估
5 結(jié)論