陸陽琪
(南京工程學(xué)院圖書館,江蘇南京 211167)
為了推動工程教育改革的創(chuàng)新,2017 年教育部正式啟動了“新工科”計劃,并就新工科的內(nèi)涵特征、發(fā)展路徑、建設(shè)指南等方面的內(nèi)容形成了新工科建設(shè)的“三部曲”——復(fù)旦共識、天大行動和北京指南。在新工科不斷發(fā)展建設(shè)的背景下,高校圖書館作為學(xué)校教學(xué)和科研服務(wù)的保障支撐部門要積極應(yīng)對,以滿足高校新工科建設(shè)的要求。本文嘗試以南京工程學(xué)院工科類科研文獻為數(shù)據(jù)源,利用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型提取研究主題,幫助科研人員快速了解研究領(lǐng)域的熱點主題,為圖書館助力高??蒲泄ぷ?,完善精準(zhǔn)知識服務(wù)探索新的路徑。
從科研成果中挖掘研究熱點和主題一直都是圖書情報領(lǐng)域的重要研究方向,研究者們利用各種方法和工具對此進行研究,主要有共詞分析法、詞頻分析法、共被引分析法、內(nèi)容分析法、社會網(wǎng)絡(luò)、LDA 模型等。趙蓉英等[1]利用CiteSpaceⅡ?qū)ξ墨I進行共引分析和聚類分析,揭示了文獻計量學(xué)的研究熱點和發(fā)展趨勢。李亞員[2]利用研究文獻的高頻關(guān)鍵詞進行共詞分析,梳理了我國慕課研究現(xiàn)狀與熱點??缕降龋?]利用社會網(wǎng)絡(luò)分析方法,借助UCINET 等工具對國外信息管理相關(guān)文獻的關(guān)鍵詞進行統(tǒng)計和聚類分析,挖掘研究熱點。李永忠等[4]利用LDA 模型抽樣獲得電子政務(wù)相關(guān)文獻的主題,總結(jié)分析了目前國內(nèi)電子商務(wù)研究的熱點。吳查科等[5]利用LDA 方法建立了國內(nèi)圖書館學(xué)研究的主題模型,挖掘圖書館學(xué)領(lǐng)域主題及其演變情況。
對于高校圖書館而言,如何從海量動態(tài)的文獻數(shù)據(jù)中精準(zhǔn)獲取信息,幫助科研人員了解研究領(lǐng)域的發(fā)展趨勢和前沿?zé)狳c,找出創(chuàng)新突破點已成為高校圖書館精準(zhǔn)知識服務(wù)面臨的一項挑戰(zhàn)[6]。LDA 是在機器學(xué)習(xí)和自然語言處理等領(lǐng)域用來在一系列文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計模型,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。LDA 在文本主題識別、文本分類以及文本相似度計算等方面有著良好的效果,因此廣泛被研究者們應(yīng)用到各學(xué)科領(lǐng)域,如計算機領(lǐng)域、圖書情報學(xué)領(lǐng)域、經(jīng)濟學(xué)領(lǐng)域等等[7-9]。但LDA模型目前在高校圖書館服務(wù)方面的實踐探索還較少,因此,本文利用LDA 模型分析了南京工程學(xué)院近10 年工科科研成果的研究熱點,探索高校圖書館利用數(shù)據(jù)科學(xué)技術(shù)更好地服務(wù)科研的可能性。
本文以中國知網(wǎng)期刊全文數(shù)據(jù)庫收錄的文獻為數(shù)據(jù)來源,以作者單位=“南京工程學(xué)院”為檢索表達式,匹配方式為“模糊”,并將文獻發(fā)表時間限定為2010—2019 年,共檢索到8 783 條結(jié)果。本研究主要基于工科類科研成果,因此進一步將作者單位限定在電力工程學(xué)院、機械工程學(xué)院、材料科學(xué)與工程學(xué)院、能源與動力工程學(xué)院等工科院系。同時,人工核查剔除字段不全和不相關(guān)的文獻,得到有效數(shù)據(jù)4 437條。本文提取4 437 條篇目數(shù)據(jù)中的摘要字段,建立語料庫。檢索時間為2020年5月19日。
在自然語言處理工程中,文本預(yù)處理通常包括分詞、文本清洗、標(biāo)準(zhǔn)化、特征提取等步驟。對于中文分詞,jieba 分詞是目前最常用的分詞系統(tǒng),本文利用Python 程序安裝jieba 庫,對每篇文獻的摘要字段進行分詞處理,文獻摘要中可能會包含一些常見的、與主題無關(guān)的詞語和特殊符號,因此需要進行停用詞和特殊符號處理,接著利用scikit-learn 向量化工具CounterVectorizer 對文本特征進行處理,以上文本處理完成后即可獲得LDA主題建模的訓(xùn)練樣本。
文本預(yù)處理完成后,利用python的sklearn庫來實現(xiàn)南京工程學(xué)院近10年工科科研成果的LDA主題建模。構(gòu)建LDA模型首先需要確定一個合適的主題數(shù)量,本文選用困惑度(Perplexity)指標(biāo)作為確定最佳主題數(shù)量的參考指標(biāo),經(jīng)過計算發(fā)現(xiàn)當(dāng)主題數(shù)為15時,困惑度最小,因此確定主題數(shù)為15。
根據(jù)LDA 模型的初步訓(xùn)練結(jié)果,獲得15 個主題的詞項分布和4 437篇文獻的主題分布。主題詞項分布如表1 所示,由于篇幅所限,每個主題展示10 個與主題相關(guān)的高頻詞。本文對15個主題的概率詞項進行推理,對每個主題名稱進行命名,例如從主題14中的“模擬、有限元、分布、數(shù)值、計算”推理出該主題關(guān)于“數(shù)值分析”,說明LDA模型的提取效果較好。
根據(jù)文獻主題分布結(jié)果,對每篇文檔的主題概率排序,選擇每篇文檔的最大概率進行主題歸類,每篇文檔都被賦予最能代表該文檔的主題詞,表2 為每個主題對應(yīng)的文獻篇數(shù)的統(tǒng)計及占比情況,從表中可以看出“教育教學(xué)”“系統(tǒng)設(shè)計”和“檢測算法”是占比前三位的主題詞,表明在南京工程學(xué)院工科專業(yè)中高等教育與教學(xué)以及自動化系統(tǒng)和算法的應(yīng)用較為普遍。
為了更好地解釋研究主題,更直觀地了解研究主題如何相互關(guān)聯(lián),本文利用pyLDAvis 庫創(chuàng)建了生成LDA模型的交互式可視化結(jié)果,如圖1所示。LDA的可視化結(jié)果包括兩個部分,左側(cè)展示了主題模型的完整視圖,圓圈的大小代表了每個研究主題的文獻數(shù)量,并按照文獻數(shù)量的遞減順序?qū)ρ芯恐黝}進行排序,圖1 中的研究主題1 即為“教育教學(xué)”。圓心之間的距離表示研究主題之間的相互關(guān)系,即兩個圓心間的距離越近,兩個研究主題間的相關(guān)性越高,例如數(shù)值分析在機器人算法代碼研究中有一定應(yīng)用,因此,主題10“機器人”和主題14“數(shù)值分析”的圓圈就有重疊。右側(cè)展示的是左側(cè)突出顯示的研究主題中出現(xiàn)的前30 個最相關(guān)單詞的直方圖,比如左側(cè)選中研究主題1“教育教學(xué)”,右側(cè)展示的是與“教育教學(xué)”最相關(guān)的前30 個詞語,如教學(xué)、學(xué)生、學(xué)習(xí)、本科、工程等。
LDA 的可視化結(jié)果還可以用來探索主題詞之間的關(guān)系,具體來說,當(dāng)右側(cè)的單詞“傳感器”突出顯示時,左側(cè)顯示了它在各個研究主題中分布的情況,如圖2所示?!皞鞲衅鳌币辉~可以在主題2“系統(tǒng)設(shè)計”、主題5“鎂合金”和主題10“機器人”中找到。
利用LDA 建模方法,本文確定了南京工程學(xué)院工科學(xué)科近10 年CNKI 收錄的中文期刊論文共15 個研究主題。研究發(fā)現(xiàn),不同的工科學(xué)科,存在一些共性研究主題,比如高等教育、數(shù)據(jù)挖掘等。另外一些研究主題之間有著鮮明的學(xué)科特性,比如電力系統(tǒng)、數(shù)控機床、繼電保護、復(fù)合材料等等。實驗表明,LDA建模結(jié)果有助于快速了解教師的研究需求,高校圖書館館員可以利用數(shù)據(jù)科學(xué)技術(shù)更好地為廣大讀者服務(wù)。本文重點關(guān)注工科學(xué)科的研究需求,但LDA建模方法也可以應(yīng)用到解決其他學(xué)科的教學(xué)科研需求甚至是分析圖書館館藏數(shù)據(jù)、用戶數(shù)據(jù)等方面的問題上。
表1 南京工程學(xué)院近10年工科科研成果主題分布
表2 主題文獻數(shù)量及占比統(tǒng)計
本文利用LDA 模型分析南京工程學(xué)院近10 年CNKI 收錄的工科科研成果的研究熱點,初步探索了圖書館利用數(shù)據(jù)和數(shù)據(jù)科學(xué)技術(shù)服務(wù)科研的可能性,未來數(shù)據(jù)科學(xué)技術(shù)的應(yīng)用還可以延伸到館藏管理、參考咨詢和教學(xué)決策等。
本研究還存在一些局限。首先,利用中國知網(wǎng)期刊全文數(shù)據(jù)庫來提取教師的科研成果,數(shù)量可能會偏少,因為對于理工類學(xué)科來說,教師可能還有一些成果被SCI、EI 等收錄;其次,由于學(xué)科交融越來越多,一些重疊主題解釋起來比較困難。后續(xù)研究可以進一步深入探索基于LDA的圖書館知識服務(wù)。
圖1 研究主題可視化結(jié)果
圖2 “傳感器”在多個研究主題上的分布情況