胡志偉 裴雷
摘要:[目的/意義]定量描述圖書情報與檔案管理學(xué)科的研究圖景,為各機(jī)構(gòu)之間合作關(guān)系的建立提供決策支持,從而推動跨機(jī)構(gòu)合作的發(fā)展。[方法/過程]采用LDA主題模型和網(wǎng)絡(luò)分析方法,以國內(nèi)67所圖書情報與檔案管理教育機(jī)構(gòu)為例,通過對教師自述研究興趣文本進(jìn)行主題聚類構(gòu)建機(jī)構(gòu)相似性網(wǎng)絡(luò),并進(jìn)行社群劃分與潛在合作關(guān)系挖掘。[結(jié)果/結(jié)論]當(dāng)前國內(nèi)圖書情報與檔案管理教師的研究興趣主要涉及信息資源管理、信息計量與競爭情報、信息服務(wù)與用戶等11個主題,樣本機(jī)構(gòu)可劃分為7個社群,包含457對潛在合作關(guān)系。未來,圖書情報與檔案管理學(xué)科除了向5種路徑進(jìn)行學(xué)科融合之外,還可在不同領(lǐng)域充分展開科研與教育實踐的跨機(jī)構(gòu)合作。
關(guān)鍵詞:相似性網(wǎng)絡(luò) ? ?自述研究興趣 ? ?科研合作 ? ?教育機(jī)構(gòu) ? ?LDA模型
分類號:G203
引用格式:胡志偉,裴雷. 基于自述研究興趣相似性網(wǎng)絡(luò)的機(jī)構(gòu)潛在合作關(guān)系挖掘: 以國內(nèi)圖書情報與檔案管理教育機(jī)構(gòu)為例[J/OL]. 知識管理論壇, 2022, 7(2): 143-152[引用日期]. http://www.kmf.ac.cn/p/282/.
1 ?引言
2019年4月,為提高高校服務(wù)經(jīng)濟(jì)社會發(fā)展能力,教育部、中央政法委、科技部等13個部門聯(lián)合啟動“六卓越一拔尖”計劃2.0,該計劃包括全面推進(jìn)新文科建設(shè)[1]。較傳統(tǒng)文科而言,新文科更加強(qiáng)調(diào)學(xué)科發(fā)展中的繼承與創(chuàng)新、多學(xué)科的交叉與融合以及多機(jī)構(gòu)的協(xié)同與共享[2]。在大數(shù)據(jù)、云計算、人工智能等新技術(shù)高速發(fā)展和信息社會需求不斷變化的時代背景下,圖書情報與檔案管理學(xué)科展現(xiàn)了日益顯著的跨學(xué)科特性,而學(xué)科的多向發(fā)展也對跨系統(tǒng)組織之間的科研合作提出了更多的要求??鐧C(jī)構(gòu)合作能夠在信息共享的基礎(chǔ)上充分利用科研資源,形成解決復(fù)雜研究問題的有效方法[3]。如何挖掘機(jī)構(gòu)之間的潛在合作關(guān)系、提升跨機(jī)構(gòu)合作效率,也成為了科學(xué)研究中的重要議題。
一般認(rèn)為,研究內(nèi)容更為相近的實體之間具有更高的潛在合作程度。對此,相關(guān)研究[4-6]主要從學(xué)者的科研成果中直接獲取或間接識別研究主題,并采用網(wǎng)絡(luò)分析等方法,從不同角度對科研實體進(jìn)行相似度測算或社群分析。然而,此條研究路徑很少利用公開于互聯(lián)網(wǎng)中的官方自述資料。當(dāng)前以自述資料為數(shù)據(jù)來源的研究[7-9]主要是對主題分布情況的內(nèi)容分析,而基于主題模型的方法存在一定程度的缺位。鑒于此,筆者擬以國內(nèi)圖書情報與檔案管理教育機(jī)構(gòu)為例,基于學(xué)者的自述研究興趣文本,利用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型和網(wǎng)絡(luò)分析方法,試圖回答如下兩個問題:
(1)當(dāng)前國內(nèi)圖書情報與檔案管理專業(yè)教師的研究興趣集中表現(xiàn)為哪些主題?
(2)國內(nèi)的哪些圖書情報與檔案管理教育機(jī)構(gòu)之間存在潛在的合作基礎(chǔ)?
本文的研究結(jié)果有助于理解國內(nèi)圖書情報與檔案管理專業(yè)教師研究興趣的分布情況,協(xié)助各機(jī)構(gòu)在做出戰(zhàn)略定位和規(guī)劃的基礎(chǔ)上尋求同自身教學(xué)科研實踐內(nèi)容相似的對應(yīng)機(jī)構(gòu),為其間合作關(guān)系的建立提供決策支持。
2 ?相關(guān)研究
2.1 ?學(xué)者研究興趣主題挖掘
學(xué)者的研究興趣代表了學(xué)者在一定時間段內(nèi)感興趣的研究內(nèi)容,可通過學(xué)術(shù)成果(包括論文、項目、專利等)[10]、科研社交網(wǎng)站[11]、個人主頁[12]等途徑獲取相關(guān)數(shù)據(jù)。由于學(xué)者與研究興趣之間往往是多對多的關(guān)系,即一名學(xué)者會對多個研究主題感興趣,且不同的學(xué)者會同時對某項研究主題感興趣,因此許多研究聚焦于學(xué)者研究興趣的主題識別與表征工作。當(dāng)前研究主要采用主題模型和知識網(wǎng)絡(luò)方法實現(xiàn)上述目標(biāo),例如劉曉豫等[13]利用加權(quán)K-means聚類算法對多專長專家研究興趣的識別方法的改進(jìn),熊回香等[14]利用LDA主題模型對學(xué)者主題檔案的建構(gòu),劉萍等[15]利用關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)對特定機(jī)構(gòu)學(xué)者的社區(qū)劃分等。值得注意的是,當(dāng)前相關(guān)研究主要將科研成果的題錄信息作為底層數(shù)據(jù),而很少針對學(xué)者自述資料進(jìn)行分析。一般而言,學(xué)者自述研究興趣在表達(dá)凝練的同時蘊(yùn)含著豐富語義內(nèi)容,且在時效性得到保證的前提下,能夠有效減小科研成果發(fā)表周期較長、與學(xué)者實際研究興趣關(guān)聯(lián)程度較低所帶來的影響。因此,有必要對學(xué)者的自述資料給予一定的重視。
2.2 ?科研實體潛在合作關(guān)系挖掘
為了推動潛在科研合作以提高科研效率,研究者對科研實體之間的相似性進(jìn)行了探討。X. Kong等[16]基于LDA主題模型所揭示的學(xué)者動態(tài)研究興趣矩陣,通過計算學(xué)者個人之間的余弦相似度構(gòu)建了合作者推薦模型;安璐等[17]基于“機(jī)構(gòu)—文獻(xiàn)類別”矩陣,利用自組織映射方法測算了中美圖書情報科研機(jī)構(gòu)研究領(lǐng)域的相似性;林原等[18]基于“高?!献鳌焙汀案咝!黝}”矩陣,分別借助改進(jìn)后的Katz和余弦相似性指標(biāo),對高校之間的潛在合作關(guān)系進(jìn)行了分析;E. Yan等[19]基于SimRank模型,對學(xué)者、機(jī)構(gòu)和國家3個層次的合作網(wǎng)絡(luò)進(jìn)行了鏈路預(yù)測。總體而言,在機(jī)構(gòu)相似性測度層面,相關(guān)研究主要利用機(jī)構(gòu)主題模型和已有合作網(wǎng)絡(luò)實現(xiàn)測算,其中余弦相似度在關(guān)于前者的研究中得到了廣泛應(yīng)用。筆者以國內(nèi)圖書情報與檔案管理教育機(jī)構(gòu)為例,借助LDA主題模型對專職教師的自述研究興趣進(jìn)行主題挖掘,從而依次構(gòu)建機(jī)構(gòu)的主題向量模型和余弦相似性網(wǎng)絡(luò),探測并分析其間的潛在合作關(guān)系。
3 ?數(shù)據(jù)與方法
3.1 ?研究設(shè)計
筆者主要采用網(wǎng)絡(luò)調(diào)查、LDA主題聚類和網(wǎng)絡(luò)分析方法,在R語言和Gephi軟件環(huán)境中完成以下研究路徑(見圖1):①數(shù)據(jù)獲取與預(yù)處理。通過樣本機(jī)構(gòu)的官方網(wǎng)站采集教師的個人資料,經(jīng)文本數(shù)據(jù)清洗和分詞操作后,構(gòu)建“教師—詞項”DTM(Document Term Matrix)矩陣。②教師自述研究興趣主題發(fā)現(xiàn)。確定LDA主題模型的各項基本參數(shù),根據(jù)“主題—詞項”分布情況對主題發(fā)現(xiàn)結(jié)果進(jìn)行標(biāo)識。③機(jī)構(gòu)相似性網(wǎng)絡(luò)分析?;跈C(jī)構(gòu)的主題向量模型計算機(jī)構(gòu)之間的相似度,從而構(gòu)建機(jī)構(gòu)的相似性網(wǎng)絡(luò),對機(jī)構(gòu)進(jìn)行社群劃分,識別具有潛在合作關(guān)系的機(jī)構(gòu)組。
3.2 ?數(shù)據(jù)獲取與預(yù)處理
經(jīng)過對國內(nèi)圖書情報與檔案管理教育機(jī)構(gòu)官方網(wǎng)站建設(shè)現(xiàn)狀的調(diào)查,筆者最終選取了67所機(jī)構(gòu)作為研究的數(shù)據(jù)來源(為行文方便,下文僅以機(jī)構(gòu)所屬高校或科研單位名稱表述機(jī)構(gòu)全稱)。在此基礎(chǔ)上,以官方網(wǎng)站為入口采集教師的個人資料,涉及姓名、所屬機(jī)構(gòu)、自述研究興趣等方面。數(shù)據(jù)采集時間為2020年11月16日至11月29日,經(jīng)清洗后共獲得1 289名教師的個人信息,提及研究興趣3 599次。
分詞處理與矩陣構(gòu)建操作主要借助R語言中的Rwordseg包和tm包完成。首先,因樣本中存在中英文多語種來源,筆者對英文描述進(jìn)行了英譯中處理;其次,為了刪除無意義的詞語,采用哈爾濱工業(yè)大學(xué)停用詞表和四川大學(xué)機(jī)器智能實驗室停用詞庫構(gòu)建分詞停用詞表;最后,抽取20%的樣本進(jìn)行預(yù)分詞實驗,結(jié)合實際情況補(bǔ)充了自定義詞典,其主要涉及學(xué)科名稱等專有名詞。經(jīng)過上述操作后,得到了1289×14179的“教師—詞項”DTM矩陣。
3.3 ?關(guān)鍵方法
3.3.1 ?LDA主題模型
為分析國內(nèi)圖書情報與檔案管理專業(yè)教師的研究興趣主題分布,需要確定LDA主題模型的基本參數(shù)。LDA主題模型的構(gòu)建主要借助R語言中的lda包、Rmpfr包、topicmodels包和LDAvis包實現(xiàn)。筆者主要采用Gibbs采樣算法求解全局主題和詞項的分布,需設(shè)定α、β和最優(yōu)主題數(shù)K 3個超參數(shù)。其中,α、β一般設(shè)定為默認(rèn)值,可根據(jù)實際效果進(jìn)行調(diào)節(jié)??筛鶕?jù)困惑度或似然估計數(shù)值隨主題數(shù)變化的情況確定,當(dāng)似然估計數(shù)值達(dá)到最大時的主題數(shù)即為最優(yōu)解。在此基礎(chǔ)上,從模型訓(xùn)練所得的“主題—詞項”概率分布矩陣中抽取各主題下具有較高顯著度[20]的若干詞項,作為主題標(biāo)識的依據(jù)。此外,基于“教師—主題”概率分布矩陣計算所有教師的研究興趣涉及某一主題的概率和占總體的比重,可以得到該主題的強(qiáng)度,作為主題關(guān)注度的計量指標(biāo)。
3.3.2 ?相似度計算與分析
筆者基于機(jī)構(gòu)的主題向量模型,選取余弦相似度作為機(jī)構(gòu)間相似性測度的指標(biāo)。首先,根據(jù)LDA主題模型訓(xùn)練所得的“教師—主題”概率分布矩陣,可得到各教師的主題向量模型,計算公式如公式(1)所示:
公式(1)
其中,Pi,j為教師Fi的研究興趣文本隸屬于主題Tj的概率,K為最優(yōu)主題數(shù)。分別計算所屬機(jī)構(gòu)為Ix的所有教師Fx,i的主題概率分布和,從而構(gòu)建各機(jī)構(gòu)的主題向量模型VIx,計算公式如公式(2)所示:
公式(2)
其中,n為機(jī)構(gòu)Ix的教師總數(shù)。因此,機(jī)構(gòu)Ia和Ib之間的余弦相似度計算公式可以表示為:
公式(3)
顯然,,且當(dāng)a=b時,Sim(Ia, Ib)=1。一方面,可據(jù)此構(gòu)建機(jī)構(gòu)之間的相似性矩陣。由于基于此矩陣生成的網(wǎng)絡(luò)為連通圖,為便于后續(xù)分析,需要根據(jù)一定策略設(shè)定合適的閾值λ進(jìn)行剪枝操作,剔除權(quán)重較低的矩陣元素。筆者參照帕累托法則,僅保留權(quán)重較高的20%的元素,借助Gephi軟件構(gòu)建機(jī)構(gòu)之間的相似性網(wǎng)絡(luò),并使用內(nèi)置的Louvain算法[21]作為社群劃分方法。此網(wǎng)絡(luò)的節(jié)點為各機(jī)構(gòu),連接節(jié)點Ia和Ib的邊的權(quán)重為Sim(Ia, Ib),代表了各機(jī)構(gòu)之間的相似程度。另一方面,可分別得到某機(jī)構(gòu)和與其最為相似的機(jī)構(gòu)主題強(qiáng)度超過10%的主題集合,通過計算交集獲取兩者的潛在合作研究領(lǐng)域。
4 ?研究結(jié)果
4.1 ?教師自述研究興趣主題發(fā)現(xiàn)
首先,參照LDA主題模型基本參數(shù)的確定方法,確定聚類的最優(yōu)主題數(shù)。如圖2所示,當(dāng)主題數(shù)為11時達(dá)到最大似然估計,說明此時模型性能較好,能夠有效地實現(xiàn)主題的判別,因此設(shè)定最優(yōu)主題數(shù)K=11。在運(yùn)行主題發(fā)現(xiàn)模型得到“主題—詞項”概率分布結(jié)果后,依據(jù)每個主題下所包含的顯著度最高的6個詞項對主題進(jìn)行標(biāo)識(見表1)。目前,國內(nèi)圖書情報與檔案管理專業(yè)教師的研究興趣可主要概括為電子商務(wù)與戰(zhàn)略管理、信息服務(wù)與用戶、圖書館學(xué)與圖書文化史等11個主要主題。
圖2 ?似然估計數(shù)值計算結(jié)果
如前所述,可基于LDA主題發(fā)現(xiàn)所得的“教師—主題”概率分布矩陣,計算某一主題占總體的比重,得到該主題的強(qiáng)度。在一定程度上,主題強(qiáng)度能夠體現(xiàn)當(dāng)前圖書情報與檔案管理專業(yè)教師對不同研究興趣的關(guān)注情況,見圖3。信息資源管理(T8)、信息計量與競爭情報(T7)以及信息服務(wù)與用戶(T2)是樣本教師群體最為關(guān)注的3個主題,其主題強(qiáng)度均超過10%。這說明在當(dāng)前時間窗口下,國內(nèi)圖書情報與檔案管理專業(yè)教師對學(xué)科的內(nèi)核形成了初步共識,并集中體現(xiàn)了學(xué)科整體面向國家戰(zhàn)略、服務(wù)社會發(fā)展、滿足用戶需求的使命感。國內(nèi)圖書情報與檔案管理專業(yè)教師的研究興趣也體現(xiàn)了較高的技術(shù)介入程度與較廣的學(xué)科應(yīng)用場景,電子商務(wù)與戰(zhàn)略管理(T1)、數(shù)據(jù)挖掘與大數(shù)據(jù)技術(shù)(T11)和政務(wù)信息管理(T9)呈現(xiàn)了相對較高的主題強(qiáng)度。此外,出版與文化產(chǎn)業(yè)(T5)、信息跨學(xué)科應(yīng)用(T4)以及圖書館學(xué)與圖書文化史(T3)是關(guān)注度相對較低的3個主題,這主要受樣本機(jī)構(gòu)相應(yīng)學(xué)科的建設(shè)規(guī)模與師資數(shù)量所影響。
4.2 ?機(jī)構(gòu)相似性網(wǎng)絡(luò)分析
在獲取機(jī)構(gòu)的主題向量模型后,可以計算出機(jī)構(gòu)之間的余弦相似度。根據(jù)帕累托法則對機(jī)構(gòu)之間的邊進(jìn)行剪枝操作,此時權(quán)重閾值λ=0.72,即當(dāng)Sim(Ia, Ib)≥0.72時,可以認(rèn)為機(jī)構(gòu)Ia和Ib之間具有高度的相似性。在此基礎(chǔ)上,可以得到國內(nèi)圖書情報與檔案管理機(jī)構(gòu)的相似性網(wǎng)絡(luò)(見圖4),共包含67個節(jié)點、457條邊。其中,節(jié)點大小代表機(jī)構(gòu)師資數(shù)量的多少,節(jié)點顏色代表不同的社群類別,分別以字母A-G表示。
社群A主要由以檔案學(xué)或信息資源管理專業(yè)為主體的機(jī)構(gòu)組成,包括中國人民大學(xué)、上海大學(xué)、湘潭大學(xué)、鄭州大學(xué)等23所機(jī)構(gòu)。檔案管理理論與方法、政務(wù)信息管理和信息資源管理是社群A較為關(guān)注的3個主題,三者的強(qiáng)度和達(dá)到了56.6%。
社群B內(nèi)機(jī)構(gòu)的學(xué)科背景較為綜合全面,與社群A構(gòu)成了網(wǎng)絡(luò)的主體部分,包括武漢大學(xué)、南京大學(xué)、北京大學(xué)、中山大學(xué)等19所機(jī)構(gòu)。社群B內(nèi)部的主題概率分布相對均衡,信息資源管理、信息服務(wù)與用戶、信息計量與競爭情報以及數(shù)據(jù)挖掘與大數(shù)據(jù)技術(shù)是其較為關(guān)注的4個主題,強(qiáng)度均超過了10%。
社群C主要由具有經(jīng)濟(jì)管理背景的機(jī)構(gòu)組成,多設(shè)于經(jīng)濟(jì)或管理學(xué)院(部)下,包括河海大學(xué)、山東大學(xué)、山西大學(xué)、東南大學(xué)等10所機(jī)構(gòu)。強(qiáng)度較高的兩個主題為電子商務(wù)與戰(zhàn)略管理以及管理科學(xué)與工程,均在20%以上。
社群D包括中國科學(xué)技術(shù)信息研究所、中國科學(xué)院大學(xué)、江蘇大學(xué)、山東理工大學(xué)等9所機(jī)構(gòu),主要依托機(jī)構(gòu)圖書館或文獻(xiàn)情報中心進(jìn)行學(xué)科建設(shè)。信息計量與競爭情報在該社群內(nèi)的強(qiáng)度最高,達(dá)到了43.4%。具備圖書資料專業(yè)職稱的教職工約占社群內(nèi)教師總體的64.3%,多在科研評價、科技戰(zhàn)略和專利情報分析等方向展開研究。
社群E、F和G的機(jī)構(gòu)數(shù)相對較少,且與其他社群之間幾乎不具有顯著的相似性。社群E包括中國醫(yī)科大學(xué)、山西醫(yī)科大學(xué)和中南大學(xué)3所機(jī)構(gòu),均具有醫(yī)學(xué)或生物學(xué)背景,信息跨學(xué)科應(yīng)用的主題強(qiáng)度高達(dá)65.4%。社群F包括復(fù)旦大學(xué)、中國中醫(yī)科學(xué)院2所機(jī)構(gòu),盡管同社群D一樣依托圖書資料中心建設(shè),但其對歷史文獻(xiàn)學(xué)和古籍保護(hù)方向給予了更多的強(qiáng)調(diào),圖書館學(xué)與圖書文化史的主題強(qiáng)度為38.2%,顯著高于社群D的1.1%。社群G僅包括山東科技大學(xué)1所機(jī)構(gòu),為孤立節(jié)點,同其他66所機(jī)構(gòu)均不連通。這主要緣于其深厚的計算機(jī)技術(shù)背景,其數(shù)據(jù)挖掘與大數(shù)據(jù)技術(shù)的主題強(qiáng)度高達(dá)68.0%,而其他機(jī)構(gòu)這一主題的最高強(qiáng)度也不足30%。
在前文識別457對潛在合作關(guān)系的基礎(chǔ)上,尋找與某一機(jī)構(gòu)最為相似的其他機(jī)構(gòu),并識別兩者合作的潛在研究領(lǐng)域,對推動跨機(jī)構(gòu)合作實踐有著重要的意義。筆者將某機(jī)構(gòu)和與其最為相似的機(jī)構(gòu)主題強(qiáng)度超過10%的主題集合定義為潛在研究領(lǐng)域,表2展示了部分計算結(jié)果。在相似度數(shù)值方面,東南大學(xué)與河海大學(xué)之間的相似程度最高,達(dá)到了0.98,兩者對數(shù)據(jù)挖掘與大數(shù)據(jù)技術(shù)以及管理科學(xué)與工程方向給予了高度關(guān)注;中國中醫(yī)科學(xué)院的最相似機(jī)構(gòu)為復(fù)旦大學(xué),相似度為0.76,兩者的潛在合作領(lǐng)域分別為信息計量與競爭情報以及圖書館學(xué)與圖書文化史。此外,表2展示了學(xué)科建設(shè)水平位列前位的機(jī)構(gòu)相關(guān)情況,如南京大學(xué)可在信息服務(wù)與用戶、數(shù)據(jù)挖掘與大數(shù)據(jù)技術(shù)以及出版與文化產(chǎn)業(yè)等領(lǐng)域與武漢大學(xué)開展合作,而中國人民大學(xué)可在信息資源管理、政務(wù)信息管理以及檔案管理理論與方法等領(lǐng)域與北京聯(lián)合大學(xué)開展合作等。
5 ?討論
5.1 ?圖書情報與檔案管理的跨學(xué)科融合路徑
作為一門應(yīng)用型學(xué)科,圖書情報與檔案管理的學(xué)科發(fā)展具有明顯的跨學(xué)科特征,一般認(rèn)為學(xué)者的跨學(xué)科研究活動是其跨學(xué)科的重要表現(xiàn)和驅(qū)動?;谇拔膶ξ覈鴮B毥處熝芯颗d趣的主題發(fā)現(xiàn)和教育機(jī)構(gòu)的社群劃分,筆者總結(jié)了圖書情報與檔案管理的跨學(xué)科融合路徑,見圖5。
一方面,圖書情報與檔案管理內(nèi)部應(yīng)緊密圍繞信息資源管理這一學(xué)科內(nèi)核發(fā)展。每個學(xué)科都有屬于自身的話語系統(tǒng)和規(guī)則,在與其他學(xué)科融合的過程中,仍需明確并堅守自身的核心內(nèi)容。圖書情報與檔案管理的核心知識即立足于信息資源全生命周期管理的教育與研究,涉及數(shù)據(jù)、信息和知識的記錄、保存、組織、檢索、獲取、分析和開發(fā)利用過程,具有顯著的服務(wù)特征[22]。通過前文的主題發(fā)現(xiàn),信息資源管理在當(dāng)前國內(nèi)專業(yè)教師的研究興趣中具有最高的主題強(qiáng)度,且隨著信息社會的不斷發(fā)展,在大數(shù)據(jù)、人工智能等新興信息技術(shù)的支持作用下,應(yīng)用場景不斷得到拓展與深化。在2021年的新版學(xué)科專業(yè)目錄草案中,“圖書情報與檔案管理”一級學(xué)科擬更名為“信息資源管理”,進(jìn)一步引發(fā)了有關(guān)學(xué)科核心知識的討論。而這一行動充分體現(xiàn)了我國圖書情報與檔案管理一級學(xué)科的價值轉(zhuǎn)向。此外,信息計量與競爭情報、信息服務(wù)與用戶、電子商務(wù)與戰(zhàn)略管理以及數(shù)據(jù)挖掘與大數(shù)據(jù)技術(shù)等將“數(shù)據(jù)—信息—知識—智慧”(DIKW)體系各層次之間聯(lián)系起來的主題的強(qiáng)度亦相對較高,充分反映了圖書情報與檔案管理學(xué)科的整體聯(lián)系更加緊密。圖書館學(xué)、情報學(xué)和檔案學(xué)各二級學(xué)科的科研或教育實踐者應(yīng)樹立學(xué)科共同體意識,在專注于信息資源管理內(nèi)核的基礎(chǔ)上,強(qiáng)化學(xué)科的社會服務(wù)職能,推動社會的創(chuàng)新與進(jìn)步。
另一方面,圖書情報與檔案管理可通過同其他學(xué)科的交叉和融合促進(jìn)學(xué)科深度發(fā)展,提升自身的學(xué)科地位與競爭力。隨著當(dāng)代科學(xué)的學(xué)科整合趨勢愈加顯著,圖書情報與檔案管理由于本就具有相對較強(qiáng)的跨學(xué)科屬性,因而當(dāng)其在對二級學(xué)科進(jìn)行整合、凝聚一級學(xué)科內(nèi)核的基礎(chǔ)上,也在與同族學(xué)科之外的學(xué)科開展交融。通過上一節(jié)的研究主題發(fā)現(xiàn)與社群分析,可以發(fā)現(xiàn)國內(nèi)圖書情報與檔案管理目前至少與5類信息資源管理學(xué)科群之外的學(xué)科實現(xiàn)了不同程度的融合,具體而言:與歷史學(xué)、文學(xué)等基礎(chǔ)人文學(xué)科相融合,助力圖書文化史、數(shù)字人文等領(lǐng)域的研究;與醫(yī)學(xué)、生物學(xué)等基礎(chǔ)自然科學(xué)融合,用圖書情報學(xué)的方法梳理文獻(xiàn)和知識;與計算機(jī)科學(xué)與技術(shù)融合,借助新興信息技術(shù)提升圖書情報科研工作的效率;與管理科學(xué)與工程融合,為社會各行業(yè)或領(lǐng)域提供管理決策支持;與公共管理學(xué)科融合,推動政務(wù)信息管理、公共文化方向的發(fā)展。未來,圖書情報與檔案管理仍可繼續(xù)深化與其他學(xué)科的融合與合作,更加開放地加強(qiáng)學(xué)科建設(shè),敢于在跨學(xué)科研究中發(fā)聲、競爭與引領(lǐng)。
5.2 ?新文科建設(shè)背景下的跨機(jī)構(gòu)合作
機(jī)構(gòu)之間的協(xié)同與信息共享是新文科建設(shè)所強(qiáng)調(diào)的一個重要方面。在多學(xué)科交叉融合的基礎(chǔ)上,各機(jī)構(gòu)能夠通過跨機(jī)構(gòu)的科研與教育合作有力推動自身轉(zhuǎn)型,構(gòu)建學(xué)科命運(yùn)共同體。前文基于教師自述研究興趣文本的余弦相似性網(wǎng)絡(luò)將國內(nèi)圖書情報與檔案管理教育機(jī)構(gòu)劃分為7個社群,并探測了與各機(jī)構(gòu)最相似的潛在合作機(jī)構(gòu)和研究領(lǐng)域。結(jié)果顯示,大部分機(jī)構(gòu)的潛在合作機(jī)構(gòu)均處于相同社群中,且不同社群的機(jī)構(gòu)依托各種類型的教育與科研資源,形成了不同的研究側(cè)重點以及鮮明的研究特色。例如,具有經(jīng)濟(jì)管理背景的機(jī)構(gòu)在電子商務(wù)與戰(zhàn)略管理以及管理科學(xué)與工程兩個主題領(lǐng)域占據(jù)絕對優(yōu)勢,而依托于機(jī)構(gòu)圖書館或文獻(xiàn)情報中心開展學(xué)科建設(shè)的機(jī)構(gòu)多專注于信息計量與競爭情報主題的研究。隨著信息交流障礙的日益減少,國內(nèi)圖書情報與檔案管理院系能夠與相似機(jī)構(gòu)之間就同一主題,在教育和科研等諸多場景中展開交流、分享與合作。
在此基礎(chǔ)上,在本文基于研究主題分布的相似程度而得出的最顯著潛在機(jī)構(gòu)合作關(guān)系中,“復(fù)旦大學(xué)—陜西理工大學(xué)”“河北大學(xué)—武漢大學(xué)”“華東師范大學(xué)—南京大學(xué)”“吉首大學(xué)—長春師范大學(xué)”以及“南開大學(xué)—中山大學(xué)”為5組跨社群組合。這在一定程度上說明經(jīng)識別所得的7個社群并非完全隔絕,存在相互滲透與相互借鑒的可能性。在這一過程中,處于社群邊緣的機(jī)構(gòu)扮演了重要的橋梁角色,它們往往具備著復(fù)合型的社群特征,能夠有效地促進(jìn)圖書情報與檔案管理學(xué)科內(nèi)部的交流與合作,如河北大學(xué)、天津師范大學(xué)、山東大學(xué)、南開大學(xué)和四川大學(xué)等。未來,在發(fā)揮具備較大師資體量的機(jī)構(gòu)引領(lǐng)學(xué)科發(fā)展作用的同時,也需注重發(fā)揮典型機(jī)構(gòu)在科研與教育實踐合作過程中的作用。此外,由于各社群間的機(jī)構(gòu)數(shù)量不一,甚至在機(jī)構(gòu)相似性網(wǎng)絡(luò)中出現(xiàn)了山東科技大學(xué)這一依托于計算機(jī)科學(xué)與技術(shù)學(xué)科的孤立節(jié)點,因此在具體合作過程中,仍需注意研究內(nèi)容與主題的分工,最大化圖書情報與檔案管理學(xué)科內(nèi)部的凝聚力,共同促進(jìn)合作效率的提升與研究成果的轉(zhuǎn)化。
6 ?結(jié)語
筆者基于國內(nèi)圖書情報與檔案管理教育機(jī)構(gòu)的教師自述研究興趣文本,對當(dāng)前國內(nèi)相關(guān)專業(yè)教師的研究興趣進(jìn)行主題聚類,并在此基礎(chǔ)上構(gòu)建機(jī)構(gòu)的研究興趣相似性網(wǎng)絡(luò),識別各機(jī)構(gòu)的潛在合作機(jī)構(gòu)及研究領(lǐng)域。就國內(nèi)的圖書情報與檔案管理學(xué)科而言,研究發(fā)現(xiàn):①教師的研究興趣主要涉及信息資源管理、信息計量與競爭情報、信息服務(wù)與用戶等11個主題;②樣本院系主要可劃分為7個社群,包含457對潛在合作關(guān)系。據(jù)此,筆者強(qiáng)調(diào)多學(xué)科融合與跨機(jī)構(gòu)合作的重要性:①圖書情報與檔案管理的跨學(xué)科融合路徑應(yīng)在堅守信息資源管理內(nèi)核的前提下,與管理科學(xué)與工程、公共管理、計算機(jī)科學(xué)與技術(shù)等學(xué)科積極融合;②充分發(fā)揮社群邊緣機(jī)構(gòu)在跨機(jī)構(gòu)合作中的重要作用,促進(jìn)機(jī)構(gòu)之間多方面、深層次的合作。本文可以協(xié)助各機(jī)構(gòu)尋求同自身相似的同行機(jī)構(gòu),并能夠通過挖掘其間的潛在合作關(guān)系,在一定程度上推動跨機(jī)構(gòu)合作的發(fā)展。
需要注意的是,本文的研究興趣文本數(shù)據(jù)主要來自機(jī)構(gòu)官方網(wǎng)站,可能存在數(shù)據(jù)老舊、更新不及時的情況,影響分析結(jié)果。今后,可綜合機(jī)構(gòu)網(wǎng)站、學(xué)術(shù)成果題錄等多來源資料,優(yōu)化數(shù)據(jù)質(zhì)量,進(jìn)行綜合分析。此外,潛在合作關(guān)系與實際合作現(xiàn)狀之間的比較、全球范圍內(nèi)機(jī)構(gòu)潛在合作關(guān)系的探究,也是值得進(jìn)一步研究的方向。
參考文獻(xiàn):
[1] 人民網(wǎng). “六卓越一拔尖”計劃2.0掀起一次中國高教“質(zhì)量革命”[EB/OL]. [2021-01-30]. http://edu.people.com.cn/n1/2019/0430/c1006-31059188.html.
[2] 馬費成, 李志元. 新文科背景下我國圖書情報學(xué)科的發(fā)展前景[J]. 中國圖書館學(xué)報, 2020, 46(6): 4-15.
[3] LEE S, BOZEMAN B. The impact of research collaboration on scientific productivity[J]. Social studies of science, 2005, 35(5): 673-702.
[4] 劉萍, 郭月培, 郭怡婷. 利用作者關(guān)鍵詞網(wǎng)絡(luò)探測作者相似性[J]. 現(xiàn)代圖書情報技術(shù), 2013(12): 62-69.
[5] 江文華, 徐健, 李綱, 等. 基于研究興趣相似性網(wǎng)絡(luò)的我國圖書館學(xué)研究社群分析[J]. 現(xiàn)代情報, 2019, 39(9): 21-27.
[6] 林原, 王凱巧, 劉海峰, 等. 網(wǎng)絡(luò)表示學(xué)習(xí)在學(xué)者科研合作預(yù)測中的應(yīng)用研究[J]. 情報學(xué)報, 2020, 39(4): 367-373.
[7] 史雅莉, 司莉, 姚瑞妃, 等. 國外iSchools圖情學(xué)科教師隊伍結(jié)構(gòu)與研究領(lǐng)域調(diào)研及啟示[J]. 圖書情報知識, 2018(5): 33-40.
[8] 趙躍, 梅夢娜. 我國檔案學(xué)研究的堅守、轉(zhuǎn)向與進(jìn)路——基于檔案學(xué)者研究方向變化的審視[J]. 檔案學(xué)通訊, 2019(3): 4-11.
[9] 肖希明, 楊蕾. 我國LIS教育機(jī)構(gòu)師資隊伍建設(shè)的調(diào)查分析[J]. 圖書情報知識, 2014(1): 4-10.
[10] 陳翀, 李楠, 梁冰, 等. 基于成果特征的學(xué)者學(xué)術(shù)專長識別方法[J]. 圖書情報工作, 2019, 63(20): 96-103.
[11] COPIELLO S. Research interest: another undisclosed (and redundant) algorithm by ResearchGate[J]. Scientometrics, 2019, 120(6): 351-360.
[12] HOLMBERG K, TSOU A, SUGIMOTO C R. The conceptual landscape of iSchools: examining current research interests of faculty members[J]. Information research, 2013, 18(3): 19-22.
[13] 劉曉豫, 朱東華, 汪雪鋒, 等. 多專長專家識別方法研究——以大數(shù)據(jù)領(lǐng)域為例[J]. 圖書情報工作, 2018, 62(3): 55-63.
[14] 熊回香, 楊雪萍, 蔣武軒, 等. 基于學(xué)術(shù)能力及合作關(guān)系網(wǎng)絡(luò)的學(xué)者推薦研究[J]. 情報科學(xué), 2019, 37(5): 71-78.
[15] 劉萍, 周夢歡. 基于共詞網(wǎng)絡(luò)的專家專長挖掘[J]. 情報科學(xué), 2012, 30(12): 1815-1819.
[16] KONG X, JIANG H, WANG W, et al. Exploring dynamic research interest and academic influence for scientific collaborator recommendation[J]. Scientometrics, 2017, 113(1): 369-385.
[17] 安璐, 余傳明, 李綱, 等. 中美圖情科研機(jī)構(gòu)研究領(lǐng)域比較研究[J]. 中國圖書館學(xué)報, 2014, 40(5): 64-77.
[18] 林原, 謝張, 李魯瑩, 等. 卓越大學(xué)聯(lián)盟國內(nèi)外高??蒲泻献鳈C(jī)會發(fā)現(xiàn)[J]. 現(xiàn)代情報, 2020, 39(3): 81-86, 114.
[19] YAN E, GUNS R. Predicting and recommending collaborations: an author-, institution-, and country-level analysis[J]. Journal of informetrics, 2014, 8(2): 295-309.
[20] CHUANG J, MANNING C D, HEER J. Termite: visualization techniques for assessing textual topic models[C]//Proceedings of the International Working Conference on Advanced Visual Interfaces. New York: ACM, 2012: 74-77.
[21] BLONDEL V D, GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks[J]. Journal of statistical mechanics: theory and experiment, 2008(10): P10008.
[22] 閆慧. 青年學(xué)者論圖情檔一級學(xué)科核心知識及發(fā)展方向: 2019年圖書情報與檔案管理青年學(xué)者沙龍會議述評[J]. 中國圖書館學(xué)報, 2019, 45(1): 121-127.
作者貢獻(xiàn)說明:
胡志偉:收集、整理并分析數(shù)據(jù),撰寫論文;
裴 ?雷:指導(dǎo)研究思路,核查論文內(nèi)容并提出修改意見。
Mining Potential Cooperative Relationships Between Institutions Based on Similarity Network of Self-Reported Research Interests: A Case Study of Library, Information and Archives Management Schools in China
Hu Zhiwei ?Pei Lei
School of Information Management, Nanjing University, Nanjing 210023
Abstract: [Purpose/Significance] By quantitatively describing the research landscape of the discipline of library, information and archives management (LIAM), this paper can provide decision support for the establishment of cooperative relationships between institutions, thus promoting the development of inter-institutional cooperation. [Method/Process] By using LDA model and network analysis method, this paper took 67 LIAM schools in China as an example. By thematic clustering of faculty’s self-reported research interest texts, the similarity network of institutions was constructed, and community division and potential cooperative relationship mining were performed. [Result/Conclusion] It is found that the current research interests of LIAM faculties in China mainly involve 11 topics, such as information resource management, informetrics and competitive intelligence, and information services and users. The sample schools can be divided into 7 communities, containing 457 pairs of potential cooperative relationships. In the future, in addition to taking part in five approaches of disciplinary integration, LIAM can fully carry out inter-institutional cooperation in scientific research and educational practice in different fields.
Keywords: similarity network ? ?self-reported research interests ? ?scientific cooperation ? ? educational institution ? ?LDA
作者簡介:胡志偉,碩士研究生,E-mail: mg1914013@smail.nju.edu.cn;裴雷,教授,博士生導(dǎo)師。
收稿日期:2021-10-27 ? ? ? ?發(fā)表日期:2022-03-24 ? ? ? ?本文責(zé)任編輯:劉遠(yuǎn)穎