田栩冉 馬笑笑 李玉海
摘要:[目的/意義]對我國文獻資源保障體系論文主題演化的路徑進行分析,為重構我國文獻資源保障體系提供借鑒。[方法/過程]主要使用LDA模型對所搜集到的文獻進行聚類,首先以時間段為劃分依據,繪制主題詞共現網絡,探索各主題之間的交互關系,后通過相似度計算判定各主題內部的演化路徑并繪制?;鶊D以可視化形式展現演化結果。[結果/結論]研究發(fā)現我國文獻資源保障體系的相關主題在2000年左右均已基本出現,主題主要包含資源角度和機構角度兩大類,且受計算機技術和國家政策影響較大,并針對該兩大類主題,給出相應的對策與建議。
關鍵詞:文獻資源保障體系? ? LDA? ? 主題識別? ? 主題演化
分類號:G253
引用格式:田栩冉, 馬笑笑, 李玉海. 我國文獻資源保障體系論文主題識別與演化分析[J/OL]. 知識管理論壇, 2021, 6(6): 303-314[引用日期]. http://www.kmf.ac.cn/p/263/.
1? 引言
目前全球競相步入5G(第五代移動電話行動通信標準,也稱第五代移動通信技術)時代,相比之前的4G時代,網絡數據的傳輸速度將會更快,5G技術可以被更快速更高效地運用到多個領域。傳統的文獻資源與新型的數字文獻資源數量不斷累積,通過文獻信息資源的整體建設,建立起能在一定范圍內有效保障社會文獻需求的文獻信息資源系統——文獻資源保障體系[1]。
在這樣一個本該互聯互通的時代浪潮之下,國外數據庫商依仗其豐富的文獻資源,坐地起價,企圖繼續(xù)壟斷資源,引發(fā)了國內圖書館人的不滿。歐洲大學協會(European University Association,EUA)發(fā)布的一份報告顯示,學術機構、圖書館與美國化學學會(ACS)、愛思唯爾(Elsevier)、威利(Wiley)、施普林格·自然(Springer Nature)和泰勒弗朗西斯集團(Taylor&Francis)等出版商的交易成本正以每年3.6%的速度上漲。文獻資源,尤其是科技文獻資源,是對科學最新前沿研究結果的展現,如果放棄相關資源的購買,則會喪失國際科研競爭力;如果繼續(xù)服從霸王條款,依然無法改變被動的局面。故而,在以程煥文先生為代表的《十問數據商?。?!》等一系列詰問之后,重構我國的文獻資源保障體系成為當務之急。
目前國外已有一部分高校通過開放獲取出版的方式應對數據商壟斷價格的脅迫。2019年2月,加州大學在終止與愛思唯爾的協議后,于同年4月,同劍橋大學出版社簽署了美國史上第一個開放獲取出版協議。但我國至今還沒有能夠有效應對漲價的完整的文獻資源保障體系方案。重構文獻資源保障體系長路漫漫,把握好重構之路需要對過往已有的研究進行宏觀上的把握。通過對過往研究的梳理,了解文獻資源保障體系這一框架之下具有哪些方面的研究主題和工作內容,有利于為重構文獻資源保障體系提供指導借鑒,有利于改變近幾年被計算機技術牽著鼻子被動向前的發(fā)展局面,從而以歷史為指針,以新興技術為滾輪,構建起自給自足的、能夠與國內外數據庫商相抗衡的文獻資源保障體系。
2? LDA模型與研究設計
2.1? LDA模型介紹
為探究過往文獻資源保障體系相關文獻的研究主題,需要對已發(fā)表的相關文獻主題演化趨勢進行研究。而一篇文章的關鍵詞有的代表研究問題,有的代表研究方法,有的代表研究對象,因此僅從關鍵詞入手不利于對文獻主題進行識別[2]。目前既有研究大多采用主題模型的方法挖掘主題和探究主題演化。其中最簡單的是詞頻-逆文檔頻率(Term Frequency- Inverse Document Frequency,TF-IDF),將文檔集表示成以文檔為行、以單詞為列的矩陣,該矩陣的值與某一詞在特定文檔中的頻率成正比,與其在多個文檔中的頻率成反比。TF-IDF容易出現矩陣稀疏的情況,即只是從詞頻的角度而非以語義的形式表示文檔[3],還容易低估在一個類中高頻出現的卻能夠代表這個類的主題的詞[4],因此需要不斷調整TF-IDF的各項參數以適應實際需求[5]。故本文以LDA(Latent Dirichlet allocation)主題模型為基礎,對歷年文獻資源保障體系相關文獻進行主題識別。LDA即隱含狄利克雷分布,是基于“文檔-主題-詞”的三層貝葉斯概率模型[6]。具體的聯合概率公式為:
其中,θ表示主題分布,α是主題分布θ的先驗分布(即Dirichlet分布)參數,β是關鍵詞分布的先驗分布參數,z表示模型生成的主題,w表示模型最終生成的關鍵詞,N表示文檔的詞語數量,M表示文檔數量,三層概率模型如圖1所示:
2.2? 研究設計
此前較少有學者對我國文獻資源保障體系相關文獻進行主題演化分析,本文主要利用LDA模型對相關文獻進行主題識別,實現LDA模型對文獻資源保障體系相關文獻的應用。進一步繪制關鍵詞共現網絡和主題演化?;鶊D,從宏觀數量層面和微觀時間線層面進行演化分析,主題識別流程具體分為4個模塊,如圖2所示:
(1)數據庫選擇和數據搜集。本文的研究對象是國內文獻資源保障體系論文主題演化發(fā)展,故選擇CNKI期刊全文數據庫作為數據來源。檢索主題詞為“文獻資源保障體系”“文獻信息資源保障體系”“文獻保障體系”和“文獻資源保障”,邏輯連接詞為“OR”。檢索年份為2021年之前的所有相關文獻。在人工去除部分不相關的文獻之后,累積相關文獻共計1 429篇,將相關文獻的標題、關鍵詞、摘要匯總作為數據源備用。
(2)數據預處理。根據以上所收集到的數據,對所有文獻的標題、關鍵詞和摘要信息進行合并,將其視為代表該文獻的長文本,之后利用Python的jieba分詞工具包進行中文分詞。為了提高分詞的效果,需要設置用戶自定義詞典,根據多次的分詞試驗結果,將“文獻資源”“雙一流”“大數據”等專有名詞保存進自定義詞典以提高分詞結果的有效性。分詞過程中還要添加停用詞表,本文選用的是常用的中文停用詞表——哈工大停用詞表。最后將分詞的結果進行保存,作為LDA模型構建的數據。
(3)LDA建模。在用LDA 模型進行主題識別前需要計算最優(yōu)的主題數目。本文采用Python中的scikit-learn工具包中的K-means算法,通過計算分詞文本的簇內誤差平方和系數(Distortions)和輪廓系數(Silhouette)來確定最優(yōu)聚類數k,其中Distortions 系數越小越好,Silhouette系數越大越好,結果如圖3、圖4所示:
由圖3、圖4可知,綜合考慮簇內誤差平方和系數(Distortions)和輪廓系數(Silhouette),選擇12個聚類數較為合適。筆者在后續(xù)的LDA建模中將聚類主題數設置為12,α和β均保持python庫中的默認值。由于本文將標題、摘要和關鍵詞統一視為一段長文本,故在此各權重一致。
要想在LDA模型聚類結果中探索不同主題的演化路徑,除了結合文獻發(fā)表時間這一自然屬性之外,還要通過計算文本相似度、設定一定的閾值來確定具有較高相關性的文本主題,進而判定為演化關系,以形成該類主題的演化路徑。本文采用計算余弦相似度的方法來衡量不同年份下同一聚類內部文本的相似度,從而確定主題間的演化路徑。余弦相似度的計算公式如下:
余弦相似度的取值范圍在(0,1)之間,取值越大說明兩文本越相關,由于文摘部分內容較長,為避免數據過于稀疏,將相似度指標設置在0.1,即兩文本相似度大于0.1時,可認定為具有演化關系,并結合文本發(fā)表年份繪制主題演化路徑。
(4)主題結果分析。結合文獻資源保障體系相關文獻的數量分布和LDA模型聚類的主題結果,進行進一步的深入分析,一方面從宏觀的數量層面探究我國文獻資源保障體系的相關文獻數量的變化,另一方面從微觀的主題層面探究我國文獻資源保障體系相關文獻的主題演化路徑。
3? 文獻資源保障體系主題結果及演化分析
3.1? LDA模型主題識別結果分析
根據歷年發(fā)表的相關文獻數量,繪制逐年折線圖(圖5)。在1983年,我國頒布了《中華人民共和國國家標準·文獻著錄總則》(GB3792.1-83),該文件將“文獻”定義為“記錄有知識的一切載體”。這一概念的提出,使得學術界對于“文獻”的內涵與外延有了較為統一的定論。漸漸地,“圖書”“藏書”這兩個名詞也都逐漸被涵蓋在“文獻”這一定義之下。根據檢索結果,從1984年起,陸續(xù)有文獻資源保障體系相關的文獻發(fā)表,與之伴隨的正是圖書館職能轉變的探討:將圖書館藏書從收藏化為利用,更好地為社會各界的文獻資源需求提供保障。2000年前后,相關文獻的數量開始快速上升,而在2010年往后,相關文獻的數量開始呈現下降的趨勢。
表1為LDA主題模型識別結果,從同一主題下的詞項中,選取概率較高且具有主題意義的詞項,并歸納出相應的主題標識來代表該主題。由表1可知,信息資源評價、文獻資源建設、文獻資源共享、數字圖書館等一系列與文獻資源保障體系相關的主題被識別出來。根據相關文獻發(fā)表數量的逐年變化,將相關的文獻數據劃分為三個部分,分別為Ⅰ時期(1984-1999年)、Ⅱ時期(2000-2010年)和Ⅲ時期(2011-2020年),并利用CiteSpace可視化軟件繪制相關文獻的關鍵詞共現網絡(圖6-圖8),展現相關主題詞之間的聯系。
Ⅰ時期(1984-1999年)的主題主要集中在Topic3圖書情報機構、Topic4文獻資源共享、Topic6高校圖書館、Topic8文獻資源建設、Topic10文獻收藏與Topic12文獻組織。研究內容主要是傳統的圖書館等圖書情報機構職能研究與新世紀的展望和規(guī)劃。
20世紀的文獻資源主要還是以紙質文獻資源為主,但是數字化的文獻資源也逐漸發(fā)展起來,與之相對應的是數據庫的變化發(fā)展,1986年,國家海洋局情報所首先引進國外只讀光盤(CD-ROM)數據庫以后,各高校圖書館和情報機構也紛紛引入只讀光盤,用于課題檢索,具體包括定題服務、回溯檢索、專題服務、成果查新和專利審查的查新等[7]。1992年,由中國科技情報研究所重慶分所數據庫研究中心推出的《中文科技期刊篇名數據庫》(CB ISTIC/CEPC Periodicals ChinaBase)只讀光盤版正式發(fā)行,系我國大陸第一張中文數據光盤。1997年1月,《中國學術期刊(光盤版)》正式定期發(fā)行,是我國第一部大規(guī)模集成化學術期刊全文數據庫,圖書館界將此視為我國進入數字圖書館時代的標志和里程碑。
然而,互聯網的發(fā)展速度遠快于光盤數據庫的發(fā)展速度。在世界銀行的《1998年度世界發(fā)展報告》提出國家知識基礎設施(National Knowledge Infrastructure,NKI)的概念之后,1999年3月,王明亮提出要建設中國知識基礎設施工程(China National Knowledge Infrastructure,CNKI)。重慶維普資訊有限公司于2000年建立了維普資訊網。萬方數據公司在20世紀90年代初推出國內第一個資訊產品——《中國企業(yè)、公司及產品數據庫》。至此,知網、維普和萬方逐漸成為國內主流的三大數據服務平臺。
Ⅱ時期(2000-2010年)和 Ⅲ時期(2011-2020年)的主題主要集中在Topic8文獻資源建設、Topic4文獻資源共享、Topic6高校圖書館、Topic5文獻資源保障系統等主題。可見21世紀所面臨的主要挑戰(zhàn)是建設面向新時代、面向社會各個領域的文獻信息資源,逐步建立起文獻資源保障體系。
文獻資源保障體系是一個集文獻的收集、貯存、揭示、傳遞、利用等諸多功能為一體的社會系統[8]。在整個文獻資源保障體系的運行模式上,肖希明認為等級結構控制的方式是構建我國文獻資源保障體系模式的正確選擇,在以大系統的等級結構控制為基本構架的同時,吸收其他控制方式的優(yōu)點,構建一個由地區(qū)(省、市、自治區(qū))級、區(qū)域(行政大區(qū))級和國家級文獻資源網構成的三級網絡結構模式[8]。孫瑞英在此基礎上提出增加建立國際級保障體系的建議[9]。
Topic5文獻資源保障系統是文獻資源保障體系研究中的重要實踐。作為我國最早啟動的文獻信息資源保障系統,“中國高等教育文獻保障系統”(China Academic Library & Information System,CALIS)于1998年正式成立,CALIS作為“211工程”建設的公共服務體系之一,為各高校的重點學科發(fā)展起到了支撐保障作用,內容上涵蓋了農業(yè)文獻、法學文獻、商業(yè)文獻、醫(yī)學文獻、體育文獻等各個不同學科領域,結構上包括了標準文獻、科技文獻和外文文獻等不同類型的文獻。除CALIS之外,后續(xù)開發(fā)出了多個文獻資源保障系統,例如:北京地區(qū)高校圖書館文獻資源保障體系(BALIS)[10]、江蘇省高等教育文獻保障系統(JALIS)[11]、中國高校人文社會科學文獻中心(CASHL)[12]、國家科技圖書文獻中心(NSTL)[13]和國家科學數字圖書館(CSDL)[14]等。
進入Ⅲ時期(2011-2020年),自2015年國務院發(fā)布了《統籌推進世界一流大學和一流學科建設總體方案》(簡稱“雙一流”建設)[15] 之后,“211工程”建設逐漸轉為“雙一流”建設,CALIS以及其他文獻資源保障系統的職能也發(fā)生了相應變化,主要為高?!耙涣鲗W科”的文獻信息需求提供保障。
3.2? 主題演化分析
除了較為粗粒度地將文獻主題劃分為三大時期進行關鍵詞共現分析之外,本文還根據余弦相似度,結合文獻的發(fā)表時間來繪制桑基圖(Sankey Diagram),進一步探究文獻資源保障體系主題的演化路徑。桑基圖,又稱為?;芰糠至鲌D,起源于1898年的“蒸汽機的能源效率圖”。在?;鶊D中,對象用元素塊來表示,對象間產生能量的流動方向及聯系則通過連線來表示。本文的元素塊表示某一研究主題,主題之間的連線表示主題之間的演化關系,主題元素塊后面的括號中標注了首次出現該主題的年份。為使主題的演化路徑更清晰,重復出現的主題詞在后續(xù)的演化路徑中將不再表現出來。
由圖9可知,文獻資源保障體系的主要研究內容形成時間都比較早,到2000年左右,文獻資源保障體系的相關文獻主題已基本涵蓋,后續(xù)具體探討的是新世紀新環(huán)境之下,不同建設領域其內容和方式方法上的更新與完善。下文主要對各個主題內部的演化進行分析。
(1)Topic4文獻資源共享是文獻資源保障體系的主要探究主題。1973年,國際圖書館協會聯合會(國際圖聯,International Federation of Library Associations and Institutions,IFLA)首先提出了UAP(Universal Availability of Publications)的概念,即“國際圖書館資源共享”。該理念引入國內后,引起了國內學者們的高度贊同。遠征就指出,實現文獻資源共享,有利于高校圖書館擺脫“自給自足”的自然經濟狀況,可以緩解圖書經費不足、管理人員欠缺、編目能力有限、藏書空間飽和等一系列問題[16]。其中,館際互借是實現文獻資源共享的重要途徑與手段,我國最早提出館際互借大約是在1939年,當時民國政府教育部頒布了《修正圖書館規(guī)程》和《圖書館工作大綱》,文中有提到“館際互借與郵寄”[17],某種程度上說,這是文獻資源共享的開端。但受限于當時國內時代背景,文獻資源共享一直未能得到良好的發(fā)展。到了20世紀末,由于信息技術的發(fā)展,眾多學者開始倡導圖書館自動化[18-19]和數字圖書館[20-21],實體書的館際互借也慢慢發(fā)展為線上的更具有廣泛意義上的資源共享,從而演化出了一系列與互聯網技術發(fā)展緊密相關的研究主題,例如編目標準化、網絡建設、信息資源網絡化等問題。在這期間,也有學者倡議建設文獻資源共享服務網絡中心,或是采用有償共享的模式[22],但后續(xù)的相關研究成果較為有限。在2006年8月,Google首席執(zhí)行官埃里克·施密特(E. Schmidt)在搜索引擎大會(SESSanJose2006)上首次提出“云計算”(Cloud Computing)這一概念[23]。云計算本質上是一種全新的網絡應用概念,使用者可以隨時獲取“云”上的資源,按需求量使用[24],這一概念的提出,給文獻資源的共享模式帶來了新的思路。
與此同時,中國作為農業(yè)大國,農業(yè)文獻信息資源的共享對于國家的發(fā)展進步同樣具有戰(zhàn)略意義。全國農業(yè)文獻資源共建共享的最終目的是為全國的農業(yè)教學、科研、生產和經營所需要的資源支持和服務提供保障,進而促進我國農業(yè)的突破性發(fā)展[25]。為提高西部地區(qū)的經濟和社會發(fā)展水平,鞏固國防,國務院于2000年1月成立了西部地區(qū)開發(fā)領導小組。此前,已有學者針對西部地區(qū)的農業(yè)文獻資源共建共享提出相應的舉措[26]。而相關文獻保障體系的建立,也將有利于圖書館為西部大開發(fā)建言獻策,同時為西部地區(qū)做好文獻保障[27]。隨著技術的發(fā)展,目前,中國農業(yè)科學院信息化服務網也已經上線,通過一系列信息化服務,打造智慧農科協同平臺。2013年9月和10月由中國國家主席習近平分別提出的建設“新絲綢之路經濟帶”和“21世紀海上絲綢之路”的合作倡議,打開了我國西部地區(qū)和沿海地區(qū)的大門。做好相關歷史文獻的梳理和保障工作,不僅有利于申報世界文化遺產,推動特色文獻資源的建設,還可以加強對周邊國家地域文化的研究,甚至在一定程度上緩解邊境或沿海島嶼的爭端[28-29]。
(2)Topic9文獻傳遞、Topic10文獻收藏、Topic11信息服務和Topic12文獻組織均是Topic8文獻資源建設過程中演化出來更加細分的主題。文獻傳遞與收藏是圖書館的基本職能。高校圖書館館藏文獻資源是高校重點學科建設的重要保障。由于不同省市的經濟發(fā)展情況和當地特色文獻的數量不同,文獻資源布局的情況均有所不同,對相關文獻進行采購與收藏之前,需要對文獻資源布局進行充分的調研,然后對缺少的有需求的文獻資源進行采購并收藏。文獻收藏與傳遞除了關注數據庫技術的演化發(fā)展之外,還涉及多重備份與適時遷移、開放描述方式、模擬環(huán)境與環(huán)境封裝、數據恢復與數據考古、技術框架與整體解決方案、標準化技術等多個方面[30]。
為了更好地收藏與傳遞文獻資源,需要對其進行有效的描述。元數據是文獻資源組織中信息描述的重要部分,元數據不但在數字資源著錄方面具有重要的作用,也是使得圖書館走向自動化的關鍵技術。MARC(Machine-Readable Catalogue,機器可讀目錄)與Dublin Core(都柏林核心集)兩種元數據發(fā)展較為成熟,并且在圖書情報界得到廣泛的認可。1965年,由美國國會圖書館研發(fā)的MARC(后來稱之為MARCⅠ),代表了機讀目錄的初步成果,后在英美合作之下,MARCⅡ于1968年問世。我國有關部門于1991年在UNIMARC的基礎上加上特定字段,編制了《中國機讀目錄通訊格式》(CNMARC),并多次修訂。1995年,OCLC和NCSA聯合召開了第一次都柏林核心集會議,最終確立了包含15個核心元素的核心集。由于MARC在粒度、語言和可擴展性方面具有一定的局限,美國國會圖書館(Library of Congress,LC)于2011年5月提出了書目框架模型(Bibframe),力求大大整合現有的書目資源,但其如何適應中文的編目環(huán)境還有待深入研究。新時代互聯網環(huán)境的迅速發(fā)展將持續(xù)推動文獻信息資源組織方法及理念的創(chuàng)新和改革,文獻信息資源組織將朝著跨學科融合、智能語義組織以及信息方法一體化等方向快速發(fā)展[31]。
文獻資源建設的最終目的依然是服務用戶、服務讀者。1995年5月,江澤民同志在全國科技大會上的講話中提出了要實施科教興國的戰(zhàn)略。這促使圖書館從信息服務走向知識服務,通過知識服務助推科教興國戰(zhàn)略的實施。知識服務是指從各種顯性和隱性信息資源中,針對人們的需要將知識提煉出來、傳輸出去的過程[32]。知識服務正是以文獻信息資源建設為基礎的高級階段的信息服務。要想充分開展知識服務,需要深入挖掘用戶的知識需求,通過智慧的手段使顯性知識增值,使隱性知識可以被傳遞和接收,從而提供個性化信息服務[33],這些都需要知識挖掘、知識組織、知識開發(fā)和知識服務人員素養(yǎng)等多方面的提升[34]。與此同時,在線信息服務提供商和大型出版商逐漸開始了語義網應用實驗,產生了語義出版這種新的出版形態(tài),語義出版將文獻資源從一個孤立、靜止的知識包變成了嵌入在相互關聯和相互作用的知識體系中的知識工具[35]。語義出版一方面幫助用戶發(fā)現或驗證新知識,另一方面能使出版機構獲得新的利潤回報和盈利空間。長遠看來,知識服務和語義出版仍將是信息服務領域的一片紅海。
(3)Topic1信息資源評價。在宏觀層面上,建設文獻資源保障體系離不開高層次的宏觀調控機構,相應的政策、法規(guī)和標準以及社會各界的力量[36]。微觀層面上,為了保證更好地建設文獻資源保障體系,需要對相關的主體和客體進行評價評估。索傳軍等將評價主體分為個體和機構兩類,評價者個體是指來自于不同領域的專家學者,而評價機構則包括經營性機構、服務性機構、學術性機構等[37],再根據不同的評價客體形成不同的評價體系,例如期刊評價體系、館藏文獻資源評價體系、數字文獻資源評價體系等。安月英構建了一個二級的館藏資源評價體系,其中一級指標包括資源內容、檢索系統、經濟性和存儲系統,二級指標包括館藏資源保障能力、權威性、時效性、規(guī)范性、檢索功能、檢索效果、易用性、成本、使用情況、存儲系統的效率和安全性[38]。馬海群等從信息源內容、信息源組織、信息源性能、其他指標這四大層面構建了一套含有16個指標的網絡信息資源評價體系[39]。而期刊評價體系的指標包括但不限于總下載量、影響因子、5年影響因子、他引影響因子、平均引文數、Web即年下載率、即年指標、綜合總被引、可被引文獻量、引用期刊數、被引期刊數、等各類指標[40]。
與其同時,高校的學科評估一部分也是對相關學科的文獻資源進行評估。通常,我國高校院系可根據科研工作和教學需要,自主購買中、外文文獻,這種自主采購的方式針對性和專業(yè)性很強[41]。但也有高校圖書館文獻資源采購,在以滿足師生的閱讀需求的前提之下,兼顧院校的重點學科的發(fā)展,打造特色館藏和重點學科館藏。隨著“雙一流”等一系列工程的實施,各個高校在辦學的過程中還出現了高校合并、多校區(qū)辦學的情況,這使得高校圖書館在政治思想工作、機構設置和人事管理、規(guī)章制度標準化、網絡和軟件更新、經費管理、資源共享、館藏布局等多個方面面臨變革[42-43]。這一系列高校和學科的變革終將需要相關文獻資源服務的配套優(yōu)化。
總的來看,文獻資源保障體系的各個主題是相互交織在一起一同發(fā)展的,其主題演化大致與圖書館自動化的四個發(fā)展階段和信息技術發(fā)展的趨勢保持一致。第一階段為圖書館自動化管理集成系統發(fā)展階段,第二階段為圖書館在網上進行全球性、整體化的電子文獻信息服務的階段[44],第三階段為數字化圖書館階段,第四階段便是智慧圖書館階段。在這期間,信息技術不斷地更新迭代,如光盤CD-ROM的興衰,從局域網到互聯網,Bibframe模型逐漸替代MARC,云計算、大數據、物聯網等一系列新技術蓬勃發(fā)展。國家層面也發(fā)布不同的政策文件,從“211工程”到“雙一流學科”,從“西部大開發(fā)”到“一帶一路”,從“九五”的“金圖”工程到“十四五”的網絡空間命運共同體,都在不斷地推進我國文獻資源保障體系的發(fā)展演化。綜合來看,我國文獻資源保障體系的演化是在圖書情報、計算機等眾多學界的共同努力之下,依托先進的信息技術,不斷為中國文獻保障事業(yè)添磚加瓦的過程。
4? 結論與討論
本文主要基于LDA主題模型進行主題識別,實現了LAD主題模型在文獻資源保障體系領域的應用。在文獻資源保障體系的主題演化路徑中,形成了豐富多樣的主題,2000年左右基本已包含主要的文獻資源保障體系研究主題,主要可以分為文獻資源層面和機構層面兩大內容。從資源層面來看,研究內容包括文獻資源類型與收集、文獻資源組織與建設、文獻資源服務與共享。從機構層面來看,高校圖書館一直是研究的主要對象,隨著文獻資源保障體系發(fā)展建設,全國性機構與地方基層機構建設發(fā)展迅速。這兩大內容還受到“西部大開發(fā)”、“雙一流”學科建設、“一帶一路”等一系列宏觀政策和“大數據”“云計算”“數據挖掘”等一系列新興技術的交叉影響。
為重構文獻資源保障體系,同樣需要從資源角度和機構角度進行相應的調整。從資源的角度來看,在文獻資源類型與收集環(huán)節(jié),部分高校的文獻資源向重點學科、強勢學科傾斜,忽視弱勢學科、少數民族地區(qū)、非英語外文文獻等資料的采購,但從體系優(yōu)化的層面上看,同樣要兼顧“弱勢學科”和多元發(fā)展,從而帶動各高校各學科的水平提升。在文獻資源組織與建設環(huán)節(jié),數字化建設是文獻資源建設的大方向,要將元數據建設作為其核心,實現多渠道元數據融合、多類型元數據映射、多層次元數據識別,建立具有知識關聯功能的智慧的文獻組織平臺。在文獻資源服務與共享環(huán)節(jié),建立以開放數據、開放獲取、開放出版等為手段的數字資源開放生態(tài)新模式的同時,應充分重視用戶需求與用戶價值,通過抓取分析用戶的主觀特征、行為數據、偏好數據、意見反饋,構建用戶畫像,為用戶提供細粒度的個性化的資源服務。
從機構的角度來看,雖然多年來發(fā)展出各類專門專項的機構成員,但存在不同程度的冗雜、分塊嚴重、職責重復、缺乏統一管理等問題。建立統籌協調、部門聯動的文獻資源保障體系的管理機制,首先需要在中央設立跨系統、跨學科、跨部門的全國統一常設機構,總攬相關文獻資源的指揮與協調;其次,向下設立全國性的專家委員會與具體辦事機構負責技術指導與執(zhí)行;最后,依托各級學會與地方圖書館下設各系統間的地區(qū)聯盟和基層組織,實現分類、分級、分工保障[45],從而建成全國性的橫跨各個領域的文獻資源保障體系系統。
本文具有一定的局限:LDA模型聚類中,個別聚類內的文獻數較少,不能充分反映文獻的演化規(guī)律。在進行演化路徑分析的時候,后續(xù)再次出現的主題詞不再作為分析展示的對象,一定程度上會忽略主題演化過程中更為微觀的演進變化,后續(xù)還將繼續(xù)在文獻資源保障體系主題演化更為細致的方面深入研究,并探討演進的機理機制和未來新主題的識別預測。
參考文獻:
[1] 王翠萍, 楊沛超. 國家文獻信息資源保障體系建設論綱[J]. 圖書館學研究, 2000(2): 15-17,14.
[2] 劉自強, 王效岳, 白如江. 多維度視角下學科主題演化可視化分析方法研究——以我國圖書情報領域大數據研究為例[J]. 中國圖書館學報, 2016, 42(6): 67-84.
[3] 范云滿, 馬建霞. 利用LDA的領域新興主題探測技術綜述[J]. 現代圖書情報技術, 2012(12): 58-65.
[4] 張玉芳, 彭時名, 呂佳. 基于文本分類TFIDF方法的改進與應用[J]. 計算機工程, 2006(19): 76-78.
[5] 施聰鶯, 徐朝軍, 楊曉江. TFIDF算法研究綜述[J]. 計算機應用, 2009, 29(S1): 167-170,180.
[6] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation. Journal of machine learning research, 2003, 3: 993-1022.
[7] 夏旭, 曾海標. CD-ROM數據庫的引進、開發(fā)、利用現狀及對策[J]. 圖書館雜志, 1996(3): 32-35.
[8] 肖希明. 我國文獻資源保障體系論綱[J]. 圖書館, 1996(6): 8-12.
[9] 孫瑞英. 建立國家文獻信息保障體系的構想[J]. 情報科學, 2002(7): 680-683.
[10] 黎曉. 北京高校文獻資源保障體系發(fā)展現狀分析[J]. 農業(yè)圖書情報學刊, 2014, 26(3): 16-20.
[11] 楊永厚. 江蘇省高校文獻保障系統建設的回顧與思考[J]. 大學圖書館學報, 2002(1): 72-74,92.
[12] 李朵. 中國高校人文社會科學文獻中心(CASHL)網絡服務系統現狀與發(fā)展[J]. 大學圖書館學報, 2005(3): 27-29.
[13] 袁海波, 孟連生. 網絡環(huán)境下信息資源共建共享的實踐——兼述國家科技圖書文獻中心的建設與發(fā)展[J]. 情報學報, 2002(1): 57-62.
[14] 張曉林. 國家科學數字圖書館及其建設進展[J]. 中國科學院院刊, 2005(4): 344-346,343.
[15] 朱麗莉. “雙一流”建設背景下高校圖書館文獻資源建設策略探討[J]. 圖書情報導刊, 2018, 3(8): 7-11.
[16] 遠征. 實現資源共享對高校圖書館的現實意義[J]. 大學圖書館通訊, 1987(4): 10-13,19.
[17] 崔慕岳, 代根興. 論館際互借[J]. 河南圖書館學刊, 1990(3): 54-57.
[18] 夏旭. 資源共享發(fā)展的一大趨勢──光盤技術與通信技術的整合[J]. 大學圖書館學報, 1995(5): 40-42.
[19] 黃建年. MARC數據與圖書館[J]. 津圖學刊, 1997(4): 28-34.
[20] 曹作華. 論網絡化、數字化與高校圖書館館藏建設策略的轉化[J]. 情報科學, 2002(1): 16-18.
[21] 王元如, 寧圣紅. 數字圖書館和文獻信息資源共建共享[J]. 現代情報, 2000(6): 15-16.
[22] 郭曄. 淺談創(chuàng)建文獻資源有償共享體系[J]. 寧德師專學報(哲學社會科學版), 2004(2): 82-83,86.
[23] 許子明, 田楊鋒. 云計算的發(fā)展歷史及其應用[J]. 信息記錄材料, 2018, 19(8): 66-67.
[24] 羅曉慧. 淺談云計算的發(fā)展[J]. 電子世界, 2019(8): 104.
[25] 宛章齊. 試論全國農業(yè)文獻資源的共建與共享[J]. 農業(yè)圖書情報學刊, 1997(1): 21-22.
[26] 王子玉. 關于西北五省農業(yè)圖書館文獻資源共享建設的構想[J]. 甘肅科技, 1998(6): 2-3.
[27] 黃權才. 圖書館參與西部大開發(fā)的策略[J]. 圖書館界, 2001(4): 1-6.
[28] 陳彬強. 海上絲綢之路文獻資源保障體系建設[J]. 圖書館建設, 2015(5): 88-92.
[29] 周純, 馮彩芬, 馬翠嫦. 中國周邊區(qū)域研究文獻的需求與保障——以中山大學為例[J]. 大學圖書館學報, 2016, 34(5): 73-77,83.
[30] 王偉. 數字資源長期保存的技術研究[J]. 情報科學, 2012, 30(11): 1751-1754.
[31] 魏敏. 信息組織4.0:變革歷程和未來圖景[J]. 國家圖書館學刊, 2018, 27(1): 78-85.
[32] 田紅梅. 試論圖書館從信息服務走向知識服務[J]. 情報理論與實踐, 2003(4): 312-314.
[33] 易明, 王學東, 鄧衛(wèi)華. 基于社會網絡分析的社會化標簽網絡分析與個性化信息服務研究[J]. 中國圖書館學報, 2010, 36(2): 107-114.
[34] 趙萍, 馬江寶. 論圖書館的知識服務及其實現[J]. 圖書館學研究, 2005(8): 32-35.
[35] 魏蕊, 初景利. 學術圖書開放獲取與美國大學圖書館出版服務[J]. 大學圖書館學報, 2014, 32(3): 17-22.
[36] 汪濤, 肖希明. 新信息環(huán)境下的文獻資源保障系統建設[J]. 圖書與情報, 1999(1): 33-36.
[37] 索傳軍, 吳啟琳. 國內外網絡信息資源評價研究進展[J]. 現代圖書情報技術, 2006(8): 55-59,93.
[38] 安月英. 基于層次分析法的數字館藏評價指標體系[J]. 圖書館, 2008(4): 82-84.
[39] 馬海群, 呂紅. 網絡信息資源評價指標體系及其動態(tài)模糊評價模型構建研究[J]. 情報科學, 2011, 29(2): 166-171.
[40] 陳小山, 陳國福, 張瑞. 基于因子分析和SEM模型的期刊評價指標結構關系研究[J]. 情報科學, 2016, 34(10): 61-64,71.
[41] 唐定海. 院系自采文獻管理初探[J]. 圖書館建設, 2009(1): 52-54.
[42] 李家清. 合并高校圖書館面臨的問題及對策[J]. 大學圖書館學報, 2001(S1): 10-12,30.
[43] 楊樹雨. 論如何建立多校園的效益型圖書館[J]. 情報資料工作, 2001(2): 54-56.
[44] 楊宗英, 鄭巧英, 夏佩農. 圖書館自動化發(fā)展的新階段[J]. 大學圖書館學報, 1997(3): 1-5.
[45] 朱澤, 李玉海, 王常玨, 等. 重構之路,我國數字資源保障體系的發(fā)展與未來——“2021年全國數字資源保障體系重構學術研討會”評述[J]. 數字圖書館論壇, 2021(6): 30-35.
作者貢獻說明:
田栩冉:進行數據分析、論文撰寫及修訂;
馬笑笑:進行數據分析、論文撰寫及修訂;
李玉海:負責論文選題,提出論文框架,進行論文修訂與定稿。