張美琦 龍世彤 田曉迪 趙星 楊春燕
摘 要:深度挖掘特藏資源的價值是提高特藏資源利用率的重要途徑之一。當前,特藏資源的宣傳推廣材料多為大段文字和文獻的照片,鮮有可視化的圖片。為解決這一局限性,將知識圖譜工具VOSviewer引入特藏資源建設領域,通過可視化分析充分展示特藏資源的亮點、重點和全景,以促進讀者使用特藏資源。首先,利用Excel數(shù)據(jù)整理功能,將特藏資源數(shù)據(jù)文件改寫為與WOS純文本數(shù)據(jù)文件主要字段一致的過渡性文件;其次,通過自編Python程序,將過渡性文件轉換為VOSviewer支持的WOS純文本數(shù)據(jù)文件,從而實現(xiàn)對特藏資源數(shù)據(jù)的作者分布、出版社分布、出版地合作和術語共現(xiàn)分析。通過實證分析可知,該方法效果良好,可以為特藏資源的深度挖掘提供新的思路,具有一定的現(xiàn)實意義。
關鍵詞:特藏資源;知識挖掘;可視化分析;蒙學讀本;VOSviewer
中圖分類號:G353.1 文獻標識碼:A
特藏資源具有獨特性、珍貴性和歷史性等特點,具有核心競爭力。當前,特藏資源建設在重點揭示、亮點突出、全貌展示等方面還有提升的空間。一般情況下,特藏資源的宣傳推廣材料多為大段的文字和文獻的照片,鮮有可視化的圖片,讀者難以在短時間內了解該資源的全貌,不能感受到強烈的視覺沖擊,難以被激發(fā)出強烈的閱讀興趣。雖然文字是傳遞信息最常用的載體,但是,在當前信息爆炸的時代,人們接收信息的速度已經(jīng)小于信息產(chǎn)生的速度,尤其是文本信息。當大段的文字擺在面前,已經(jīng)很少有人耐心認真地把它讀完,經(jīng)常是先找文中的圖片來看。一方面,說明人們對圖形的接受程度比枯燥的文字要高很多;另一方面,說明人們急需更高效的信息接收方式,“一圖勝千言”我們深有體會,教材里的解釋圖、筆記里總結的知識結構圖,一直到現(xiàn)在經(jīng)常用的思維導圖等,其實都是簡單、實用的文本可視化。在特藏資源建設領域,知識圖譜工具正是解決這種需求的一種工具與技術,其突出特征在于把一個知識領域里浩如煙海的文獻數(shù)據(jù),以一種多元、分時、動態(tài)的可視化語言,通過巧妙的空間布局,將該領域的演進歷程集中展現(xiàn)在一幅幅網(wǎng)絡的知識圖譜上。知識圖譜工具的特點可以概括為“一圖展春秋,一覽無余;一圖勝萬言,一目了然”。
VOSviewer作為一款知識圖譜工具,采用可視化手段呈現(xiàn)知識單元之間的結構和演化關系圖譜,對于直觀認識知識結構有重要價值。由于該軟件處理文獻信息的功能比較強大,而且開發(fā)者不斷更新升級,一直以來都是免費使用,越來越受到專家學者的青睞。目前,在文獻計量領域,絕大多數(shù)論文都是用VOSviewer分析期刊論文數(shù)據(jù)或學位論文數(shù)據(jù),鮮有用來分析特藏資源數(shù)據(jù)的研究。而在特藏資源建設領域,利用流行知識圖譜工具實現(xiàn)可視化的研究并不多見,只有利用Gephi對梅蘭芳的民國報紙資源開展知識圖譜構建的文獻,但該研究僅從主題一個維度實現(xiàn)可視化分析。本研究把VOSviewer引入特藏資源建設領域,從主題、作者、出版地以及出版社實現(xiàn)多維度可視化呈現(xiàn),為特藏資源的知識挖掘提供新的思路。
一、研究設計
1.理論假設
VOSviewer可以分析文獻中的作者、機構、國家、期刊、關鍵詞和術語等知識單元,可以構建合作網(wǎng)絡、共詞網(wǎng)絡、文獻引證網(wǎng)絡、文獻共被引網(wǎng)絡和術語共現(xiàn)網(wǎng)絡等知識網(wǎng)絡類型。該軟件的分析原理是:分析某個知識單元,軟件會自動讀取該知識單元的數(shù)據(jù),之后匯聚分析。例如,如果要展開“作者”的分析,軟件會自動讀取“作者”字段的數(shù)據(jù);如果要做“機構”的分析,則自動讀取“機構”字段的數(shù)據(jù);要構建術語共現(xiàn)網(wǎng)絡,則自動讀取“題名”或“摘要”字段的數(shù)據(jù)等。以此類推,不論數(shù)據(jù)來源是什么,只要轉換成VOSviewer支持的數(shù)據(jù)格式,就可以分析數(shù)據(jù),繪制成知識圖譜。
VOSviewer支持以下三類數(shù)據(jù)的分析:(1)從文獻數(shù)據(jù)庫導出的數(shù)據(jù),如Web of Science、Scopus、Dimensions、Lens、PubMed;(2)從參考文獻管理軟件導出的數(shù)據(jù),如RIS、EndNote、RefWorks;(3)通過API獲得的數(shù)據(jù),如Crossref、OpenAlex、Europe PMC、Semantic Scholar、OCC、COCI、Wikidata。除此之外,非上述三類數(shù)據(jù),如果可以轉換成上述三類數(shù)據(jù)中的任意一種,就可以間接利用VOSviewer展開分析。由于Web of Science數(shù)據(jù)庫(以下簡稱WOS)的普及度和接受度相對較廣,因此,將從WOS導出的純文本數(shù)據(jù)文件作為目標數(shù)據(jù)文件,擬將特藏資源數(shù)據(jù)文件轉換為目標數(shù)據(jù)文件,然后利用VOSviewer的分析功能展開分析和挖掘。
2.實現(xiàn)流程
上述轉換過程具體分為以下三步:第一,從特藏資源數(shù)據(jù)文件中選取需要的字段,獲得原始.xlsx數(shù)據(jù)文件。只需挑選正題名、副題名、交替題名、叢書題名、主題詞、全部作者、出版社、出版地以及出版日期9個字段;第二,將原始.xlsx數(shù)據(jù)文件的字段重組并重新命名,獲得與WOS純文本數(shù)據(jù)字段一致的過渡.xlsx數(shù)據(jù)文件;第三,通過Python自編程序將過渡.xlsx數(shù)據(jù)文件轉換為文本格式.txt數(shù)據(jù)文件,獲WOS純文本數(shù)據(jù)文件,將WOS純文本數(shù)據(jù)文件導入VOSviewer,利用分析功能展開知識挖掘。
二、特藏資源知識挖掘方法實證
1.數(shù)據(jù)和方法
“美國殖民到現(xiàn)代的蒙學讀本”特藏資源是由美國教育家理查德·威內斯基牽頭,從美國十余家圖書館特藏中甄選出來的兒童早期閱讀課本,共包括842冊圖書。這些讀本的時間跨度較大,從美洲殖民時代的1711年一直延續(xù)到現(xiàn)代的1943年。這些讀本對于研究美國閱讀教育的源頭,并由此思考其對我國閱讀教育的啟示等具有重要的學術價值。對“美國殖民到現(xiàn)代的蒙學讀本”特藏資源展開知識挖掘很有必要,可以促進人文學者對美國閱讀教育源頭文獻的分析和研究。
2.時間特征挖掘
讀本出版的歷史性變化趨勢,可從一個側面反映讀本的發(fā)展狀況。“美國殖民到現(xiàn)代的蒙學讀本”整體跨度為233年,大致可以分為以下5個時期。
(1)起步期:1711年~1782年,共9冊讀本。美洲殖民地的教育并非從零開始,而是以英國和歐洲教育演進的最優(yōu)成果為起點繼續(xù)前進的。從源頭上講,英國教育是美國教育的主要源泉,因為當時居民80%來自英國,其閱讀教育更多從宗主國移植而來。在這樣的背景下,美國閱讀課本逐漸起步。
(2)蓬勃發(fā)展期:1783年~1837年,共155冊讀本。美國獨立戰(zhàn)爭期間,與英國的貿(mào)易交往被中斷,導致美國國內的閱讀課本非常短缺。美國正式成立后,美國的教育方向發(fā)生了時代性的轉變,從殖民時期以培養(yǎng)效忠英王為目標改為以培養(yǎng)優(yōu)秀的公民和增強國家凝聚力為職責。教育方向的轉變也導致了閱讀教學的根本性轉變,從以往以宗教教育為主轉向以道德教育為主。
(3)停滯期:1838年~1865年,共111冊讀本。隨著19世紀三四十年代普通學校運動的蔓延,讀本的出版成為一項重要的獨立業(yè)務,配有專門的出版社和銷售隊伍。該階段的前期,閱讀課本仍保持上升的勢頭,但后期由于1861至1865美國南北戰(zhàn)爭的爆發(fā),閱讀課本的數(shù)量發(fā)生了斷崖式下降。
(4)快速發(fā)展期:1866年~1920年,共446冊讀本。美國南北戰(zhàn)爭后教育的巨大浪潮創(chuàng)造了對讀本的創(chuàng)紀錄需求,閱讀課本進入一個快速發(fā)展的時期。該時期叢書讀本的發(fā)展初具規(guī)模,與現(xiàn)在的分級讀本相似,一般包括初級讀本和5~6本分級讀本,還有的包括一本拼寫書。
(5)穩(wěn)定發(fā)展期:1921年~1943年,共121冊讀本。20世紀初期,由于教育心理學從普通心理學中分離出來,對閱讀教育產(chǎn)生了強烈影響,因此,標準化的閱讀測試對閱讀教材也產(chǎn)生了較大影響。
3.空間特征挖掘
對于讀本出版空間的研究有助于探尋讀本出版中心的變遷規(guī)律?!懊绹趁竦浆F(xiàn)代的蒙學讀本”的出版地絕大多數(shù)在美國,也有少數(shù)在英國或加拿大。縱觀讀本出版地的地理空間變化,不難發(fā)現(xiàn)美國是從東北部大西洋沿岸城市逐漸向北部、南部、西部擴展的軌跡。在殖民時期和建國初期,費城、紐約、波士頓、伍斯特和巴爾的摩等地出版的讀本比較多。美國南北戰(zhàn)爭前期,美國西部圖書貿(mào)易的資本已經(jīng)轉移到辛辛那提。到了現(xiàn)代,讀本出版比較活躍的城市除了紐約、芝加哥、波士頓之外,又增加了亞特蘭大,達拉斯、舊金山等城市。
4.主題特征挖掘
“美國殖民到現(xiàn)代的蒙學讀本”的主題聚類圖可以劃分為7個聚類,如圖1所示,受篇幅所限,選取規(guī)模最大的4個聚類如下。
第一,以美國建國初期諾亞·韋伯斯特的《美國拼寫書(The Americanspelling book)》讀本為主。1783年美國獨立革命的成功,開啟了美國本土閱讀課本大量涌現(xiàn)的時期,這時期的讀本充滿了強烈的民族主義精神,課文中的宗教內容越來越少。第一本由美國人自己編寫和出版的拼寫書是韋伯斯特的《美國拼寫書(The American spelling book)》。
第二,以美國內戰(zhàn)前期的《麥克古菲讀本(McGuffey Readers)》為主。韋伯斯特的《美國拼寫書》要求兒童背誦很多標注音節(jié)的單詞,這種死記硬背使兒童對閱讀產(chǎn)生抵觸和厭惡情緒,于是《邁克古菲讀本》應運而生,逐漸取代了《美國拼寫書》的市場。
第三,以美洲殖民地時期最暢銷的《新英格蘭初級讀本(New England Primer)》為主。殖民地時期,學校缺乏課本,讓學生從家里自帶書籍,當時很多家庭唯一的書籍就是《圣經(jīng)》。當時的書籍大部分都是從英國進口的,少數(shù)在殖民地印制的讀本也是模仿英國讀本而寫的。殖民地時期普及度最廣的讀本就是《新英格蘭初級讀本(The New England Primer)》。
第四,主要以美國現(xiàn)代的暢銷書《迪克和簡(Dick and Jane)》為主。1930年,新一代的基礎分級讀本《迪克和簡》逐漸取代了《邁克古菲讀本》。這系列讀本講述一個典型的美國中產(chǎn)家庭的故事,其中的主人公有爸爸、媽媽、哥哥Dick、姐姐Jane、妹妹Sally 。
5.作者的學術群分布
美洲殖民時期,由于條件所限,因此,大部分讀本來自宗主國英國進口,大多是英國作者。美國建國初期,讀本的主要作者大多來自新英格蘭,他們受過高等教育,大部分是新教徒,以古典閱讀教育為導向。當時,絕大部分作者不是作者,而是編者。未經(jīng)許可也未聯(lián)合署名就大段摘抄的現(xiàn)象并不少見,而且美國國內外讀本的重印均無須支付費用,直至19世紀末美國實施國際版權法,這些現(xiàn)象才停止。
6.出版社的演化
“美國殖民到現(xiàn)代的蒙學讀本”出版社的發(fā)展,經(jīng)歷了印刷與出版一體化、印刷與出版分離、出版業(yè)蓬勃壯大三個階段。殖民地時期,印刷業(yè)都是手工作坊,當時印刷和出版不分家。到了19世紀30年代,手工印刷業(yè)開始向工業(yè)化轉型,再也不需要熟練工人和那么多的學徒工。到了美國內戰(zhàn)前期,由于印刷廠的啟動成本很高,絕大多數(shù)工廠選擇印刷與出版分離,專門做印刷才能盈利。于是,出版商接管了宣傳商、編輯、營銷人員的角色,只把圖書生產(chǎn)的工作留給了印刷商。
三、總結
當前,特藏資源的宣傳推廣環(huán)節(jié)鮮有文本可視化技術的應用,在特藏資源建設領域引入知識圖譜工具VOSviewer,為特藏資源實施學術畫像,用一幅幅知識圖譜展示重點、亮點和全景。本研究創(chuàng)新性地通過改寫和轉換特藏資源數(shù)據(jù)來實現(xiàn)可視化分析,針對數(shù)據(jù)獲取和文獻清理的復雜性工作,采用Python代碼實現(xiàn)數(shù)據(jù)的快速批量轉換,極大地提高了研究效率,為特藏資源的知識挖掘提供了新思路。
需要說明的是,該方法不僅適用于圖書類特藏資源,還適用于報紙類、期刊類、文書類等其他特藏資源。只要特藏資源的元數(shù)據(jù)具備4個W要素,即What(對象)、Where(地點)、When(時間)、Who(人員)等,就可以通過上述步驟利用VOSviewer實現(xiàn)可視化分析。該方法的不足之處在于,數(shù)據(jù)清理的工作量會較大。例如,由于特色資源中的責任者,其責任方式可能有著、編、審、校、譯等多種,所以,數(shù)據(jù)清理時需要較大的耐心和細心。另外,特色資源的主題詞/關鍵詞字段,需要細粒度的揭示,生成的知識圖譜會更有解讀性。
參考文獻:
[1]李 杰,陳超美. CiteSpace科技文本挖掘及可視化(第一版)[M].首都經(jīng)濟貿(mào)易大學出版社,2016.
[2]劉則淵.視覺思維、數(shù)學思維和哲學思維的集成之作——陳超美著《科學前沿圖譜》中譯本推介[J].科學與管理,2014,34(03):25-26.
[3]李 杰.中國新冠安全、風險、災害與危機的研究態(tài)勢[J].科學觀察,2022,17(03),15-22.
[4]沈 旺,陳玖瑜,潘夢雅.數(shù)字人文視域下民國報紙知識圖譜構建研究[J].圖書館雜志,2022,41(09):105-112.
[5]李 杰,魏瑞斌.VOSviewer應用現(xiàn)狀及其知識基礎研究 [J].農(nóng)業(yè)圖書情報學報,2022,34(06):61-71.
[6]滕大春著.美國教育史(第二版)[M].北京人民教育出版社,2001.
[7]練小川.美國兒童閱讀課本簡史(三)[J].出版參考,2021(09):29-33.
(作者單位:北京師范大學圖書館)
基金項目:本文系北京高校圖書館研究基金項目“面向數(shù)字人文的縮微文獻文本挖掘與知識可視化研究”(項目編號:BGT2021047)的研究成果之一。
通訊作者:張美琦(1974—),女,漢族,山西大同人,碩士,副研究館員,研究方向:特藏資源建設。