,,
(南京交通職業(yè)技術學院,江蘇 南京 211188)
超星發(fā)現系統(http:∥ss.zhizhen.com/)是北京超星公司研發(fā)的、我國最大的文獻檢索系統,具有強大的知識挖掘和情報分析功能。它以海量元數據為基礎,利用數據存儲、資源整合、知識挖掘、數據分析、文獻計量學模型等相關技術,進行復雜異構數據庫的集成整合,實現高效、精準、統一的檢索。其功能主要有:檢索、多維面聚類、多種排序顯示、可視化及關聯信息圖譜、全文獲取渠道鏈接、參考與引證、基于關聯規(guī)則的擴展發(fā)現、多主題對比、社區(qū)分享等。
超星發(fā)現系統的個性化服務模式(圖1)包含:1)個性化存儲服務:在發(fā)現系統中開辟個性空間,以實現檢索信息保存,如以讀書、講座、課程為主的學習空間、檢索式保存、檢索結果的收藏/分享。2)個性化組織服務:多維度整合發(fā)現系統信息資源,以多項組配聚類,精煉用戶所需資源信息。3)個性化檢索服務:根據不同的功能,針對不同的檢索者提供的檢索目標,提供智能輔助檢索功能,如檢索詞聯想、常用檢索詞列表;針對檢索結果進行多角度個性化排序、輸出,如排序方式(館藏優(yōu)先/出版日期/學術性/相關性/引文量)多角度,題錄輸出(單個/多個/單頁/多頁)、輸出格式(文本/參考文獻/查新/參考文獻管理軟件等格式)多樣化、題錄信息二維碼掃描。4)個性化分析服務主要將用戶檢索的信息進行知識圖譜可視化分析、多主題分析、引證分析等。5)全文獲取鏈接服務是為用戶提供全文鏈接的獲取渠道,如:文獻傳遞、文章下載、電子全文、圖書試讀。
圖1 超星發(fā)現系統的個性化服務
超星發(fā)現系統的個性化分析服務功能可幫助用戶快速了解相關主題的研究發(fā)展現狀,分析預測其未來發(fā)展趨勢。筆者登錄超星發(fā)現系統的高級檢索界面,選取開放獲取研究文獻進行“學術輔助分析系統”的個性化服務體驗,解析相關詞為“開放獲取、開放存取、Open Access、OA”。檢索測試發(fā)現涉及檢索詞“OA”的研究成果出現大量“辦公自動化:Office Automation”研究,而在“全部”字段檢索下,涉及“OA”的開放獲取研究多數包含前三個主題詞。因此,本文開放獲取文獻檢索詞設定為“開放獲取、開放存取、Open Access”,設定“全部”字段、邏輯“或”匹配、“精確”模式、“所有文獻類型”進行檢索。檢索日期是2016年4月22日,檢索返回 13 148 條結果,總被引次數 18 289 次。精煉檢索限定在“只檢索學術文章”,檢索返回 7 575 條結果,總被引次數 18 228 次。從檢索結果數據看,精煉檢索排除了42.3%的文獻,保證了檢索結果的查全率和查準率。
對某主題的研究年代進行分析,可反映該項主題的發(fā)展趨勢。2004年以前開放獲取概念逐漸被接受并進入實踐,如:2001年發(fā)布《布達佩斯開放獲取計劃》,2002年開放獲取資源項目的出現,2003—2004年由知識倉儲建設引發(fā)的開放存儲的推出,說明開放獲取模式處于起步創(chuàng)新階段。因此,如圖2所示,2004年以前開放獲取研究文獻較少。之后五年是開放獲取的鞏固期,此時期多種類型資源被開放,開放獲取的使用量、影響力在逐漸增長,帶動研究成果的輸出。因此,2005—2010年開放獲取研究成果處于穩(wěn)步上升階段。而2010—2012年開放獲取研究成果比較穩(wěn)定,這與2009—2011年開放獲取穩(wěn)定的應用現狀,如開放獲取聯盟/門戶的出現、法案的推出是相吻合的。2012年以后開放獲取研究成果量達到了一個新的高度,均在800篇以上,仍處于上升階段。此階段開放獲取組織轉變?yōu)楦顚哟蔚闹R服務,進入戰(zhàn)略發(fā)展期,開放獲取仍是研究熱點。
圖2 開放獲取相關論著發(fā)文量趨勢圖
超星知識發(fā)現系統共涉及12種文獻資源類型,將“開放獲取”相關研究進行精煉檢索后,檢索結果顯示5種學術文獻類型。
2.2.1 圖書文獻統計。超星發(fā)現系統收錄開放獲取相關圖書有48本,總被引次數是181次,其中2014年出版量達11本。圖書相對于其他文獻類型較可靠,出版周期較長,當研究者研究較成熟時,會將研究成果轉化為圖書。出版最早的是2006年劉廷元主編的《數字信息檢索教程》一書,其引用量是20次。2006年喬冬梅的《e印本文庫e-print archive建設與應用—開放存取運動典型策略研究》一書,被引13次。2008年劉廷元的《信息檢索教程》也有涉及文獻獲取,其被引次數為13次。被引次數最高的是2009年王細榮等人的《文獻信息檢索與論文寫作》一書,被引27次。此四本書被引次數排名前四,說明三位學者的論著是被圖書情報界普遍認可的,是值得學者參考借鑒的。
2.2.2 期刊文獻統計。超星發(fā)現系統收錄的開放獲取的學術性期刊文章共 6 595 篇,占總量的93.3%,總被引次數 17 223 次,發(fā)文量一直是穩(wěn)步上升。從文獻的相關性和學術性看,期刊是具代表性的,它出版周期短,發(fā)表迅速,一般學者研究成果會最先在期刊上發(fā)表。
其中,開放獲取研究核心發(fā)文量 3 318,被引量為 12 595 次,占總量的69%,其中主要集中在中文核心期刊、統計源期刊、CSCD、CSSCI四種來源中。為確保開放獲取研究的可靠性,利用超星發(fā)現系統檢索結果頁面左側的“重要期刊”,精煉檢索結果,選擇“中文核心期刊、統計源期刊、CSSCI、CSCD、SCI、EI、SSCI”六個來源數據庫的期刊文獻的文種、作者、機構進行統計分析。
(1)核心刊種統計
圖3 開放獲取研究核心刊種發(fā)文統計圖
檢索統計涉及開放獲取研究期刊49種,而圖5列出的是涉及開放獲取研究發(fā)文量在40篇以上的期刊,以圖書情報類期刊為主?!妒澜缛A人消化雜志》《世界胃腸病學雜志》均以開放獲取的模式出版,實現了臨床醫(yī)師和公眾的利益最大化,不涉及開放獲取研究的實質內容。圖3中其他非圖情類的期刊均是因開放獲取的出版模式而列出。排在第三位的《圖書情報工作》刊發(fā)212篇開放獲取論文,其被引 1 697 次,其中出現開放獲取關鍵詞73次,開放存取關鍵詞55次,涉及一級相關詞:研究成果、虛擬組織、機構知識庫、知識管理、按需印刷,由此可見開放獲取的研究熱點。
(2)核心作者統計
筆者利用超星發(fā)現系統分層聚類功能,將第一作者和作者機構匹配,準確列出排名前十作者發(fā)文數據。見表1:發(fā)文量最多的作者是中國科學院的張曉林,引文量最多的是北京大學的李武。作者發(fā)文量和引文量的統計,是評價該學科領域學術影響力的常用指標??梢?,二位學者的學術影響力和開放獲取研究成果的被認可度。
表1 開放獲取研究核心期刊發(fā)文前十列表
(3)核心發(fā)文機構統計
超星發(fā)現系統頁面左側列出了開放獲取的機構及出現頻次,其可視化圖形列出了15個機構。如圖4所示,頻次用圓圈大小表示,圓圈越大,出現頻次越高。共現關系用連線表示,越短共現頻次越高,相關性越強。開放獲取的研究除中國科學院、中國科學信息研究所外,其余均來自高校。表2中,筆者按以第一作者身份在核心期刊發(fā)表相關論文最多的機構學者為代表列出,若發(fā)文量相當,取引文量最多的學者列出。借助機構分析,可與學者建立溝通渠道,開展研究課題相關的個性化服務,進行定題跟蹤。由研究機構、代表學者的發(fā)文量、引文量可知其學術影響力。
2.2.3 學位論文統計。學位論文的系統性、成熟性、學術性、創(chuàng)新性、學術性、內容容量、發(fā)文量、發(fā)文速度均介于圖書和期刊論文之間。超星發(fā)現系統收錄的關于開放獲取的學位論文為309篇,總被引次數716次。由超星發(fā)現系統的相關論著發(fā)文量趨勢圖,可知2010年被引峰值45次。其中,博士論文34篇,碩士論文273篇。與開放獲取研究密切相關,學位論文前五的機構及學位數量:武漢大學39篇、吉林大學21篇、中國科學院14篇、東北師范大學13篇、燕山大學12篇,被引量分別為:65、133、3、69、29次。其中,2008年吉林大學鄧君《機構知識庫建設模式與運行機制研究》一文被引量最高,達50次。
圖4 開放獲取研究核心發(fā)文機構統計圖
/
相關級別機構發(fā)文量引文量代表學者學者發(fā)文量(篇)學者被引量(次)一級中國科學院1441 455張曉林11149一級武漢大學971 280黃如花13266一級北京大學47979李 武4574一級南京大學37151袁順波536
續(xù)表2
2.2.4會議論文統計。會議論文要求是就相應學科研究的發(fā)現、進展和成就方面提出新的研究課題和新的設想,才能在學術會議上首次發(fā)布,然后在期刊上發(fā)表。超星發(fā)現系統收錄的開放獲取相關會議論文258篇,被引次數108次,2014年被引峰值59次。其中,國家自然科學基金委員會科學基金雜志部任勝利在“第三屆全國核心期刊與期刊國際化、網絡化研討會”上發(fā)表的《開放存取(Open Access):現狀與展望》一文被引65次,其余被引次數很少。會議論文從發(fā)文量和被引次數均落后于圖書、期刊、學位論文。這種現象在一定程度與學者的研究成果優(yōu)先發(fā)表在期刊上有關系。
超星發(fā)現系統采用“中國圖書館分類法”對每篇文獻進行分類,開放獲取研究涉及學科主要集中在“文化、科學、教育、體育”和“醫(yī)藥、衛(wèi)生”。其中,“文化、科學、教育、體育”學科 3 448 篇,被引次數 16 891 次,占總被引量92.7%,說明開放獲取的研究主要集中在該領域?!搬t(yī)藥、衛(wèi)生”學科 2 218 篇,被引次數94次,主要內容是開放獲取出版模式資源、投稿須知之類的文獻,少量提及開放獲取實質性研究。
關鍵詞是對文章內容的高度概括和凝練,借助關鍵詞分析主題內容可確定研究領域的熱點問題。為確切掌握開放獲取研究重點,關鍵詞分析時借助系統的聚類分析精煉檢索結果,選取重點學科“文化、科學、教育、體育”涉及關鍵詞分析,了解該學科與開放獲取研究相關知識群的結構。該學科開放獲取研究文獻 3 448 篇,占超星收錄開放獲取研究文獻總量的45.5%。由圖5可知開放獲取研究的一級高頻共現詞是圖書館、機構知識庫、高校圖書館、學術期刊、信息資源。二級關鍵詞是資源建設、科技期刊、學術交流、學術出版、出版模式,三級關鍵詞是期刊、學術信息、中國科學院、數字圖書館、研究成果。表3是根據關鍵詞聚類分析列出共現詞涉及的開放獲取研究發(fā)文量和引文量,可知開放獲取的研究熱點。
圖5 開放獲取研究關鍵詞共現關系圖
一級關鍵詞二級關鍵詞關鍵詞共現頻次相關論文被引量關鍵詞共現頻次相關論文被引量圖書館2811 344資源建設143521機構知識庫2771 628科技期刊137998高校圖書館2681 097學術交流1331 243學術期刊1441 441學術出版991 268信息資源143748出版模式93834
借助基金項目的可視化分析,可知開放獲取研究文獻的支撐情況,同樣代表學術影響力。開放獲取研究涉及基金389項,主要集中在省市基金項目、國家社會科研基金項目、國家教育部基金,此三項共計337篇,占總量的86.6%。其中,社科基金項目涉及文獻被引次數最高為869次。胡德華的《開放存取期刊論文質量和影響力的評價研究》一文被引52次,源于國家社會科學基金項目“開放存取期刊質量及其文獻保障率與圖書館因應之策”成果;最新一篇是2015年丁大尉《科學信息開放獲取模式的STS考察》一文,源于國家社會科學基金后期資助項目“網絡環(huán)境下當代科學交流體系的重構”成果。利用基金項目分析功能,可獲取開放獲取研究熱點、科研價值。
筆者借助超星發(fā)現系統從文獻類型、學科、基金、關鍵詞、重要期刊、機構、作者等多角度聚類統計分析開放獲取研究成果,發(fā)現開放獲取已然成為圖書情報界、學術界、出版界、政府和國際組織共同關注的熱點問題。我國以中國科學院為代表單位,在機構知識庫、知識管理、學術交流、出版模式等方面做了大量研究,可以預測開放獲取在未來一段時間仍是圖書情報界的熱點話題。有人預測到2025年,圖書館通過機構知識庫自我存檔等各種聚合手段提供服務的學術資源數量將超過購買的資源。因此,作為圖書館不能單純地享用開放獲取免費資源,應積極與學術交流、圖書館戰(zhàn)略轉型結合起來。在尊重知識產權的基礎上,利用開放獲取的方式,促進學術成果的保存和傳播。
此外,知識發(fā)現系統是大數據時代衍生的用于海量資源整合、數據關聯、情報分析處理的統一學術檢索平臺。而超星發(fā)現系統以其特有的個性化服務功能為用戶服務,結合文獻計量方法,多維度聚類文獻資源,將主題資源進行可視化分析,深入了解主題/學科資源動態(tài),實現了科研定題跟蹤服務。不過,筆者通過對超星知識發(fā)現系統個性化服務體驗,發(fā)現其缺乏個性化定制(RSS、Email)服務、基于Web 2.0的用戶參與功能不足、缺少分類號聚類分析、英文字母大小寫檢索結果不統一等問題。在云環(huán)境和大數據分析技術的支持下,超星發(fā)現系統應借鑒數據關聯、語義搜索技術完善檢索功能,建立統一規(guī)范化元數據標引體系,保證檢索結果的全面準確性。利用Wiki、Folksonomy、FRBR等技術與用戶使用信息結合,創(chuàng)造基于關聯規(guī)則的新發(fā)現。以用戶需求為中心,開發(fā)更多滿足多層次、多元化用戶需求的個性化服務。