王倩華,苗成朵
(中國農業(yè)科學院 棉花研究所,河南 安陽 455000)
機構知識庫(Institutional Repository,簡稱IR),又稱機構庫,機構倉儲等。目前學術界對于機構知識庫的定義沒有統(tǒng)一的認識和標準,有的基于資源和服務的角度界定機構知識庫,有的從機構知識庫本身建設的意義及數(shù)據(jù)存儲的角度進行闡述。作為學科研究的主要機構及科研產出的主要陣地,高校率先嘗試機構知識庫的建設實踐[1]。由于學科建設及人員配備等因素,我國綜合性大學、學術水平領先的科研院所機構知識庫建設工作進展較好,而農業(yè)類高校和科研院所等機構知識庫建設工作相對滯后一些。
機構知識庫(IR)是一個單位知識資產的系統(tǒng)收集、長期保存和傳播利用的管理與服務系統(tǒng),在保存機構原生學術資源、科研產出評價、提高學術影響力等方面具有重要作用。
中國農業(yè)科學院棉花研究所(以下簡稱中棉所或CCRI)發(fā)展至今,積累了大量的有價值的科研成果,有效規(guī)范保存和展示這些成果顯得尤為重要,因此,積極開展機構知識庫建設,保護知識資產,實現(xiàn)學術成果的規(guī)范長期保存、開放存取,促進業(yè)內學術交流,提升機構學術影響力。
當科研人員開展某一領域的研究時,最快捷的途徑是查閱該領域學術帶頭人的研究成果,然后分析該研究團隊的成員關系,獲取更多的相關文獻信息[2]。機構知識庫的建立不僅有助于科研人員查閱相關文獻,還有助于了解掌握相關學科領域的專家研究動態(tài),有利于科研人員之間互相交流,促進科研能力的提升。
中棉所自建所以來,產出中英文期刊論文、會議論文及學位論文6 000多篇,科研著作190余部,授權專利330余件,獲得各類成果獎勵150余項,還有作為特色資源的棉花品種100多個,以及一批行業(yè)標準、研究報告等相關科研成果,而且呈逐年增長的趨勢,是棉花科研領域重要的成果產出和創(chuàng)新群體。而科研產出成果缺少集中保存和管理平臺,知識資產長期處于低效保存利用狀態(tài),不利于知識利用和知識創(chuàng)新[3]。
中國農業(yè)科學院棉花研究所機構知識庫(CCRI-IR)軟件平臺的搭建及建所初期至今的歷史數(shù)據(jù)回溯與中國農業(yè)科學院農業(yè)信息研究所合作完成。以后每年進行數(shù)據(jù)更新,按照中國農業(yè)科學院棉花研究所的組織架構,由所屬各研究團隊派專人負責數(shù)據(jù)采集、整理和提交,圖書館負責系統(tǒng)數(shù)據(jù)維護。第一階段,完成基本功能需求的IR建設,實現(xiàn)本所機構知識庫從無到有;待CCRI-IR穩(wěn)定運行一段時間后,根據(jù)各研究團隊的特色及需求反饋,不斷拓展服務和功能。
CCRI-IR的建設根據(jù)自身機構特點及研究領域特色,圍繞機構學術成果的內容規(guī)劃建設、平臺設計開發(fā)以及相關支撐機制等層面逐步開展研究和實踐。主要內容包括:①對本所產出的多種類型科研知識資產進行采集、匯聚、加工、保存、管理及共享利用。②搭建CCRI-IR門戶,提供科研成果展示、學術交流平臺。
3.1.1 基本原則
主要包括機構資源模塊規(guī)劃設計、數(shù)據(jù)采集處理兩方面內容。其中,實現(xiàn)學術成果全面、準確、規(guī)范、系統(tǒng)典藏是機構知識庫建設的基本原則。因此,數(shù)據(jù)采集和質量控制是機構庫建設的重點。
3.1.2 學術成果模塊規(guī)劃設計
CCRI-IR建設初期,對本所的學術資源情況進行詳細的調研和規(guī)劃,確定要入庫的資源范圍、資源類型以及各資源模塊的字段設計。所覆蓋的數(shù)據(jù)資源類型包括公開學術資源和內部學術資源,其中公開學術資源包括已發(fā)表的中英文期刊論文、會議論文、學位論文、著作、專利、標準、棉花品種、獲獎成果;內部學術資源包括棉花纖維品質檢測報告、種子質量檢測報告、棉花國家區(qū)域試驗報告等機構內部保存的數(shù)據(jù)資源。所有呈繳的內容均有相對完整、規(guī)范的元數(shù)據(jù),以便對資源進行詳細標引。
3.1.3 入庫內容處理
機構庫建設的重點是入庫內容的處理,包括學術數(shù)據(jù)采集、數(shù)據(jù)處理、質量控制等多個環(huán)節(jié),數(shù)據(jù)處理流程見圖1。
圖1 數(shù)據(jù)處理流程
3.1.3.1 學術數(shù)據(jù)的采集。數(shù)據(jù)采集方式主要包括批量歷史數(shù)據(jù)回溯、定期自動獲取和更新、個人主動呈繳。為使歷史成果數(shù)據(jù)回溯完整、全面,在初步采集階段根據(jù)機構名稱創(chuàng)建多個檢索詞,對建所以來公開發(fā)表的4 類學術成果,包括期刊論文和會議論文、學位論文、專利、獲獎成果等類型的成果元數(shù)據(jù)進行全面回溯。由于早期機構名稱(包括全稱和簡稱以及英文名稱)和作者姓名英文拼寫格式等要素很不規(guī)范,加之少數(shù)拼寫錯誤的情況,因此需要不斷補充中英文機構名列表和作者英文署名格式,及時調整檢索策略,并需要對不同來源的相同學術數(shù)據(jù)去重,保留高質量的數(shù)據(jù)。另外,針對本所科研學術成果的特色,人工錄入了棉花品種模塊的數(shù)據(jù)。
截至目前,共有6 486條學術數(shù)據(jù)成功入庫,具體成果類型及數(shù)量見表1,已入庫期刊論文的收錄情況見表2。對比二者中、英文期刊論文數(shù)量可以看出CCRI-IR的建設已基本完成對本所公開學術成果的全覆蓋,實現(xiàn)對本所知識資產的集中管理與展示。
表1 CCRI-IR學術成果類型及數(shù)量
表2 CCRI-IR學術成果收錄情況
3.1.3.2 數(shù)據(jù)處理。對已采集的學術成果數(shù)據(jù)進行處理,主要包括成果確認、自動清洗、規(guī)則去重、自動關聯(lián)等,難點在自動關聯(lián)。數(shù)據(jù)關聯(lián)包括“成果—二級機構”的關聯(lián)及“成果—研究者”的關聯(lián)?!俺晒墮C構”關聯(lián),需提前預設作者與二級機構的歸屬關系,根據(jù)作者署名將成果自動分配到對應的二級機構。成果—作者關聯(lián)包括確認作者的關聯(lián)和疑似作者的關聯(lián),當成果中署名的機構與本所機構名相同(包含各種格式、拼寫錯誤等)且作者唯一,則認為是確認的成果—作者關系。當成果中所署的機構名與本所機構名不同,或者本所機構名下多個同名作者的情況視為疑似成果,需要人工審核確認。
3.2.1 棉花品種
中棉所自1957年建所以來,歷經60多年的科研攻關和不懈努力,半個多世紀以來,已培育出100多個棉花品種,它們曾經對我國的棉花生產做出了重大貢獻?!懊藁ㄆ贩N”是中棉所的核心學術成果,是中棉所特有的品種資源,因此,在CCRI-IR的建設工作中,特意增加構建了“棉花品種”特色資源模塊,把中棉所自主培育的棉花品種信息收集并集中展現(xiàn)出來,既提升中棉所的學術成果影響力,又方便廣大育種工作者交流借鑒。CCRI-IR收錄的棉花品種信息主要包括:品種名稱、審定編號、育種人、品種來源、特征、產量表現(xiàn)、栽培要點等。
3.2.2 獲獎成果
獲獎成果是科研單位的拳頭成果和名片,代表了一個科研單位的科研實力和學術影響力。中棉所自建所以來,經過幾代科研人員的努力工作,先后獲得了國家級、省部級及其他科技獎勵共計152項(截至目前),其中國家獎23項,省部級獎60項。
“獲獎成果”作為本所的特色資源,在CCRI-IR建設中,增加創(chuàng)建了“獲獎成果”模塊。對獲獎成果的典藏,一方面,記錄中棉所的輝煌歷史,另一方面,也展示出這些成果的價值所在,激勵和鞭策后人勤勉工作、勇于創(chuàng)新、出大成果。CCRI-IR收錄的獲獎成果信息包括:成果名稱、完成人、獲獎類型及等級、獲獎時間、成果簡介等。
目前,CCRI-IR的建設已經實現(xiàn)常規(guī)學術資源(包括中英文期刊論文、會議論文、學位論文、授權專利、棉花標準等)和特色成果資源(包括棉花品種和獲獎成果兩個模塊)的全面收錄典藏,預計以后1 a~2 a內陸續(xù)實現(xiàn)其他類型學術資源的收錄工作。
3.3.1 建設理念
建設內容完善、用戶體驗良好的機構知識庫門戶平臺,有利于全面展現(xiàn)本機構的學術成果和學術價值,進一步提升機構的學術影響力,吸引科技人員積極參與本所機構知識庫的建設工作。CCRI-IR的建設按照統(tǒng)一揭示、個性展示的設計理念開展門戶系統(tǒng)的開發(fā),主要功能架構見圖2,圍繞公開成果、內部成果、特色資源3部分內容實現(xiàn)不同研究團隊(課題)、不同學者不同層面的學術成果展示。同時面對科技人員、館員、科研管理部門等不同用戶提供多樣化的權限和服務。
圖2 CCRI-IR功能架構
3.3.2 建設成效
3.3.2.1 門戶平臺特征。CCRI-IR門戶系統(tǒng)頁面見圖3(首頁),頁面設計以“天空藍”為主色調,搭配象征棉花朵的白色,代表中棉所衣被天下、溫暖萬家。首頁采用滾動照片展示本所引文量排名前五的學者,彰顯他們的專家風采。首頁醒目位置滾動展示本所獲得的最新成果、高被引成果等重要學術成果。同時針對機構的成果總量統(tǒng)計、成果類型統(tǒng)計、期刊收錄統(tǒng)計、二級機構等重要內容統(tǒng)一揭示。二級頁面可以實現(xiàn)從資源類型、收錄級別、年份、期刊、關鍵詞、作者、二級機構等分別揭示,幫助用戶快速實現(xiàn)成果檢索及瀏覽。
圖3 CCRI-IR門戶系統(tǒng)頁面
3.3.2.2 門戶系統(tǒng)功能。CCRI-IR針對不同類型的用戶設置不同的權限,提供多樣化的知識服務。對于普通用戶而言,CCRI-IR滿足其成果獲取、自我成果管理及同行交流的需求。用戶可根據(jù)不同的分類方式快速檢索和瀏覽學術資源,可在登錄系統(tǒng)后提交、認領、管理個人成果。對于館員而言,CCRI-IR賦予其對自有成果、用戶及系統(tǒng)功能的管理權限。館員登錄系統(tǒng)后可對后臺系統(tǒng)、功能配制、權限設置、用戶信息維護、成果內容更新、數(shù)據(jù)分析等方面進行全面管理。對于科研管理部門,CCRI-IR可以為其提供成果自動更新、統(tǒng)計及趨勢分析等數(shù)據(jù)支持,從而快速了解本機構的科研產出情況。例如可以從成果類型分類、發(fā)文量排行、被引量排行、論文收錄類型、二級機構隸屬等多角度、可視化的方式分析展示。為了提高機構、部門和科研人員參與IR 建設的積極性,系統(tǒng)增加了科研統(tǒng)計分析功能。該功能可以對機構、部門、個人的科研產出進行分項統(tǒng)計,對統(tǒng)計結果以排行榜、表格、柱狀圖、餅圖與折線圖等多種方式展示,并可輸出成可編輯文檔,便于后續(xù)利用。同時,為了便于按照SCI、EI、中文核心期刊等期刊指標進行統(tǒng)計,制定了期刊指標庫,用于自動識別提交數(shù)據(jù)是否被SCI、EI 等收錄。另外,增加了中科院分區(qū),根據(jù)當年中科院分區(qū)表數(shù)據(jù),自動識別論文分區(qū)范圍。協(xié)助相關部門進一步開展學科發(fā)展規(guī)劃和決策。
鑒于目前國內上線的機構知識庫學術資源類型單一,內容不夠豐富,一般都是期刊論文、會議論文、專利、標準等常規(guī)性學術資源,而學位論文和著作等數(shù)據(jù)信息量大的資源多數(shù)都沒有收錄,而各機構的特色數(shù)據(jù)資源更是沒有收錄,這與IR保存機構原生學術資源的功能不匹配。
利用IR內容支持科研成果管理、產出分析和科研評價,為科技人員提供個人知識管理、成果收錄通知等服務,為管理人員提供重要成果自動檢測、論文引證報告等服務,服務理念建設比技術平臺搭建與數(shù)據(jù)的存儲更重要。
目前國內IR 以存繳期刊論文、會議論文、專利、標準等居多,而CCRI-IR增加了“棉花品種”和“獲獎成果”兩個特色資源模塊,并完成了數(shù)據(jù)采集和存繳,但對于棉花區(qū)試報告、纖維及種子檢測報告等雖然架構了特色模塊,但數(shù)據(jù)的后續(xù)成功存繳還有待完成。
雖然 IR 的建設對于機構的管理者和知識的生產者都具有重要意義,但無論是科技人員還是科研管理部門對IR 的建設熱情普遍不高,圖書館如何和所屬各部門共同推進IR 進程值得深入思考[4]。未來要積極探索IR從政策及業(yè)務上與科研管理系統(tǒng)相互支持,建立自存繳獎勵機制及評價參考制度等,進一步明確IR建設的受益主體是研究所或高校,而不僅僅是圖書館單方面的事情。
參考國內已建設完成的IR模式,目前CCRI-IR訪問權限設置為部分模塊開放,部分訪問受限的方式。這在一定程度上降低了資源的利用率,機構內外人員交流受到一定的限制,這有悖于IR建設的初衷。建成IR不是目的,實現(xiàn)學術成果的廣泛共享和傳播才是最終目標[5]。將來要繼續(xù)完善和豐富資源類型,逐步打破封閉狀態(tài),提高開放共享意識,真正達到促進學術交流的目的[6]。
在提升用戶體驗、積極宣傳推廣的基礎上,根據(jù)不同用戶需求提供多維度深層次共享利用、學科規(guī)劃數(shù)據(jù)支撐、科研評價分析等多樣化知識服務。IR 的基礎功能是知識資產的存繳管理和檢索利用,但是,在CCRI-IR 的建設推進過程中卻發(fā)現(xiàn)其與機構現(xiàn)行的科技成果管理系統(tǒng)、績效考核評價系統(tǒng)等有一定的關聯(lián)性,如何合理規(guī)劃具有交集的不同系統(tǒng)或平臺之間的關系,需要建設者進一步思考。