李 卉
(上海電力大學圖書館,上海 201306)
近年來,科學技術呈現(xiàn)信息化、網(wǎng)絡化的發(fā)展趨勢。國家對科技創(chuàng)新的發(fā)展越來越重視,并投入大量的經(jīng)費,我國科研成果的數(shù)量增長迅速,科研成果數(shù)據(jù)已經(jīng)成為重要的戰(zhàn)略資源。高校是重要的科研基地,每年都會產生大量的科研成果。據(jù)統(tǒng)計,全國發(fā)表的科技論文主要集中在高校,占全國的66.0%[1]。在高校教學和科研管理工作中,無論是職稱評審、科研獎勵、項目申報等,都需要填報科研成果數(shù)據(jù)??蒲谐晒漠a出是衡量高??蒲袆?chuàng)新能力的重要指標之一,也是學校綜合實力的重要體現(xiàn)。及時、準確地對科研成果數(shù)據(jù)進行統(tǒng)計分析,對于掌握學??蒲邪l(fā)展態(tài)勢、制定發(fā)展規(guī)劃、推動科研工作發(fā)展有著重要意義[2]。隨著信息技術的快速發(fā)展,科研成果的管理逐步脫離手工管理,轉而依托各類系統(tǒng)平臺來實現(xiàn),這為高校的科研成果管理工作帶來了極大的便利性,規(guī)范了高??蒲谐晒慕y(tǒng)一管理,也提高了科研成果管理各環(huán)節(jié)的效率??蒲谐晒麛?shù)據(jù)的價值愈發(fā)受到人們重視的同時,多元、全面、精細的科研評價和統(tǒng)計工作也對科研成果數(shù)據(jù)提出了更高的要求,為科研成果的管理工作帶來了更大的難度。
科研活動中會產生很多信息,包括項目信息(如申報書、審批書、中期報告、結項報告等)、論文、著作、演示文稿、研究報告、實驗數(shù)據(jù)、軟件代碼、多媒體資料,以及用數(shù)字形式表達的想法、觀點、經(jīng)驗及訣竅的總結等各種科研成果和其他類型信息資源。另外,一些和科研有關的活動,如學術會議、學術報告、知識比賽、成果評選、學術獲獎等,也是高??蒲泄芾硇枰闹匾畔ⅰMǔ?,高校機構知識庫采集的成果類型除了正式出版和非正式出版/未出版的文獻以外,一些科研活動信息也經(jīng)常被收錄其中,作為一類成果類型。
在機構知識庫中,正式出版的成果主要來自外部數(shù)據(jù)庫,一般通過特定的接口等技術手段自動獲取入庫,少量由作者提交;非正式出版物和科研活動類成果則必須由作者提交。
科研成果管理和服務過程中除了科研成果本身外,還涉及科研人員、院系部門與研究機構信息,這些信息主要來自以下幾個業(yè)務系統(tǒng):①人事信息系統(tǒng),提供人員在崗及歷史信息;②科研項目系統(tǒng),提供科研項目申請、立項信息;③財務信息,提供項目相關的經(jīng)費入賬與支出信息;④研究生信息管理系統(tǒng),提供研究生、導師等培養(yǎng)相關信息,其他信息系統(tǒng)視需列入。
職能部門的業(yè)務系統(tǒng)信息與機構知識庫的科研成果信息關聯(lián)后,可適用于各類場景,滿足不同部門、各種層次的信息需求。這些數(shù)據(jù)的互通共享也十分重要。因此,科研成果數(shù)據(jù)的來源主要包括:①科研人員和研究團隊。主要是指教師和學生,他們既是科研成果的生產者,也是科研成果數(shù)據(jù)的用戶。②職能部門。職能部門負責管理與維護科研成果相關的信息,是科研成果數(shù)據(jù)的主要用戶,主要部門有圖書館、科研管理部門、組織人事部門、研究生院等。
高校師生和科研人員對科研成果數(shù)據(jù)需求包括以下幾個方面:
(1)科研成果數(shù)據(jù)的存取。對于學生,科研成果關乎學生的學業(yè)評價和獎勵;科研成果也關乎研究生院等管理部門對學生培養(yǎng)質量的評價。對于教師,在聘期考核、年度考核、職稱評審等各類評價和考核時需要科研成果信息。他們對成果數(shù)據(jù)的復用性和質量有較高的要求,希望一次存取,多次使用,避免成果數(shù)據(jù)的重復錄入。
(2)科研成果評價數(shù)據(jù)的獲取。在眾多應用場景中,用戶所需的數(shù)據(jù)往往不僅是科研成果本身,還包括成果評價數(shù)據(jù)。如科研人員年度績效考核中,經(jīng)常需要統(tǒng)計個人發(fā)表成果的期刊分區(qū)信息、核心期刊表收錄信息、國內外數(shù)據(jù)庫的收錄信息等。這些評價數(shù)據(jù)是進行水平與質量評估的常用指標,且要求準確性高,更新及時。
(3)了解科研動態(tài)。科研人員既有了解自己科研成果動態(tài)的需求,如論文的被下載引用次數(shù)、被收錄情況等,也有了解校內科研進展的需求。如自己關注的領域內是否有新的科研成果,或是跟蹤相關人員科研進展等,這一過程可以促進學者之間的學術交流,從而提高個人學術影響力。
院系和職能部門對科研成果數(shù)據(jù)保持著一種經(jīng)常的、持續(xù)性的強烈需求。一般情況下,學院需定期統(tǒng)計員工的科研成果、考核其科研表現(xiàn)。在接受學校的考核與評價、科研項目申報、獎項申請、學科發(fā)展與規(guī)劃等活動時,學院也需要科研成果數(shù)據(jù)的支持。如院系管理員需要對所有教師和學生的科研成果進行統(tǒng)計匯總和分析工作,并據(jù)此進行績效獎勵,制定學科發(fā)展規(guī)劃等。職能部門對科研成果數(shù)據(jù)的需求也是多樣化的,他們的信息需求面更廣,許多運用場景既獨立于學院等二級部門,又需要二級部門和師生的參與。如學校發(fā)展規(guī)劃部門需要進行全校高水平人才評價、全校KPI考核等,人事部門在人才引進、職工考核、職稱評定時需要對科研人員的科研成果進行統(tǒng)計分析和評價等。
綜上所述,高??蒲谐晒麛?shù)據(jù)來自于不同的論文數(shù)據(jù)庫、高校內部不同的信息管理系統(tǒng)、不同院系或部門、師生或研究人員等多源的渠道,在存儲方式、載體、格式、形式方面也各不相同。如何處理這些復雜的多源異構數(shù)據(jù),滿足用戶提出的便捷、安全、相互關聯(lián)、更新及時、準確性高等要求,解決各部門之間的信息孤島,對科研成果進行有效組織和深度挖掘,是高校科研成果數(shù)據(jù)組織和管理中需要重點關注的問題。
機構知識庫是高校科研成果數(shù)據(jù)組織的重要載體,在全球范圍內受到廣泛關注,各大高校和研究機構紛紛建立起自己的機構知識庫。機構知識庫不僅能夠對科研成果數(shù)據(jù)進行存儲和管理,而且能夠對科研成果數(shù)據(jù)進行深入挖掘和分析。依托于機構知識庫實現(xiàn)高??蒲袛?shù)據(jù)的組織和利用,是目前較為高效的方式。面對當前高校機構知識庫存在的短板和高??蒲谐晒麛?shù)據(jù)用戶的需求,保證高??蒲谐晒麛?shù)據(jù)的質量尤為重要。在實踐中,高??蒲袛?shù)據(jù)知識組織過程中必須確保科研成果元數(shù)據(jù)的全面性和準確性、科研成果數(shù)據(jù)的揭示深度和關聯(lián)廣度、科研成果評價指標的匹配,才能提高機構知識庫的服務能力。
科研成果元數(shù)據(jù)的全面性是指成果的類型全、成果數(shù)量全、元數(shù)據(jù)信息全。
(1)科研成果類型全。機構知識庫應該根據(jù)機構的需求設定收集的成果類型。目前,國內機構知識庫收集的成果類型以正式出版的成果為主,非正式出版的成果為輔。如大連理工大學機構知識庫的成果類型主要包括期刊論文、學位論文、會議論文、專利、科研項目、著作、獲獎成果、標準、報紙、軟件著作權等[3]。另外,中國科學院還收錄了研究報告和演示報告[4]。從科研管理的角度來看,一個成熟的高校機構知識庫,應該包含教師和學生的智力成果以及機構自身活動和持續(xù)進行的知識生產活動的記錄[5],不僅要包括正式或非正式出版的成果,還要收集科研成果相關活動,如參賽、獲獎等。這就要求機構知識庫不僅要支持常見資源類型的定義、抓取和提交,如公開發(fā)表和出版的期刊論文、會議論文、學位論文、圖書、專利等,還能夠根據(jù)機構的需要,自定義元數(shù)據(jù)類型,并支持提交或自動獲取功能。
(2)科研成果數(shù)量全。屬于本機構的成果要做到應收盡收。如中文期刊論文的采集,可從中國知網(wǎng)、萬方數(shù)據(jù)和維普中文科技期刊等主要學術數(shù)據(jù)庫中獲取;對于同一個數(shù)據(jù)庫中的成果,應編制合理的檢索式保證查全率;而一個友好的成果提交頁面,可供作者自行補充遺漏的論文。
(3)元數(shù)據(jù)信息全。成果元數(shù)據(jù)要盡量完整。自動采集的成果元數(shù)據(jù)的完整性依賴于來源數(shù)據(jù)庫的元數(shù)據(jù)開放程度以及標注信息的詳細程度。當一項成果有多個來源數(shù)據(jù)庫時,應能夠優(yōu)先選擇信息更全面的數(shù)據(jù)來源,再根據(jù)不同來源的數(shù)據(jù)補足缺失信息,形成一個完整的成果元數(shù)據(jù)記錄;手工提交的成果要求對必備字段應填盡填,利用技術手段對提交者進行引導與制約,保證所提交的信息準確完整。
科研成果元數(shù)據(jù)的準確性主要包括成果唯一性、成果產權歸屬標注的準確性和本機構成果的去“偽”三方面。成果唯一性是開展科研管理與評估的基本保證。機構知識庫常常需要從不同的來源庫中抓取成果,而來源庫收錄范圍的交叉重合會導致部分成果被不同數(shù)據(jù)庫同時收錄。機構知識庫的過濾與去重機制是保證唯一性的主要環(huán)節(jié),需要在這一環(huán)節(jié)不斷完善,盡量減少重復。但程序性的去重設置并不能完全保證成果重復率為零,這時就需要通過人工干預加以保證??蒲谐晒a權歸屬標注必須準確。機構知識庫中,成果的原始署名作者與原始署名單位應形成一一對應關系,以方便作者單位的區(qū)分;機構成果應該可以根據(jù)原始署名作者被認領或指認給研究人員;機構成果的原始署名單位應被正確識別并與現(xiàn)有機構的二級單位關聯(lián)。本機構成果的去“偽”指由于檢索策略的限制,來源數(shù)據(jù)庫成果信息著錄的不完整甚至錯誤,以及機構名稱拼寫等原因,機構知識庫中難免會混入一些其他機構的成果。這些成果成為“偽”成果,需要加以剔除。機構知識庫應該提供相應的功能幫助消除這種“偽”成果。
傳統(tǒng)的機構知識庫旨在實現(xiàn)學術成果的存儲和傳播,因此對成果屬性的揭示要求并不高,使用DC等元數(shù)據(jù)標準基本上已經(jīng)足夠描述學術成果的特征。但是科研管理要實現(xiàn)人員的考核和對科研成果的評價統(tǒng)計等多項功能,這就對成果屬性的揭示程度提出了更高的要求,機構知識庫中的成果屬性應得到全面、更深層次的揭示。例如:①在對院系、實驗室等二級部門學術產出進行統(tǒng)計分析時,需要根據(jù)作者的二級部門數(shù)據(jù),來判斷成果的二級部門歸屬。這就要求機構知識庫在標注成果的二級部門歸屬時,以原始署名單位為主要依據(jù),避免因作者部門與署名單位中的部門不同而造成混亂與錯誤。②國際合作已經(jīng)成為高校學科發(fā)展的一種重要方式,也是上級部門考察學??蒲心芰Φ囊粋€指標。不少機構知識庫并未對署名單位中的國別信息作標注,因此無法方便統(tǒng)計國際合作論文。③產業(yè)合作、省內外合作則需要對署名機構的屬地、行業(yè)屬性進行區(qū)分。④在考察科研績效時,投入產出比是一個重要角度,而作為投入的基金論文,其基金信息也需要進一步分析與著錄,以便統(tǒng)計。以上例子說明,科研管理的需求越來越精細,需要對成果的重要屬性進行深入揭示才能滿足服務要求,具備服務能力。
在進行高校科研成果數(shù)據(jù)組織時,一定要注意機構知識庫是一個獨立運行的系統(tǒng),要發(fā)揮其在科研管理中的作用,充分挖掘科研成果數(shù)據(jù)的價值,機構知識庫就不能完全獨立,應與校內的其他業(yè)務系統(tǒng)進行有序關聯(lián)與互動,消除信息孤島。例如,人事部門要進行人才考核,確定考核名單后,可通過接口機構知識庫獲取相關人員認領的科研成果數(shù)據(jù)后使用;機構知識庫的用戶信息數(shù)據(jù)庫應與學校的人事信息數(shù)據(jù)數(shù)據(jù)庫同步,機構設置信息也應能定期更新,才能正確匹配人員狀態(tài)、職稱、所屬部門等,為每項科研成果的部門歸屬提供準確的信息。機構知識庫與業(yè)務系統(tǒng)的關聯(lián)應是雙向的,這種雙向的聯(lián)動,能創(chuàng)造豐富的數(shù)據(jù)關聯(lián)視圖,滿足復雜的應用場景。
評價指標的配置是機構知識庫服務科研管理的基礎,是科研成果、人才評估等應用中進行統(tǒng)計的重要維度。應在機構知識庫中配置針對成果的評價指標和針對出版物、出版社的評價指標。針對論文的評價指標包括評價數(shù)據(jù)庫的收錄信息、論文轉載信息、引用文獻等;針對期刊的評價指標包括影響因子、分區(qū)、核心期刊等信息;針對出版社的評價指標包括著名出版社、核心出版社等信息。對成果進行指標標注時,應準確、完整;評價指標字典、引文信息應定期更新。
通過規(guī)劃基于機構知識庫的科研成果數(shù)據(jù)組織與管理的流程,從科研成果數(shù)據(jù)的智能采集、科研成果數(shù)據(jù)的清洗、科研成果數(shù)據(jù)屬性深度揭示和科研成果數(shù)據(jù)的關聯(lián)與共享4個方面,詳細闡述高??蒲谐晒麛?shù)據(jù)組織與管理的方案。
科研成果原始采集數(shù)據(jù)的完整準確是保證整個機構知識庫成果數(shù)據(jù)建設質量的基礎,也是高??蒲谐晒R組織的第一環(huán)節(jié)。根據(jù)科研成果數(shù)據(jù)的來源,將科研成果數(shù)據(jù)的收集方式分為3類:自動獲取、作者提交和后臺導入。
(1)自動獲取科研成果數(shù)據(jù)。自動獲取是指機構知識庫系統(tǒng)根據(jù)設定的搜索策略,定期到特定數(shù)據(jù)源抓取機構成果,這是科研成果采集的最主要方式。自動獲取的科研成果類型主要是期刊論文、會議論文、學位論文、專利文獻等正式出版物。在獲取文獻前,需事先配置抓取策略,通過網(wǎng)絡爬蟲或數(shù)據(jù)庫的接口等方式從來源數(shù)據(jù)庫獲取成果。在自動獲取的過程中,要注意以下幾個方面:①科研成果的全面性。檢查本機構的成果是否收集全面。從單庫中獲取科研成果時,是否有遺漏。同一類科研成果是否將主要數(shù)據(jù)庫都納入采集范圍,如中文期刊論文主要分布在中國知網(wǎng)、萬方數(shù)據(jù)和維普中文期刊數(shù)據(jù)庫,這3個數(shù)據(jù)庫都有其獨家期刊,只有將三庫都納入采集范圍才能保證數(shù)據(jù)的全面性。②科研成果元數(shù)據(jù)信息獲取是否完整。當一項成果有多個來源數(shù)據(jù)庫時,應能優(yōu)先選擇信息更全面的數(shù)據(jù)來源,從不同來源補足缺失信息,形成一個完整的、不重復的成果元數(shù)據(jù)記錄。③成果獲取周期。系統(tǒng)應可設定自動抓取成果的周期,盡量少進行人工干預。由于各數(shù)據(jù)庫、期刊的更新周期有所不同,機構知識庫需要根據(jù)來源數(shù)據(jù)庫的更新周期和機構的工作需要設定周期,這一周期既要保證及時獲取到最新的科研成果數(shù)據(jù),又不能給圖書館帶來沉重的工作負擔。④成果是否抓取準確。誤爬率也是測試機構知識庫系統(tǒng)的一個重要指標。需要定期導出成果,統(tǒng)計誤爬率,分析產生的原因并尋求解決辦法。檢查誤爬率的另一辦法是人工手段來操作。一些有入藏號的數(shù)據(jù)庫,通過人工檢索獲取特定年限的本機構成果,與機構知識庫中的成果入藏號進行比對,補充漏抓記錄。
(2)作者提交科研成果數(shù)據(jù)是機構知識庫收集成果的重要手段。對于系統(tǒng)可以自動獲取的科研成果類型,作者提交的科研成果數(shù)據(jù)是一個重要補充,可以解決來源數(shù)據(jù)庫未收錄的和抓取遺漏的成果。對于系統(tǒng)無法自動獲取的成果,只能通過作者提交的方式收集,如圖書、研究報告、藝術作品、音視頻作品等。
從技術層面看,要保證元數(shù)據(jù)的完整與準確性,必須有人性化的提交界面,對必備字段作出技術上的要求和限制,簡明易理解的提交說明、清晰的提交流程等。從政策層面來看,機構成員對提交個人科研成果數(shù)據(jù)的積極性不高,需要相應的成果存繳政策和激勵政策加以約束與保證。最重要的是學校層面對提交科研成果數(shù)據(jù)的政策性要求,或考核要求,如果能從政策上規(guī)定將機構知識庫作為考核成果數(shù)據(jù)源,作者提交的積極性才能得到保證。
(3)從后臺批量或單篇導入科研成果數(shù)據(jù)是補充科研成果數(shù)據(jù)的一個重要手段,一般由系統(tǒng)管理員操作。這些數(shù)據(jù)的導入視需要進行,如補充遺漏數(shù)據(jù),批量上傳無法抓取的歷史數(shù)據(jù)等。
科研成果數(shù)據(jù)清洗主要是開展去重和去“偽”科研成果數(shù)據(jù)記錄的過程。去重是為了保持科研成果數(shù)據(jù)的唯一性。去“偽”目的是清除誤爬數(shù)據(jù)和用戶提交的非本機構數(shù)據(jù)。
(1)科研成果數(shù)據(jù)去重。多個來源必然會帶來重復,雖然各數(shù)據(jù)庫收錄的期刊種類、數(shù)量均有所不同,但是會存在一定程度上的交叉。另外,即使是同一個數(shù)據(jù)庫中也有可能出現(xiàn)重復數(shù)據(jù)記錄的情況,同時也有可能出現(xiàn)成果被多次收錄,或是一稿多投等現(xiàn)象。再加上各數(shù)據(jù)庫的元數(shù)據(jù)標準和格式、數(shù)據(jù)質量均有所差別,因此,需要對不同來源的數(shù)據(jù)進行去重和整合。數(shù)據(jù)去重包括單庫去重和跨庫去重兩種情況。
單庫來源的記錄產生重復的原因比較復雜,主要有人工提交科研成果數(shù)據(jù)和系統(tǒng)抓取科研成果數(shù)據(jù)造成的重復,有些數(shù)據(jù)庫對同一個成果在不同階段發(fā)布的內容不同、系統(tǒng)將更正記錄、撤回論文當作科研成果抓取等原因。單庫去重的辦法主要有:完善機構知識庫的重復論文識別機制,增加重復論文檢索功能、重復提示功能和重復合并功能;增加識別優(yōu)先發(fā)表、網(wǎng)絡出版和Inpress、Ear9 lyAccess等論文在正式發(fā)表的記錄是否為同一篇論文,及時更新記錄信息;論文更正記錄、撤稿成果等需要區(qū)別對待;將DOI、入藏號等代表文獻唯一標識碼作為去重的重要依據(jù)等。
從多個數(shù)據(jù)庫抓取的同一成果,也會造成重復,原因諸如:因同一成果的一些關鍵字段信息在不同來源中不一致產生重復,如標題、作者、發(fā)表期刊、年份等;因收錄數(shù)據(jù)庫的語種導致系統(tǒng)無法識別而產生重復。多庫去重的辦法中DOI代表文獻唯一標識碼可以作為去重的重要依據(jù),但要注意WebofScience數(shù)據(jù)庫中,有時會議論文會用同一個DOI;通過一些字段的組合作為去重的依據(jù),如,ISSN+年+卷+期+頁碼,或標題+刊名+作者+年[+卷][+期]+頁碼等。可以設置幾組相同文獻的判斷標準。
(2)科研成果數(shù)據(jù)去“偽”。去“偽”是刪除那些誤爬的或作者提交的非本機構的科研成果。判斷依據(jù)是作者署名機構。對于系統(tǒng)自動抓取的成果,本應在成果過濾階段就設立規(guī)則予以排除,但因各種原因還是混入庫中,如來源數(shù)據(jù)庫機構署名拼寫錯誤;作者提交成果未填署名單位或填寫的現(xiàn)單位而非署名單位;署名機構名稱與本機構名稱相似,通過檢索式無法區(qū)分,系統(tǒng)過濾失敗等。
檢查“偽”成果的一個辦法是通過人工操作。一些有入藏號的數(shù)據(jù)庫,通過人工檢索獲取特定年限的本機構成果,與機構知識庫中的成果入藏號進行比對,對機構知識庫中有而人工檢索結果中無的成果進行分析,確認是否為本機構成果。另外,應該將成果提交規(guī)定以恰當?shù)男问阶屘峤徽咧獣裕纳瞥晒峤还δ?,對未填寫署名單位的成果不入庫?/p>
機構知識庫不僅要做到全面、準確地收集機構產出的科研成果,還需要深入揭示科研成果的屬性,才能為高??蒲谐晒嚓P的各項統(tǒng)計和評價提供數(shù)據(jù)基礎。成果屬性的深度揭示主要是對比機構知識庫的元數(shù)據(jù)要求進行規(guī)則處理,使得數(shù)據(jù)更為規(guī)范,通過對收集到的原始數(shù)據(jù)的拆分來實現(xiàn)??蒲谐晒麛?shù)據(jù)的元數(shù)據(jù)處理需要區(qū)分的重要屬性是署名地址、署名作者、資助基金等。
(1)署名地址相關屬性的揭示。署名地址中有不少信息對于科研管理與成果評價有特定的意義,可以根據(jù)需要進行揭示。署名地址中的信息包括:機構名稱、二級部門名稱、所在地(省/州/城市等)、國家,以及地址排序和是否通信單位等,見表1。
表1 署名地址相關的屬性
(2)署名作者相關屬性的揭示。作者署名相關的信息可用于幫助確認作者的貢獻,是成果作者歸屬的重要判斷依據(jù),相關屬性見表2。
表2 署名作者相關的屬性
(3)資助基金相關屬性的揭示。資助基金信息是考察研究團隊、機構和作者的研究投入的一項指標,可視需要進行揭示,相關屬性見表3。
表3 資助基金相關的屬性
(4)評價指標屬性的揭示??蒲谐晒u價指標與成果息息相關,機構知識庫應建立考核指標字典,通過評價指標與成果的結合,實現(xiàn)對科研決策的支撐。關于論文、專著、報紙等成果的考核指標,如表4所示。
表4 評價指標相關的屬性
機構知識庫需要打破信息孤島狀態(tài),與其他業(yè)務部門的數(shù)據(jù)進行多維度關聯(lián),才能發(fā)揮其在科研管理、績效評估、學科建設等方面的作用。如,學校、院系的投入產出評估中,通過項目數(shù)據(jù)與成果數(shù)據(jù)關聯(lián)了解產出績效;人才引進、國際合作、行業(yè)合作、研究生培養(yǎng)、學科建設、科研團隊等評估工作,也可通過人與成果的關聯(lián)產生翔實的數(shù)據(jù),支持管理決策和上級主管部門對學校的評估。
科研成果數(shù)據(jù)的關聯(lián)與共享一般是通過科研成果共享平臺來實現(xiàn)的??蒲谐晒蚕砥脚_由兩部分構成:
(1)科研成果關聯(lián)機制或關聯(lián)功能構件。科研成果關聯(lián)功能構件是一種底層開發(fā)的接口集成,連接機構知識庫和眾多職能部門的業(yè)務子系統(tǒng),其作用是在底層數(shù)據(jù)間建立關聯(lián),每一個系統(tǒng)中哪些數(shù)據(jù)可以共享,向誰共享,如何調用,權限控制等技術細節(jié),使業(yè)務系統(tǒng)之間的科研成果數(shù)據(jù)共享成為可能。
(2)應用子系統(tǒng)。這是根據(jù)學校、師生、職能部門的應用需求,以滿足特定的成果使用目標專門設計的應用模塊。其中有常規(guī)的應用需求,也有個性化的、突發(fā)的需求,這些需求往往有一個共同特點,即涉及的數(shù)據(jù)信息可能來自不同的部門,呈現(xiàn)方式也不一樣,需要建設專門系統(tǒng)/功能模塊才能滿足。常規(guī)的應用子系統(tǒng)有:師生的聘期考核、全校KPI考核、初中級職稱評定、人才考核、年度單項獎、團隊成果跟蹤,院系成果跟蹤、ESI學科貢獻度、ESI高被引論文、學科發(fā)展態(tài)勢分析、學位論文管理、研究生獎學金評定、高水平論文監(jiān)測、三大檢索論文跟蹤統(tǒng)計、教育部統(tǒng)計、市教委成果統(tǒng)計、國際合作成效監(jiān)測、教師學術主頁等。
應用子系統(tǒng)在成果關聯(lián)功能構件的支持下,調用跨業(yè)務系統(tǒng)的數(shù)據(jù)提供服務。如學者個人主頁子系統(tǒng)展示的科研成果情況主要包括其所屬部門、科研成果總數(shù)、科研成果類型、科研成果收錄情況、合作者、論文發(fā)表期刊、項目等,這些信息可能來自機構知識庫、人事部門業(yè)務系統(tǒng)的人事信息庫、科技管理部門的項目信息庫等。
在實踐中,機構知識庫建設者與服務提供者首先要了解各部門對成果數(shù)據(jù)的需求,分析各部門的評估統(tǒng)計中涉及到的成果數(shù)據(jù),制定出針對不同要求的個性化數(shù)據(jù)方案,將各成果數(shù)據(jù)屬性進行關聯(lián),形成數(shù)據(jù)視圖,這些視圖可以直接導出數(shù)據(jù),供圖書館完成職能部門或其他用戶委托;或將視圖設計成數(shù)據(jù)接口,供校內業(yè)務系統(tǒng)調用;或篩選出常用、可共享數(shù)據(jù)視圖,開發(fā)Web查詢功能,為全校或特定的用戶開放查詢服務。
除了機構知識庫內部數(shù)據(jù)關聯(lián)外,還會經(jīng)常用到各職能部門的數(shù)據(jù),將其與機構知識庫的成果數(shù)據(jù)關聯(lián),共同解決一些特定的需求。例如,分析特殊人才的科研產出時,就需要用到人事部門的人事數(shù)據(jù)。如果要在底層進行關聯(lián),一種做法是在人事系統(tǒng)中,調用機構知識庫的視圖,然后在人事系統(tǒng)進行分析與考核;另一種方式是依托科研成果共享平臺的支持,開發(fā)特定的應用子系統(tǒng)(如特殊人才科研成果監(jiān)測系統(tǒng)),開放給有關部門與人員使用。機構知識庫與職能部門的業(yè)務系統(tǒng)之間的關聯(lián)是雙向的,共享是相互的,只有這樣,才能創(chuàng)造一個校內科研成果信息資源建設與利用的良性循環(huán)。
高??蒲谐晒麛?shù)據(jù)日趨重要,對科研成果數(shù)據(jù)的組織與管理也在不斷完善和發(fā)展。機構知識庫是實現(xiàn)科學成果數(shù)據(jù)必不可少的工具?;跈C構知識庫的科研成果數(shù)據(jù)的智能采集、科研成果數(shù)據(jù)的清洗、科研成果數(shù)據(jù)屬性深度揭示和科研成果數(shù)據(jù)的關聯(lián)與共享是高??蒲谐晒麛?shù)據(jù)組織和管理的具體實施方案。在筆者的實習和實踐過程中,還發(fā)現(xiàn)機構知識庫重儲存與開放獲取,科研管理服務意識與功能不足;成果數(shù)據(jù)的質量無法滿足當前學校對科研成果的精細化要求;學校主管部門、師生缺乏對機構知識庫的了解,對機構知識庫認可度低;師生參與機構知識庫建設的積極性不高,成果認領率低等問題有待解決。期望相關研究能夠推動實踐的發(fā)展,促進高??蒲谐晒麛?shù)據(jù)服務與機構知識庫的更好融合。