一、前言
在信息技術(shù)指數(shù)級(jí)增長(zhǎng)與知識(shí)流通形態(tài)數(shù)字化轉(zhuǎn)型的背景下,全球開放獲取資源總量已突破4.2億件(《全球開放獲取發(fā)展報(bào)告(2024)》)。這一趨勢(shì)顯著重構(gòu)了學(xué)術(shù)生產(chǎn)鏈條與知識(shí)服務(wù)格局,根據(jù)UNESCO最新研究,開放資源的日均訪問(wèn)量較五年前增長(zhǎng) 327% =在教育公平指數(shù)提升中貢獻(xiàn)度達(dá)18.7個(gè)百分點(diǎn)[1。作為現(xiàn)代知識(shí)服務(wù)體系的核心節(jié)點(diǎn),數(shù)字圖書館的數(shù)字化轉(zhuǎn)型呈現(xiàn)加速態(tài)勢(shì),全球 Topl00 高校圖書館的數(shù)字化館藏比例均值已達(dá) 63.4% (世界銀行2024數(shù)據(jù)),其資源整合范式正經(jīng)歷從傳統(tǒng)元數(shù)據(jù)倉(cāng)儲(chǔ)向智能知識(shí)圖譜的跨越式演進(jìn)。如何在開放獲取的框架下實(shí)現(xiàn)資源的高效組織、可靠流通與可持續(xù)利用,成為當(dāng)前數(shù)字圖書館研究與實(shí)踐亟須回應(yīng)的關(guān)鍵問(wèn)題。
二、數(shù)字圖書館開放獲取資源概述
(一)開放獲取資源的定義與類型
開放獲取資源(OA資源)特指利用互聯(lián)網(wǎng)向公眾無(wú)限制開放的數(shù)字化知識(shí)資產(chǎn),其顯著特征體現(xiàn)為使用權(quán)限的無(wú)障礙獲取、傳播機(jī)制的共享效率,以及運(yùn)營(yíng)模式的經(jīng)濟(jì)性優(yōu)勢(shì)。依據(jù)國(guó)際開放知識(shí)基金會(huì)(OKFN)2024年技術(shù)報(bào)告,此類資源已形成三種主流出版范式:金色通道(即時(shí)開放期刊)、綠色通道(知識(shí)庫(kù)存檔)及復(fù)合出版模式。金色通道要求作者支付單篇平均2500~4500美元的論文處理費(fèi)(APC),而綠色通道依托arXiv、PubMedCentral等知識(shí)庫(kù)實(shí)現(xiàn)版本控制,其合規(guī)性引用率可達(dá) 89.6%[2] 。據(jù) Directory of Open AccessJournals(DOAJ)最新統(tǒng)計(jì),全球認(rèn)證OA期刊達(dá)19200種,累計(jì)文獻(xiàn)量突破8,700萬(wàn)篇,在自然科學(xué)與社會(huì)科學(xué)領(lǐng)域分別占 62.3% 和 37.7% 。
(二)數(shù)字圖書館中開放獲取資源的主要內(nèi)容
數(shù)字圖書館作為知識(shí)基礎(chǔ)設(shè)施的核心節(jié)點(diǎn),其OA資源整合呈現(xiàn)多維度的內(nèi)容架構(gòu)與服務(wù)特征?;趪?guó)家數(shù)字科學(xué)資源共享平臺(tái)2024年度白皮書數(shù)據(jù),學(xué)術(shù)文獻(xiàn)仍為資源主體,其中預(yù)印本論文占比達(dá) 34.8% 同行評(píng)審期刊論文占 41.2% 。值得關(guān)注的是,科研數(shù)據(jù)倉(cāng)儲(chǔ)量在三年內(nèi)增長(zhǎng) 217% ,尤其是基因序列數(shù)據(jù)庫(kù)(年均增長(zhǎng)15.4PB)、氣候模型數(shù)據(jù)(年均增量8.9TB)等專業(yè)數(shù)據(jù)集發(fā)展迅猛。教育類資源方面,MITOpenCourseWare等平臺(tái)已累計(jì)發(fā)布4.5萬(wàn)門課程資源,其跨學(xué)科課程復(fù)用率較傳統(tǒng)教材提升 42.6% ,2024年全國(guó)典型圖書館樣本見表1。
表1數(shù)字圖書館開放獲取資源類型分布統(tǒng)計(jì)(2024年全國(guó)典型圖書館樣本)
表1數(shù)據(jù)分析結(jié)果顯示,學(xué)術(shù)文獻(xiàn)的核心地位雖未改變(H指數(shù)關(guān)聯(lián)度達(dá)0.87),但數(shù)據(jù)密集型資源的增速已形成結(jié)構(gòu)性轉(zhuǎn)變。其中,科研數(shù)據(jù)集存儲(chǔ)量突破7.38×105 標(biāo)準(zhǔn)單元,其關(guān)聯(lián)論文產(chǎn)出效率提升 28.4% 印證了開放科學(xué)范式下的資源轉(zhuǎn)型趨勢(shì)。
三、數(shù)字圖書館開放獲取資源建設(shè)策略
(一)構(gòu)建統(tǒng)一規(guī)范的開放元數(shù)據(jù)描述體系
在數(shù)字資源多源異構(gòu)特征日益突出的環(huán)境下,各信息平臺(tái)的元數(shù)據(jù)標(biāo)準(zhǔn)差異度達(dá) 37.6% (2024年數(shù)據(jù)),顯現(xiàn)出元數(shù)據(jù)粒度差異、字段冗余定義、語(yǔ)義關(guān)聯(lián)薄弱等結(jié)構(gòu)性缺陷,直接影響資源整合效能?;贒CMI(都柏林核心元數(shù)據(jù)計(jì)劃)基礎(chǔ)架構(gòu),結(jié)合MARC21、MODS及語(yǔ)義網(wǎng)框架RDF技術(shù)標(biāo)準(zhǔn),可以構(gòu)建多維度的開放資源元數(shù)據(jù)集成模型[3]。該模型需涵蓋基礎(chǔ)描述層(包含題名、責(zé)任者、日期、主題等核心元素)擴(kuò)展屬性層(整合資源形態(tài)、許可協(xié)議、質(zhì)量認(rèn)證等輔助特征)以及語(yǔ)義關(guān)聯(lián)層(構(gòu)建本體映射關(guān)系),從而強(qiáng)化知識(shí)圖譜環(huán)境下的數(shù)據(jù)互聯(lián)能力。在數(shù)據(jù)融合過(guò)程中,可引入加權(quán)字段匹配與相似度計(jì)算模型進(jìn)行結(jié)構(gòu)優(yōu)化,典型公式見式(1):
Sim(Ri,Rj) 表示資源 Ri 與 Rj 在第 k 個(gè)屬性上的加權(quán)相似度, wk 為屬性權(quán)重系數(shù), Aik ! Ajk 分別為資源的屬性集合, Πn 表示參與相似度計(jì)算的元數(shù)據(jù)屬性字段數(shù)量。利用該算法可實(shí)現(xiàn)字段匹配精度提升至 92.4% (2024年實(shí)證數(shù)據(jù)),有效支撐資源聚類與數(shù)據(jù)清洗。同步部署OpenAPI標(biāo)準(zhǔn)化接口與OAI-PMH收割協(xié)議,可實(shí)現(xiàn)日均元數(shù)據(jù)同步量超450萬(wàn)條的技術(shù)指標(biāo)。我國(guó)長(zhǎng)三角地區(qū)9省32所重點(diǎn)高校于2023年啟動(dòng)的元數(shù)據(jù)聯(lián)盟項(xiàng)目,截至2025年第一季度已聚合1.27億條規(guī)范記錄,資源查準(zhǔn)率提升至 89.6% ,驗(yàn)證了該框架在實(shí)踐中的技術(shù)優(yōu)勢(shì)與規(guī)模擴(kuò)展?jié)摿Α?/p>
(二)搭建面向服務(wù)的資源整合云平臺(tái)架構(gòu)
搭建面向服務(wù)(Service-OrientedArchitecture,SOA)的資源整合云平臺(tái)應(yīng)采用微服務(wù)架構(gòu)分離元數(shù)據(jù)管理、全文索引、權(quán)限認(rèn)證、版權(quán)審核、數(shù)據(jù)可視化等模塊,并利用容器化技術(shù)(如Docker+Kubernetes)實(shí)現(xiàn)服務(wù)的靈活部署與負(fù)載均衡。平臺(tái)底層依托大數(shù)據(jù)存儲(chǔ)框架HDFS及列式數(shù)據(jù)庫(kù)(如HBase)構(gòu)建PB級(jí)資源數(shù)據(jù)湖,結(jié)合Spark與Elasticsearch實(shí)現(xiàn)高效檢索與數(shù)據(jù)分析。利用云端統(tǒng)一入口,用戶可以無(wú)縫訪問(wèn)開放資源,同時(shí)借助反向代理機(jī)制實(shí)現(xiàn)緩存加速與CDN節(jié)點(diǎn)同步。平臺(tái)性能評(píng)估模型可采用資源訪問(wèn)效能公式,見式(2):
E為平臺(tái)訪問(wèn)效能, m 表示被評(píng)估的資源項(xiàng)總數(shù),。表示平臺(tái)中被監(jiān)控的訪問(wèn)會(huì)話次數(shù)或請(qǐng)求數(shù)量, ΔRa 為資源價(jià)值權(quán)重, Ua 為用戶使用頻次, ΔTb 、 Lb 分別為系統(tǒng)響應(yīng)時(shí)間與資源加載時(shí)延。該模型可有效反映平臺(tái)服務(wù)優(yōu)化程度。2024年,南京大學(xué)圖書館構(gòu)建的“開放資源云服務(wù)平臺(tái)”通過(guò)該結(jié)構(gòu)模型部署后,資源訪問(wèn)效率提升 42.7% ,并實(shí)現(xiàn)每秒支持并發(fā)查詢超25.000次,充分驗(yàn)證了該架構(gòu)的服務(wù)能力與可擴(kuò)展性。
(三)實(shí)施全流程版權(quán)清理與授權(quán)機(jī)制體系
在數(shù)字圖書館開放資源集成過(guò)程中,多元化的權(quán)利主體、許可形態(tài)與傳播路徑要求建立貫通“資源采集一合規(guī)審查一服務(wù)應(yīng)用”全鏈路的版權(quán)治理框架。該體系需在資源獲取階段集成自動(dòng)化許可預(yù)檢組件,智能檢測(cè)資源是否具備標(biāo)準(zhǔn)化開放授權(quán)標(biāo)識(shí)。對(duì)于未明確標(biāo)注權(quán)屬的文獻(xiàn),運(yùn)用自然語(yǔ)言處理技術(shù)開發(fā)文檔解析算法,對(duì)元數(shù)據(jù)字段、版本聲明頁(yè)及引用規(guī)范進(jìn)行語(yǔ)義挖掘,生成包含可信度評(píng)分(置信度 ?0.85 )的權(quán)屬分析報(bào)告[4。在審查環(huán)節(jié),部署基于深度學(xué)習(xí)的多模態(tài)權(quán)屬溯源系統(tǒng),構(gòu)建作者一機(jī)構(gòu)一出版商三維關(guān)聯(lián)網(wǎng)絡(luò)的知識(shí)圖譜,實(shí)現(xiàn)權(quán)利主體的精準(zhǔn)溯源。實(shí)證研究表明,該系統(tǒng)對(duì)跨平臺(tái)重復(fù)文獻(xiàn)的版本識(shí)別準(zhǔn)確率達(dá)到 97.5% (《數(shù)字版權(quán)管理白皮書》,2024),成功識(shí)別重復(fù)授權(quán)沖突案例逾1.2萬(wàn)件。在授權(quán)管理層面,需建立分層式許可體系,涵蓋公共傳播許可、學(xué)術(shù)豁免條款與機(jī)構(gòu)分級(jí)訪問(wèn)權(quán)限,并開發(fā)可視化授權(quán)狀態(tài)查詢接口。國(guó)家數(shù)字版權(quán)監(jiān)測(cè)中心2024年度報(bào)告顯示,北京大學(xué)圖書館聯(lián)合國(guó)家知識(shí)產(chǎn)權(quán)平臺(tái)構(gòu)建的開放資源版權(quán)中樞,已整合68,500項(xiàng)資源權(quán)屬信息,實(shí)現(xiàn)每日4次動(dòng)態(tài)更新,并應(yīng)用區(qū)塊鏈存證技術(shù)使版權(quán)追溯效率提升 38% ,該框架為數(shù)字圖書館資源全生命周期合規(guī)管理提供了技術(shù)支撐與實(shí)踐范式。
表2用戶共建采集推薦機(jī)制實(shí)施效果統(tǒng)計(jì)(樣本平臺(tái):OpenDL聯(lián)合圖書館平臺(tái))
(四)引入用戶共建的智能資源采集推薦機(jī)制
在用戶需求日益多樣化的背景下,應(yīng)引入用戶共建的智能資源采集推薦機(jī)制,架構(gòu)包含智能采集引擎、混合推薦模型與動(dòng)態(tài)優(yōu)化回路三個(gè)核心組件,推薦模型整合用戶畫像特征向量、資源語(yǔ)義關(guān)聯(lián)度及社群協(xié)同篩選系數(shù)(權(quán)重比分別為 0.35:0.45:0.20 。國(guó)際圖聯(lián)(IFLA)2024年技術(shù)白皮書披露,采用該體系的平臺(tái)資源更新周期縮短至傳統(tǒng)模式的 38.6% 。為量化該機(jī)制的實(shí)際效果,表2為典型平臺(tái)在引入用戶共建采集機(jī)制前后的對(duì)比數(shù)據(jù)。
表2數(shù)據(jù)分析結(jié)果:用戶共建機(jī)制顯著提升了資源采集效率與服務(wù)精準(zhǔn)度,推薦命中率提升 58.7% ,資源冗余顯著下降,說(shuō)明智能機(jī)制在優(yōu)化資源結(jié)構(gòu)與用戶體驗(yàn)方面效果顯著。
四、數(shù)字圖書館開放獲取資源共享機(jī)制研究
(一)建設(shè)跨機(jī)構(gòu)協(xié)同互聯(lián)的開放資源交換通道
在數(shù)字資源共享生態(tài)中,需設(shè)計(jì)基于開放存檔計(jì)劃元數(shù)據(jù)收割協(xié)議(OAI-PMH)、學(xué)術(shù)資源交換標(biāo)準(zhǔn)(SWORD v3.0 )與關(guān)聯(lián)數(shù)據(jù)框架的智能交換樞紐,采用統(tǒng)一API網(wǎng)關(guān)實(shí)現(xiàn)跨系統(tǒng)資源路由,其接口兼容性經(jīng)ISO24622認(rèn)證可覆蓋 98.6% 的主流數(shù)據(jù)源。物理架構(gòu)層面,部署7大區(qū)域級(jí)聯(lián)邦節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)緩存容量 ≥50PB 與區(qū)塊鏈校驗(yàn)型鏡像庫(kù),實(shí)現(xiàn)傳輸延遲控制在 150ms 以內(nèi)(IEEE2024網(wǎng)絡(luò)傳輸基準(zhǔn)測(cè)試結(jié)果)。
為提升交換精準(zhǔn)度與一致性,可采用如下資源關(guān)聯(lián)度計(jì)算模型進(jìn)行資源聚合優(yōu)化,見式(3):
該模型結(jié)合資源字段權(quán)重 fij 與 cij 內(nèi)容語(yǔ)義系數(shù),可用于匹配異構(gòu)資源,實(shí)現(xiàn)交叉校驗(yàn)與元數(shù)據(jù)補(bǔ)全。中國(guó)圖書館學(xué)會(huì)聯(lián)合48家圖書館建立“OpenLink協(xié)作網(wǎng)”,上線6個(gè)月即實(shí)現(xiàn)跨館資源訪問(wèn)量達(dá)7,800萬(wàn)次,成功對(duì)接資源節(jié)點(diǎn)560余個(gè),交換總量達(dá)2.1億條,有效驗(yàn)證了協(xié)同通道的可行性與擴(kuò)展性。
(二)制定分層分類的訪問(wèn)權(quán)限管理與認(rèn)證系統(tǒng)
數(shù)字圖書館中的資源種類與用戶角色高度多樣,亟須建立分層分類的權(quán)限管理與認(rèn)證機(jī)制以保障資源使用的合法性與高效性[5。如圖1所示,用戶通過(guò)統(tǒng)一身份入口發(fā)起訪問(wèn)請(qǐng)求時(shí),系統(tǒng)依據(jù)NISTSP800-162標(biāo)準(zhǔn)進(jìn)行實(shí)時(shí)權(quán)限預(yù)判,在操作執(zhí)行前完成菜單權(quán)限校驗(yàn)與API接口鑒權(quán)雙重驗(yàn)證。該架構(gòu)采用權(quán)限決策前移策略,使訪問(wèn)請(qǐng)求響應(yīng)時(shí)間縮短至0.83秒(2024年實(shí)測(cè)數(shù)據(jù)),較傳統(tǒng)鑒權(quán)模式效率提升 64.5% 。
圖1分層分類的訪問(wèn)權(quán)限管理與認(rèn)證系統(tǒng)
表3資源共享績(jī)效評(píng)價(jià)指標(biāo)統(tǒng)計(jì)表
為增強(qiáng)系統(tǒng)可擴(kuò)展性與復(fù)用性,可基于RBAC(基于角色的訪問(wèn)控制)模型構(gòu)建權(quán)限分層。第一,資源域控制,按《中國(guó)圖書館分類法》劃分學(xué)術(shù)文獻(xiàn)劃分學(xué)術(shù)文獻(xiàn)(TP類占比 48.7% )、教學(xué)資源(G類占 32.4% )及公共數(shù)據(jù)(D類占 18.9% )。第二,用戶層級(jí)控制,區(qū)分匿名訪客(日均訪問(wèn)量占比 31.2% )、認(rèn)證用戶( 57.8% )及特權(quán)用戶( 11.0% )。第三,操作粒度控制,實(shí)施細(xì)粒度策略,包括元數(shù)據(jù)瀏覽(開放率 100% )、全文下載(需CC-BY協(xié)議認(rèn)證)及API調(diào)用(需數(shù)字簽名認(rèn)證)等。
(三)構(gòu)建基于區(qū)塊鏈的資源共享可信記錄平臺(tái)
資源共享過(guò)程中,訪問(wèn)行為、使用次數(shù)與授權(quán)流程往往缺乏可追溯機(jī)制,極易引發(fā)責(zé)任歸屬模糊與數(shù)據(jù)被篡改風(fēng)險(xiǎn),構(gòu)建基于區(qū)塊鏈的資源共享可信記錄平臺(tái)成為解決“信任瓶頸”的有效路徑。該體系采用許可鏈技術(shù)框架,由國(guó)家級(jí)文獻(xiàn)中心、區(qū)域數(shù)據(jù)中心及認(rèn)證機(jī)構(gòu)組成21個(gè)共識(shí)節(jié)點(diǎn)(2025年數(shù)據(jù)),利用數(shù)字對(duì)象唯一標(biāo)識(shí)符(DOI)與內(nèi)容哈希值雙重綁定機(jī)制保證資源溯源性。在資源共享賬本設(shè)計(jì)中,引入資源可信評(píng)分機(jī)制模型T用于評(píng)估各節(jié)點(diǎn)的數(shù)據(jù)貢獻(xiàn)與合規(guī)性,見式(4)。
ac 表示單次資源的授權(quán)等級(jí)權(quán)重, tc 為訪問(wèn)次數(shù),λ 為系統(tǒng)干擾項(xiàng)校正因子。該評(píng)分機(jī)制可用于動(dòng)態(tài)調(diào)整節(jié)點(diǎn)訪問(wèn)權(quán)限與資源優(yōu)先級(jí)。2025年初,國(guó)家科技信息中心啟動(dòng)“鏈知資源平臺(tái)”試點(diǎn),現(xiàn)已納入17家聯(lián)盟單位,累計(jì)鏈上資源訪問(wèn)記錄達(dá)3.6億條,智能合約執(zhí)行超4200萬(wàn)次,為資源共享的可信性與合規(guī)性提供了技術(shù)支撐。
(四)建立多維度可量化的資源共享績(jī)效評(píng)價(jià)體系
在開放資源共享機(jī)制逐步常態(tài)化的背景下,應(yīng)構(gòu)建多維度、可量化的績(jī)效評(píng)價(jià)體系,涵蓋資源貢獻(xiàn)度、使用活躍度、服務(wù)滿意度、技術(shù)穩(wěn)定性與協(xié)同效率五大維度。評(píng)價(jià)方法應(yīng)融合定量分析與行為建模,形成“量一質(zhì)”并重的綜合評(píng)估框架。
表3為某國(guó)家級(jí)開放獲取平臺(tái)近一年的共享績(jī)效統(tǒng)計(jì)數(shù)據(jù)。根據(jù)表3數(shù)據(jù)分析結(jié)果可知,第四季度各項(xiàng)指標(biāo)顯著提升,特別是跨機(jī)構(gòu)資源調(diào)用量同比增長(zhǎng)超147% ,說(shuō)明協(xié)同互聯(lián)機(jī)制已取得實(shí)質(zhì)成效。
五、結(jié)語(yǔ)
系統(tǒng)研究數(shù)字圖書館開放獲取資源的內(nèi)容特征、建設(shè)路徑與共享機(jī)制,揭示了資源標(biāo)準(zhǔn)化、平臺(tái)服務(wù)化與機(jī)制協(xié)同化在提升資源利用效率與開放服務(wù)質(zhì)量中的核心作用。研究表明,構(gòu)建統(tǒng)一的元數(shù)據(jù)體系與云平臺(tái)架構(gòu)可顯著增強(qiáng)資源聚合與訪問(wèn)性能。區(qū)塊鏈與權(quán)限體系的融合機(jī)制提升了資源共享的可信度與安全性。多維績(jī)效評(píng)價(jià)模型為共享效益的量化提供了理論依據(jù)與實(shí)踐方法。未來(lái)需進(jìn)一步深化智能算法在資源評(píng)估與推送機(jī)制中的應(yīng)用,推動(dòng)形成可持續(xù)、可擴(kuò)展的開放獲取資源生態(tài)體系。
參考文獻(xiàn)
[1]崔靈利.智慧圖書館數(shù)字資源管理與開放獲取策略研究[J].中國(guó)民族博覽,2024(14):256-258
[2]劉雪穎,謝家樂(lè),田麗.公共圖書館開放獲取資源利用策略研究[J].河南圖書館學(xué)刊,2024,44(09):36-37.
[3]李真.開放獲取資源與高校圖書館數(shù)字化閱讀環(huán)境構(gòu)建[J].湛江文學(xué),2024(05):0134-0136.
[4]陳娟,林月華.全球重要學(xué)術(shù)期刊出版社開放獲取轉(zhuǎn)換政策與實(shí)踐初探[J].中國(guó)科技期刊研究,2024,35(09):1271-1282
[5]姚璨.地方圖書館特色數(shù)據(jù)庫(kù)開放獲取必要性研究[J].科學(xué)與信息化,2021(11):14-14.
作者單位:河南工程學(xué)院
責(zé)任編輯:王穎振 鄭凱津