吳至藝 林俊偉 肖 錚
(廈門大學圖書館 福建廈門 361005)
電子資源已經成為科學研究中最主要的學術資源類型,圖書館作為文獻資源中心,在電子資源收集、描述、揭示、獲取方面投入了大量人力物力,以滿足科研人員對于電子資源的使用需求。依據教育部高校圖書館事實數(shù)據庫系統(tǒng)數(shù)據統(tǒng)計,“211高校”圖書館2011—2015年的文獻資源投入,自2013年起電子文獻資源投入已超過了紙本文獻資源投入,其中電子期刊經費占了電子文獻資源投入的大部分[1]。為解決數(shù)字化環(huán)境下電子資源的描述問題,圖書館嘗試使用DC和MARC相結合的方式來對文獻類電子資源進行描述[2]。隨著數(shù)字技術的發(fā)展,電子文獻資源種類越來越多,數(shù)據量越來越大,格式越來越復雜,圖書館行業(yè)制定了RDA(Resource Description and Access,資源描述與檢索)標準,以適應數(shù)字環(huán)境下資源描述與檢索的需要[3]。面對搜索引擎帶給圖書館的沖擊,一站式的資源發(fā)現(xiàn)系統(tǒng)已成為圖書館的標準配置,DOI、OpenURL等技術實現(xiàn)了從搜索引擎和發(fā)現(xiàn)系統(tǒng)到電子資源全文的快速獲取[4]。在互聯(lián)網環(huán)境下,通過網絡隨時獲取電子資源成為科研人員的主要需求,圖書館采用了代理服務器、URL重寫、反向代理、VPN等技術保障校外用戶使用電子資源的權利[5]。此外,圖書館和數(shù)據庫商還通過Athens、Shibboleth項目打破傳統(tǒng)的IP認證模式,以基于用戶身份的認證模式,提供更加友好便利的校外電子資源獲取方式[6]。開放科學日益成為主要的學術生態(tài),科研人員通過學術社交平臺或者使用Sci-Hub獲取電子資源的現(xiàn)象越來越普遍,其原因主要是因為獲取資源的便利性[7]。如果不能解決好電子資源獲取中的“最后一公里”問題,圖書館將受到新的資源獲取方式的重大挑戰(zhàn),也將蒙受資金和人員方面的投入損失,作為文獻資源保障中心的地位將隨之動搖。為用戶提供更為友好、便利、順暢的電子資源的訪問與獲取,是圖書館和數(shù)據庫商共同面對的重要問題。
出于版權保護的目的,數(shù)據庫商一般采用基于IP地址的認證模式和基于用戶身份的認證模式,以保證電子資源在合理范圍內使用。兩種認證模式的基本原理是:基于IP的認證模式,數(shù)據庫商會針對每次用戶請求判斷其地址是否在授權使用的IP范圍內,如果不在授權范圍,則拒絕用戶使用?;谏矸莸恼J證模式,數(shù)據庫商會預先判斷用戶是否為合法用戶,如果是合法用戶,則可正常使用電子資源,如果不是合法用戶,則拒絕用戶訪問。就現(xiàn)狀而言,大多數(shù)圖書館訂購的數(shù)字資源都采用基于IP的認證模式,在這種模式下,校內合法IP范圍內使用訂購資源不存在任何問題,但校外訪問(校內合法IP范圍外)是一直以來困擾用戶的主要問題,并且隨著用戶環(huán)境的變化,這一問題越發(fā)凸顯。
目前圖書館已普遍采用以下幾種常見的網絡學術資源校外訪問解決方案,如基于IP地址的解決方案有代理服務器、EZProxy、VPN(虛擬專用網)。代理服務器解決方案通過在合法使用數(shù)據庫IP范圍內建立代理服務器,校外用戶經過代理服務器的中轉,即可合法使用電子資源。EZProxy是一種改進型的代理服務器模式,它通過“URL重寫”的方式實現(xiàn)用戶在校外合法使用電子資源。在圖書館電子資源導航頁上展示已經重寫過的數(shù)據庫地址,用戶通過訪問導航頁中改寫后的URL實現(xiàn)在校外獲取電子資源。VPN指在公共網絡中建立專用的數(shù)據通訊網絡的技術。圖書館需要先創(chuàng)建位于校園網內的VPN服務器,用戶在校外訪問數(shù)據庫資源前,通過互聯(lián)網先連接VPN服務器,建立一條專用的虛擬通訊鏈路,如同專門建立了一條從用戶端到校園網的專用線路。當用戶訪問數(shù)據庫時,就相當于從校園網發(fā)起訪問請求,實現(xiàn)電子資源校外獲取。以上3種基于IP地址的解決方案,均需用戶提前進行設置操作,且圖書館需要建立專門的代理服務器、VPN服務器,或維護“URL重寫”規(guī)則,對于用戶使用均有一定的技術門檻,對于圖書館的維護管理也存在一定的難度。
Athens和Shibboleth是基于用戶身份認證的網絡學術資源校外訪問解決方案。Athens始于1996年英國高等教育部的一個網絡數(shù)據庫登陸管理的項目,后來成為英國教育部門和衛(wèi)生部門的事實標準。訂購了數(shù)據庫的機構,需要先在Athens中登記,并且將本機構的合法用戶的認證信息存放到Athens。當用戶從校外訪問數(shù)據庫時,選擇Athens認證,再選定所屬機構,然后通過用戶ID和密碼驗證,認證成功后即可獲取電子資源。Athens通過用戶身份認證方式,擺脫了IP限制對于電子資源的獲取。OpenAthens是Athens的第二代產品,它采取了分布式的認證方式,將認證模塊與本地認證系統(tǒng)相集成,引導用戶利用本地認證系統(tǒng)來完成對用戶認證。Shibboleth是美國Internet2的一個項目,目的是使用聯(lián)盟認證模式解決受版權保護資源的獲取管理。Shibboleth系統(tǒng)由用戶、身份認證提供方、服務提供者、認證服務器導航四部分組成。身份認證提供方由用戶所在機構建立,負責認證用戶,生成認證聲明和用戶屬性,并與服務提供者之間傳遞和共享認證安全信息。服務提供方由數(shù)據庫廠商建立,與身份認證提供者共享用戶的安全認證信息,為合法用戶提供相應的訪問權限。認證服務器導航一般由機構聯(lián)盟提供,是一個用于導航的工具,供用戶來確定自己所屬的機構,將用戶重定向到合適的身份認證方。用戶訪問數(shù)據庫時,選擇使用Shibboleth登錄,然后選擇機構所屬的聯(lián)盟組織,在聯(lián)盟組織列表中選擇用戶所屬機構,然后跳轉到用戶機構提供的用戶認證頁面,當用戶完成認證,最后跳回到數(shù)據庫獲取電子資源[8]。
近年來,面對Sci-Hub和ResearchGate的競爭,數(shù)據庫商和學術搜索引擎分別開發(fā)出各自的全文獲取工具,如Google的CASA(Campus Activated Subscriber Access)、科睿唯安的Kopernio、Digital Science公司的Anywhere Access。CASA是由Google Scholar于2013年創(chuàng)建的,旨在使擁有合法授權的圖書館用戶在Google Scholar中更加平滑地訪問電子資源全文的項目[9]。Google Scholar從合作的數(shù)據庫商獲得訂購機構所訂購的內容列表以及授權使用的IP范圍,當用戶在授權使用的IP范圍內通過Google Scholar進行搜索,搜索結果如果是圖書館訂購的電子資源,則會在結果列表中出現(xiàn)獲取電子資源全文的鏈接,并且通過cookie將用戶信息記錄下來。當用戶使用同一臺設備在授權IP范圍外再次使用Google Scholar,Google Scholar會根據cookie確認用戶身份,允許用戶繼續(xù)通過Google Scholar的全文鏈接獲取電子全文。Kopernio是由Mendeley和Newsflo的創(chuàng)始人于2017年創(chuàng)建的新產品,愿景是提供學術期刊論文的一鍵式訪問,提高獲取全球科學知識的便利性[10]。2018年4月,科睿唯安收購了Kopernio,旨在解決當前科研界在獲取期刊論文時大費周折的問題。Kopernio集成了超過2萬個期刊網站、數(shù)據庫平臺、開放獲取知識庫和搜索引擎,以瀏覽器插件的形式幫助用戶實現(xiàn)一鍵式合法獲取學術期刊全文文獻。Anywhere Access是由Digital Science公司開發(fā)的全文獲取工具,通過與現(xiàn)有圖書館數(shù)據庫和工具的集成,如Google Scholar、Pubmed、Dimensions、Primo、數(shù)據庫商平臺和其他學術網絡網站,研究人員通過Anywhere Access的瀏覽器插件中的“查看PDF”按鈕,即可實時查看和訪問圖書館訂閱資源和開放獲取資源。對于圖書館未訂閱的內容,Anywhere Access還提供了5 000多種期刊的付費集成服務[11]。
以上幾種網絡學術資源校外訪問解決方案雖然在一定程度上解決了用戶的需求,但也存在某些方面的問題。表1從3個方面對已有解決方案進行了比較。在安全性方面,代理服務器易受到網絡攻擊,安全性較低;EZProxy、CASA、Kopernio、Anywhere Access三種方式通過瀏覽器插件或Cookie方式收集用戶信息,存在一定安全隱患;VPN、Athens、Shibboleth方式具有較高的安全性。易用性方面,代理服務器、VPN需要用戶提前進行設置,對于用戶有一定的使用門檻;EZProxy要求用戶必須通過圖書館的電子資源導航訪問,對于用戶使用不夠友好;Athens和Shibboleth這兩種基于用戶身份的認證模式,在用戶認證時,操作流程不夠簡便明了,容易造成用戶困擾;CASA、Kopernio、Anywhere Access通過瀏覽器插件的形式,用戶仍需進行額外安裝。管理維護難度方面,代理服務器、EZProxy、VPN、Shibboleteh均需要圖書館自備服務器,安裝相應的軟件進行配置,對用戶管理、數(shù)據庫鏈接等內容長期更新,并保持服務器的正常運行,對管理維護的要求高;Athens采用商業(yè)服務模式,圖書館只需維護用戶管理;CASA、Kopernio、Anywhere Access由數(shù)據庫商提供服務,管理維護工作簡單。在開放科學環(huán)境下,為用戶提供更加無縫平滑的電子資源獲取體驗,是數(shù)據庫商和圖書館需要共同解決的問題。
表1 網絡學術資源校外訪問解決方案功能對比表
隨著網絡環(huán)境的發(fā)展變化,基于IP控制的傳統(tǒng)電子資源訪問方式已經阻礙了知識傳播與合法獲取。在開放科學環(huán)境下,基于開放獲取和用戶身份的電子資源訪問方式將成為未來發(fā)展的主要方向。開放獲取運動經過20余年發(fā)展,促進了知識開放共享與再利用。雖然開放獲取正逐步成為學術資源交流的模式之一,但傳統(tǒng)的出版模式仍為當前和今后一段時間的主要學術傳播途徑。在新的網絡環(huán)境下,解決目前出版模式的學術資源獲取問題,探索更為便捷易用的基于用戶身份的電子資源訪問解決方案,有助于知識共享和創(chuàng)新發(fā)展。
RA21全稱為Resource Access for 21st Century,旨在滿足用戶隨時隨地訪問所需學術資源的需求,為用戶提供一種簡單、無縫、可定制、安全的獲取學術資源的方式。它由國際科學、技術和醫(yī)學出版商協(xié)會(Internatianal Association of Scientific,Technical and Medical Publishers,簡稱STM)和美國國家信息標準組織(National Information Standard Organization,簡稱NISO)于2016年聯(lián)合發(fā)起,目前已有超過60家來自于出版社、大學、軟件商、企業(yè)、機構的單位參與其中[12]。RA21認為在目前的網絡環(huán)境中使用學術資源,應該擁有與使用日?;ヂ?lián)網大多數(shù)網站一樣的體驗。在開放性這一原則下,RA21尋求一種與具體供應商無關的、易于實現(xiàn)和后續(xù)維護的、可以逐步實施的方案。RA21提出在已被各機構廣泛采用的聯(lián)邦身份認證系統(tǒng)的基礎上,通過實驗性項目來探索聯(lián)邦認證的最佳實踐,然后通過NISO發(fā)布指導意見,改進目前聯(lián)邦身份認證中管理維護成本高和用戶體驗不友好的問題。
3.2.1 安全斷言標記語言SAML
SAML,英文全稱是Security Assertion Markup Language,即安全斷言標記語言。它基于XML標準,用于在身份提供者(identity provider)和服務提供者(service provider)之間交換關于主體的認證和授權數(shù)據。SAML是OASIS組織安全服務技術委員會的產品,目前SAML2.0作為一種成熟的用戶認證授權規(guī)范,被廣泛應用于基于Web的統(tǒng)一認證和單點登錄系統(tǒng)中,SAML通過令牌的方式進行授權數(shù)據交換,為保護用戶隱私提供了基礎條件[13]。SAML規(guī)范的框架如圖1所示。
圖1 SAML XML結構框圖
3.2.2 SAML相關概念
為便于理解和掌握SAML規(guī)范,需要了解SAML中有的幾個主要概念。
主體(Subject):擁有身份信息的實體。一般可以理解為擁有身份信息的用戶。
身份提供者IdP(Identity Provider):為用戶提供身份的實體,為用戶提供身份驗證,確保用戶所聲稱身份的真實性,負責確認哪些服務可以被該用戶訪問。
服務提供者SP(Service Provider):為用戶提供正式服務的實體,依賴身份提供者提供的斷言驗證用戶身份和用戶權限,為已授權認證的用戶提供其服務。
斷言(Assertions):使用SAML規(guī)范的一段XML語句,定義了3種提供斷言的聲明。身份驗證聲明是指由已經成功驗證用戶的一方創(chuàng)建的聲明,至少包含被認證的主體,以及認證發(fā)生的具體時間。屬性聲明是指包含關于主體的特定標識屬性。授權聲明是指包含了主體的授權權限信息。
元數(shù)據(Metadata):定義SAML中實體描述其配置文件的標準規(guī)范,以供合作伙伴使用。至少包括實體ID、加密密鑰、協(xié)議端點。
協(xié)議(Protocol):定義在不同實體間請求與響應的數(shù)據包格式。
綁定(Binding):定義如何使用通用的底層通信協(xié)議和在系統(tǒng)之間交換斷言和請求-相應消息的協(xié)議。
配置(Profile):描述在特定場景使用中SAML認證的細節(jié)和步驟。
3.2.3 SAML認證流程
SAML認證流程步驟如圖2所示:(1)用戶請求訪問某個受保護的資源。(2)SP需要獲得用戶身份驗證用戶是否有權訪問,生成一個SAML認證請求。用戶選擇認證服務IdP。(3)SP將請求重定向到用戶選擇的IdP,SAML包作為參數(shù)一同發(fā)給IdP。(4)IdP解析SAML請求,用戶在IdP網站進行認證。(5)IdP構造斷言,生成SAML認證響應。(6)IdP重定向用戶瀏覽器到SP,將SAML響應包作為參數(shù)發(fā)給SP。(7)SP驗證SAML中的用戶斷言,創(chuàng)建安全的上下文環(huán)境。(8)SP將用戶瀏覽器重定向到目標資源。
圖2 SAML XML認證流程圖
目前OpenAthens和Shibboleth聯(lián)邦認證都是基于SAML的認證流程,但在使用中存在如下3個方面的問題:一是IdP服務的發(fā)現(xiàn)部分,用戶需要在眾多的IdP中找到自己機構的IdP進行驗證,即WAYF(Where are you from,你來自哪里)的問題。二是用戶在不同SP間重復通過IdP驗證的問題,缺乏在不同SP間共享IdP信息的機制。三是由IdP提供給SP的信息中,由于沒有規(guī)范要求,可能導致IdP提供給SP過多的個人信息,如用戶Email地址等個人信息,從而引起隱私數(shù)據保護問題。
為了解決目前聯(lián)邦認證中易用性差、用戶體驗不好的問題,RA21項目提出以下4個主要目標。
用戶界面(UI)一致性:聯(lián)邦身份認證中的SP采用統(tǒng)一的用戶界面,幫助用戶更容易識別和使用,方便用戶在不同的SP平臺上通過認證按鈕鏈接到IdP站點。
完善IdP發(fā)現(xiàn)機制:增加IdP的元數(shù)據,使用戶可以通過其地址位置、機構名稱或者Email域名找到匹配的IdP,優(yōu)化IdP發(fā)現(xiàn)流程。
IdP持久化機制:持久化用戶選擇的IdP數(shù)據,并在SP間共享此數(shù)據,減少在訪問不同SP平臺時用戶重新選擇IdP的頻次。
注重隱私保護:盡最大可能保護用戶隱私,遵守目前相關信息安全方面的最佳實踐。
RA21為尋求最佳解決方案,進行了3個實驗項目,分別是針對學術機構的隱私保護持久化P3W項目、WAYF云項目、針對醫(yī)藥企業(yè)與出版社間的聯(lián)合身份認證項目,并且由社區(qū)內的相關利益方共同對實驗項目進行測評。以下將詳細介紹P3W項目和WAYF云項目,比較兩者間的異同點,以便了解RA21針對學術機構用戶獲取電子資源的最佳實踐。
3.4.1 隱私保護持久化WAYF(P3W)
P3W項目提出使用用戶Email域名、IP范圍、地理信息簡化IdP的發(fā)現(xiàn)流程,使用瀏覽器信息和共享的元數(shù)據縮小IdP選擇范圍,通過智能技術改進登陸流程,提高用戶界面的一致性,使用瀏覽器本地存儲解決跨域調用IdP持久化數(shù)據的問題。
P3W提供兩種服務模型。第一種是IdP發(fā)現(xiàn)服務的簡單集成,服務提供者通過鏈接的方式將用戶導向一個聯(lián)邦認證發(fā)現(xiàn)服務的中心網站,如圖3所示。它使用一個通用URL指向中心發(fā)現(xiàn)服務,然后由用戶從智能IdP發(fā)現(xiàn)服務列表中選擇自己的機構IdP,用戶瀏覽器自動記住用戶的選擇,并在后續(xù)與其它SP的會話中繼續(xù)使用此IdP。第二種是IdP發(fā)現(xiàn)服務的高級集成,通過在受信任的SP安全域中使用JavaScript調用IdP發(fā)現(xiàn)服務的API,使SP可以訪問用戶瀏覽器中保存的IdP選擇信息,更加無縫地處理IdP選擇的流程(如圖4所示)。
圖3 P3W簡單集成模型
圖4 P3W高級集成模型
當用戶訪問受限內容時,SP會先通過IdP發(fā)現(xiàn)服務API查詢本地瀏覽器中是否有用戶之前選擇IdP的信息,如果有則直接使用該IdP進行用戶授權驗證,如果沒有則通過智能搜索IdP界面供用戶選擇新的IdP進行授權驗證。P3W僅在用戶瀏覽器中記錄用戶所選擇的IdP,不會記錄用戶名、密碼或其他個人身份信息。如果用戶使用無痕模式瀏覽器,在關閉瀏覽器后將不會存儲任何信息。
3.4.2 WAYF云
WAYF云項目初衷是為用戶提供與IP認證模式使用體驗相同的聯(lián)邦認證體驗,減少用戶在不同數(shù)據庫商平臺進行重復驗證的操作,盡可能使用現(xiàn)有的協(xié)議規(guī)范和用戶認證模式,利用開源軟件創(chuàng)建WAYF數(shù)據共享基礎設施,提供易于集成到數(shù)據庫商平臺的組件。
WAYF云架構由WAYF云、API、WAYF插件3個部分組成。WAYF云保存用戶設備(通常為瀏覽器)的全局ID與在不同SP上的本地ID的對應關系,API提供創(chuàng)建、發(fā)現(xiàn)、共享用戶WAYF信息的接口,WAYF插件將為用戶設備在SP上創(chuàng)建本地ID,并傳送給WAYF云。用戶訪問某個SP時,將通過API創(chuàng)建該用戶設備的全局ID和本地ID,并把用戶在SP上選擇的IdP的數(shù)據通過API共享給WAYF云中心做持久化保存,并且與全局ID關聯(lián)。當用戶訪問另外一個SP時,該SP通過API調用用戶設備存儲在WAYF云中心的全局ID,再調用關聯(lián)的持久化IdP信息對用戶進行認證授權。WAYF云模型如圖5所示。
圖5 WAYF云模型
WAYF云不存儲用戶名、密碼或其他個人身份信息。云端僅存儲用戶設備在SP中的本地唯一標識符和在中心數(shù)據庫中的全局唯一標識符的映射關系,用戶本地瀏覽器保存全局唯一標識符。當用戶使用隱身模式,用戶數(shù)據只存在于會話的生命周期,當瀏覽器關閉時用戶數(shù)據會被清除。
RA21從安全分析、隱私保護、技術架構3個方面對前期的實驗性項目進行了深度測評。采用微軟的STRIDE威脅模型,從身份欺騙、數(shù)據篡改、信息泄漏、不可否認、拒絕服務、權限提升幾個方面對P3W和WAYF云項目測評,結果表明兩者在安全性方面的風險都較小。根據歐盟一般數(shù)據保護條例要求對數(shù)據隱私影響進行了評估,認為兩者都不涉及直接獲取個人隱私數(shù)據,唯一區(qū)別是P3W將持久化數(shù)據存儲在用戶本地瀏覽器,WAYF云存儲在云端集中的數(shù)據庫中。從服務架構上看,兩者的區(qū)別在于WAYF云采用類似傳統(tǒng)的應用架構,需要一個高可用的后端中心數(shù)據庫,保證持久化信息的保存、全局ID和本地ID的查詢調用,還需要滿足歐盟一般數(shù)據保護條例的隱私數(shù)據使用要求[14],也需要有更多專業(yè)人員進行維護。P3W采用了較為輕量化的架構,中心服務僅需要提供JavaScript API和對必要的元數(shù)據進行維護。根據隱私數(shù)據最小化和實施維護成本低的原則,RA21選擇了P3W作為社區(qū)推薦方案,下一步將形成NISO規(guī)范草案,發(fā)布最終規(guī)范并向社區(qū)發(fā)布實踐指導意見。根據RA21的項目時間表,2019年二季度將建成基礎服務中心開始提供服務,數(shù)據庫商根據指導意見改造各自平臺,形成遵循RA21最佳實踐的統(tǒng)一服務模式。
電子資源已經成為最主要的學術資源,圖書館作為重要的文獻資源保障機構,一方面需要提升資源的豐富度,另一方面還需要保障資源的可用性。在當前的信息環(huán)境下,用戶隨時隨地獲取學術資源的需求日益增長,如果數(shù)據庫商和圖書館還囿于傳統(tǒng)的電子資源訪問模式,將使用戶越來越多地使用如Sci-Hub、ResearchGate等更簡便易用的平臺。長久地看,這樣影響整個學術交流環(huán)境的良性發(fā)展[15]。由包括標準化組織、出版商、圖書館、軟件開發(fā)商、服務提供方等諸多相關利益方組成的社區(qū)共同推動的RA21項目,打破了傳統(tǒng)的IP認證模式,以目前已在業(yè)界廣泛使用的聯(lián)邦身份認證為基礎,在用戶隱私安全保護、聯(lián)邦認證界面統(tǒng)一、認證流程優(yōu)化等方面進行了改進,在學術環(huán)境中實現(xiàn)一個與目前互聯(lián)網使用體驗相一致的、現(xiàn)代的、基于標準的資源訪問模式,從而滿足用戶的需求和期望,同時又有效保護用戶隱私,使任何設備在任何時間和地點,都能安全便捷地合法獲取電子資源,更好地滿足用戶對學術資源的獲取使用,推動知識傳播和分享利用,加速創(chuàng)新型社會的發(fā)展。