張雪媛 都平平 雷 鐳
(1.中國礦業(yè)大學圖書館 徐州 221116;2.上海能鏈眾和科技有限公司 上海 200127)
科學實驗數據管理涉及的人員眾多,數據類型復雜多樣,科學實驗數據產生時間隨機,產生環(huán)境封閉,具有程度不同的保密性。長期以來,科研機構和科研人員出于對自身知識產權的保護,擔心實驗數據泄露后被他人模仿,不愿意將實驗數據在實驗完成后第一時間公布出來,造成了科學實驗數據開放的實際困境。大數據時代,科技創(chuàng)新、國家政策制定、經濟發(fā)展都越來越依賴科學數據的分析和運用。本文從科學實驗數據管理的價值分析出發(fā),利用區(qū)塊鏈技術去中心化、安全不可篡改、知識產權明晰、交易便捷的特點,設計出科研人員、科研機構與科學數據中心協(xié)同管理模式,按保密程度分級存儲的區(qū)塊鏈架構,設計出管控安全風險,保護知識產權,降低投入成本,激勵多方參與的科學實驗數據協(xié)同管理系統(tǒng)。
科學實驗數據主要是由研究機構的科研人員在進行科學實驗的過程中記錄下來的數據。包括實驗時間、地點、儀器設備、使用材料、溫度濕度壓力等實驗室環(huán)境狀況、人員操作流程、實驗結果及其分析等一系列內容??茖W實驗數據管理,不僅限于實驗結果的記錄,更強調實驗過程中各項參數的真實記錄。隨著科學技術的發(fā)展,科研投入的增加,實驗室規(guī)模不斷擴大,科學實驗數量增多,高校、科研院所以及工業(yè)企業(yè)每天的科學實驗產生大量數據[1]。借助現(xiàn)代通信技術,網絡技術和計算機技術,對科學實驗數據進行高效管理,能夠有效促進科學實驗數據管理的科學化、合理化、智能化,從而優(yōu)化科研系統(tǒng)生態(tài)環(huán)境。科學實驗數據有效管理的價值主要體現(xiàn)在以下幾點:
a.存證與版權聲明??茖W實驗數據管理系統(tǒng)可以實現(xiàn)數據存證和版權聲明,方便科研人員自身隨時查詢取用。在自身計算機更換、維修、升級、系統(tǒng)崩潰時,仍然能夠查詢、獲取到原始數據。
b.提升科研誠信。科學實驗數據管理系統(tǒng),可以通過業(yè)界共同制定數據采集、上傳標準,提升試驗數據質量,起到有效監(jiān)督,防止實驗數據造假的作用。提升實驗數據可信度,從而有效地凈化科研環(huán)境,提升學術誠信,營造公平、公正、公開的學術科研環(huán)境。
c.保護知識產權。科研人員在第一時間將標準的、真實的、完整的實驗記錄存證到科學實驗數據管理平臺上,此后再完成論文寫作發(fā)表工作??茖W實驗數據中,大量具有獨創(chuàng)性的內容,在同行共同維護的數據系統(tǒng)上存證,存證記錄可以作為有力證據,支撐相關科研成果,保護科研人員的知識產權,在產生爭議性事件時,維護科研人員的個人名譽。區(qū)塊鏈的去中心化特性可以對科學研究的全過程進行同步,以開放和完善學術版權的獲取問題,同時利用時間戳元數據對科研過程中的想法和創(chuàng)新進行版權聲明以實現(xiàn)充分的保護[2]。
d.消除“數據孤島”。由于缺少可靠的實驗數據認證、互信機制,各實驗室信息封閉,大量基礎實驗反復重做,形成“數據孤島”??茖W實驗數據管理系統(tǒng),有助于實驗數據信息開放交流,降低重復,消除“數據孤島”。
e.優(yōu)化科研系統(tǒng)生態(tài)環(huán)境??茖W實驗數據管理系統(tǒng),將海量科學實驗數據匯集成方便檢索的數據集,可以形成大數據效應,降低全行業(yè)的試錯成本,同時促進同行之間的深度交流,啟發(fā)高層次的科研成果產出,優(yōu)化科研系統(tǒng)生態(tài)環(huán)境。
盡管對科學實驗數據進行統(tǒng)一管理,實現(xiàn)開放獲取,對國家發(fā)展、成果產出和科研人員自身都是有利的,但是,國內大部分學科均尚未形成有效的科學實驗數據管理部門或管理平臺。
通過檢索中國科技資源共享網站[3],發(fā)現(xiàn)目前20個國家科學數據中心,大部分數據中心的數據類別以觀測、采集、調查、統(tǒng)計數據為主,僅有國家高能物理科學數據中心是以科學實驗數據為核心數據類型的科學數據服務平臺,國家生態(tài)科學數據中心和國家地震科學數據中心也包括一定量的科學實驗數據。說明大學及科研院所產生的分布與各學科門類,特別是機械、礦業(yè)、化工、電力電子、計算機、土木等工程技術領域,大量的科學實驗數據尚未納入國家科學數據管理體系,沒有得到有效的數據管理,也就更不用談合理的利用了。其他如北京大學開放研究數據平臺、武漢大學的高??茖W數據共享平臺,目前均未實現(xiàn)科學實驗數據的有效管理和開放共享。因此,對科學數據進行追溯和獲取也存在困難[4]。
科學數據管理除科學實驗數據以外,還包括大量的觀測數據、調查數據、統(tǒng)計數據、基因數據、標本數據等,如氣象、地震觀測數據,物種標本,病毒于微生物數據等等??茖W實驗數據與其他科學數據相比,更強調對過程的記錄,與科研人員的誠信、名譽和物質收益等個人利益更加密切相關。
面對國家及科研人員對科學實驗數據開放獲取的實際需求以及科學數據中心普遍沒有將科學實驗數據納入管理體系的現(xiàn)狀,經過對科研人員、科研機構和科學數據中心的深度訪談,對開展科學實驗數據管理的工作進行阻力分析。
2.2.1科研人員視角的阻力分析
科研人員和科研機構作為科學實驗數據的數據生產者,對數據管理系統(tǒng)的安全性、知識產權保護力度存疑,導致科研人員缺乏匯交科學實驗數據的主動性意愿。
a.數據管理系統(tǒng)缺乏安全風險管控機制。將原始數據采集到數據中心的過程,要通過科研機構相關工作人員、數據中心相關工作人員,包括同事、同行、學生等諸多經手人,數據在數據收集的過程中存在發(fā)生人為的數據泄露、數據篡改和數據遺漏的安全風險,造成數據存證不完整。科學實驗數據一旦發(fā)生被泄露、被篡改、被遺漏的現(xiàn)象,就會導致很多科學實驗無法復現(xiàn)和分析,科研成果的驗證、實驗方法追溯以及實驗數據的復用存在很大困難[5]。數據匯交到數據中心集中管理,也存在如黑客攻擊、干擾及系統(tǒng)錯誤等安全風險,數據有可能整體性地被竊取、被刪除、被篡改。若發(fā)生系統(tǒng)性安全事故,不僅對科研人員,而且對整個行業(yè)甚至是國家,造成難以挽回的巨大損失。
與公開發(fā)表的論文不同,科學實驗數據在實驗過程中產生,需要經過一段時間,通過科研人員撰寫論文,公開發(fā)表出來,才能形成被認可的科研成果。如果在實驗結束后就將實驗數據提交共享,開放獲取,則可能被他人搶先發(fā)表,無法實現(xiàn)成果轉化,侵害自身利益。在實驗完成到論文公開發(fā)表期間,科研人員會對實驗數據嚴格保密,防止數據外泄。所以,科研人員往往對科學實驗數據的保密性、防篡改、系統(tǒng)可靠性都有極高的要求。
研究者對科學數據共享仍然存在擔心和疑慮,不愿意將數據上傳在公共平臺上共享[6]。當前面向多學科交叉研究服務的重大科技基礎設施平臺產出的科學數據管理中,仍然缺乏可操作的科學數據安全和數據主權相關的法律法規(guī)以及管理制度支持,需要在設施建設、運行和服務過程中涉及的多方主體進一步討論、細化相關管理內容[7]。數據管理系統(tǒng)缺乏分級安全風險管控機制,造成科研人員和科研機構對現(xiàn)有數據管理模式不信任,這是目前科學實驗數據管理面臨的最大阻力。
b.缺乏對知識產權保護的系統(tǒng)設計。根據國務院科學數據管理辦法的精神,數據生產方擁有數據所有權,在數據使用上擁有優(yōu)先權。相應的,數據管理系統(tǒng)可以設置2~3年的數據保護期。其他數據使用方,在數據保護期內,如果需要獲取和利用數據,需要與數據所有者簽訂協(xié)議,獲取授權,才能使用數據。
目前的數據管理系統(tǒng),缺乏對參與數據生產方權益保護的系統(tǒng)設計和實際的權益保護機制,科研人員出于對自身知識產權的保護,缺乏將科學實驗數據共享的主觀意愿。
2.2.2數據中心視角的阻力分析
作為科學實驗數據最主要的數據管理者,承擔著數據傳遞、儲存、維護、分析以及增值服務的工作。面對科學實驗數據這類對數據安全和知識產權保護要求特別高的數據類型,開展工作面臨的困境主要有:
a.資源、人力和軟硬件設施投入不足。在《建立權責明晰且能力健全的科學數據開放共享機制——以高能物理領域為例》一文中提到,目前高能物理領域缺乏相應的資源、人力和軟硬件基礎設施投入,導致在數據安全與開放共享過程中缺乏人力和經費支持[7]。高能物理領域是國家重點支持的大科學項目,在科學數據管理領域的投入尚且如此短缺,其他非大科學學科的科學數據管理領域,在人力、經費、軟硬件資源投入上就更加匱乏了。
b.激勵機制缺位。數據管理工作中,缺少能夠將科學數據中心、科研機構、科研人員利益協(xié)同的激勵機制??茖W數據中心與數據生產方的科研人員和科研機構大多不是直接的管轄或隸屬關系,而是相對平等的協(xié)作關系,且僅存在由科研人員和科研機構向數據中心數據匯交的單向弱聯(lián)系。導致科學實驗數據這類數據生產方對數據權益保護特別重視的科學數據,在數據匯交過程中呈現(xiàn)出較大的現(xiàn)實阻力。目前,科技服務機構在數據平臺上共享數據的意愿不強、動力不足,數據共享平臺共享激勵機制不完善,需要有效激勵更多的科技服務機構參與到平臺的數據共享[8]。
區(qū)塊鏈技術是去中心化的分布式賬本[9],是基于分布式數據存儲、點對點傳輸、共識機制、加密算法等技術在互聯(lián)網時代的創(chuàng)新應用模式[10]。區(qū)塊鏈的基本數據結構是加蓋時間戳的鏈式數據區(qū)塊,保證其不可篡改性。利用共識算法生成有效的數據區(qū)塊,利用智能合約實現(xiàn)數據的驗證和流通[11]。用戶建立和維護信任的成本將大幅降低,有助于建設良好科研誠信檔案[12]。
區(qū)塊鏈在信息共享、版權保護、身份認證、資源存儲、網絡眾籌、數據溯源等方面都能帶來創(chuàng)新性的應用和推廣[13]??梢葬槍茖W實驗數據管理的實際需求和現(xiàn)實阻力,利用區(qū)塊鏈安全可靠,數據可溯源,智能合約自動執(zhí)行,去中心化,自帶獎勵模式的特點,管控安全風險,保護知識產權,降低投入成本,激勵多方協(xié)同,從技術層面破除科學實驗數據管理中科研人員和數據中心視角的現(xiàn)實阻力。
3.1.1區(qū)塊鏈安全風險管控機制與科學實驗數據管理的契合之處
第一,區(qū)塊鏈的鏈式結構與不可逆的哈希運算,從數據結構的層面保障了區(qū)塊鏈上數據的不可篡改。
區(qū)塊鏈通過哈希函數保證安全性和完整性[14]。使用SHA-256哈希函數,將實驗原始數據算出哈希值。對原始數據做任何改動,哈希值都完全不同,且由哈希值無法逆向推算出原始文件的類型和內容。
如新建一個word文件,寫下第一行“今天是2022年3月21日星期一”,保存為今天是2022年3月21日星期一.doc文件。用SHA-256哈希函數計算其哈希值:5d599d6361be9754f6eb732a69277c3d395ede27c7 adc4a1f3f65f384672be34。
將文字改為“今天是2022年3月20日星期日”,依舊保存為2022年3月21日星期一.doc文件。哈希值變?yōu)椋?24d9f0bcc00aa751c1cc901dee3810f949662ce 305bc40dbc30a0dfb81beb55。
區(qū)塊鏈采用鏈式結構[15],每個區(qū)塊都有存儲前一區(qū)塊的哈希值和自身區(qū)塊的數據哈希值。若數據被篡改,則破壞了整個區(qū)塊鏈的鏈式結構,見圖1。
圖1 篡改文件內容破壞區(qū)塊鏈鏈式結構
第二,區(qū)塊鏈是分布式賬本,內容信息是由全體節(jié)點共同記錄的,篡改單個節(jié)點上的數據,不能得到全網的認可,保障了數據的不可篡改性,如圖2。
圖2 區(qū)塊鏈分布式賬本保障數據不被篡改
科研人員可以放心地在第一時間將科學實驗數據在區(qū)塊鏈上存證,不必擔心內容泄密和數據被篡改。
3.1.2區(qū)塊鏈數據溯源與科學實驗數據管理的契合之處
區(qū)塊鏈上的數據,帶有時間戳,以及對應數據版權所有人的數字簽名[15]。數據上傳時間、版權所有人和內容規(guī)范性,可以得到全網節(jié)點的共同鑒證,形成共識性的版權和知識產權公告。一方面,利用區(qū)塊鏈數據可溯源的特點,在發(fā)生知識產權確權爭議時,通過區(qū)塊鏈上的數據記錄,進行溯源舉證,維權過程簡便[16];另一方面,通過區(qū)塊鏈上,數據內容在系統(tǒng)中的流轉和交易記錄,提供了數據產權明晰的開放獲取和授權交易。
科學實驗數據的開放權限可以通過區(qū)塊鏈不對稱加密技術,控制在科研人員自己手中。而智能合約實現(xiàn)了有償使用的順暢交易。對科學實驗數據的有償使用,科學實驗數據實現(xiàn)了經濟效益和社會效益的價值增溢,有效激勵科研人員匯交數據,降低科研工作的總體試錯成本,優(yōu)化科研生態(tài)環(huán)境。
a.去中心化,降低成本。區(qū)塊鏈是去中心化的數據結構,區(qū)塊上僅保存科學實驗數據的哈希值,且審核、存儲均利用全網節(jié)點現(xiàn)有的算力和存儲設備,無須專門投入巨額資金建設中心化的數據中心。節(jié)省了大量的物理空間、計算機硬件設備、管理人員等成本投入,可以調動科研機構和數據中心現(xiàn)有的閑置資源,降低成本。
b.價值激勵,多方協(xié)同。應用區(qū)塊鏈技術的科學實驗數據協(xié)同管理,可以將數據審核更新的工作交給參與數據協(xié)同管理系統(tǒng)對等網絡中的任意節(jié)點完成,以公平合理的共識機制遴選出審核記賬節(jié)點,系統(tǒng)新生成一定數量代幣,獎勵給遴選出完成審核記賬的節(jié)點。而數據使用方為獲取有償數據資源,需要向數據所有方支付一定數量的系統(tǒng)代幣來兌換相關權限,如果沒有代幣則需要向代幣富余的用戶兌換,這樣就在數據交易的過程中完成了系統(tǒng)的價值增溢。激勵科研人員匯交數據,科研機構和數據管理機構深度參與科學實驗數據協(xié)同管理工作。
現(xiàn)有區(qū)塊鏈主要分為3種類型:公有鏈、聯(lián)盟鏈和私有鏈[17]。聯(lián)盟鏈常由多個互相已知身份的組織共同構建[18]。本設計架構中,由參與科學實驗數據協(xié)同管理系統(tǒng)的科研機構和科學數據中心以平等的、去中心化的、分布式主體地位,在共識機制下進行數據審核和區(qū)塊鏈更新。由于只接納相關科研人員、科研機構和科學數據中心的計算機作為節(jié)點,既不對公眾開放,不選擇公有鏈類型;也不隸屬于某個獨立的機構或管理部門,也不選擇私有鏈類型;選擇聯(lián)盟鏈作為本架構基礎區(qū)塊鏈類型。
基于區(qū)塊鏈對科學實驗數據進行有效管理的適用性分析,設計基于區(qū)塊鏈技術的科學實驗數據協(xié)同系統(tǒng)架構如圖3所示。
4.1.1架構目標
基于區(qū)塊鏈技術的科學實驗數據協(xié)同系統(tǒng)架構的目標是構建一個具有安全風險管控機制和知識產權保護功能的數據管理系統(tǒng),同時本系統(tǒng)不需要大規(guī)模的成本投入,可以通過系統(tǒng)設置的激勵機制,激勵各參與主體持續(xù)深度參與系統(tǒng)的運作和維護。
圖3 科學實驗數據協(xié)同管理的系統(tǒng)架構
4.1.2參與主體
科學實驗數據協(xié)同管理系統(tǒng)的參與主體包括科研人員、科研機構、數據中心三方。
科研人員是科學實驗數據的產出者,控制數據的上傳內容和上傳時間,是本系統(tǒng)的重要參與主體??蒲腥藛T上傳數據,實現(xiàn)數據版權的存證聲明;授權自身數據的有償獲?。簧暾埰渌麛祿a方數據有償使用。不承擔網絡和系統(tǒng)維護的相關工作。在協(xié)同系統(tǒng)中的功能、主體責任和激勵手段見表1、表2。
表1 科學實驗數據協(xié)同管理系統(tǒng)中各參與主體的功能
表2 科學實驗數據協(xié)同管理系統(tǒng)中的主體責任和激勵手段
科研機構是科研人員的隸屬和管理單位,提供機器算力和數據存儲空間,參與競爭審核權,選中審核/記賬時,獲得代幣獎勵。提供數據存儲空間;與科學數據中心、行業(yè)協(xié)會、政府監(jiān)管部門協(xié)同制定和修訂標準、規(guī)范;協(xié)助監(jiān)管,維護誠信。在協(xié)同系統(tǒng)中的功能、主體責任和激勵手段見表1、表2。
科學數據中心負責制定數據標準并維護與數據質量、數據交易相關的智能合約;提供風險管控、政策咨詢、使用幫助等相關服務。參與競爭審核權,選中審核/記賬權時,獲得代幣獎勵。提供數據存儲空間,協(xié)助監(jiān)管,維護誠信;維護智能合約。在協(xié)同系統(tǒng)中的功能、主體責任和激勵手段見表1、表2。
4.1.3 業(yè)務流程
基于區(qū)塊鏈技術的科學實驗數據協(xié)同管理系統(tǒng)的主要業(yè)務包括用戶注冊、用戶登錄、數據上傳和數據交易4個部分。用戶注冊、用戶登錄與其他數據庫系統(tǒng)基本相同。數據上傳和數據交易則是利用區(qū)塊鏈技術來實現(xiàn)的。
(1)數據上傳??蒲腥藛T在科學實驗方案設計、實驗材料準備、實驗過程記錄和實驗結果記錄的一系列實驗過程中,形成的文字、表格、圖片、影像資料,階段性完成后即可提交系統(tǒng)存證??紤]到科研人員對科學實驗數據保密性、安全性和知識產權保護的需要,數據在區(qū)塊鏈系統(tǒng)的上傳流程如圖4所示。
圖4 數據上傳業(yè)務流程圖
a.數據上鏈。科研人員將實驗數據由數據匯交節(jié)點電腦向系統(tǒng)發(fā)出數據上鏈存證的審核請求。系統(tǒng)接收到數據匯交節(jié)點的數據審核請求之后,在全網節(jié)點中,依據隨機類共識算法PoEt[19],隨機產生唯一的一個審核節(jié)點。科研人員向遴選出的審核節(jié)點提交實驗數據。審核節(jié)點將實驗數據運算得到的哈希值與時間戳、數字簽名打包成區(qū)塊,接在前區(qū)塊的后面,廣播到整個網絡。全部節(jié)點驗證運算結果,同步更新區(qū)塊鏈記錄,全網節(jié)點保持記錄一致。
科研人員提供的科學實驗的原始數據,僅作為運算哈希值的輸入條件,且為純粹后臺的機器運算,排除了人工干預的可能性,形成數據安全性的基礎??蒲腥藛T不必擔心數據外泄;而區(qū)塊鏈系統(tǒng)的存儲量小,便于控制成本。
b.數據存儲。系統(tǒng)允許科研人員按照數據的保密屬性選擇存儲方式。對嚴格保密數據,采取本地存儲,不上網僅在系統(tǒng)做存證和版權聲明;對有償交易數據,利用有IPFS(星際文件系統(tǒng))技術,分布式存儲在系統(tǒng)各節(jié)點上;對開放共享數據,不加密上傳到數據中心存儲器上開放共享[20]。
c.代幣獎勵。對審核節(jié)點和數據匯交節(jié)點進行代幣獎勵。系統(tǒng)產生一定量的代幣,獎勵給審核記賬節(jié)點和按標準上傳數據的數據生產方網絡節(jié)點。
(2)數據交易。利用區(qū)塊鏈管理的數據交易,使用不對稱加密、哈希算法、數字簽名來保障點對點數據交易的安全性。
假設B向A購買其上傳的科學實驗數據。則B產生一對公鑰和私鑰,B把其公鑰發(fā)給A,A用B發(fā)來B的公鑰加密交易數據,發(fā)給B。B用其私鑰解密A發(fā)來的數據。B計算解密后數據的哈希值,若與區(qū)塊鏈上記錄的數據一致,則說明是自己所要的數據,見圖5。
圖5 數據交易
不對稱加密過程,除A、B以外的其他人無法獲取數據,傳輸記錄全網可見,數據安全完整可靠。
4.2.1共識機制
區(qū)塊鏈是利用共識算法保證整個網絡中所有節(jié)點數據一致性的[21]。文獻[20]對共識機制的選擇,做了大量的分析比較。競爭類共識算法,消耗資源高,而選舉類共識算法,通信復雜度隨節(jié)點數增加快速變大,且僅有部分被選舉出來的節(jié)點可以作為主節(jié)點,去中心化程度受很大影響。審核記賬工作由機器計算完成,以“機器信任”[22]為基礎,防止數據泄密。隨機類共識,無需挖礦,避免了競爭類共識機制資源消耗高的問題,也避免了選舉類共識隨網絡規(guī)模通信成本提升的問題。
4.2.2數據存儲
按保密級別,將科學實驗數據分級管理。對于科研人員有特殊保密要求的科學實驗數據,僅用區(qū)塊鏈做存證和版權聲明,相關數據文件保存在科研人員的計算機上。對于沒有特殊保密需求的科學實驗數據,可以采用IPFS技術來存儲數據。IPFS(InterPlanetary File System,星際文件系統(tǒng))是去中心化的文件存儲方法[23],是區(qū)塊鏈系統(tǒng)在存儲方面的重要拓展應用[24]。IPFS是一種在分布式系統(tǒng)中共享資源或文件的技術[25],將文件分布式的碎片存儲到若干個不同的區(qū)塊里面,形成存儲節(jié)點,存儲多個副本,可以為科學實驗數據提供安全可靠的存儲備份。
4.2.3交易共享
通過智能合約實現(xiàn)用戶注冊、登錄,數據查詢,數據交易的應用功能。數據使用方要向數據所有方支付一定數量的系統(tǒng)代幣。如果沒有代幣則需要向代幣富余的用戶兌換。開放共享數據的獲取記錄也記錄在區(qū)塊鏈上,全網可見。
4.2.4激勵機制
科研人員既可以通過提交數據獲得系統(tǒng)獎勵,也可以通過數據交易獲取收益;科研機構提供系統(tǒng)運行的機器算力,就有機會被選中作為審核節(jié)點,從而獲得系統(tǒng)獎勵;數據中心與科研機構類似,有機會成為審核節(jié)點,獲得系統(tǒng)獎勵。在此激勵機制下,科研人員、科研機構與數據中心協(xié)同工作,共同分享數據系統(tǒng)成長帶來的價值增溢。
區(qū)塊鏈技術安全可靠、數據可溯源[26],應用在數據管理領域,激勵多方協(xié)同,是數字時代的新智慧。區(qū)塊鏈技術應用在科學實驗數據協(xié)同管理上具有安全風險管控、知識產權保護、成本控制、激勵機制等諸多優(yōu)勢。本著以人為本的理念,通過架構設計,解決科研人員的后顧之憂,在不增加大規(guī)模設備投入的基礎上,實現(xiàn)科學實驗數據的價值增溢,為相關領域的技術實踐做必要的理論探討。