陳智罡,宋新霞,鄭夢策,劉天成
1.浙江萬里學院 信息與智能工程學院,浙江 寧波315100
2.浙江萬里學院 基礎學院,浙江 寧波315100
同態(tài)加密最初是由Rivest、Adleman 和Dertouzos[1]在1978 年提出的。同態(tài)加密是在不知道密鑰的情況下,能夠對密文進行計算,其結果與解密之后明文計算的效果相同,這保護了數據的隱私性。自從1978 年以來,全同態(tài)加密一直被認為是密碼學界的“密碼學圣杯”[2]。40多年以來,人們也提出一些同態(tài)加密方案,但是他們要么滿足加法同態(tài),要么滿足乘法同態(tài)[3-13],在此基礎上還提出了能同時滿足有限次乘法與加法的同態(tài)加密[14-18],直到2009年Gentry首次提出了第一個全同態(tài)加密方案[19],解決了這個困擾了密碼學界40 多年的難題,摘取了這頂“圣杯”。
全同態(tài)加密在多個領域中如云計算、電子商務、物聯網上有著很多的應用,具有很高的研究與應用價值[20-29]。盡管已有一些全同態(tài)加密的文獻綜述從技術角度對其進行了分析和總結,Acar等[30]列出了全同態(tài)加密方案的理論與典型的應用,從算法的速度與簡潔性上對多個全同態(tài)加密方案進行了對比,著重介紹了構造全同態(tài)加密方案的方法,但是對研究方向與所涉及的基礎領域討論較少。Martins 等[31]從工程實現的角度回顧了全同態(tài)加密方案的研究,針對各個方案的性能進行了分析。Rocha 等[32]介紹了關于同態(tài)加密的一些概念,并給出一些機器學習應用案例。Vaikuntanathan[33]介紹了全同態(tài)加密方案的發(fā)展。近期的全同態(tài)加密綜述見文獻[34-35]。此外,近三年也有大量關于全同態(tài)加密的理論設計方案,參見文獻[36-58]。上述都是重點關注于全同態(tài)加密的方案研究和具體應用。當前全同態(tài)加密領域仍缺少基于文獻計量分析的研究工作?;谖墨I計量分析的研究工作能夠推進同態(tài)加密領域的系統發(fā)展,幫助研究人員把握科研工作的方向,因此對這一領域相關的學術論文進行統計研究是必要的。本文從文獻的角度出發(fā),不限制于特定的應用領域來討論全同態(tài)加密的發(fā)展。
本文的主要目的是系統地分析已被Web of Science(WoS)核心合集索引和中國知網(CNKI)檢索的全同態(tài)加密的研究論文,并對它們加以分類。為了達到預期的目的,對有關全同態(tài)加密的文章進行了文獻計量的研究,采用CiteSpace進行輔助分析,為全同態(tài)加密的研究者們提供一些有價值的信息,包括引文趨勢、全同態(tài)加密領域最有影響力的論文、基礎領域分布、最頂級的基金資助機構及應用方向,這將反映出同態(tài)加密發(fā)展的現況和當前的研究方向。
選擇WoS 和中國知網兩個數據庫作為數據來源。WoS和知網是世界上領先的科學論文數據庫,有一系列嚴格的篩選過程,為研究人員提供了一些有用的分析功能。并且WoS涵蓋了20 300多種著名的期刊、會議、書籍,中國知網也正式收錄了9 000多種自然科學、社會科學學術期刊。
Gentry在2009年提出了第一個全同態(tài)加密方案,本文選擇2009—2020 年的時間跨度進行搜索。在WoS中,首先將“fully homomorphic encryption”作為主題進行搜索,文獻類型選擇“Proceedings Paper or Article”,即對每篇論文的標題、摘要、關鍵字三部分都進行檢索,再對只是提到全同態(tài)加密關鍵字的論文進行過濾,最終確定的數據是WoS 包含了826 篇文獻。在知網中,將“主題”或“關鍵詞”或“篇名”作為檢索條件,同時進行同義詞擴展并且將文獻類型選為“期刊或會議”,同樣對只是提到全同態(tài)加密的論文進行篩選,確定知網中包括了175篇文獻。
CiteSpace 軟件自開發(fā)以來借助知識圖譜分析在科學計量中得到了廣泛運用,本文采用CiteSpace5.5.R2對數據的主要研究國家及機構進行分析,并且利用Excel統計歷年的發(fā)文量,借助WoS自帶可視化分析進行輔助。
自2009 年以來,有關全同態(tài)加密研究的發(fā)文量如圖1所示??傮w上來看,WoS索引收錄的全同態(tài)加密文章增長趨勢明顯,其中在2014—2015 年迎來了數量增長的爆發(fā)期,2015年增長量是前一年的88%,并且2015年以后每年的發(fā)文量一直穩(wěn)定在100篇以上,其中2016、2017年有小幅度下滑。相對而言,知網關于全同態(tài)加密論文的數量也是穩(wěn)步提升,但是增長幅度低。根據圖1,WoS 與知網的全同態(tài)加密論文的增長曲線趨勢基本一致。這說明全同態(tài)加密在國內外受到了廣泛的關注,可以預測全同態(tài)加密的文章數量應該還會繼續(xù)保持增長趨勢。
圖1 2009—2019年WoS與知網全同態(tài)加密研究領域文獻數量統計Fig.1 Statistics on paper number in full homomorphic encryption in WoS and CNKI from 2009 to 2019
在全同態(tài)加密發(fā)展過程中具有開創(chuàng)性的文章就是Gentry 的“Fully Homomorphic Encryption Using Ideal Lattices”[19]。這篇文章發(fā)表自2009年,是一個將具有自舉性質的有限次同態(tài)加密轉換成全同態(tài)加密的方案,是密碼學界的一個突破。從表1可以看出它獲得了最多的引用次數,早期的全同態(tài)加密方案[59,61,73-77]都依照Gentry的方法,但是這些方案實用性很低。文獻[59]在Gentry方法的基礎上提出了基于整數的全同態(tài)加密,但是依然存在效率過低的缺點。Brakerski 和Vaikuntanathan 在2011 年提出了基于LWE(learning with errors)全同態(tài)加密方案[60],將全同態(tài)加密建立在格上標準困難問題LWE 之上。這篇文章有效地降低了電路的復雜性,但是仍然需要自舉來完成全同態(tài)加密。2011年,Brakerski、Gentry 和Vaikuntanathan 提出BGV 全同態(tài)加密方案[78],該方案無需自舉就可以獲得層次性全同態(tài)加密方案,為全同態(tài)加密方案走向實踐奠定了基礎。在2013 年,Gentry 等人發(fā)表了一篇利用近似特征向量設計全同態(tài)加密的論文即GSW 方案[66],使得全同態(tài)加密方案變得非常簡單。在此基礎上全同態(tài)加密理論研究又得到進一步發(fā)展,這也是圖1中論文數量在2014年迅速增加的原因。
表1 前15引用的全同態(tài)加密論文Table 1 Top 15 fully homomorphic encryption articles with highest citations
研究全同態(tài)加密形勢的一個重要途徑是了解它被哪些國家和科研機構所重視,將WoS 中整理出的數據導入CiteSpace,根據發(fā)文數量列出排在前10 的國家及其重要因子,如表2所示。
表2 發(fā)文量前10的國家及其重要性Table 2 Top 10 countries in terms of number of articles published and their importance
從表2 中可以看出,美國的發(fā)文量比中國多出12篇,位居首位,而第二名中國比法國多出了142篇,說明我國和美國在全同態(tài)加密的研究中占據了重要的地位,也表明了我國學者在全同態(tài)加密領域展開了深入的研究,活躍程度很高。重要因子表示了一個國家在這個領域的重要程度,美國以0.53 位居首位,我國雖然發(fā)文量與美國只有12篇的差距,但是重要因子比美國低了0.18之多,這說明美國在同態(tài)加密領域的研究影響力是最高的。法國的總發(fā)文量只有中國的30.7%,但其重要因子僅比中國低0.07,這說明在全同態(tài)加密領域中國雖然文章數量很多,但是還要加強創(chuàng)新性的研究。
在本節(jié)中通過CiteSpace對研究機構進行分析。圖中節(jié)點越大,機構名稱越大,表明發(fā)表的文章越多,而連線表明了機構間的合作關系。從知網中數據形成的機構合作看出,主要形成了以中國科學院信息工程研究所信息安全國家重點實驗室、信息工程大學及南京郵電大學計算機學院為中心的合作網絡,證明了他們與其他研究機構之間有良好的合作關系。而武警工程大學密碼工程學院雖然論文也較多,但是合作機構太少,這是圖中普遍的現象。對圖2進一步觀察發(fā)現,知網數據中的研究機構連線較少,說明各個機構在全同態(tài)加密領域還沒有形成一個整體,還有很多機構是在獨立地進行研究。因此國內各個研究機構之間要加強合作,加強交流,集思廣益地推動全同態(tài)加密算法的創(chuàng)新發(fā)展。
圖2 知網中全同態(tài)加密領域研究機構合作圖Fig.2 Collaboration chart of research institutions on full homomorphic encryption in CNKI
由于WoS 中文獻數據較多,將顯示機構名稱的閾值設置為4。從圖3 中可以看出,WoS 文獻數據中各個機構間的連線非常繁多,表明他們之間合作緊密。為了進一步地分析WoS 中各個研究機構的文章數目,論文數量前10 的機構如表3 所示。在發(fā)文量前10 中,美國有4所研究機構,中國有2家研究機構,其中西安電子科技大學發(fā)表文章數量最多,有27篇。
圖3 WoS中全同態(tài)加密領域研究機構合作Fig.3 Collaboration chart of research institutions on full homomorphic encryption in WoS
表3 WoS中發(fā)文量前10的研究機構Table 3 Top 10 research institutions in terms of number of articles in WoS
本文根據WoS 索引所覆蓋的不同領域對所有檢索到的全同態(tài)加密論文進行了分類。圖4 顯示了WoS 根據每個研究領域的全同態(tài)加密論文的總數排名。圖4所示全同態(tài)加密覆蓋最多的學科是計算機科學有705篇論文,其次是工程學有277 篇論文,超過50 篇以上的還有數學和電信,分別有143 篇和62 篇。從中可以看出,計算機科學是全同態(tài)加密覆蓋最多也是最重要的領域。當然,每篇論文可能涵蓋一個以上的研究領域。在知網當中所覆蓋的領域基本與WoS 索引所覆蓋的類似,計算機科學占比最大,達到111次,但是排第二的是信息通信領域,有71 次,第三的是電氣工程,僅有3 次。具體情況見圖5。
圖4 WoS索引全同態(tài)加密論文所覆蓋的研究領域Fig.4 Research areas covered by fully homomorphic encryption articles in WoS
圖5 知網索引全同態(tài)加密論文所覆蓋的研究領域Fig.5 Research areas covered by fully homomorphic encryption articles in CNKI
表4 列出了WoS 索引中發(fā)表全同態(tài)加密論文最多的出版物。在發(fā)表至少10篇論文以上的重要期刊與會議中,其中Lecture Notes in Computer Science(LNCS)是收錄最多的,有239 篇。而在LNCS 中,發(fā)表論文最多的是Advances in Cryptology Eurocrypt,有48 篇。而LNCS中發(fā)表文章最多的5個會議或期刊在表5中也已列出。為了衡量它們對全同態(tài)加密研究領域的影響,還根據一些其他的因素評估了這些刊物與會議,比如引用數,結果表明LNCS 依然是最優(yōu)的。表6 顯示了在知網中的同態(tài)加密領域發(fā)表超過7 篇論文的重要期刊,《密碼學報》的數量有12 篇,是最多的,而《計算機應用研究》是引用次數最多的,有190 次。從中可以看出知網論文的引用次數比WoS中要少。
表4 WoS索引中全同態(tài)加密發(fā)表最多的出版物Table 4 Most published publications for fully homomorphic encryption in WoS
表5 LNCS中發(fā)表文章最多的前5名Table 5 Top 5 most published in LNCS
表6 知網索引中全同態(tài)加密發(fā)表最多的刊物Table 6 Most published journals for fully homomorphic encryption in CNKI
圖6 顯示了有關的基金資助機構的詳細信息。在WoS分析研究的826篇論文中,中國國家自然科學基金委員會(National Natural Science Foundation of China)資助的論文最多,有143 篇論文,另外的69 篇論文得到了美國NSF 的資助。本文還根據每個基金資助機構的論文引用總數來對這些資助機構進行評估。從圖6 可以看出,與其他機構支持的論文相比,由DARPA(美國國防高級研究計劃局)資助的論文獲得了更高的引用比,為90%,被引用文章數最多的是中國國家自然科學基金委員會,有88篇。
圖6 WoS中主要資助機構發(fā)文數與被引用文章數比較Fig.6 Comparison of number of articles published and cited by major funding institutions in WoS
在知網查詢中發(fā)現,同樣是中國國家自然科學基金資助的論文最多,有88篇,其余如國家高技術研究發(fā)展計劃(863計劃)、浙江省自然科學基金等與之相比差距都過大。具體情況如圖7所示。
圖7 知網中主要資助機構發(fā)文數與被引用文章數比較Fig.7 Comparison of number of articles published and cited by major funding institutions in CNKI
全同態(tài)加密在不同的領域中都有廣泛的應用,在對WoS 與知網中的文獻進行篩選后,根據它們應用的方向,將其分為七類,即機器學習、大數據、物聯網、智能電網、電子醫(yī)療健康、生物特征、基因組數據,見表7。如表8~表14,列出了對應的應用領域在WoS 數據庫中的代表性文章。
表7 WoS與知網索引中全同態(tài)加密的主要應用方向Table 7 Main application directions of fully homomorphic encryption in WoS and CNKI
表8 WoS中全同態(tài)加密在大數據應用中的代表文章Table 8 Representative articles on full homomorphic encryption for big data applications in WoS
表9 WoS中全同態(tài)加密在物聯網應用中的代表文章Table 9 Representative articles on full homomorphic encryption for Internet of things applications in WoS
表10 WoS中全同態(tài)加密在基因組數據中的代表文章Table 10 Representative articles on full homomorphic encryption for genomic data applications in WoS
表11 WoS中全同態(tài)加密在智能電網應用中的代表文章Table 11 Representative articles on full homomorphic encryption for smart grid applications in WoS
表12 WoS中全同態(tài)加密在機器學習應用中的代表文章Table 12 Representative articles on full homomorphic encryption for machine learning applications in WoS
表13 WoS中全同態(tài)加密在醫(yī)療健康應用中的代表文章Table 13 Representative articles on full homomorphic encryption for medical health applications in WoS
表14 WoS中全同態(tài)加密在生物特征應用中的代表文章Table 14 Representative articles on full homomorphic encryption for biological characteristics applications in WoS
從表7中可以看出,隨著近幾年來人工智能領域的發(fā)展與大數據時代的到來,需要收集大量的數據,而用戶對個人的資料、隱私很敏感。因此全同態(tài)加密在機器學習和大數據領域有廣泛的應用需求。文獻[79-80]探討相關問題并給出了解決方案。與此同時,世界各地的許多數據庫都存儲著大量的基因組數據,自愿提供基因組數據的患者隱私也是需要保護的,同樣包括醫(yī)療數據的隱私保護,文獻[81-82]探討相關問題的解決方案。目前,物聯網在各個行業(yè)比如供應鏈、智能家居、智能電網等方面應用廣泛,對數據隱私的處理提出高要求,全同態(tài)加密是處理相關問題的有效方法。
本文采用了WoS 數據庫和知網數據庫,對全同態(tài)加密的文獻進行了深度的文獻計量分析。從文獻計量研究中提取的結果分析表明,自從2014 年以來全同態(tài)加密的論文快速增長,研究成果豐富,這種趨勢還會繼續(xù)保持下去。我國已經是全同態(tài)加密領域發(fā)文量最多的國家,但是文章的影響力相對較弱,各個機構的聯系不夠緊密,需要加強合作。
全同態(tài)加密論文主要包涵了計算機科學、工程學、通信和數學這四個基礎研究領域,本文的研究結果為學術界和工業(yè)界提供了一個觀察前沿發(fā)展的視角。那些高引用的論文為年輕的研究人員提供了進一步研究全同態(tài)加密的路徑,比如研究方法,有哪些研究的熱點和成果等。
從世界范圍上來看,中國和美國是全同態(tài)加密研究領域最活躍的國家。中國已經是發(fā)表全同態(tài)加密文章最多的國家,大量的全同態(tài)加密研究受到了國家和各級政府部門的支持,中國國家自然科學基金委員會資助了大量的SCI索引和知網檢索中的論文,對全同態(tài)加密的研究提供了良好的支持,為學術界和工業(yè)界提供了技術積累。但是我國在全同態(tài)加密領域發(fā)表的高引用論文卻很少,文章的質量與影響力還需提高。最后,從各個領域中的研究趨勢來看,機器學習、大數據、電子醫(yī)療健康以及物聯網是國內外的全同態(tài)加密應用的主要領域。