• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BTM 主題模型的對稱可搜索加密方案*

    2022-03-10 06:18:24薛玉潔陳蘭香
    密碼學(xué)報 2022年1期
    關(guān)鍵詞:密文文檔加密

    薛玉潔, 陳蘭香, 穆 怡

    1. 福建師范大學(xué) 計算機與網(wǎng)絡(luò)空間安全學(xué)院 福建省網(wǎng)絡(luò)安全與密碼技術(shù)重點實驗室, 福州350117

    2. 澳門城市大學(xué) 數(shù)據(jù)科學(xué)學(xué)院, 澳門

    1 引言

    隨著互聯(lián)網(wǎng)的迅速發(fā)展, 各種各樣的數(shù)據(jù)文檔與日俱增, 為了節(jié)約大規(guī)模數(shù)據(jù)的管理成本, 越來越多的企業(yè)選擇將數(shù)據(jù)外包到第三方云存儲服務(wù)器上. 云存儲的發(fā)展帶來數(shù)據(jù)加密的需求, 密文數(shù)據(jù)搜索得到極大關(guān)注, 取得了豐碩的研究成果. 但是當(dāng)前的密文檢索方案主要是基于關(guān)鍵詞檢索[1–7], 并沒有考慮用戶所查詢的關(guān)鍵詞與文檔的潛在語義特征, 這可能導(dǎo)致云端返回的檢索結(jié)果與用戶期望的主題不一致, 從而限制了密文檢索的準(zhǔn)確度和效率.

    近年來, 許多學(xué)者基于關(guān)鍵詞檢索實現(xiàn)了各種可搜索加密方案, 例如單關(guān)鍵詞搜索[1,3,8–10]、多關(guān)鍵詞搜索[11–15]、模糊關(guān)鍵詞搜索[16,17]以及連接關(guān)鍵詞搜索[12,13,18]等. 文獻[11] 使用TF-IDF 向量空間模型來計算詞頻和反向文檔頻率, 相關(guān)度是TF-IDF 向量間的內(nèi)積, 以此來比較關(guān)鍵詞與文檔的相關(guān)度.文獻[7,9,19] 使用安全K最鄰近算法(KNN) 生成加密文檔向量和加密索引(倒排索引、樹索引和布隆過濾器等), 加密后將其外包給云, 一旦用戶需要開始檢索, 將生成查詢關(guān)鍵詞的陷門, 并使用加密索引實現(xiàn)密文檢索. 然而, 這些方案都沒有考慮用戶所查詢的關(guān)鍵詞和文檔的潛在語義特征, 從而導(dǎo)致檢索結(jié)果與用戶期望不符. 此外, 傳統(tǒng)的基于關(guān)鍵詞的密文搜索方案需要對所有文檔提取關(guān)鍵詞, 然后根據(jù)所有關(guān)鍵詞構(gòu)建倒排索引, 其構(gòu)建的索引規(guī)模都比較大, 因此需要探索能夠縮小索引規(guī)模的方案.

    主題模型是在文本建模與文本搜索等領(lǐng)域中發(fā)現(xiàn)文本間潛在語義的語義模型[20]. 1990 年, Deerwester 等[20]提出潛在語義分析(latent semantic analysis, LSA) 模型, 它主要利用奇異值分解(singular value decomposition, SVD) 降維的方式, 將詞與文本映射到一個以主題作為維度的新的空間. 潛在狄利克雷分配(latent Dirichlet allocation, LDA) 模型[21]是最早被廣泛應(yīng)用的主題模型, 該模型是基于貝葉斯學(xué)習(xí)的話題模型, 主要應(yīng)用于自然語言處理領(lǐng)域, 它將每個文檔視為不同主題的混合體, 同時每個主題又被視為一組關(guān)鍵詞, 同一主題中的關(guān)鍵詞具有相似的語義. 然而傳統(tǒng)的主題模型(上述LSA 與LDA等) 在處理短文本, 如直播間彈幕和微博, 會因為詞語過于稀疏而使得模型效果不佳.

    為了解決該問題, 文獻[22] 在原來LDA 模型的基礎(chǔ)上進行改進, 提出基于Biterm 的主題模型(biterm topic model, BTM), BTM 模型在短文本上的處理效果比LDA 好, 即使對于長文本, BTM 的效果也不比LDA 差. BTM 主題模型可用來對關(guān)鍵詞和文檔之間的潛在語義進行建模, 并揭示出主題、文檔和關(guān)鍵詞之間的關(guān)系. 基于主題進行檢索的目標(biāo)就是通過用戶的待檢索關(guān)鍵詞找出對應(yīng)主題, 通過主題來對文檔進行搜索, 使得檢索的文檔從語義角度更加符合用戶的期望.

    借鑒BTM 主題模型在明文檢索領(lǐng)域的優(yōu)勢, 本文提出一個基于BTM 主題模型的高效密文檢索方案, 利用平衡二叉樹和倒排索引構(gòu)建安全索引. 數(shù)據(jù)擁有者首先訓(xùn)練出語料庫在不同主題個數(shù)下的模型,并且分別計算它們的困惑度和一致性參數(shù), 根據(jù)這兩個參數(shù)指定語料庫的主題個數(shù). 然后提取每個主題的關(guān)鍵詞概率分布向量, 生成主題-關(guān)鍵詞的分布矩陣, 以此為基礎(chǔ)構(gòu)建出可實現(xiàn)主題檢索的平衡二叉樹索引. 每個文檔都有一個包含潛在語義特征的主題向量, 由此易于構(gòu)建文檔-主題概率分布矩陣, 為了提升檢索效率, 本文根據(jù)該矩陣構(gòu)建出了主題-文檔的倒排索引, 實現(xiàn)對文檔的檢索. 將基于平衡二叉樹的關(guān)鍵詞-主題索引和主題-文檔倒排索引作為安全二級索引, 與加密文檔一起外包給云服務(wù)器. 當(dāng)使用多關(guān)鍵詞構(gòu)造陷門來檢索k個最相關(guān)的文檔時, 授權(quán)用戶使用QueryTd 算法構(gòu)造待檢索關(guān)鍵詞陷門, 將其發(fā)送給云服務(wù)器, 云服務(wù)器根據(jù)令牌進行二級索引檢索, 返回關(guān)聯(lián)度最高的加密文檔作為檢索結(jié)果, 授權(quán)用戶使用密鑰解密從而得到最終的明文文檔. 因為主題向量的維數(shù)遠小于現(xiàn)有方案中的關(guān)鍵詞字典(TF-IDF 向量的維數(shù)), 所以該方案在搜索時間和索引空間開銷方面均優(yōu)于現(xiàn)有方案.

    具體而言, 本文提出了一種基于BTM 主題模型的高效密文檢索方案, 實現(xiàn)了以下功能:

    (1) 使用BTM 主題模型對原始數(shù)據(jù)進行預(yù)處理, 完成數(shù)據(jù)清洗、文本特征提取、主題個數(shù)選取、概率分布提取等一系列操作, 為進一步構(gòu)建文檔的主題向量索引、關(guān)鍵詞向量索引和查詢陷門奠定了基礎(chǔ).

    (2) 通過構(gòu)建安全二級索引實現(xiàn)了根據(jù)多關(guān)鍵詞高效檢索密文文檔這一過程. 其中一級索引的作用是通過多關(guān)鍵詞確定檢索文檔的主題, 它是根據(jù)所提取主題中關(guān)鍵詞的概率分布, 構(gòu)建出的一棵規(guī)模較小的平衡二叉樹索引; 二級索引的作用是根據(jù)一級索引所確定的主題來找到需要返回的密文文檔集, 它是根據(jù)各個文檔的主題概率分布, 構(gòu)建出的一個倒排索引表.

    (3) 構(gòu)建的安全二級索引在一定程度上隔離開關(guān)鍵詞和文檔標(biāo)識符, 從而降低第三方通過統(tǒng)計攻擊來泄露用戶隱私的概率. 本文根據(jù)已知密文攻擊模型和已知背景知識攻擊模型進行了安全性分析.

    (4) 將本方案在真實的數(shù)據(jù)集上進行測試, 對查詢結(jié)果的語義準(zhǔn)確率進行了實驗對比, 實驗結(jié)果表明,本文方案在檢索準(zhǔn)確率和效率上都是最優(yōu)的.

    本文的組織結(jié)構(gòu)如下: 第2 節(jié)介紹一些關(guān)于可搜索加密和主題模型的相關(guān)工作; 第3 節(jié)進行問題描述,并提出安全需求; 第4 節(jié)是符號描述和相關(guān)定義; 第5 節(jié)闡述整個系統(tǒng)的實現(xiàn), 并進行安全性分析; 第6 節(jié)通過具體的實驗對本方案進行準(zhǔn)確率和效率評估; 最后第7 節(jié)總結(jié)本文.

    2 相關(guān)工作

    關(guān)鍵詞密文檢索方案. 早在1996 年, Goldreich 等人[23]提出不經(jīng)意隨機訪問(oblivious RAM,ORAM) 模型實現(xiàn)軟件保護, 因為該模型能夠隱藏數(shù)據(jù)的訪問模式, 可以實現(xiàn)極安全的可搜索加密方案,但是因為計算和通信開銷過大而不太實用. 2000 年, Song 等人[1]首次提出可實際應(yīng)用的可搜索加密方案, 這是一種線性掃描方案, 每次必須對整個文件集合進行檢索. 2003 年, Goh[9]基于布隆過濾器和偽隨機函數(shù), 構(gòu)造了可抵抗關(guān)鍵詞語義攻擊的安全索引, 但是當(dāng)原始文檔很大時, 檢索效率較差. 2006 年,Curtmola[3]等人首次提出了兩個基于倒排索引的關(guān)鍵詞檢索方案, 此后研究者們提出了大量基于倒排索引的對稱可搜索加密方案.

    2010 年, Wang 等人[10]提出基于保序?qū)ΨQ加密算法(OPSE) 的支持結(jié)果排序的關(guān)鍵詞檢索方案.2011 年, Cao 等人[13]首次提出基于多關(guān)鍵詞的可排序密文檢索方案(multi-keyword ranked searchable encryption, MRSE). 2012 年, Wang 等人[8]又通過計算文檔和檢索關(guān)鍵詞之間的相關(guān)性得分, 實現(xiàn)了top-k檢索. 2017 年, Liu 等人[11]結(jié)合TF-IDF 模型, 提出了動態(tài)的可搜索對稱加密方案實現(xiàn)多數(shù)據(jù)源關(guān)鍵詞檢索, 但是這一方案不能保證云服務(wù)器是誠實的. 為了豐富檢索謂詞, 2018 年, Zhang 等人[12]提出了多屬性關(guān)鍵詞聯(lián)合密文檢索技術(shù), 他們構(gòu)造了一個基于多屬性樹的索引結(jié)構(gòu), 但是共享密鑰與雙線性映射使得檢索的通信開銷很大. 2020 年, Li 等人[15]提出一個基于區(qū)塊鏈的加密數(shù)據(jù)多關(guān)鍵詞相似搜索方案, 該方案采用傳統(tǒng)的二叉樹索引來提高檢索效率, 可以避免用戶擔(dān)心的惡意服務(wù)器的潛在錯誤行為.近些年, 很多對稱可搜索加密方案[11,12,14,15]都是改進MRSE 方案, 或者通過直接建立樹型索引來提高檢索效率, 但是樹的規(guī)模太大會極大地增加內(nèi)存I/O 次數(shù), 使得檢索效率降低, 因此需要進一步探索減小索引規(guī)模并提高檢索效率的方案.

    基于語義相似度的密文檢索方案. 2014 年, Xia 等人[24]和Fu 等人[25]都借助同義詞擴展來實現(xiàn)多關(guān)鍵詞可搜索加密. 2016 年, Chen 等人[26]利用層次聚類實現(xiàn)了多語義密文檢索, 但是構(gòu)建聚類索引的準(zhǔn)確度不高, 計算開銷和成本都很大. 2018 年, Fu 等人[27]應(yīng)用各種不同的語義模型, 但是他們采用監(jiān)督學(xué)習(xí)模型, 無法適應(yīng)于多種數(shù)據(jù)集, 并且標(biāo)簽數(shù)據(jù)可能超過字典規(guī)模. 2019 年, Dai 等人[14]通過構(gòu)建完全二叉樹的方式實現(xiàn)了安全的語義感知密文檢索, 但是構(gòu)建的二叉樹規(guī)模仍然比較大.

    主題模型的研究現(xiàn)狀. 1990 年, Deerwester 等人[20]最早提出潛在語義分析(latent semantic analysis, LSA) 主題模型, 此后, 主題模型得到廣泛關(guān)注. 2000 年, Papadimitriou 等人[28]在此基礎(chǔ)上提出了概率潛在語義分析(probabilistic LSA, PLSA), 并比較了PLSA 和LSA 的不同之處, 并討論了PLSA在自動文檔索引中的應(yīng)用. 同年, Bellegarda 等人[29]提出將LSA 使用在自然語言處理中(NLP) 中.2003 年, Blei 等人[21]針對PLSA 具有嚴(yán)重過擬合的問題, 他們結(jié)合貝葉斯思想提出了潛在狄利克雷分配(latent Dirichlet allocation, LDA) 模型, 該模型在很多研究工作中得到應(yīng)用. 例如, Heinrich 等人[30]基于LDA 提出一種高效的文本分析方法; Pang 等人[31]利用LDA 主題模型構(gòu)建了一種針對企業(yè)文本搜索的主體意圖混淆方法.

    2005 年, 為了克服標(biāo)準(zhǔn)LDA 模型不能建模各個主題的關(guān)系的缺陷, Blei 等人[32]提出了相關(guān)主題模型(correlated topic model,CTM),CTM 模型可以描述主題間的相關(guān)性. 2006 年,Blei 等人[33]采用高斯分布對同一個主題的詞分布進行規(guī)范化而提出動態(tài)主題模型(dynamic topic models, DTM), 與LDA 模型不同, DTM 引入時間因素, 從而刻畫語料庫主題隨時間的動態(tài)演化. 2007 年, 為了描述多個主題間的相關(guān)性, Li[34]提出PAM (pachinko allocation model) 主題模型, 它使用一種有向無環(huán)圖(directed acyclic graph, DAG) 結(jié)構(gòu)去學(xué)習(xí)和表現(xiàn)主題相關(guān)性, 每個主題是基于它的孩子節(jié)點的狄利克雷分布, PAM 模型可以靈活地表現(xiàn)主題間的相關(guān)性, 具有更好的文本表現(xiàn)力. 2013 年, Yan 等人[22]為了解決已有主題模型在處理短文本時會因為文本中的詞匯過于稀疏, 導(dǎo)致模型效果很差的缺陷, 提出了Biterm 主題模型(biterm topic model, BTM). 在短文本上BTM 的效果要比LDA 好, 即使是長文本, BTM 的效果也不比LDA 差.

    隨著主題模型研究的不斷成熟, 許多學(xué)者開始將其應(yīng)用于搜索領(lǐng)域. 2014 年, Wang 等人[35]提出了一個在關(guān)鍵詞檢索系統(tǒng)中掩蓋主題意圖的模型, 他們通過隱藏用戶搜索關(guān)鍵詞的主題意圖來保護用戶隱私,利用LDA 主題模型生成主題,構(gòu)造一種新的虛擬查詢生成算法實現(xiàn)了主體意圖混淆. 2016 年,Moody等人[36]提出了將主題模型向量化的LDA2Vec, 它將Word2Vec 和LDA 的優(yōu)點相結(jié)合, 利用深度學(xué)習(xí)的方法形成了一個新的算法用于文本挖掘和信息檢索, 并取得了很好的效果.

    2019 年, Dai 等人[14]首次將主題模型應(yīng)用于密文檢索, 他們利用LDA 模型建立關(guān)鍵詞與文檔之間的聯(lián)系, 通過建立二叉樹索引的方式實現(xiàn)了一個安全有效的密文檢索系統(tǒng). 由于大部分方案都是基于LDA 主題模型, 只適用于長文本數(shù)據(jù)集, 為了讓主題模型在密文檢索上的應(yīng)用場景更加廣闊, 我們采用BTM 主題模型在密文數(shù)據(jù)集上實現(xiàn)了一個基于文本語義的多關(guān)鍵詞密文檢索方案. 具有以下幾方面優(yōu)勢:

    (1) 方案基于無監(jiān)督學(xué)習(xí)方法, 數(shù)據(jù)擁有者可以直接將其應(yīng)用于不同的數(shù)據(jù)集.

    (2) 方案可根據(jù)檢索關(guān)鍵詞來推斷用戶所要查詢的文檔主題.

    (3) 二級索引的構(gòu)建大大降低了向量維度, 提高了時間和空間效率.

    3 問題描述

    3.1 系統(tǒng)模型

    系統(tǒng)模型包括三個實體: 數(shù)據(jù)擁有者、數(shù)據(jù)使用者和云服務(wù)器, 如圖1 所示. 基于BTM 主題模型的密文檢索系統(tǒng)主要包括七個步驟, 整個搜索過程可定義為一個七元組: BTM-MRSE=(GenKey, BuildIdxI,BuildIdxII, Encrypt, QueryTd, Search, Decrypt). 系統(tǒng)中每個算法的功能描述如下:

    圖1 系統(tǒng)模型Figure 1 System model

    (1) GenKey: 生成密鑰. 輸入安全參數(shù), 輸出偽隨機流作為加密文檔集的密鑰;

    (2) BuildIdxI: 構(gòu)建第一級安全索引. 通過主題模型生成主題-關(guān)鍵詞的概率分布向量, 構(gòu)造平衡二叉樹索引, 并對平衡二叉樹進行加密;

    (3) BuildIdxII: 構(gòu)建第二級安全索引. 通過主題模型生成文檔-主題的概率分布向量, 構(gòu)造倒排索引,并對倒排索引進行加密;

    (4) Encrypt: 文檔加密. 將文件拆分成固定長度的數(shù)據(jù)塊, 再通過分組加密算法進行加密生成密文;

    (5) QueryTd: 生成檢索陷門. 數(shù)據(jù)使用者輸入待檢索的關(guān)鍵詞集合和密鑰集合, 生成檢索陷門VTD;

    (6) Search: 檢索并返回結(jié)果. 云服務(wù)器收到檢索陷門后, 先將它與一級平衡二叉樹樹安全索引進行匹配獲取主題ID, 再根據(jù)主題ID 與二級倒排索引匹配獲取文檔索引, 最后根據(jù)文檔索引返回密文集合給用戶;

    (7) Decrypt: 解密密文. 數(shù)據(jù)使用者收到來自云服務(wù)器返回的密文集合, 利用從數(shù)據(jù)擁有者授權(quán)獲得的密鑰K1將其解密.

    3.2 設(shè)計目標(biāo)

    提出的方案需要實現(xiàn)的功能和滿足的安全需求有:

    (1) 構(gòu)建安全二級索引. 數(shù)據(jù)擁有者利用主題模型生成的平衡二叉樹索引和倒排索引組成的二級索引, 與加密文檔存儲在云服務(wù)器中供用戶查詢使用. 為了防止非法訪問, 索引也必須以加密的形式存儲;

    (2) 云端數(shù)據(jù)的安全性. 數(shù)據(jù)擁有者先要生成對稱密鑰, 對原始文檔數(shù)據(jù)進行加密后, 再發(fā)送到第三方云服務(wù)器存儲, 保障數(shù)據(jù)的安全性;

    (3) 陷門安全性. 數(shù)據(jù)擁有者向數(shù)據(jù)使用者發(fā)放加密檢索陷門以授權(quán)數(shù)據(jù)使用者檢索加密的索引與數(shù)據(jù), 在此過程中需要保護檢索陷門的安全性, 同時也要保護檢索陷門不向服務(wù)器泄露索引和數(shù)據(jù)的任何信息.

    3.3 安全模型

    本方案中的云服務(wù)器被認(rèn)為是“半誠實但好奇的”, 它會正確地執(zhí)行收到的查詢請求, 但對于查詢信息和密文信息充滿好奇, 想要獲取用戶文檔的內(nèi)容. 根據(jù)云服務(wù)器掌握的信息, 主要有以下兩種安全模型[13]:

    (1) 已知密文模型. 敵手知道用戶存儲的密文信息, 包括加密后的文檔集合、密文索引以及陷門, 但并不知道密鑰. 敵手只能依據(jù)這些信息來進行已知密文攻擊;

    (2) 己知背景信息模型. 云服務(wù)器不僅能夠得到已知密文模型中可以得到的全部信息, 還具有記錄查詢結(jié)果、分析不同的陷門之間關(guān)系、數(shù)據(jù)統(tǒng)計分析等能力. 例如云服務(wù)器可以利用詞頻信息, 即包含關(guān)鍵詞的文檔數(shù), 得到文檔集合中每一個關(guān)鍵詞的頻率分布信息, 并進一步進行關(guān)鍵詞攻擊.

    4 預(yù)備知識

    4.1 符號定義

    表1 為本文所用符號定義.

    表1 符號定義Table 1 Symbol definition

    4.2 BTM 主題模型

    在過去的密文檢索方案中, 判斷文本之間的相似程度往往只是依賴于相同關(guān)鍵詞出現(xiàn)的頻率, 但是這種方法忽略了內(nèi)在語義關(guān)聯(lián), 這將使得原本兩個相似的文檔因為沒有相似的關(guān)鍵詞而造成判斷錯誤. 本文通過BTM 主題模型來解決這個問題, 其中概率圖生成模型和Gibbs 采樣算法是BTM 主題模型的主要理論基礎(chǔ), 下文我們將對此進行概述.

    4.2.1 概率圖生成模型

    BTM 模型[22]是一種無監(jiān)督統(tǒng)計學(xué)習(xí)模型, 它改進了LDA 主題模型, 共分為3 層貝葉斯概率生成模型, 如圖2 所示. 三層概率生成模型分別為: 最外層的文本語料層、中間的文檔層和里面的關(guān)鍵詞層. 該模型主要通過對兩個變量α和β進行參數(shù)學(xué)習(xí)來獲取文本集的主題信息. 其中t為主題個數(shù),N和M分別表示一篇文檔中的關(guān)鍵詞集和整個文檔集,θ和Φ分別表示文檔下的主題分布和主題下的詞分布,α和β分別是它們的狄利克雷先驗參數(shù),Z為一篇文檔的主題分布,W為關(guān)鍵詞的向量表示.

    圖2 概率圖生成模型Figure 2 Probability graph generation model

    整個模型的構(gòu)建還需要用到如下兩個分布, 一個是狄利克雷分布, 它是Beta 分布在M維度上的擴展情形, 是一個連續(xù)分布, 該分布的概率密度函數(shù)如公式(1)所示, 其中Γ(x) 表示伽馬函數(shù).

    另一個是多項分布, 它是二項分布在N維度上的擴展情形, 是一個離散分布, 與狄利克雷分布組成了共軛分布, 其分布律如公式(2)所示, 其中pk表示第k個主題的概率.

    通過對所有數(shù)據(jù)的聯(lián)合概率應(yīng)用鏈?zhǔn)椒▌t, 可得到主題z的條件概率如式(3)所示. 其中,b=(wi,wj)為通過多項式采樣獲得的一個關(guān)鍵詞元組, 稱為biterm,z-b表示除b以外的所有主題分配,N為整個biterm 集,|M| 表示整個文檔集大小,nz表示b分配給主題z的次數(shù),nw|z表示單詞w分配給主題z的次數(shù),α和β為概率圖生成模型中的兩個狄利克雷先驗參數(shù). 從計算出來的結(jié)果進行Gibbs 采樣, 重新統(tǒng)計nw|znz, 直到最后Gibbs 參數(shù)收斂, 就是我們最后得到的BTM 主題模型.

    4.2.2 Gibbs 采樣算法

    為了對主題模型的參數(shù)θ和Φ進行學(xué)習(xí), 我們采用馬爾科夫鏈蒙特卡洛方法(Markov chain Monte Carlo, MCMC), 通過對詞的主題采樣來生成馬氏鏈, 經(jīng)過若干次的循環(huán)迭代后, 模型就會收斂, 生成兩個矩陣分別為文本-主題分布矩陣θ和主題-關(guān)鍵詞分布矩陣Φ, 矩陣中的元素值即為概率分布值, 其中每個元素值的計算如公式(4)所示. 其中t為主題個數(shù),|N| 表示組成所有文檔的關(guān)鍵詞集大小,|M| 表示整個文檔集大小,n代表采樣的數(shù)量.

    對詞的主題采樣過程采用了Gibbs 采樣算法, 它主要有兩大優(yōu)勢. 首先, Gibbs 采樣算法是MCMC算法中的一種, 它很容易就能構(gòu)造出多變量概率分布的隨機樣本, 尤其適合于主題模型中構(gòu)造兩個以上變量的聯(lián)合概率分布; 其次, 由于公式(3)中后驗概率P的計算很復(fù)雜且效率低下, 但是由于每個參數(shù)內(nèi)部的元素是相互獨立的, 因此我們可以采用這種獨立采樣算法來加快參數(shù)的收斂速度. Gibbs 采樣算法的采樣過程如算法1 所示.

    算法1 GibbsSampling(t,α,β,N)→θ,Φ Input: The number of topics t, hyperparameters α,β, biterm set N Output: Multinomial parameter θ and Φ 1 for iter = 1 to Niter do 3 draw zb from P(z|z-b,N,α,β);2 for b ∈N do update nz,nwi|z and nwj|z;5 end 6 end 7 Compute the parameters θ as Eq. (4) and Φ as Eq. (5);8 Return θ and Φ;4

    4.2.3 主題個數(shù)的選取

    在進行BTM 主題模型構(gòu)建之前, 需要對主題個數(shù)進行選取, 主題個數(shù)的選取是否精確直接決定了密文檢索方案的準(zhǔn)確度與效率. 確定語料庫主題個數(shù)的方案通常采用困惑度和一致性指標(biāo)[21,22], 困惑度越低, 表明文本主題分類越清晰; 一致性越高, 表明某些頻率高的關(guān)鍵詞越集中于同一主題. 困惑度的計算公式如公式(5)所示. 其中,D為語料庫文檔集合,M為文檔集合的大小,Nd為每篇文檔的關(guān)鍵詞總數(shù),p(wd) 表示文檔中的關(guān)鍵詞wd出現(xiàn)的總頻率.

    一致性指的是對于給定的主題T,計算出現(xiàn)概率最高的前m個關(guān)鍵詞集,即wT={w1,w2,··· ,wm}.一致性的計算公式如公式(6)所示. 其中,t為主題個數(shù),P(wTij) 為第i個主題中, 出現(xiàn)頻率為第j高的關(guān)鍵詞的概率值.

    4.3 索引方案

    4.3.1 倒排索引的建立

    倒排索引實現(xiàn)了由關(guān)鍵詞到文檔的映射, 用戶只要對關(guān)鍵詞表進行檢索, 就能找到包含該關(guān)鍵詞的所有文檔. 本方案根據(jù)倒排索引的思想建立主題-文檔的倒排索引表, 即可根據(jù)主題來檢索符合該主題的所有文檔, 如圖3 所示. 其中節(jié)點表示的是各個主題的標(biāo)識符, 分別指向一組文檔標(biāo)識符列表, 并且每個文檔根據(jù)其主題概率分布的數(shù)值從大到小排列, 從而控制返回最相關(guān)文檔的個數(shù). 索引建立的具體步驟見算法2.

    圖3 倒排索引表Figure 3 Inverted index table

    算法2 BuildInvertedIndex(→V,t)→I Input: Document-topic probability distribution vector →V, the number of topics t Output: An inverted index I 1 Traverse →Vi of →V = {→V1,→V2,··· ,→Vn}. →Vi = {Tj : Pj,···} represents the topic probability distribution of the ith document, where Pj is the probability that the ith document belongs to the jth topic. Once a new topic j appears, it creates a new list listj and insert (i, Pj) into listj ;2 Traverse the constructed inverted list, and sort each list according to the probability value of the nodes from largest to smallest ;3 Return I;

    4.3.2 平衡二叉樹索引的建立

    平衡二叉樹索引如圖4 所示, 將主題模型生成的t個主題作為平衡二叉樹的葉子節(jié)點, 節(jié)點的數(shù)值為關(guān)鍵詞的概率分布向量, 即每個關(guān)鍵詞在該主題下出現(xiàn)的概率; 父節(jié)點存儲左右孩子節(jié)點所對應(yīng)關(guān)鍵詞概率的最大值. 索引建立的具體步驟見算法3.

    圖4 樹型索引Figure 4 Tree index

    算法3 BuildAVLIndex(T,W)→I Input: Topic-keyword probability distribution T, keywords collection W Output: A balanced binary tree index I 1 Construct t nodes corresponding to t topics as leaves. Each leaf stores a topic ID id and an array dataab.The size of the array is m, and the value is the vector T[i] (the probability distribution of all keywords corresponding to the ith topic). a and b represents the bth node in the ath layer ;2 Combine leaves in pairs to construct an AVLtree index from bottom to top ;3 The non-leaf node Rab stores the bigger dataab. When two nodes compose a new AVL tree, the values of dataab of the two child nodes are compared one by one, and the bigger one is kept in the corresponding position of the parent node’s dataab ;4 Return I;

    4.4 安全KNN 技術(shù)

    在密文檢索的過程中, 為了防止兩個向量相乘的結(jié)果泄露給第三方, 往往使用安全KNN 技術(shù)[7]中安全內(nèi)積的方法來達到保護隱私的目的. 這一技術(shù)常被用來計算內(nèi)積相似度[13], 具體加密過程如下所述.

    5 基于BTM 的密文檢索方案

    5.1 算法描述

    我們提出的基于BTM 的密文檢索方案BTM-MRSE 包括七個算法: (GenKey, BuildIdxI, BuildIdxII, Encrypt, QueryTd, Search, Decrypt), 其中四個算法(GenKey, BuildIdxI, BuildIdxII, Encrypt)由數(shù)據(jù)擁有者負(fù)責(zé)執(zhí)行, QueryTd 和Decrypt 由獲得檢索許可的用戶執(zhí)行, Search 操作由云服務(wù)器執(zhí)行,具體步驟及主要算法描述如下.

    5.1.1 Genkey(1λ)→K

    首先由數(shù)據(jù)擁有者進行系統(tǒng)初始化, 生成系統(tǒng)密鑰, 算法描述見算法4. 算法中λ是需要輸入的系統(tǒng)安全參數(shù), 輸出K= (K1,K2,M1,M2,S). 第2 行獲取兩個密鑰K1和K2,K1是用來加密明文數(shù)據(jù)的對稱密鑰,K2是用來加密二級索引的對稱密鑰; 第9 行獲取M1和M2, 它們都是m×m維的可逆矩陣;第14 行生成S, 它是一個隨機生成的m維向量, 它們對索引結(jié)點向量和查詢向量進行加密; 第16 行獲得最終的K.P(·) 是一個偽隨機函數(shù)(pseudo-tandom gunction, PRF), 這里需要三個不同的隨機密鑰κ1,κ2,κ3, 其定義見公式(8), 其中k是隨機密鑰的長度,l是安全參數(shù)的長度.

    算法4 GenKey(1λ)→K Input: Secure parameter λ Output: K = {K1,K2,M1,M2,S}1 for i = 1,2 do 2 Ki ←Pκ1(λ);3 end 4 rowNum ←m, colNum ←m;5 for k = 1,2 do 6 for i = 1 : rowNum do 7 for j = 1 : colNum do 8 Mk[i][j] ←Pκ2(λ);end 10 end 11 end 12 for i = 1 : m do 9 13 Si ←Pκ3(λ);14 end 15 K ←{K1,K2,M1,M2,S};16 Return K;

    5.1.2 BuildIdxI(D,M1,M2,S,ε)→I1

    如算法5 所示, 建立索引前需利用BTM 模型進行文檔主題提取. 第4 行采用算法1 進行采樣, 其中兩個超參數(shù)α和β為提前設(shè)定的默認(rèn)參數(shù); 第10 行從訓(xùn)練好的主題-關(guān)鍵詞矩陣中提取主題-關(guān)鍵詞的概率分布, 然后根據(jù)算法3 構(gòu)建關(guān)鍵詞-主題平衡二叉樹索引. 最后利用輸入的m+ε維隨機二進制向量S對每個節(jié)點的關(guān)鍵詞概率分布向量進行混淆, 其中第14 行將Ii拆分成兩個隨機數(shù)相加, 第21 行利用密鑰M1和M2對索引中的每個節(jié)點利用安全KNN 技術(shù)加密, 輸出安全索引I1. 其中maxTopicNum 表示的是文檔集主題個數(shù)的最大估計值, 本文實驗為15.

    算法5 BuildIdxI(D,M1,M2,S,ε)→I1 Input: The set of all documents D, two matrices M1,M2, an (m+ε) vector S,an integer ε >0 Output: AVL secure index I1 1 for t = 1 : maxTopicNum do 2 for Di ∈D do 3 for N ∈Di do 4 Φt,θt ←GibbsSampling(t,α,β,N);5 Calculate Perplexityt and Coherencet using the calculation method of Sec. 4.2;end 7 end 8 end 9 Choose the best number of topics t according to Perplexityt and Coherencet;10 Obtain the best Φ,θ based on t, T ←Φ, I ←BuildAVLIndex(T,W);11 Extend all vectors in I to (m+ε)-dimension, that is, the last ε numbers of each vector is random;12 for i = 1 : m+ε do 6 13 if Si = 1 then 14 (I′i,I′′i ) ←Ii;15 end 16 else Si = 0 i = I′′i ;18 end 19 end 20 →I ←(I′,I′′);21 I1 ←SecureKNN(→I,M1,M2);22 Return I1;17 Ii = I′

    5.1.3 BuildIdxII(D,K2)→I2

    該算法利用BTM 模型生成文檔-主題概率分布, 構(gòu)建主題-文檔倒排索引; 然后利用密鑰K2進行加密, 生成主題-文檔安全索引I2. 構(gòu)建安全索引I2的過程如算法6 所示, 其中第2 行表示從訓(xùn)練得到的文檔-主題矩陣中獲取第i篇文檔的主題概率分布向量, 第4 行見算法2.

    算法6 BuildIdxII(T,θ,K2)→I2 Input: The topic-keyword vector T, the document-topic matrix θ, the key K2 Output: Topic-document secure index I2 1 for i = 1 : n do 2 →V[i] ←θ[i];3 end 4 I ←BuildInvertedIndex(→V,|T|) ;5 Encrypt index I using AES with K2 to get encrypted index I2 ;6 Return I2 ;

    5.1.4 Encrypt(K1,D)→C

    該算法輸入密鑰K1和明文文檔集D={D1,D2,··· ,Dn}, 使用密鑰K1對D進行加密, 得到密文文檔集C={C1,C2,··· ,Cn}.

    5.1.5 QueryTd(Q,M1,M2,S,ε)→VTD

    數(shù)據(jù)使用者利用m維向量S對查詢關(guān)鍵詞向量Q進行混淆, 第4 行表示將Qi拆分成兩個隨機數(shù)相加, 第11 行利用安全KNN 技術(shù)采用密鑰M1和M2進行加密, 最后生成檢索陷門VTD, 具體過程如算法7 所示.

    算法7 QueryTd(Q,M1,M2,S,ε)→VTD Input: Query vector Q, two matrices M1,M2, an (m+ε) vector S, an integer ε >0 Output: Query trapdoor VTD 1 Extend Q to (m+ε)-dimension, that is, the last ε numbers of each vector is random;2 for i = 1 : m+ε do 3 if Si = 1 then(Q′i,Q′′i) ←Qi ;5 end 6 else Si = 0 4 Qi = Q′i = Q′′i ;8 end 9 end 10 →Q ←(Q′,Q′′)11 VTD ←SecureKNN(→Q,M1,M2)12 Return VTD;7

    5.1.6 Search(C,I1,I2,VTD,topK)→C′

    該算法由云服務(wù)器將檢索陷門依次與安全索引進行匹配, 并將配對的密文集合返回給數(shù)據(jù)用戶. 密文檢索的具體過程如算法8 所示. 其中第9 行從檢索到的節(jié)點中獲取主題id, 第10 行在安全倒排索引中根據(jù)主題id 獲得文檔索引向量, 第11–13 行獲取前K個最相關(guān)的加密文檔. 因為平衡二叉樹的每個節(jié)點都是一個表示主題-關(guān)鍵詞概率分布的向量, 而且父節(jié)點中元素取兩個子節(jié)點中最大值, 當(dāng)將查詢陷門與樹節(jié)點的向量執(zhí)行安全內(nèi)積運算時就可以得到概率最大的節(jié)點, 表明與查詢向量更相近.

    算法8 Search(C,I1,I2,VTD,topK)→C′Input: Ciphertext collection C, secure Index I1,I2, query trapdoor VTD, the number of required documents topK Output: The retrieved ciphertext collection C′1 Initialize the Root node of I1 as Node;2 while Node.lchild is not NULL do Node ←Node.lchild;7 end 8 end 9 id ←Node.id;10 →ID ←I2[id];11 for i = 1 : topK do 3 leftScore ←Node.lchild×VTD;4 rightScore ←Node.rchild×VTD;5 if leftScore ≥rightScore then 6 12 C′[i] ←C[→ID[i]];13 end 14 Return C′;

    5.1.7 Decrypt(C′,K1)→D′

    數(shù)據(jù)用戶收到由云服務(wù)器返回的密文集合C′后, 用密鑰K1進行解密, 得到最后所需的明文數(shù)據(jù)D′.

    5.2 安全性分析

    在本方案中, 云服務(wù)器被認(rèn)為是“誠實但好奇” 的, 即云服務(wù)器誠實并正確地執(zhí)行協(xié)議中的操作, 但是對操作過程中的敏感數(shù)據(jù)感到好奇. 根據(jù)云服務(wù)器可獲取的信息, 本文采用Cao 等人[13]提出的兩種威脅模型: 已知密文模型與已知背景模型.

    定理1 提出的方案滿足已知密文模型下的安全性.

    證明: 在已知密文模型中, 敵手不能根據(jù)密文文檔、加密索引和查詢陷門推斷明文的信息. 在此方案中, 云服務(wù)器僅知道加密文檔集C, 加密的安全索引I1、I2和查詢陷門VTD. 因此, 云服務(wù)器可以在此模型中進行唯密文攻擊(COA)[37].

    由于采用密鑰K1對文檔集D進行對稱加密, 并且密鑰只能在數(shù)據(jù)擁有者和數(shù)據(jù)用戶之間共享, 同時密文C不受云服務(wù)器保護, 概率多項式時間(PPT) 的敵手不能以超過1/2 的概率區(qū)分一個文件的密文C是由明文A或者B加密得到的.

    敵手可以對查詢陷門進行統(tǒng)計攻擊, 從統(tǒng)計信息中獲取查詢關(guān)鍵詞對文檔的重要程度. 但是, 由于本方案中查詢向量的維度擴展到了(m+ε), 并且對VTD[m+j],0≤j <ε中的任意μ個位置設(shè)為0, 兩個隨機參數(shù)ε和μ使得相同的關(guān)鍵詞的查詢陷門和搜索的結(jié)果都不同, 最后查詢向量VTD與樹索引的第a層第b個向量Vab在不斷乘積之后所得相關(guān)度分?jǐn)?shù)的分布也會不同. 使用陷門對索引中每個節(jié)點計算評分的結(jié)果如下, 其中每次查詢的∑ηv是隨機的, 具有不可預(yù)測性:

    因此, 文檔的隱私是得到保護的, 并且滿足選擇密文安全性(IND-CCA) 安全.

    定理2 提出的方案滿足已知背景模型下的安全性.

    證明: 在已知背景模型中,假設(shè)云服務(wù)器可以獲取更多知識: 任意兩個查詢操作是否包含相同的關(guān)鍵詞, 以及每次查詢的結(jié)果. 通過統(tǒng)計這些信息來揭示文本關(guān)鍵詞的分布和文檔中特定關(guān)鍵字的頻率(TF),利用這些知識, 云服務(wù)器可以進行統(tǒng)計攻擊[37], 進而分析出相應(yīng)頻率分布的直方圖或值范圍來推斷(甚至直接識別出) 某些關(guān)鍵詞[8,19].

    假設(shè)S是一個模擬器,A為攻擊者,B為挑戰(zhàn)者. RealA(k) 表示的過程為:

    (1)B輸入一個安全參數(shù)k, 通過加密算法生成密鑰K;

    (2)A輸入(I,D), 通過B獲取(I,C),A選擇q ∈{wi,I,D};

    (3) 當(dāng)執(zhí)行查詢請求時,q=wi, 攻擊者從挑戰(zhàn)者處獲取查詢令牌;

    (4) 當(dāng)執(zhí)行更新操作時,q= (I,D), 攻擊者首先生成輔助信息并將其發(fā)送給挑戰(zhàn)者, 挑戰(zhàn)者生成更新操作令牌并返回, 最后攻擊者輸出值b.

    IdealA,S(k) 表示S模擬安全索引和密文集合, 并將其發(fā)送給A的過程:

    (1) 當(dāng)執(zhí)行查詢請求時,q=wi,S獲取關(guān)鍵詞和查詢的結(jié)果;

    (2) 當(dāng)執(zhí)行更新請求時,q= (I,D),S提供自適應(yīng)查詢中出現(xiàn)的所有關(guān)鍵詞的更新輸出, 攻擊者還需向S發(fā)送輔助信息,S返回更新操作陷門, 最后攻擊者輸出值b.

    對于任意攻擊者A, 如果都存在滿足如下公式的模擬器, 那么就可以認(rèn)為該方案是安全的, 能夠抵抗自適應(yīng)選擇關(guān)鍵詞攻擊. 其中,k是安全參數(shù), negl(k) 表示概率可忽略.

    通過給定任意一個攻擊者A和狀態(tài)模擬器S, 模擬IdealA,S(k) 的過程,S按照5.1 節(jié)中所描述的算法構(gòu)造安全索引和密文集合. 根據(jù)密鑰的CPA 安全性, 由于對稱密鑰是通過偽隨機函數(shù)生成, 與真實密鑰無法進行區(qū)分, 因此模擬的文檔加密過程相比于實際加密過程具有不可區(qū)分性, 并且S返回的結(jié)果和A通過隨機預(yù)言機返回的結(jié)果相等, 因此對于任意的攻擊者, RealA(k) 和IdealA,S(k) 的概率是能夠被忽略不計的, 所以該方案滿足適用性選擇關(guān)鍵字攻擊安全性(CKA2). 因此所提方案滿足已知背景模型下的安全性.

    6 實驗評估

    為了評估所提方案的查詢效率和性能, 通過控制變量的方法進行實驗, 并將本方案(BTM-MRSE) 與基于LDA 的多關(guān)鍵詞可搜索加密方案(LDA-MRSE)[14]以及基于TF-IDF 的多關(guān)鍵詞可搜索加密方案(TFIDF-MRSE)[19]進行對比. 實驗環(huán)境為一臺CPU 型號為Intel(R) Core(TM) i5-4590 3.30 GHz, 16 GB 內(nèi)存的PC, 所有操作都在Jupyter Notebook 開發(fā)環(huán)境下完成, 使用Python 語言實現(xiàn), 包括最后對實驗數(shù)據(jù)的圖表制作. 實驗使用的數(shù)據(jù)集是清華大學(xué)THUCNews 新聞文本分類數(shù)據(jù)集的子集, 各個文檔的長短不一, 語言為中文, 選取了其中10 種領(lǐng)域的文本作為實驗數(shù)據(jù), 每個領(lǐng)域6500 篇文本. 進行主題模型訓(xùn)練的訓(xùn)練集共有50 000 篇文本, 驗證集共有5000 篇文本, 測試集共有10 000 篇文本.

    6.1 主題個數(shù)的選取

    根據(jù)4.2 節(jié)中主題個數(shù)的選取方法, 本文選取主題數(shù)量從1–15 個進行實驗, 實驗的效果如圖5 所示,從t= 5 開始, 困惑度開始降低, 但是有可能是由于模型主題選取過多導(dǎo)致了過擬合, 因此要結(jié)合一致性進行判斷. 由一致性可知當(dāng)t= 9 時, 模型的一致性最高, 因此設(shè)定主題個數(shù)t為9 個作為本方案的主題模型訓(xùn)練參數(shù).

    圖5 困惑度和一致性相關(guān)分?jǐn)?shù)Figure 5 Perplexity and coherence related scores

    6.2 檢索準(zhǔn)確率

    6.2.1 檢索準(zhǔn)確率比較

    為了描述本文方案的檢索準(zhǔn)確率, 假設(shè)用戶每次構(gòu)造的查詢陷門的所有關(guān)鍵詞都屬于同一類別, 并且不同類別的文檔是沒有相關(guān)性的. 我們提出的方案改進了多關(guān)鍵詞密文檢索的語義準(zhǔn)確率, 因此, 我們使用查準(zhǔn)率P來衡量數(shù)據(jù)用戶檢索得到的文檔的語義準(zhǔn)確率, 其計算方法如下:

    其中, TP 代表返回的文檔符合用戶檢索主題意圖的文檔數(shù)量, FP 代表不符合的數(shù)量. 本文評估了BTM-MRSE、LDA-MRSE 和TFIDF-MRSE 的檢索準(zhǔn)確率, 實驗結(jié)果如圖6 所示(其中k為算法8 中的topK, 即返回的文檔數(shù)). 由于考慮了文檔語義, 基于主題模型的兩個密文檢索方案在檢索準(zhǔn)確率上都要明顯優(yōu)于TFIDF-MRSE; 隨著語料庫的擴大, BTM-MRSE 的語義精度雖然有所降低, 但是準(zhǔn)確率和穩(wěn)定性上依然明顯優(yōu)于TFIDF-MRSE; 當(dāng)總文檔數(shù)較少時, BTM-MRSE 與LDA-MRSE 的準(zhǔn)確率和穩(wěn)定性都很高, 但是當(dāng)總文檔數(shù)大于30 000 時, BTM-MRSE 的準(zhǔn)確率更高. 當(dāng)返回文檔數(shù)k=50 和k=100時, BTM-MRSE 的準(zhǔn)確率均可達到95% 以上, 并且都高于其他兩個方案.

    圖6 語義準(zhǔn)確率隨n 變化對比圖Figure 6 Semantic accuracy with different n

    本方案的高準(zhǔn)確率得益于主題模型對文檔的主題分類過程, 并且隨著總文檔數(shù)量n的增加, BTM 主題模型相比于LDA 主題模型更能適應(yīng)各類長短不一的文檔, 因此BTM-MRSE 的穩(wěn)定性更高, 能更好地反映文檔的語義特征, 不會顯著影響查詢的語義精度, 這一方面體現(xiàn)了本方案的優(yōu)越性.

    6.2.2 檢索準(zhǔn)確率與擴展維度的關(guān)系

    由于數(shù)據(jù)用戶構(gòu)建的查詢向量維度就是整個關(guān)鍵詞集合的大小m, 也是主題-關(guān)鍵詞樹狀索引中節(jié)點的概率分布向量維度, 因此云服務(wù)器可以通過記錄多次查詢, 統(tǒng)計每個關(guān)鍵詞查詢的頻率, 進行統(tǒng)計攻擊.因此必須設(shè)置一個ε值, 將關(guān)鍵詞維度m擴展到m+ε維, 即增加ε個隨機數(shù)到查詢向量的末尾, 混淆查詢關(guān)鍵詞以保證多次查詢的無關(guān)聯(lián)性. 本文在對BTM-MRSE 方案的實驗過程中, 只改變ε和k的值,圖7 為ε在四種取值下, 檢索準(zhǔn)確率P隨k值變化的折線圖.

    圖7 不同ε 下, 語義準(zhǔn)確率隨k 變化對比圖Figure 7 Comparison of semantic accuracy with different k under different ε

    圖7 表明: 參數(shù)k以及參數(shù)ε均對檢索準(zhǔn)確率有較大的影響. 其中隨著參數(shù)ε的增加, 整體的準(zhǔn)確率會有所降低, 但是檢索的安全性會得到極大的提升, 因此對于ε值的設(shè)置, 需要對安全性和檢索的準(zhǔn)確率兩方面進行權(quán)衡. 隨著返回文檔數(shù)k的增加, 不相關(guān)的文檔數(shù)逐漸增多, 造成準(zhǔn)確率下降, 這與使用的測試數(shù)據(jù)集關(guān)系比較密切. 如果測試數(shù)據(jù)集中滿足查詢條件的文檔越多, 則準(zhǔn)確率隨著返回文檔數(shù)k的增加不會顯著降低. 當(dāng)ε設(shè)置為10 或20 時, 準(zhǔn)確率總體上較為穩(wěn)定.

    6.3 檢索效率

    密文檢索效率很大程度上取決于索引構(gòu)造方案, 這直接決定了索引大小、檢索時間復(fù)雜度以及安全性.表2 將本文提出的基于BTM 主題模型的高效密文檢索方案(BTM- MRSE) 與其他具有代表性的密文檢索方案進行對比, 對比的指標(biāo)包括索引類型、存儲空間復(fù)雜度、檢索的時間復(fù)雜度. 其中,M為文檔匹配的關(guān)鍵詞數(shù)量,m為文檔集中關(guān)鍵詞的總數(shù),n為文檔的總數(shù),N為索引中文檔標(biāo)識符的數(shù)量,r為查詢陷門匹配到的關(guān)鍵詞數(shù)量,t為文檔集的主題個數(shù),σ為每個文檔的主題分布個數(shù), 一般假設(shè)t ?n,r ?m.

    表2 方案對比Table 2 Scheme comparison

    由表2 可知, 通過建立樹狀索引的方案的密文檢索效率是最高的, 許多方案都選擇以二叉樹作為基本索引結(jié)構(gòu), 將文檔標(biāo)識符作為待檢索的葉子節(jié)點, 非葉子節(jié)點存放文檔的關(guān)鍵詞信息. 然而, 當(dāng)待檢索文檔的數(shù)量達到十萬或百萬數(shù)量級的時候, 樹狀索引的規(guī)模會變得很大, 往往需要多次磁盤I/O 時間, 一次I/O 時間通常要遠遠大于單次密文檢索的時間, 這在很大程度上將制約密文檢索的效率. 因此, 不僅需要通過建立AVL 樹來降低樹狀索引的層數(shù), 本方案還通過建立二級索引的方式對索引進一步進行降維處理.例如, 當(dāng)AVL 樹層數(shù)l為20 層時, 最多只能有52 萬個文檔, 本文將文檔聚類為主題后, 由于主題個數(shù)t將遠遠小于文檔數(shù)量n, 所以AVL 樹的規(guī)模也將大大縮小.

    7 總結(jié)

    隨著可搜索加密技術(shù)的發(fā)展, 僅僅使用關(guān)鍵詞頻率信息作為文檔相關(guān)性度量的傳統(tǒng)方案已無法滿足用戶的檢索需求. 本文在保證云服務(wù)器上文檔安全性的基礎(chǔ)上, 首次將BTM 主題模型引入可搜索加密中,提出了基于BTM 主題模型的多關(guān)鍵詞高效密文搜索方案. 本文選取了THUCNews 新聞數(shù)據(jù)集的一部分作為實驗數(shù)據(jù)集, 這些文檔經(jīng)過主題模型的訓(xùn)練之后, 生成了主題-關(guān)鍵詞矩陣和主題-文檔矩陣. 我們通過引入主題模型來確定數(shù)據(jù)用戶的潛在搜索意圖, 解決了傳統(tǒng)可搜索加密方案(基于詞袋模型和TF-IDF模型) 中對語義的忽視. 將密文檢索中的特定關(guān)鍵語替換為主題相關(guān)性, 實現(xiàn)了關(guān)鍵詞和文檔標(biāo)識符存儲的分離, 進一步提高了文檔關(guān)鍵詞的隱私保護, 也增強了查詢關(guān)鍵詞的隱私保護. 同時, 主題模型減小了索引節(jié)點中向量的維數(shù), 從而提高了檢索效率. 并且基于平衡二叉樹的二級索引機制也進一步改善了密文檢索的時間開銷.

    未來的工作可以對本文的模型做進一步擴展, 采用最新的ida2vec 主題模型[36]或基于深度學(xué)習(xí)的BTM 主題模型, 進一步提升密文檢索的效率和查詢準(zhǔn)確率.

    猜你喜歡
    密文文檔加密
    一種針對格基后量子密碼的能量側(cè)信道分析框架
    一種支持動態(tài)更新的可排名密文搜索方案
    基于模糊數(shù)學(xué)的通信網(wǎng)絡(luò)密文信息差錯恢復(fù)
    有人一聲不吭向你扔了個文檔
    一種基于熵的混沌加密小波變換水印算法
    基于RI碼計算的Word復(fù)制文檔鑒別
    認(rèn)證加密的研究進展
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    云存儲中支持詞頻和用戶喜好的密文模糊檢索
    基于ECC加密的電子商務(wù)系統(tǒng)
    国产黄a三级三级三级人| av女优亚洲男人天堂| 美女大奶头视频| 美女大奶头视频| 色噜噜av男人的天堂激情| 国内揄拍国产精品人妻在线| 亚洲精品日韩av片在线观看| 一a级毛片在线观看| 哪里可以看免费的av片| 亚洲国产欧洲综合997久久,| 国产午夜精品久久久久久一区二区三区 | 欧美成人a在线观看| 中亚洲国语对白在线视频| 国产精品女同一区二区软件 | 99国产精品一区二区蜜桃av| 亚洲av一区综合| 亚洲av电影在线进入| 九色成人免费人妻av| 亚洲18禁久久av| 99在线人妻在线中文字幕| 变态另类丝袜制服| 婷婷六月久久综合丁香| 久久婷婷人人爽人人干人人爱| 美女免费视频网站| 人妻夜夜爽99麻豆av| 欧美日韩瑟瑟在线播放| 中文资源天堂在线| 怎么达到女性高潮| 亚洲一区二区三区不卡视频| 高清在线国产一区| 日韩精品青青久久久久久| 每晚都被弄得嗷嗷叫到高潮| 熟女电影av网| 一个人观看的视频www高清免费观看| 亚洲精品成人久久久久久| 午夜福利欧美成人| www.色视频.com| 美女免费视频网站| 亚洲专区中文字幕在线| 亚洲 欧美 日韩 在线 免费| www.熟女人妻精品国产| 高潮久久久久久久久久久不卡| 级片在线观看| 最新在线观看一区二区三区| 国产精品亚洲av一区麻豆| 日本一二三区视频观看| 欧美xxxx黑人xx丫x性爽| 乱人视频在线观看| 搡老岳熟女国产| 午夜久久久久精精品| 日韩欧美国产在线观看| 国产精品伦人一区二区| 禁无遮挡网站| 国产日本99.免费观看| 女人被狂操c到高潮| 露出奶头的视频| 一进一出好大好爽视频| 美女免费视频网站| 欧美色欧美亚洲另类二区| 国内精品久久久久久久电影| 国产亚洲欧美98| 色综合欧美亚洲国产小说| 久9热在线精品视频| 欧美黑人巨大hd| 国产老妇女一区| 小蜜桃在线观看免费完整版高清| 欧美高清成人免费视频www| 亚洲午夜理论影院| 国产免费男女视频| 国产探花极品一区二区| 欧美日韩瑟瑟在线播放| 国产午夜精品论理片| 亚洲av二区三区四区| 欧美激情国产日韩精品一区| 99久久99久久久精品蜜桃| 久久久久国产精品人妻aⅴ院| 国产亚洲精品综合一区在线观看| 日韩欧美在线乱码| 亚洲无线观看免费| 欧美最新免费一区二区三区 | 午夜激情福利司机影院| 97超级碰碰碰精品色视频在线观看| www.熟女人妻精品国产| 国产色婷婷99| 精品午夜福利视频在线观看一区| 51午夜福利影视在线观看| 欧美日本亚洲视频在线播放| 亚洲自拍偷在线| 亚洲精品一区av在线观看| 免费高清视频大片| 深爱激情五月婷婷| 国产av不卡久久| 亚洲av日韩精品久久久久久密| 观看美女的网站| 一区二区三区免费毛片| 禁无遮挡网站| 99久久精品国产亚洲精品| 日韩大尺度精品在线看网址| 性欧美人与动物交配| 精品久久久久久久久久久久久| 国产在视频线在精品| 窝窝影院91人妻| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 亚洲中文日韩欧美视频| 亚洲经典国产精华液单 | 亚洲成人中文字幕在线播放| 日韩成人在线观看一区二区三区| 国产男靠女视频免费网站| 午夜a级毛片| 2021天堂中文幕一二区在线观| 色噜噜av男人的天堂激情| 美女xxoo啪啪120秒动态图 | 日日摸夜夜添夜夜添av毛片 | 久久精品国产亚洲av涩爱 | 神马国产精品三级电影在线观看| 色5月婷婷丁香| 国产精品不卡视频一区二区 | 久久久精品欧美日韩精品| 嫩草影院精品99| 欧美性猛交黑人性爽| 国产野战对白在线观看| 国产精品一区二区三区四区免费观看 | 日本黄色视频三级网站网址| 日本a在线网址| 又粗又爽又猛毛片免费看| 深夜a级毛片| 国产一区二区激情短视频| 亚洲av熟女| 性欧美人与动物交配| 久久久久久久亚洲中文字幕 | 亚洲精品色激情综合| 在线观看美女被高潮喷水网站 | 又爽又黄无遮挡网站| 两人在一起打扑克的视频| 1024手机看黄色片| 别揉我奶头 嗯啊视频| 国产在线男女| 夜夜看夜夜爽夜夜摸| 在线观看一区二区三区| 午夜a级毛片| 我要搜黄色片| 国产精品久久视频播放| 十八禁人妻一区二区| 欧美丝袜亚洲另类 | 韩国av一区二区三区四区| 女同久久另类99精品国产91| 人妻夜夜爽99麻豆av| 精品国产三级普通话版| 黄色视频,在线免费观看| 欧美日韩中文字幕国产精品一区二区三区| 99riav亚洲国产免费| 欧美色欧美亚洲另类二区| 亚洲在线自拍视频| 波野结衣二区三区在线| 午夜日韩欧美国产| 亚洲中文日韩欧美视频| 久久久久久九九精品二区国产| 精华霜和精华液先用哪个| 亚州av有码| 一夜夜www| 蜜桃亚洲精品一区二区三区| 免费黄网站久久成人精品 | 国产精品久久久久久亚洲av鲁大| 免费电影在线观看免费观看| 乱人视频在线观看| а√天堂www在线а√下载| 狂野欧美白嫩少妇大欣赏| 久久伊人香网站| 日本熟妇午夜| 在线观看66精品国产| 9191精品国产免费久久| 在线观看66精品国产| 两个人视频免费观看高清| a级毛片免费高清观看在线播放| 日本a在线网址| 天堂动漫精品| 俄罗斯特黄特色一大片| 长腿黑丝高跟| 精品人妻偷拍中文字幕| 国产极品精品免费视频能看的| 1000部很黄的大片| 亚洲美女黄片视频| 欧美午夜高清在线| 国产精品日韩av在线免费观看| 性色avwww在线观看| 特大巨黑吊av在线直播| 亚洲成av人片在线播放无| 人人妻人人看人人澡| 九九在线视频观看精品| 99国产极品粉嫩在线观看| 一区福利在线观看| 亚洲av.av天堂| 国产精品精品国产色婷婷| 精品欧美国产一区二区三| 又黄又爽又刺激的免费视频.| 国内精品久久久久精免费| 久久国产精品影院| 亚洲精品色激情综合| 深夜精品福利| 亚洲精品成人久久久久久| 深夜a级毛片| 日韩免费av在线播放| 特级一级黄色大片| 国产色婷婷99| 精品福利观看| 亚洲国产精品久久男人天堂| 成人性生交大片免费视频hd| 18美女黄网站色大片免费观看| 黄色视频,在线免费观看| 亚洲人与动物交配视频| 又黄又爽又刺激的免费视频.| 国产白丝娇喘喷水9色精品| 久久久久久久久大av| 欧美日韩乱码在线| 欧美成人免费av一区二区三区| 亚洲中文字幕日韩| 麻豆国产97在线/欧美| 欧美黄色淫秽网站| 国产成人欧美在线观看| 看片在线看免费视频| 国产三级中文精品| 舔av片在线| 97超级碰碰碰精品色视频在线观看| 国产成人aa在线观看| 精品国内亚洲2022精品成人| 欧美日本亚洲视频在线播放| 91在线精品国自产拍蜜月| 精品久久久久久久久久免费视频| 欧美不卡视频在线免费观看| 日韩欧美 国产精品| 精品一区二区免费观看| 国产精品日韩av在线免费观看| 免费看美女性在线毛片视频| 一本一本综合久久| 蜜桃亚洲精品一区二区三区| 亚洲国产欧美人成| 精品熟女少妇八av免费久了| 精品国内亚洲2022精品成人| 国内精品美女久久久久久| 久久精品国产清高在天天线| 午夜老司机福利剧场| av在线老鸭窝| 一区二区三区激情视频| av中文乱码字幕在线| 久久久精品欧美日韩精品| 国产成人aa在线观看| 亚洲人成网站高清观看| av天堂中文字幕网| 精品国内亚洲2022精品成人| 亚洲人成网站在线播| 久久伊人香网站| 男人狂女人下面高潮的视频| 国产日本99.免费观看| 国产麻豆成人av免费视频| 亚洲精品久久国产高清桃花| 日韩大尺度精品在线看网址| 身体一侧抽搐| 国产精品三级大全| 老司机午夜十八禁免费视频| 日韩国内少妇激情av| 欧美日韩瑟瑟在线播放| 亚洲成人精品中文字幕电影| 国产精品日韩av在线免费观看| 中文字幕精品亚洲无线码一区| 少妇熟女aⅴ在线视频| 成人欧美大片| 日本一二三区视频观看| 欧美国产日韩亚洲一区| 日日夜夜操网爽| 麻豆久久精品国产亚洲av| 精品久久久久久久久av| 三级毛片av免费| 淫妇啪啪啪对白视频| 欧美三级亚洲精品| 少妇被粗大猛烈的视频| 最后的刺客免费高清国语| 亚洲无线观看免费| 97超视频在线观看视频| 高清毛片免费观看视频网站| 真人做人爱边吃奶动态| avwww免费| 精品久久久久久久末码| 国产综合懂色| 欧美日韩国产亚洲二区| 波多野结衣高清无吗| 天堂影院成人在线观看| 欧美最黄视频在线播放免费| 国产午夜精品久久久久久一区二区三区 | 草草在线视频免费看| 色噜噜av男人的天堂激情| 久久中文看片网| 很黄的视频免费| 国产黄片美女视频| 久久精品久久久久久噜噜老黄 | 国产精品亚洲美女久久久| 国产乱人伦免费视频| 免费一级毛片在线播放高清视频| 欧美日韩瑟瑟在线播放| 国产av不卡久久| 欧美激情在线99| 毛片女人毛片| 99热这里只有精品一区| 亚洲 欧美 日韩 在线 免费| av在线天堂中文字幕| 欧美色视频一区免费| 亚洲一区二区三区不卡视频| 亚洲国产高清在线一区二区三| 欧美日韩综合久久久久久 | 国产高清三级在线| 国产精品影院久久| 久久久精品欧美日韩精品| 亚洲欧美清纯卡通| 一本精品99久久精品77| 中文亚洲av片在线观看爽| 国产一区二区激情短视频| 精品欧美国产一区二区三| 9191精品国产免费久久| 中文字幕人成人乱码亚洲影| 97热精品久久久久久| 看片在线看免费视频| 国产精品影院久久| 69人妻影院| 美女高潮的动态| 人人妻人人看人人澡| 一进一出抽搐gif免费好疼| 国产欧美日韩精品亚洲av| 午夜精品在线福利| 国产精品永久免费网站| 国内精品一区二区在线观看| 欧美日本亚洲视频在线播放| 日日干狠狠操夜夜爽| www.熟女人妻精品国产| 国内精品美女久久久久久| 色哟哟·www| 欧美3d第一页| 亚洲av二区三区四区| 一二三四社区在线视频社区8| 国产日本99.免费观看| 特级一级黄色大片| 黄色女人牲交| 桃红色精品国产亚洲av| 少妇的逼水好多| 五月伊人婷婷丁香| 18禁在线播放成人免费| 日韩有码中文字幕| 国产伦精品一区二区三区四那| 热99在线观看视频| 麻豆国产av国片精品| 可以在线观看毛片的网站| 美女大奶头视频| 久久久久国内视频| 真人做人爱边吃奶动态| 精华霜和精华液先用哪个| 男女视频在线观看网站免费| 国产又黄又爽又无遮挡在线| 又粗又爽又猛毛片免费看| 搡老妇女老女人老熟妇| 亚洲欧美精品综合久久99| 久久香蕉精品热| 国产精品爽爽va在线观看网站| 欧美另类亚洲清纯唯美| 国产午夜福利久久久久久| 极品教师在线免费播放| 国产综合懂色| 国产午夜精品久久久久久一区二区三区 | 国内精品久久久久久久电影| 99视频精品全部免费 在线| 午夜福利免费观看在线| 日韩精品青青久久久久久| 黄色视频,在线免费观看| av黄色大香蕉| 国产乱人视频| 丰满人妻一区二区三区视频av| 久久九九热精品免费| 亚洲三级黄色毛片| 欧美日韩黄片免| 国产精品日韩av在线免费观看| 日本一本二区三区精品| 国产av不卡久久| 窝窝影院91人妻| 国产精品日韩av在线免费观看| 麻豆一二三区av精品| 亚洲av美国av| 国产精品野战在线观看| 精品久久国产蜜桃| 国产激情偷乱视频一区二区| 精品久久久久久久久av| 小蜜桃在线观看免费完整版高清| 国内毛片毛片毛片毛片毛片| 看片在线看免费视频| 麻豆国产97在线/欧美| 午夜视频国产福利| 久久久久久久午夜电影| 国产伦在线观看视频一区| av在线天堂中文字幕| 欧美乱色亚洲激情| 日韩欧美免费精品| 激情在线观看视频在线高清| a级毛片a级免费在线| 在线观看舔阴道视频| 亚洲av一区综合| 国产亚洲精品综合一区在线观看| 精品免费久久久久久久清纯| 黄色日韩在线| 久久午夜亚洲精品久久| 在线观看免费视频日本深夜| 麻豆国产av国片精品| 精品人妻偷拍中文字幕| 欧美黄色淫秽网站| 久久亚洲精品不卡| 免费黄网站久久成人精品 | 国产欧美日韩精品一区二区| 国产精品精品国产色婷婷| 熟妇人妻久久中文字幕3abv| 精品免费久久久久久久清纯| 三级男女做爰猛烈吃奶摸视频| 男人的好看免费观看在线视频| 日韩中文字幕欧美一区二区| 亚洲成人久久爱视频| 午夜免费成人在线视频| 色av中文字幕| 亚洲,欧美精品.| 免费观看精品视频网站| 听说在线观看完整版免费高清| 国产精品不卡视频一区二区 | 国产精品1区2区在线观看.| 欧美在线一区亚洲| 婷婷亚洲欧美| 久久九九热精品免费| 久久热精品热| 国产精品伦人一区二区| 深夜a级毛片| 国产v大片淫在线免费观看| 成人三级黄色视频| 尤物成人国产欧美一区二区三区| 精华霜和精华液先用哪个| 别揉我奶头 嗯啊视频| 亚州av有码| 天堂av国产一区二区熟女人妻| 国产精品精品国产色婷婷| 人妻制服诱惑在线中文字幕| 免费搜索国产男女视频| 欧美日韩综合久久久久久 | 久久久国产成人精品二区| 国内揄拍国产精品人妻在线| 淫妇啪啪啪对白视频| 亚洲av日韩精品久久久久久密| 国产伦一二天堂av在线观看| 午夜福利在线观看吧| 99久久九九国产精品国产免费| 超碰av人人做人人爽久久| 欧美日本视频| 精品久久久久久久久av| 免费人成在线观看视频色| 国产毛片a区久久久久| 亚州av有码| 国产色爽女视频免费观看| 长腿黑丝高跟| 色综合婷婷激情| 久久精品综合一区二区三区| 精品久久久久久成人av| 最新中文字幕久久久久| 91久久精品电影网| 久99久视频精品免费| 在线观看免费视频日本深夜| 午夜免费激情av| 亚洲第一区二区三区不卡| 午夜精品在线福利| 午夜福利在线在线| 国内精品久久久久久久电影| 亚洲精品在线观看二区| 免费在线观看成人毛片| 日本五十路高清| 午夜精品久久久久久毛片777| 不卡一级毛片| 成年人黄色毛片网站| 国产毛片a区久久久久| 日韩av在线大香蕉| 在线国产一区二区在线| 久久久久久久午夜电影| a级一级毛片免费在线观看| 久久人人爽人人爽人人片va | 国产亚洲精品av在线| 一二三四社区在线视频社区8| 国产成人a区在线观看| 美女免费视频网站| 特大巨黑吊av在线直播| 欧美在线黄色| 亚洲人成网站在线播| av在线观看视频网站免费| 国内精品久久久久久久电影| 国产男靠女视频免费网站| 国产真实乱freesex| 国产极品精品免费视频能看的| 国产黄色小视频在线观看| av黄色大香蕉| 久久99热6这里只有精品| 好男人电影高清在线观看| av天堂在线播放| 日韩欧美精品免费久久 | 少妇的逼好多水| 久久久久性生活片| 久久国产精品影院| 国产蜜桃级精品一区二区三区| 精品日产1卡2卡| 97碰自拍视频| 一本久久中文字幕| 欧美日韩综合久久久久久 | 又爽又黄无遮挡网站| 中文字幕久久专区| 久久久久亚洲av毛片大全| 婷婷六月久久综合丁香| 男女视频在线观看网站免费| 中亚洲国语对白在线视频| 男人的好看免费观看在线视频| 全区人妻精品视频| 成年人黄色毛片网站| 久久国产乱子免费精品| 国产成人福利小说| 国产色婷婷99| 亚洲18禁久久av| 免费看日本二区| 亚洲片人在线观看| 亚洲欧美激情综合另类| 免费av不卡在线播放| 18禁在线播放成人免费| 国产精品99久久久久久久久| 欧美一区二区亚洲| 久久久久久久久久成人| 成人一区二区视频在线观看| 在线十欧美十亚洲十日本专区| 国产在线精品亚洲第一网站| 精品午夜福利在线看| 免费一级毛片在线播放高清视频| 俄罗斯特黄特色一大片| 少妇熟女aⅴ在线视频| 毛片一级片免费看久久久久 | 国产伦人伦偷精品视频| 午夜福利视频1000在线观看| 国模一区二区三区四区视频| 在线播放国产精品三级| 国产野战对白在线观看| 欧美另类亚洲清纯唯美| 丰满的人妻完整版| 成人亚洲精品av一区二区| 久久精品国产清高在天天线| 亚洲在线观看片| 搡女人真爽免费视频火全软件 | 国产精品亚洲一级av第二区| 午夜精品久久久久久毛片777| 国产av在哪里看| 内地一区二区视频在线| 18禁黄网站禁片免费观看直播| 欧美极品一区二区三区四区| 国产欧美日韩一区二区三| 日日夜夜操网爽| 美女xxoo啪啪120秒动态图 | 亚洲精品影视一区二区三区av| 九九在线视频观看精品| 1024手机看黄色片| 在线观看av片永久免费下载| 国产麻豆成人av免费视频| 亚洲乱码一区二区免费版| 亚洲av不卡在线观看| eeuss影院久久| 欧美成人免费av一区二区三区| 香蕉av资源在线| 国产伦精品一区二区三区四那| 俄罗斯特黄特色一大片| h日本视频在线播放| 日本 欧美在线| 悠悠久久av| 亚洲第一欧美日韩一区二区三区| 国产精品av视频在线免费观看| 九色国产91popny在线| 国产欧美日韩一区二区三| 亚洲av成人精品一区久久| 长腿黑丝高跟| 91狼人影院| 在线观看美女被高潮喷水网站 | 免费高清视频大片| 日日摸夜夜添夜夜添av毛片 | x7x7x7水蜜桃| 久久国产乱子免费精品| 日韩欧美国产在线观看| 少妇的逼好多水| 内射极品少妇av片p| 亚洲欧美清纯卡通| 两个人的视频大全免费| 国产中年淑女户外野战色| 婷婷六月久久综合丁香| 黄色丝袜av网址大全| 国产国拍精品亚洲av在线观看| 十八禁国产超污无遮挡网站| 久久婷婷人人爽人人干人人爱| 免费在线观看日本一区| 少妇的逼好多水| 国产精品亚洲美女久久久| 69av精品久久久久久| 成人国产综合亚洲| 欧美激情在线99| 午夜两性在线视频| 别揉我奶头~嗯~啊~动态视频| 国产精品久久久久久亚洲av鲁大| 中出人妻视频一区二区| 久久这里只有精品中国| 免费观看精品视频网站| 色综合站精品国产| 脱女人内裤的视频| 嫩草影院精品99| 国产老妇女一区| 久9热在线精品视频| 午夜福利高清视频| 午夜激情欧美在线| 一区福利在线观看|