• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    關(guān)系型數(shù)據(jù)庫數(shù)據(jù)的高效判重

    2015-12-14 06:10:10李恒新韓堅華
    關(guān)鍵詞:字符串數(shù)據(jù)量特征值

    李恒新,韓堅華

    (廣東工業(yè)大學(xué)計算機(jī)學(xué)院,廣州510006)

    隨著互聯(lián)網(wǎng)信息量的增加,處理海量數(shù)據(jù)成了迫切需要解決的問題. 但大量數(shù)據(jù)中存在數(shù)據(jù)相似或者重復(fù)的現(xiàn)象,如信訪數(shù)據(jù):某一熱門問題不同社會公眾的多次咨詢,以及他們對投訴的處理不滿或得不到答復(fù)的再投訴等等. 對這些信訪業(yè)務(wù)相似數(shù)據(jù)的判重能夠使政府工作人員及時發(fā)現(xiàn)信訪人重復(fù)咨詢、反復(fù)投訴的現(xiàn)象,為提高政府部門的服務(wù)效能發(fā)揮輔助作用.因此,有必要快速地檢測出相似(相同)數(shù)據(jù)以達(dá)到判重的目的. 判重算法更多應(yīng)用于網(wǎng)頁檢測領(lǐng)域,極少涉及到關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù).但是這些數(shù)據(jù)也存在相似甚至重復(fù)的現(xiàn)象,對這類數(shù)據(jù)的處理也同樣重要. 關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)獨(dú)具自己的特點:數(shù)據(jù)類型豐富,空值數(shù)據(jù)多,表模式不同等.因此,用什么方法快速地從關(guān)系型數(shù)據(jù)庫中檢測出相似數(shù)據(jù)成了本文研究的主要內(nèi)容.

    數(shù)據(jù)相似性檢測可以用到以下幾種主要的判重算法:DSC 算法(Shingle 算法)、DSC-SS 算法、IMatch 算法、Simhash 算法、VSM 模型、SCAM 算法布爾模型和中文特有的特征碼索引方法等. 其中DSC算法全稱Digital Syntactic Clustering,也就是有名的Shingle 算法,最初由Broder 等[1]提出.算法內(nèi)容:一個長度為L 的文檔,每隔N個漢字取一個Shingle(瓦片),一共截取了L-N +1個Shingle,一個很長的文檔,其Shingle 會很多. 因此對于大文檔來說運(yùn)算量太大,可以考慮對Shingle 集合進(jìn)行抽樣,以降低空間和時間計算復(fù)雜性[2-3].

    當(dāng)不考慮Shingle 出現(xiàn)的位置和順序,就有了IMatch 算法[4].I-Match 算法認(rèn)為在文檔中頻繁出現(xiàn)的詞并不會增加文檔的語義信息,因此過濾掉這些重復(fù)次數(shù)較多的Shingle. 再計算出每個Shingle 的IDF(Inverse Document Frequency)值,根據(jù)IDF 值挑選比較重要的Shingle.累積這些Shingle 的hash 值,作為這篇文檔的指紋特征值. 如果指紋特征值發(fā)生了沖突,則表示文檔重復(fù).

    VSM 為常見的向量空間模型[5],統(tǒng)計文檔中各個單詞出現(xiàn)的次數(shù). 然后按照倒排索引存儲法存儲文檔和詞頻信息.將文檔用關(guān)鍵詞的特征向量表示.VSM 直接計算2個文檔的特征向量的夾角余弦來度量相似性.

    Shingle 算法的空間和計算復(fù)雜性高,相似性精度也高,適合數(shù)據(jù)量不大且對精度要求高的應(yīng)用.而I-Match 算法依賴于語料庫,缺乏深層挖掘文檔本身的語義特征,不適合多領(lǐng)域內(nèi)容的數(shù)據(jù)檢測[6].VSM模型算法的前提是假設(shè)詞與詞之間是不相關(guān)的,但這種假設(shè)不現(xiàn)實,詞與詞之間往往存在語義相關(guān),可能影響了算法的可靠性.

    針對以上算法存在的缺點,目前的Simhash 算法對數(shù)據(jù)庫數(shù)據(jù)的相似性檢測是一種較好的去重算法.Simhash 算法能夠根據(jù)數(shù)據(jù)內(nèi)容的權(quán)重不同特征,轉(zhuǎn)化為特征值的同時,根據(jù)特征值累積起來的差別大小來判斷數(shù)據(jù)的差別程度.不過度依賴語料庫,對海量數(shù)據(jù)集的相似性計算速度也較快,在計算性能方面上具有很大優(yōu)勢,并且文檔特征值存儲空間小.該算法是對大量數(shù)據(jù)庫數(shù)據(jù)相似性檢測的最佳選擇.

    本文采用的數(shù)據(jù)來自于廣州市某區(qū)政府的信訪業(yè)務(wù)綜合信息匯集與處理平臺,介紹并改進(jìn)Simhash算法,提出一種高效處理指紋特征值的算法,并展示改進(jìn)算法的時間效率和準(zhǔn)確率.

    1 Simhash 算法

    1.1 Simhash 算法實現(xiàn)

    Simhash 算法由Charikar[7]提出.算法的主要思想是降維,將高維的數(shù)據(jù)特征向量映射成一個f-bit的指紋(fingerprint),通過比較數(shù)據(jù)的f-bit 指紋的海明距離(hamming distance)來確定數(shù)據(jù)是否重復(fù)或者高度近似.

    從數(shù)據(jù)庫中提取出數(shù)據(jù),作為Simhash 算法的輸入,通過該算法計算得出數(shù)據(jù)的語義指紋值.算法的整體流程圖見圖1.wn代表數(shù)據(jù)中的詞匯,經(jīng)過字符串Hash 函數(shù)分別計算出二進(jìn)制特征值,再把這些特征值累加,正數(shù)取1,負(fù)數(shù)和零取0,重新構(gòu)成了一個代表這整個數(shù)據(jù)的特征值,稱為指紋特征值.

    圖1 Simhash 算法流程圖Figure 1 Flowchart of Simhash algorithm

    Simhash 算法自身攜帶的字符串Hash 函數(shù)具有沖突高、速度慢的缺點. 另外,如果對數(shù)據(jù)庫不同字段值的數(shù)據(jù)同等對待處理,會造成相似性檢測精確度低的現(xiàn)象,所以提出采用改進(jìn)的Simhash 算法.

    1.2 改進(jìn)的Simhash 算法

    首先,不同的特征值賦予不同的權(quán)重.針對數(shù)據(jù)庫數(shù)據(jù),小文本字段值賦予較大權(quán)重,大文本采用詞頻作為權(quán)重,以使產(chǎn)生的指紋值更能代表數(shù)據(jù)特征.

    其次,Simhash 算法最后產(chǎn)生的代表數(shù)據(jù)特征的指紋值S,其維度可以有32 位、64 位和128 位等.一般維度越大,計算也就越復(fù)雜,好處就是數(shù)據(jù)差異性更能體現(xiàn)出來.為了在復(fù)雜性和高效性間做平衡,指紋值S 的維度設(shè)為64 位較合適.

    最后,針對指紋值S 的維度為64 位,選擇一種字符串Hash 函數(shù)尤為重要. 算法中,對每個特征值的計算要用到字符串Hash 函數(shù),可見,這個字符串Hash 函數(shù)是Simhash 算法的核心,選擇字符串Hash函數(shù)是使Simhash 算法高效最為關(guān)鍵的一步. 傳統(tǒng)的字符串Hash 函數(shù)有不少,比如BKDRHash、APHash、DJBHash、JSHash 和RSHash 等. 但是這些字符串Hash 函數(shù)都是運(yùn)行在32 位系統(tǒng)上的算法,稍加改動,也能運(yùn)行在64 位系統(tǒng)上,不過效率必定打了個折扣.為了更好地產(chǎn)生64 位Hash 值,Austin Appleby 創(chuàng)立了一種非加密 Hash 算法:MurmurHash[8].MurmurHash 的最新版本是MurmurHash 3,支持32 位、64 位及128 位值的產(chǎn)生,并在多個開源項目中得到應(yīng)用,包括Libstdc、Libmemcached、Nginx、Hadoop 等.受MurmurHash 的啟發(fā),Google 發(fā)布了CityHash 字符串散列算法. 該算法比MurmurHash 略快,比傳統(tǒng)Hash 算法快30% 以上[9].CityHash 計算的過程很繁雜,但是充分利用了64 位系統(tǒng)硬件的性能,因此能得到較快的速度[10]. 本文采用CityHash 算法研究Simhash 算法,在64 位計算機(jī)上計算每個特征值的Hash 值,同時和采用其他字符串Hash 函數(shù)的Simhash 算法做比較,驗證了改進(jìn)后的Simhash 算法的快速性.

    2 針對64 位指紋特征值的快速處理

    指紋特征值的比較一般用海明距離來表示.所謂的海明距離,就是指2個二進(jìn)制數(shù)對應(yīng)比特位不同的個數(shù).對于2個指紋特征值x =(x1x2x3…xn)和y=(y1y2y3…yn),海明距離計算公式為:

    海明距離越小,說明數(shù)據(jù)內(nèi)容越相似. 對于64位指紋特征值相似性的檢測,閥值HD 一般設(shè)為3,也就是說海明距離小于等于3 的話,數(shù)據(jù)就相似.

    對所有的數(shù)據(jù)都進(jìn)行判重處理,稱為集中處理.在舊數(shù)據(jù)已處理過的前提下,單獨(dú)對新加入的數(shù)據(jù)判重處理,可稱之為增量處理.大數(shù)據(jù)下的集中處理耗時較長,非常有必要改進(jìn)處理的方式,以提高處理的速度.本文根據(jù)特征指紋值的特點,采用索引歸類方法來提高全部數(shù)據(jù)集中處理的速度,大大縮短了處理的時間. 對于增量處理,采用MongoDB 數(shù)據(jù)庫來存儲指紋值,新加入的指紋值可以很快比對舊指紋值,從而判斷出是否為重復(fù)數(shù)據(jù). 在處理的速度上,比傳統(tǒng)關(guān)系型數(shù)據(jù)庫快.

    2.1 集中處理

    對所有指紋特征值的判重.傳統(tǒng)做法多采用聚類算法.文獻(xiàn)[11]所采用的Single-Pass 算法屬于聚類算法中的層次凝聚算法. 大體思想就是認(rèn)為所有的個體都是一個單獨(dú)的類,類與類之間進(jìn)行比較,相似的合并成一類,如此循環(huán),直到滿足條件且都不能再合并為停止運(yùn)行條件. 這個算法運(yùn)用在指紋值的比較上,當(dāng)設(shè)置低相似閥值或者所有指紋相似度高的時候,該算法能有較高性能.最好的時間復(fù)雜度為O(n).指紋相似度不高時,最差的時間復(fù)雜度能達(dá)到O(n2).

    上述的算法如果用在大規(guī)模的數(shù)據(jù)處理上,性能將會非常低下.考慮到閥值HD 為3 即數(shù)據(jù)就相似的特點,采用索引歸類的方法,速度就會得到提升.

    64 位二進(jìn)制指紋值分為4 塊,每塊16 位.根據(jù)鴿巢原理,要海明距離為3,則一定有1 塊是相同的.把每一塊的值都作為索引值,按索引值進(jìn)行歸類存儲.例如一個64 位指紋值Q1Q2Q3Q4,Qn代表第n類由16 位構(gòu)成的索引值.那么這個指紋值就可以分別存入索引值為Q1的第1 類中,索引值為Q2的第2 類中……16 位二進(jìn)制的索引值,能產(chǎn)生的索引為216個. 一個指紋值根據(jù)對應(yīng)的索引值需要存儲4次,但只需找到對應(yīng)索引,然后和索引里面的指紋做比較就可以了,比較次數(shù)大大減少.建立索引流程如圖2 所示.

    假設(shè)數(shù)據(jù)量足夠大,有F個指紋值,當(dāng)F=2n(n>34),那么F 就會超過10 億個. 按索引歸類進(jìn)行存儲,需要存儲4F個指紋值,每個類中的每個索引平均需要存儲S =F/216=2n/216=2n-16個指紋值,新加入的指紋需要在4個類中都進(jìn)行比較,大概需要比較4S 次.假如不采用這種算法的話,需要比較F 次(大于10 億).兩者對比,計算量減少到原來的當(dāng)然,跟前面的算法比較,存儲空間多了4 倍,可是比較次數(shù)卻大大減少,是一種以空間換時間的策略.

    圖2 索引建立圖Figure 2 Figure of indexing

    2.2 增量處理

    用數(shù)據(jù)庫存儲集中處理后的特征指紋值.較為傳統(tǒng)的做法就是把這些值與值對應(yīng)的數(shù)據(jù)信息存儲到關(guān)系型數(shù)據(jù)庫中的一張表中.根據(jù)上節(jié)理論分析,用象限值作為索引,可以加快查找速度.表模式見表1.

    表1 特征指紋值表模式Table 1 Table mode of fingerprint feature value

    可以預(yù)見,當(dāng)數(shù)據(jù)量非常大時,表的規(guī)模也會很大,查找的時間將會延長,造成分析檢測用時過長,無法達(dá)到快速檢測的目的.

    MongoDB 是一種面向文檔存儲的數(shù)據(jù)庫,具有強(qiáng)大、靈活和可擴(kuò)展的功能[12].文檔以類似JSON 格式來進(jìn)行存儲,對某些字段建立索引,可以實現(xiàn)關(guān)系型數(shù)據(jù)的某些功能. 指紋特征值是先按象限值查找進(jìn)而再作比較.因此,我們可以把一個象限值內(nèi)裝的所有指紋特征值作為一個“文檔”來存儲,這個“文檔”相當(dāng)于一個索引,索引下的全部特征指紋值構(gòu)成了一個集合.

    MongoDB 是一種表模式自由的數(shù)據(jù)庫,因此不用設(shè)計表的結(jié)構(gòu).根據(jù)上面的設(shè)計,我們將以下面的方式來存儲特征指紋值:

    "blockName" :"象限值";

    "info" :[{"hashcode" :"指紋特征值1","textname" :"數(shù)據(jù)名稱1"},{"hashcode" :"指紋特征值2","textname" :"數(shù)據(jù)名稱2",…}]}.

    類似JSON 的格式,很簡單就表示了所有象限值和對應(yīng)的指紋特征值. 在查找的速度上優(yōu)于關(guān)系型數(shù)據(jù)庫.當(dāng)不管檢測的結(jié)果是否有相似數(shù)據(jù),都執(zhí)行插入新增數(shù)據(jù)操作時,MongoDB 所耗時間也少于傳統(tǒng)關(guān)系型數(shù)據(jù)庫,因差別不大,所以不再做實驗分析.

    3 結(jié)果與分析

    算法采用Java 語言實現(xiàn),采用平臺中的數(shù)據(jù)庫信訪表作為分析對象.此表具有多個字段,有些字段值為空,其中信訪內(nèi)容為大文本,沒有空值.除了大文本,其他字段值都賦予2 的權(quán)重.大文本經(jīng)過分詞工具處理,詞頻作為權(quán)重.該分詞工具為IKAnalyzer 2012,該工具具有160 萬字/s 的高速處理能力,同時支持自定義的擴(kuò)展詞匯表和停用詞匯表. 在擴(kuò)展詞匯表里面加入了搜狗語料庫. 停用詞匯表加入一些語氣助詞等,以使分詞更為精確.

    實驗軟硬件環(huán)境為Intel(R)Core(TM)i7-4500U CPU@2.4 GHz,內(nèi)存為8 G,操作系統(tǒng)為64位windows8.1,編程工具為IntelliJ IDEA 13.0.2,采用Java7.

    為了評價改進(jìn)后的Simhash 算法執(zhí)行效率和正確性,本文設(shè)計了一系列實驗,其中,實驗1、實驗2是對算法的時間效率和正確性進(jìn)行驗證,實驗3 是關(guān)于特征指紋值的集中處理以及增量處理實驗.

    3.1 算法的時間效率

    指紋特征值是對數(shù)據(jù)中詞匯特征值總和的表現(xiàn).Simhash 算法采用不同的字符串Hash 函數(shù)對相等的數(shù)據(jù)量會有不同的時間效率. 時空性是衡量一種算法是否得到有效改進(jìn)的重要指標(biāo)之一.因此,分別對原有字符串Hash 函數(shù)的Simhash 算法和改進(jìn)后的Simhash 算法進(jìn)行了對比實驗.

    其中,在官方提供的Simhash 算法實現(xiàn)中,包含有自帶生成64 位二進(jìn)制值的字符串Hash 函數(shù). 另外,BKDRHash 字符串函數(shù)是32 位Hash 函數(shù)的優(yōu)秀代表,在字符串生成的過程中作了改進(jìn),使它能對字符串產(chǎn)生64 位Hash 值,并應(yīng)用于Simhash 算法.最后我們用CityHash 字符串函數(shù)改進(jìn)Simhash 算法,因為是運(yùn)行在64 位計算機(jī)上,理論上時間效率應(yīng)該是最高的.實驗數(shù)據(jù)為三萬條信訪記錄,數(shù)量從少到多都進(jìn)行了測試.實驗結(jié)果如表2 所示.

    表2 不同Hash 函數(shù)下的Simhash 算法時間性能Table 2 Time performance of the Simhash algorithm in different Hash function

    從表格數(shù)據(jù)可以看出,改進(jìn)后的Simhash 算法對同樣數(shù)量的數(shù)據(jù)生成指紋值耗時更少.采用32 位BKDRHash 函數(shù)改進(jìn)的Simhash 算法比自帶的快,而采用CityHash 字符串函數(shù)的Simhash 算法在時間效率上最優(yōu). 可見改進(jìn)過的Simhash 算法都提高了處理的速度,具有更快的性能.以下實驗所說的改進(jìn)Simhash 算法都是指采用CityHash 字符串函數(shù)的Simhash 算法.

    3.2 算法評估

    采用經(jīng)典的信息檢索度量標(biāo)準(zhǔn)來評估算法:召回率和準(zhǔn)確率,定義如下:

    選擇“教育”、“城市管理”和“城鄉(xiāng)建設(shè)”三個主題.評估改進(jìn)后的Simhash 算法,每個主題分別在數(shù)據(jù)庫的信訪表里找出多組相似數(shù)據(jù),共計300 條,作為測試之前已知相似數(shù)據(jù)量. 然后混合到5 000條不相似混雜內(nèi)容數(shù)據(jù)中. 分別運(yùn)行I-Match 算法、官方提供的Simhash 算法和改進(jìn)后的Simhash 算法進(jìn)行相似數(shù)據(jù)檢測. 檢測結(jié)果為測試找出的相似數(shù)據(jù)量,在這些數(shù)據(jù)量中與已知的300 條相似數(shù)據(jù)吻合的就為測試正確的相似數(shù)據(jù)量.結(jié)果見表3.

    表3 各算法的評估結(jié)果Table 3 Evaluation results of the algorithms

    改進(jìn)后的Simhash 算法在各類數(shù)據(jù)的判重中具有較高的召回率(約90%)和準(zhǔn)確率(95%左右),都源自于攜帶的低沖突率CityHash 函數(shù)算法.I-Match 算法在城市管理版塊表現(xiàn)出較高的召回率.這主要是因為本實驗采用的搜狗語料庫中有不少日常詞匯,所以在該版塊中,I-Match 算法表現(xiàn)出了較好性能.但在其他2個版塊,召回率都有所下降. 這說明了I-Match 算法具有領(lǐng)域相關(guān)的缺點. Simhash算法基于所有詞匯來構(gòu)建指紋特征值,因此與語料庫的關(guān)系沒有I-Match 算法的大,召回率相對穩(wěn)定.

    3.3 指紋特征值的處理分析

    指紋特征值的匹配是找出相似文檔的最后一步驟.先做集中處理的實驗,也就是一次性處理所有的數(shù)據(jù).用Single-Pass 聚類算法來找出相似數(shù)據(jù),再針對64 位指紋值和海明距離小于等于3 就歸為相似的特點,用了索引歸類的方法,理論上效果應(yīng)該大大提高.實驗在不同數(shù)據(jù)量下分別運(yùn)行這2 種算法.

    從表4 的結(jié)果看,在少量數(shù)據(jù)的前提下,Single-Pass 聚類算法所耗費(fèi)的時間和索引歸類相比就已經(jīng)有差距了,這種差距隨著數(shù)據(jù)量的增加呈幾何級地增長.當(dāng)需一次性處理大量數(shù)據(jù)時.索引歸類算法無疑是最好的選擇.

    索引歸類處理后的特征指紋值可以存儲到數(shù)據(jù)庫中.實驗中分別存儲到了關(guān)系型數(shù)據(jù)庫MySQL 和NoSQL 數(shù)據(jù)庫MongoDB.增量處理又可分為2 種:一種只是判斷與歷史數(shù)據(jù)是否有相似的情況,一種就是判斷有相似數(shù)據(jù)的前提下返回所有的相似特征指紋值,以便進(jìn)一步的分析需要.在大量不同的新增數(shù)據(jù)處理前提下對處理時間做了平均值,以使實驗結(jié)果更趨于準(zhǔn)確(表5).

    表4 指紋特征值處理所耗時間表Table 4 Characteristic value of fingerprint processing cost schedule ms

    表5 不同數(shù)據(jù)庫下增量處理所耗費(fèi)的時間Table 5 The cost processing time in the different database by incremental processing ms

    MongoDB 數(shù)據(jù)庫處理的速度比MySQL 數(shù)據(jù)庫快,主要是因為MongoDB 本身的高性能和面對文檔存儲的特性非常符合指紋特征值按象限存儲的要求,提高了對增量數(shù)據(jù)的處理速度.

    4 結(jié)論

    針對傳統(tǒng)關(guān)系型數(shù)據(jù)庫數(shù)據(jù)的特點,應(yīng)用改進(jìn)后的Simhash 算法來計算出每行數(shù)據(jù)的指紋特征值,再用設(shè)計好的索引歸類方法一次性找出所有的相似數(shù)據(jù),即使是新增數(shù)據(jù),也能得到快速的處理.縱觀整個過程,時間效率和準(zhǔn)確率都高于其他算法.在后續(xù)的研究中還需進(jìn)一步優(yōu)化分詞效果,減少數(shù)據(jù)的噪聲,以提高Simhash 算法的召回率. 此外,可進(jìn)一步探索在分布式環(huán)境下應(yīng)用該算法,在大數(shù)據(jù)的前提下,使速度再一次得到提升.

    [1]Broder A Z,Glassman S C,Manasse M S,et al. Syntactic clustering of the web[J]. Computer Networks and ISDN Systems,1997,29(8-13):1157-1166.

    [2]Broder A Z. On the resemblance and containment of documents[C]∥The compression and complexity of sequences. New York:IEEE Computer Society,1997:21-29.

    [3]Han B,Keleher P. Implementation and performance evaluation of fuzzy file block matching[C]∥Proceeding of the 2007 usenix annual technical conference. Berkeley:Usenix Association,2007:199-204.

    [4]Chowdhury A,F(xiàn)rieder O,Grossman D,et al. Collection statistics for fast duplicate document detection[J]. ACM Transactions on Information Systems,2002,20(2):171-191.

    [5]Salton G,Wong A,Yang C. A vector space model for automatic indexing[J]. Communications of the ACM,1975,11:613-620.

    [6]曹玉娟,牛振東,趙堃,等. 基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測算法[J]. 軟件學(xué)報,2011,22(8):1816-1826.Cao Y J,Niu Z D,Zhao K,et al. Near duplicated web pages detection based on concept and semantic network[J]. Journal of Software. 2011,22(8):1816-1826.

    [7]Charikar M S. Similarity estimation techniques from rounding algorithms[C]∥Proceedings of the 34th annual ACM symposium on the theory of computing. New York:ACM,2002:380-388.

    [8]Tanjent. MurmurHash,final version[EB/OL]. (2008-03-03)[2014-08-13]. http:∥tanjent. livejournal.com/756623.html.

    [9]Josh Haberman. State of the hash functions[EB/OL].(2012-01-29)[2014-08-13]. http:∥blog. reverberate.org/2012/01/state-of-hash-functions-2012.html.

    [10]陸陽,高寶. 基于CityHash 的政務(wù)網(wǎng)站完整性檢查方法研究[J]. 計算機(jī)工程與應(yīng)用,2014(6):1-6.Lu Y,Gao B. Research on file integrity checking based on CityHash for e-government websites[J]. Computer Engineering and Applications,2014(6):1-6.

    [11]李綱,毛進(jìn),陳璟浩. 基于語義指紋的中文文本快速去重[J]. 現(xiàn)代圖書情報技術(shù),2013(9):41-47.Li G,Mao J,Chen J H. Fast duplicate detection for chinese texts based on semantic fingerprint[J]. New Technology of Library and Information Service,2013(9):41-47.

    [12]Chodorow K,Dirolf M. MongoDB:The definitive guide[M]. 2nd Ed. Sebastopol:O'Reilly Media,Inc,2013:1-3.

    猜你喜歡
    字符串數(shù)據(jù)量特征值
    一類帶強(qiáng)制位勢的p-Laplace特征值問題
    基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
    計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
    單圈圖關(guān)聯(lián)矩陣的特征值
    高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
    寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
    電子制作(2019年13期)2020-01-14 03:15:18
    基于商奇異值分解的一類二次特征值反問題
    關(guān)于兩個M-矩陣Hadamard積的特征值的新估計
    一種新的基于對稱性的字符串相似性處理算法
    依據(jù)字符串匹配的中文分詞模型研究
    岛国毛片在线播放| 精品无人区乱码1区二区| 国产日韩一区二区三区精品不卡| 亚洲精品成人av观看孕妇| 国产又色又爽无遮挡免费看| 美女高潮到喷水免费观看| 最新的欧美精品一区二区| 高清av免费在线| 99久久99久久久精品蜜桃| 欧美 日韩 精品 国产| 日韩欧美一区视频在线观看| 久久人妻熟女aⅴ| 日本撒尿小便嘘嘘汇集6| 精品少妇久久久久久888优播| 9热在线视频观看99| 搡老岳熟女国产| 成在线人永久免费视频| 操美女的视频在线观看| 搡老熟女国产l中国老女人| 中文字幕制服av| 高清视频免费观看一区二区| 这个男人来自地球电影免费观看| 黑人欧美特级aaaaaa片| 国产成人欧美| 久久精品国产清高在天天线| 国产成人影院久久av| 大码成人一级视频| 又黄又粗又硬又大视频| 99re在线观看精品视频| 一级,二级,三级黄色视频| 成熟少妇高潮喷水视频| 97人妻天天添夜夜摸| 国产日韩欧美亚洲二区| 老司机影院毛片| 国产成人av教育| 国精品久久久久久国模美| 日韩中文字幕欧美一区二区| 男女床上黄色一级片免费看| 免费看十八禁软件| 人人澡人人妻人| 亚洲熟女毛片儿| 少妇被粗大的猛进出69影院| 人成视频在线观看免费观看| 午夜久久久在线观看| 久久久久国产精品人妻aⅴ院 | 久久久久国产一级毛片高清牌| 韩国av一区二区三区四区| 欧美+亚洲+日韩+国产| 欧美激情极品国产一区二区三区| 老司机午夜十八禁免费视频| 色播在线永久视频| 精品亚洲成国产av| 中文字幕人妻丝袜制服| 国产精品免费大片| 黑人巨大精品欧美一区二区mp4| 日韩精品免费视频一区二区三区| 欧美日韩成人在线一区二区| 校园春色视频在线观看| 老司机在亚洲福利影院| 国产不卡av网站在线观看| 老鸭窝网址在线观看| 欧美另类亚洲清纯唯美| 亚洲国产精品合色在线| 久久精品国产亚洲av香蕉五月 | 日韩中文字幕欧美一区二区| 国产一区二区三区综合在线观看| 久久这里只有精品19| 在线观看免费高清a一片| 午夜精品国产一区二区电影| 五月开心婷婷网| 免费在线观看黄色视频的| 淫妇啪啪啪对白视频| 国产无遮挡羞羞视频在线观看| 午夜福利,免费看| 超色免费av| 最近最新中文字幕大全电影3 | 极品教师在线免费播放| 久久久久视频综合| 九色亚洲精品在线播放| 亚洲av成人av| 男女下面插进去视频免费观看| 免费久久久久久久精品成人欧美视频| 天堂俺去俺来也www色官网| 99精品欧美一区二区三区四区| 91国产中文字幕| 亚洲在线自拍视频| 久久精品国产a三级三级三级| 久久国产精品大桥未久av| 两人在一起打扑克的视频| 中文字幕精品免费在线观看视频| 国产精品久久久人人做人人爽| 久久久久国内视频| 国产1区2区3区精品| 亚洲专区中文字幕在线| 天堂中文最新版在线下载| e午夜精品久久久久久久| 一本大道久久a久久精品| 巨乳人妻的诱惑在线观看| 交换朋友夫妻互换小说| 我的亚洲天堂| 欧美+亚洲+日韩+国产| 黄色视频,在线免费观看| 国产成人欧美在线观看 | 久久久久久久久久久久大奶| 国产日韩一区二区三区精品不卡| 亚洲伊人色综图| 少妇裸体淫交视频免费看高清 | 国产精品一区二区免费欧美| 老熟女久久久| 国产精品 国内视频| 久久久久精品国产欧美久久久| 建设人人有责人人尽责人人享有的| 男女床上黄色一级片免费看| 久久精品国产99精品国产亚洲性色 | 天天添夜夜摸| 中文字幕色久视频| 国产亚洲一区二区精品| 丝袜美腿诱惑在线| 伦理电影免费视频| 日韩欧美国产一区二区入口| 亚洲精华国产精华精| 久久午夜综合久久蜜桃| 日韩欧美国产一区二区入口| 久久精品91无色码中文字幕| 热re99久久国产66热| 国产日韩欧美亚洲二区| 老鸭窝网址在线观看| 国产日韩一区二区三区精品不卡| 99国产极品粉嫩在线观看| 中文字幕人妻丝袜制服| 制服人妻中文乱码| 伊人久久大香线蕉亚洲五| 丝袜美腿诱惑在线| 亚洲情色 制服丝袜| 欧美日韩亚洲高清精品| 交换朋友夫妻互换小说| xxxhd国产人妻xxx| 国产xxxxx性猛交| 中亚洲国语对白在线视频| 最新美女视频免费是黄的| 美女视频免费永久观看网站| 叶爱在线成人免费视频播放| 丰满人妻熟妇乱又伦精品不卡| 精品国产超薄肉色丝袜足j| 啦啦啦 在线观看视频| 精品久久久久久电影网| 一级黄色大片毛片| 成在线人永久免费视频| 成人影院久久| 乱人伦中国视频| 亚洲av熟女| 国产精品一区二区免费欧美| 亚洲第一av免费看| 欧美成狂野欧美在线观看| 国产1区2区3区精品| 欧美av亚洲av综合av国产av| 久久久国产成人免费| 91九色精品人成在线观看| 久久精品熟女亚洲av麻豆精品| 欧美亚洲 丝袜 人妻 在线| 啦啦啦视频在线资源免费观看| 精品久久久久久,| 亚洲国产欧美一区二区综合| 一级毛片高清免费大全| 亚洲片人在线观看| 后天国语完整版免费观看| 色播在线永久视频| 午夜福利乱码中文字幕| 国产国语露脸激情在线看| 亚洲自偷自拍图片 自拍| 他把我摸到了高潮在线观看| 99热国产这里只有精品6| 亚洲自偷自拍图片 自拍| 亚洲视频免费观看视频| 最新在线观看一区二区三区| 亚洲精品在线美女| 亚洲性夜色夜夜综合| 国内久久婷婷六月综合欲色啪| 精品少妇一区二区三区视频日本电影| 国产成人精品在线电影| 制服人妻中文乱码| 涩涩av久久男人的天堂| 麻豆av在线久日| 中文字幕av电影在线播放| 天天影视国产精品| 国产欧美日韩综合在线一区二区| 亚洲欧美精品综合一区二区三区| 免费高清在线观看日韩| 多毛熟女@视频| 欧美 日韩 精品 国产| 久久人妻熟女aⅴ| 9色porny在线观看| 日本欧美视频一区| 午夜精品久久久久久毛片777| 国产免费男女视频| 99热只有精品国产| 99久久综合精品五月天人人| 亚洲全国av大片| 久久99一区二区三区| 国产精品一区二区免费欧美| 一区福利在线观看| 在线观看日韩欧美| 午夜激情av网站| 捣出白浆h1v1| 免费av中文字幕在线| 亚洲全国av大片| 日韩人妻精品一区2区三区| 窝窝影院91人妻| 国产淫语在线视频| 日本撒尿小便嘘嘘汇集6| 亚洲欧美日韩另类电影网站| 国产有黄有色有爽视频| xxxhd国产人妻xxx| 国产又色又爽无遮挡免费看| 日韩一卡2卡3卡4卡2021年| 九色亚洲精品在线播放| 午夜亚洲福利在线播放| 在线观看免费高清a一片| 人妻 亚洲 视频| 国产麻豆69| 久久国产精品影院| 狠狠狠狠99中文字幕| 怎么达到女性高潮| 人妻 亚洲 视频| 亚洲人成伊人成综合网2020| 精品国产超薄肉色丝袜足j| 国产亚洲精品久久久久5区| 人人澡人人妻人| 搡老岳熟女国产| 夜夜夜夜夜久久久久| 女同久久另类99精品国产91| 久久中文字幕人妻熟女| 久久青草综合色| 啦啦啦免费观看视频1| 一级作爱视频免费观看| 亚洲熟女毛片儿| 久久人妻熟女aⅴ| 欧美最黄视频在线播放免费 | 欧美午夜高清在线| 大片电影免费在线观看免费| 亚洲伊人色综图| 黄片大片在线免费观看| 手机成人av网站| 久久久国产精品麻豆| 欧美精品av麻豆av| 一区福利在线观看| 中出人妻视频一区二区| 老熟女久久久| 香蕉国产在线看| 国产精品久久久久成人av| 高清视频免费观看一区二区| 正在播放国产对白刺激| 99国产极品粉嫩在线观看| 男人的好看免费观看在线视频 | 巨乳人妻的诱惑在线观看| 99热国产这里只有精品6| 少妇 在线观看| 香蕉丝袜av| 人人澡人人妻人| 亚洲国产看品久久| 最新在线观看一区二区三区| av线在线观看网站| 99热国产这里只有精品6| 精品少妇一区二区三区视频日本电影| 交换朋友夫妻互换小说| 不卡av一区二区三区| 亚洲精品粉嫩美女一区| 国产精品一区二区免费欧美| 国产欧美日韩一区二区三| e午夜精品久久久久久久| 悠悠久久av| 麻豆av在线久日| 国产精品久久久久成人av| av有码第一页| 久久人妻av系列| 丁香欧美五月| 国产亚洲欧美98| 每晚都被弄得嗷嗷叫到高潮| 超色免费av| 又黄又爽又免费观看的视频| 国产亚洲精品久久久久5区| 日日摸夜夜添夜夜添小说| 精品国产美女av久久久久小说| 国产97色在线日韩免费| 亚洲伊人色综图| 国产熟女午夜一区二区三区| 精品国产超薄肉色丝袜足j| 交换朋友夫妻互换小说| 国产精品国产高清国产av | 欧美日韩精品网址| 国产男女超爽视频在线观看| 人妻丰满熟妇av一区二区三区 | 狂野欧美激情性xxxx| 好男人电影高清在线观看| 国产精品偷伦视频观看了| 亚洲午夜精品一区,二区,三区| 精品国产一区二区三区久久久樱花| 50天的宝宝边吃奶边哭怎么回事| 精品乱码久久久久久99久播| 多毛熟女@视频| 亚洲第一av免费看| 中出人妻视频一区二区| 丁香欧美五月| 精品欧美一区二区三区在线| 天天影视国产精品| 大码成人一级视频| 啦啦啦免费观看视频1| 99热网站在线观看| 亚洲全国av大片| 如日韩欧美国产精品一区二区三区| 精品福利观看| 黄频高清免费视频| 亚洲国产欧美网| 亚洲精品美女久久av网站| 国产日韩一区二区三区精品不卡| 亚洲精品一二三| 国产男女内射视频| 国产主播在线观看一区二区| 亚洲国产中文字幕在线视频| 国产不卡一卡二| 99热网站在线观看| av线在线观看网站| 日韩一卡2卡3卡4卡2021年| 三上悠亚av全集在线观看| 在线观看免费日韩欧美大片| 在线观看www视频免费| 久久精品成人免费网站| 777久久人妻少妇嫩草av网站| 18禁美女被吸乳视频| 咕卡用的链子| 久久人妻福利社区极品人妻图片| 一本大道久久a久久精品| 日韩视频一区二区在线观看| 咕卡用的链子| 国产亚洲精品久久久久5区| 欧美日韩国产mv在线观看视频| 亚洲中文av在线| 亚洲精品久久午夜乱码| 99在线人妻在线中文字幕 | 精品国产乱码久久久久久男人| 亚洲国产欧美网| 视频区欧美日本亚洲| 一级毛片精品| 久久精品人人爽人人爽视色| 黑人操中国人逼视频| 国产精品.久久久| 窝窝影院91人妻| 国产一区二区三区综合在线观看| 亚洲精品av麻豆狂野| 99精品欧美一区二区三区四区| 成人18禁高潮啪啪吃奶动态图| 少妇被粗大的猛进出69影院| 国产aⅴ精品一区二区三区波| 日韩欧美一区视频在线观看| 黄色丝袜av网址大全| 亚洲片人在线观看| 伦理电影免费视频| 免费在线观看完整版高清| 伦理电影免费视频| 人妻一区二区av| 最新美女视频免费是黄的| 久久天堂一区二区三区四区| 国产精品一区二区免费欧美| 亚洲熟妇熟女久久| 一级毛片精品| 老司机影院毛片| 亚洲av片天天在线观看| 久久人妻福利社区极品人妻图片| 欧美国产精品va在线观看不卡| а√天堂www在线а√下载 | 男人操女人黄网站| 999久久久国产精品视频| 99热国产这里只有精品6| 精品电影一区二区在线| aaaaa片日本免费| 亚洲av成人不卡在线观看播放网| 亚洲免费av在线视频| 男女午夜视频在线观看| 中出人妻视频一区二区| 国产高清激情床上av| 夫妻午夜视频| 1024香蕉在线观看| 高潮久久久久久久久久久不卡| 91精品三级在线观看| 久久青草综合色| 美女高潮到喷水免费观看| 一区二区三区国产精品乱码| 天天添夜夜摸| 免费日韩欧美在线观看| 一级,二级,三级黄色视频| 国产精品免费视频内射| 18禁裸乳无遮挡免费网站照片 | 亚洲aⅴ乱码一区二区在线播放 | 日韩欧美三级三区| 国产精品电影一区二区三区 | 国产精品国产高清国产av | 午夜视频精品福利| 99久久国产精品久久久| 久久国产乱子伦精品免费另类| 久久久久视频综合| 日韩欧美一区视频在线观看| 久久热在线av| 亚洲精品美女久久av网站| 黄色毛片三级朝国网站| 日韩欧美三级三区| 亚洲 欧美一区二区三区| 国产精品九九99| 看黄色毛片网站| 国产精品一区二区在线观看99| 看片在线看免费视频| 国产免费现黄频在线看| 欧美 亚洲 国产 日韩一| 男女免费视频国产| 女同久久另类99精品国产91| 亚洲一卡2卡3卡4卡5卡精品中文| 乱人伦中国视频| 国产精品亚洲av一区麻豆| 亚洲欧美色中文字幕在线| 亚洲免费av在线视频| tube8黄色片| 欧美日韩亚洲国产一区二区在线观看 | 中文字幕另类日韩欧美亚洲嫩草| 欧美日韩av久久| 在线观看午夜福利视频| 成人av一区二区三区在线看| 国产亚洲欧美98| 美女午夜性视频免费| 夫妻午夜视频| 亚洲熟妇中文字幕五十中出 | 日韩制服丝袜自拍偷拍| 很黄的视频免费| videos熟女内射| 精品欧美一区二区三区在线| 国产欧美日韩一区二区三| 夜夜躁狠狠躁天天躁| 99国产精品免费福利视频| 啦啦啦视频在线资源免费观看| 天天添夜夜摸| 老司机在亚洲福利影院| 制服诱惑二区| 国产男靠女视频免费网站| 国产单亲对白刺激| 精品国产美女av久久久久小说| 50天的宝宝边吃奶边哭怎么回事| 免费高清在线观看日韩| 国产精品国产高清国产av | 国产在线一区二区三区精| 狂野欧美激情性xxxx| 日韩欧美一区视频在线观看| 久9热在线精品视频| 国产精品久久久久久精品古装| 人人妻人人澡人人看| 国产日韩欧美亚洲二区| 日韩欧美在线二视频 | 精品国产国语对白av| 亚洲七黄色美女视频| 亚洲精品一卡2卡三卡4卡5卡| 香蕉国产在线看| 日韩欧美国产一区二区入口| 高清av免费在线| 99热只有精品国产| 亚洲av成人一区二区三| 精品福利永久在线观看| 亚洲精品在线美女| 99久久精品国产亚洲精品| 久久狼人影院| 久久人人爽av亚洲精品天堂| 90打野战视频偷拍视频| 手机成人av网站| 两性夫妻黄色片| 亚洲伊人色综图| 亚洲avbb在线观看| 人人妻人人爽人人添夜夜欢视频| 色综合婷婷激情| 亚洲一码二码三码区别大吗| 亚洲欧美激情在线| 操出白浆在线播放| 国产精品久久久av美女十八| 久久国产精品人妻蜜桃| 久久久国产精品麻豆| 757午夜福利合集在线观看| 在线观看午夜福利视频| 成人国产一区最新在线观看| 人妻久久中文字幕网| 午夜福利,免费看| 亚洲av成人一区二区三| 色精品久久人妻99蜜桃| 大型黄色视频在线免费观看| 久久久国产一区二区| 黄片小视频在线播放| 精品高清国产在线一区| 人成视频在线观看免费观看| 飞空精品影院首页| 国产精品亚洲av一区麻豆| 热99久久久久精品小说推荐| 亚洲中文日韩欧美视频| 69av精品久久久久久| 亚洲精品国产区一区二| 国产97色在线日韩免费| 欧美老熟妇乱子伦牲交| 咕卡用的链子| 99riav亚洲国产免费| 亚洲av成人不卡在线观看播放网| 夫妻午夜视频| 亚洲av日韩精品久久久久久密| 国产精品国产高清国产av | 无遮挡黄片免费观看| 成人18禁在线播放| videosex国产| 国产精品免费视频内射| 国产成人一区二区三区免费视频网站| 欧美黑人精品巨大| 一级毛片高清免费大全| av超薄肉色丝袜交足视频| 午夜精品国产一区二区电影| 美女扒开内裤让男人捅视频| 欧美激情极品国产一区二区三区| 成年人午夜在线观看视频| 亚洲熟女精品中文字幕| 日本欧美视频一区| 精品少妇久久久久久888优播| 狠狠婷婷综合久久久久久88av| 黑人巨大精品欧美一区二区mp4| 国产成人一区二区三区免费视频网站| 日韩欧美一区视频在线观看| 精品高清国产在线一区| 一级,二级,三级黄色视频| 伊人久久大香线蕉亚洲五| 欧美中文综合在线视频| 美女高潮到喷水免费观看| 手机成人av网站| 日韩有码中文字幕| 久久亚洲精品不卡| 热re99久久国产66热| a级毛片在线看网站| 欧美+亚洲+日韩+国产| 欧美国产精品一级二级三级| 人人妻人人澡人人爽人人夜夜| 九色亚洲精品在线播放| 亚洲人成伊人成综合网2020| 1024香蕉在线观看| 国产在视频线精品| 如日韩欧美国产精品一区二区三区| 天天躁狠狠躁夜夜躁狠狠躁| 黄色怎么调成土黄色| 亚洲av日韩在线播放| 女人被躁到高潮嗷嗷叫费观| 免费久久久久久久精品成人欧美视频| 亚洲中文av在线| 黄色成人免费大全| 国产成人一区二区三区免费视频网站| 另类亚洲欧美激情| 香蕉久久夜色| 国产av又大| 国产淫语在线视频| 少妇猛男粗大的猛烈进出视频| 中亚洲国语对白在线视频| 久久精品国产a三级三级三级| 国产人伦9x9x在线观看| 国产精品自产拍在线观看55亚洲 | 午夜老司机福利片| 午夜免费观看网址| 国产免费男女视频| 久久久国产成人免费| 国产精品香港三级国产av潘金莲| 日日摸夜夜添夜夜添小说| 亚洲国产欧美一区二区综合| 精品人妻1区二区| 精品第一国产精品| 亚洲国产精品一区二区三区在线| 久久久久久久国产电影| 黄色丝袜av网址大全| 丝袜美腿诱惑在线| 美女视频免费永久观看网站| 午夜久久久在线观看| 亚洲人成77777在线视频| 成人特级黄色片久久久久久久| 老司机午夜福利在线观看视频| 成年人免费黄色播放视频| 水蜜桃什么品种好| 亚洲成a人片在线一区二区| 国产精品二区激情视频| www日本在线高清视频| 在线观看日韩欧美| 国产精品国产av在线观看| 欧美乱码精品一区二区三区| 欧美成狂野欧美在线观看| 国产淫语在线视频| 9191精品国产免费久久| 久久性视频一级片| 久久狼人影院| 王馨瑶露胸无遮挡在线观看| 国产精华一区二区三区| 美女午夜性视频免费| 看黄色毛片网站| 国产精品成人在线| avwww免费| 韩国av一区二区三区四区| 亚洲熟女精品中文字幕| 精品人妻在线不人妻| 日韩免费高清中文字幕av| 亚洲一卡2卡3卡4卡5卡精品中文| 少妇被粗大的猛进出69影院| 高清欧美精品videossex| 国产欧美日韩综合在线一区二区| 国产一卡二卡三卡精品| 757午夜福利合集在线观看| 日本wwww免费看| 亚洲久久久国产精品| 国产精品99久久99久久久不卡| 性少妇av在线| 亚洲精品美女久久av网站| 亚洲五月色婷婷综合| 自拍欧美九色日韩亚洲蝌蚪91| 一个人免费在线观看的高清视频|