• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)下MongoDB數(shù)據(jù)庫檔案文檔存儲(chǔ)去重研究

    2015-11-17 16:47:46賀建英
    現(xiàn)代電子技術(shù) 2015年16期
    關(guān)鍵詞:大數(shù)據(jù)

    賀建英

    摘 要: 針對(duì)大數(shù)據(jù)下檔案存儲(chǔ)的現(xiàn)狀,通過分析存儲(chǔ)檔案文檔存在重復(fù)的原因,提出一種MongoDB存儲(chǔ)檔案文檔的方法,利用MongoDB的GridFs統(tǒng)一處理不同類型和大小的文件,定義3個(gè)集合分別存儲(chǔ)上傳者記錄、文件信息記錄和分塊文件內(nèi)容,提出存儲(chǔ)中通過文件MD5校驗(yàn)碼值是否相同來進(jìn)行去重研究,并實(shí)現(xiàn)去重的程序代碼,有一定的實(shí)際意義。采用的分布式存儲(chǔ)數(shù)據(jù)庫增強(qiáng)了檔案文檔存儲(chǔ)系統(tǒng)的可擴(kuò)展性。實(shí)驗(yàn)表明,該方法能有效地去除重復(fù)的檔案文檔,提高查詢效率。

    關(guān)鍵詞: MongoDB; MD5; 大數(shù)據(jù); 檔案文檔去重; GridFs

    中圖分類號(hào): TN911?34; TP311 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)16?0051?05

    Research on duplicated document removal in big data archive storage of MongoDB database

    HE Jianying

    (College of Computer, Sichuan University of Arts and Science, Dazhou 635000, China)

    Abstract: In allusion to the present situation in document storage in case of big data, the MongoDB method to save documents is proposed according to the reason analysis of duplication in document storage. GridFs of MongoDB is used to store different type documents. Three different assemblages are definited to store the uploader record, document information record and content of blocked documents respectively. A research is proposed for removing the duplication by checking whether MD5 check code is same or not. It is significant to realize program code for duplicated document removal. The distributive memory database was used to enhance the expandability of the document saving system. The experimental result shows that this method can remove the duplicated documents effectively and improve the efficiency of inquiry.

    Keywords: MongoDB; MD5; big data; file document duplicate removal; GridFs

    0 引 言

    隨著信息技術(shù)的飛躍發(fā)展,各國(guó)各地都在大力發(fā)展電子政務(wù)建設(shè)。在此環(huán)境下檔案局的檔案文檔也跨入了信息化存儲(chǔ)的行列。但檔案局的檔案類型種類較多,除了純文本的之外,還有圖片、聲音、視頻、PDF等各種類型的文檔,這些文檔都是非結(jié)構(gòu)化的數(shù)據(jù),在傳統(tǒng)的信息系統(tǒng)中,存放這些數(shù)據(jù)是比較困難的。因此在大數(shù)據(jù)環(huán)境下,設(shè)計(jì)信息化檔案存儲(chǔ)系統(tǒng)會(huì)首選非結(jié)構(gòu)化的數(shù)據(jù)庫,即NoSQL數(shù)據(jù)庫。利用NoSQL家族中的MongoDB數(shù)據(jù)庫作為存放檔案文檔的非結(jié)構(gòu)化數(shù)據(jù)是較為理想的。MongoDB對(duì)存放大量的非結(jié)構(gòu)化數(shù)據(jù)有很大的優(yōu)勢(shì),但因MongoDB本身就是非結(jié)構(gòu)化的,故在存放信息時(shí)會(huì)產(chǎn)生重復(fù)的數(shù)據(jù)。有人提出了像在關(guān)系數(shù)據(jù)庫中一樣建立關(guān)鍵索引來解決重復(fù)數(shù)據(jù)的問題,但在以文檔方式存儲(chǔ)的數(shù)據(jù)而言,當(dāng)數(shù)據(jù)很大時(shí),這種方式將會(huì)有弊端。本文研究的是在存儲(chǔ)檔案文檔之前就重復(fù)的數(shù)據(jù)進(jìn)行去重處理,然后再存入MongoDB數(shù)據(jù)庫中,這樣在數(shù)據(jù)庫中存放的將是非重復(fù)的數(shù)據(jù)。

    1 傳統(tǒng)的檔案存儲(chǔ)分析

    在原有的存儲(chǔ)檔案文檔信息系統(tǒng)中,主要是把文檔以文件的形式存放在文件系統(tǒng)中,然后用原數(shù)據(jù)信息建立一個(gè)檔案文件和數(shù)據(jù)庫的鏈接,并把該鏈接的路徑存儲(chǔ)在關(guān)系數(shù)據(jù)庫中,如表1和表2所示。

    通過表1和表2的分析可知,表2中filePathId與表1中的filePathId中的字段關(guān)聯(lián) ,這樣在訪問表1中的某個(gè)文件時(shí),只需要訪問表2中與filePathId字段關(guān)聯(lián)的記錄的fileRealPath的值即可訪問該文件。對(duì)于以文件系統(tǒng)方式存放的檔案文件會(huì)產(chǎn)生大量的重復(fù)文件。即使在存儲(chǔ)的時(shí)候能簡(jiǎn)單的通過人工的方式來檢查是否有重復(fù)的文件存放,但也不能大面積的檢查是否有重復(fù)的文件,在這種方式下,存儲(chǔ)空間很快會(huì)被耗盡,要靠不斷的增加存儲(chǔ)設(shè)備來解決大量檔案數(shù)據(jù)存放的問題,而且不利于管理,數(shù)據(jù)極其不安全,擴(kuò)展性較差。人們對(duì)此已有逐步的認(rèn)識(shí),也進(jìn)行了相應(yīng)的研究。本文的重點(diǎn)是利用MongoDB數(shù)據(jù)庫來存儲(chǔ)這些非結(jié)構(gòu)化的數(shù)據(jù),并且在存放之前就完成對(duì)重復(fù)檔案文檔的去重操作。

    表1 文件基本信息表

    表2 文件存儲(chǔ)路徑映射表

    2 基于MongoDB的文檔存儲(chǔ)模型

    2.1 MongoDB的存儲(chǔ)機(jī)制

    MongoDB是NoSql家族中的一員,具有模式自由等特性。它與關(guān)系數(shù)據(jù)庫一樣具有3個(gè)層次:分別是數(shù)據(jù)庫層、集合層、文檔對(duì)象層。分別對(duì)應(yīng)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)庫、表和記錄。在MongoDB中文檔類似于JSON的鍵/值對(duì),集合則是一組文檔的集合,它們是無模式限制的。MongoDB數(shù)據(jù)庫非常適合實(shí)時(shí)數(shù)據(jù)的插入、查詢、更新、刪除及數(shù)據(jù)備份等操作。尤其適合充當(dāng)由幾十臺(tái)或者幾百臺(tái)服務(wù)器組成的集群數(shù)據(jù)庫?,F(xiàn)在大多數(shù)的地理規(guī)劃等領(lǐng)域都在利用MongoDB數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲(chǔ)。MongoDB數(shù)據(jù)庫不僅支持分布式系統(tǒng),它本身還支持分片存儲(chǔ)數(shù)據(jù)(Mongod)、客戶端請(qǐng)求(Clients)、集群配置(Config Server)和路由協(xié)議(Mongos)[1]。它采用的是內(nèi)存映射的方式作為存儲(chǔ)引擎,能有效地提高輸入/輸出的效率[2]。endprint

    2.2 MongoDB數(shù)據(jù)庫中重復(fù)數(shù)據(jù)來源

    目前的檔案管理系統(tǒng)還處于信息孤島的層面,各個(gè)省市的數(shù)據(jù)結(jié)構(gòu)不同,存放的方式也不同,惟一能統(tǒng)一的是從市級(jí)單位及其下級(jí)單位,如區(qū)、縣、鄉(xiāng)、鎮(zhèn)單位。利用檔案管理系統(tǒng)上傳檔案文件進(jìn)行存儲(chǔ)的也是這些相關(guān)單位。如果同一份檔案文檔被市級(jí)單位分發(fā)到其他單位,其他單位會(huì)把它作為重要檔案文檔給上傳到檔案管理系統(tǒng)中存儲(chǔ)起來,這樣就會(huì)產(chǎn)生多個(gè)重復(fù)的檔案文檔。而有部門在不知道的情況下,同一個(gè)人上傳了幾份相同的檔案文檔;或者利用shp文件批量上傳檔案文檔時(shí)遇到其他異常情況,沒有一次性的上傳完,下次再上傳的時(shí)候,又是從頭開始上傳,導(dǎo)致以前的檔案文檔被重復(fù)存儲(chǔ);或者在批量上傳的shp文檔本身被人為的不小心做成了含有重復(fù)的檔案文檔記錄,這樣導(dǎo)入shp文件時(shí)也會(huì)產(chǎn)生重復(fù)記錄。通過對(duì)以上情況的分析可知,檔案文檔存儲(chǔ)時(shí)在MongoDB數(shù)據(jù)庫中產(chǎn)生重復(fù)數(shù)據(jù)的來源主要有以下幾點(diǎn):同一個(gè)檔案文檔被不同的單位、部門重復(fù)上傳;同一個(gè)人對(duì)同一個(gè)檔案文檔上傳多次;批量檔案文檔準(zhǔn)備過程中人為的產(chǎn)生了重復(fù)文檔;批量上傳時(shí),中斷上傳,下次再上傳時(shí)將產(chǎn)生重復(fù)文檔。

    2.3 檔案存儲(chǔ)模型的建立

    檔案存儲(chǔ)時(shí)采用分布式的方式進(jìn)行上傳存儲(chǔ)的,各個(gè)市、區(qū)、縣、鄉(xiāng)、鎮(zhèn)的不同部門可能在不同的時(shí)間和地點(diǎn)對(duì)檔案文檔進(jìn)行上傳操作。數(shù)據(jù)庫采用MongoDB數(shù)據(jù)庫,其分布式存儲(chǔ)結(jié)構(gòu)如圖1所示。

    圖1 分布式數(shù)據(jù)庫存儲(chǔ)圖

    從圖1可以看出,各市、縣、鄉(xiāng)、鎮(zhèn)的用戶可以隨時(shí)在不同地點(diǎn)上傳檔案文檔到不同的MongoDB服務(wù)器中,操作方便。檔案文檔不同于一般的文檔,將遵循“誰操作誰負(fù)責(zé)”的原則。故將設(shè)置上傳者的權(quán)限,且將記錄上傳者的詳細(xì)信息:如上傳時(shí)間、地點(diǎn)等的一些信息。而對(duì)于檔案文檔本身而言其文件大小不能統(tǒng)一標(biāo)準(zhǔn)化,且檔案文檔的格式有差異,考慮到要處理數(shù)據(jù)大小和類型都可能不同的檔案文檔,本文將借助于MongoDB的GridFs來處理,GridFs是一種處理大文件的規(guī)范,可以存儲(chǔ)上百萬的文件而不用擔(dān)心其擴(kuò)容性[3]。在MongoDB中存放數(shù)據(jù)時(shí)將涉及到3個(gè)集合:userInfo.users,fileInfo.files,fileContent.chunks。

    userInfo.users集合用來存放上傳檔案文檔的上傳者信息,其結(jié)構(gòu)如下:

    {

    “_ID”: //惟一值

    “UserID”: //用戶的ID值

    “UploadGeography”: //上傳的地理位置

    “GeoType”: //地址位置的類型,如城//鎮(zhèn)、居民點(diǎn)等

    “UploadGeoName”: //地理名稱

    “UploadGeoNameID”:< String > //地理名稱主鍵值

    “UploadGeoAddress”: //上傳的城鎮(zhèn)地址等

    “CityName”: //城鎮(zhèn)名稱

    “CountyName”:< String > //縣級(jí)名稱

    “TownName”:< String > //鄉(xiāng)鎮(zhèn)名稱

    “StreetName”:< String > //街道名稱

    “GeoPts”: //地理坐標(biāo)

    “Type”:< String > //坐標(biāo)類型

    “GeoCoordinates”:< String > //坐標(biāo)位置

    “UploadFileID”:< objectID> //上傳存放文件信息的ID編號(hào)

    “UploadTime”:< timestamp > //上傳者操作的

    //體時(shí)間

    “UploadCount”: //同一文檔上傳的次數(shù)

    }

    fileInfo.files集合中存放信息的結(jié)構(gòu)為:

    {

    “fileID”:

    //存放文件ID值與userInfo.users集合中upLoadFileID對(duì)應(yīng)

    “fileLength”:< num > //文件的大小

    “fileChuckSize”:< num > //文件分塊存儲(chǔ)的分塊數(shù)

    “fileName”:< String > //上傳文件的名稱

    “fileMD5”:< hash > //文件內(nèi)容的MD5校驗(yàn)碼值

    “fileCountType”:< String > //文件的類型

    }

    fileContent.chucks集合中存放上傳文檔的結(jié)構(gòu)如下:

    {

    “f_ID”:< objectID > //惟一的值

    “fileID”:< objectID > //與fileInfo.files集

    //合中的fileID對(duì)應(yīng)

    “countOrder”:< num > //存放上傳文件的第幾個(gè)分塊

    “countData”:< binary > //存放文檔對(duì)應(yīng)分塊部分//的二進(jìn)制內(nèi)容

    }

    集合fileInfo.files中的fileID與集合userInfo.users集合中的upLaodfileID相同,用來關(guān)聯(lián)上傳的文件信息。集合fileContent.chucks中的fileID與集合fileInfo.files中的fileID相同,用來關(guān)聯(lián)文件存放的具體內(nèi)容,根據(jù)上面3個(gè)集合中結(jié)構(gòu)的設(shè)計(jì),當(dāng)一個(gè)具有操作權(quán)限的用戶在某一地點(diǎn)上傳了某個(gè)檔案文件后,將記錄該用戶上傳的詳細(xì)信息:如操作者,上傳的具體區(qū)、縣、鄉(xiāng)的詳細(xì)地址,上傳的日期、文件名、文件的大小、長(zhǎng)度、類型等。當(dāng)該用戶再次上傳相同的檔案文檔時(shí),根據(jù)表的關(guān)聯(lián)查找,將會(huì)做出已在同一地點(diǎn)或不同地點(diǎn)已經(jīng)上傳了相同的檔案文件的提示信息。

    3 MongoDB中的去重算法

    本算法的設(shè)計(jì)思想是,根據(jù)上傳的檔案文檔判斷,無論是否已經(jīng)被上傳過,都會(huì)存儲(chǔ)上傳檔案文檔操作者的相關(guān)信息,即生成一個(gè)userInfo.users集合中的一條記錄。上傳檔案文件時(shí)為了節(jié)省服務(wù)器的開銷和資源,所上傳文檔的MD5 校驗(yàn)碼值的計(jì)算都會(huì)在客戶端進(jìn)行。在客戶端計(jì)算并上傳檔案文檔的MD5校驗(yàn)碼值后再在分布式存儲(chǔ)數(shù)據(jù)庫中查找遍歷fileInfo.files中的每一條記錄,查看每條記錄中存儲(chǔ)的檔案文檔的MD5碼值是否與將要上傳的檔案文檔的MD5碼值相同,如果不同,則將在userInfo.user集合中存儲(chǔ)一條上傳者信息的記錄,并且把該記錄中的“UploadCount”值設(shè)置為1。同時(shí)生成集合fileInfo.files中的一條記錄,在該記錄中通過“fileMD5”存儲(chǔ)檔案文檔的MD5碼值。獲得要上傳的檔案文檔的大小fileSize,確定檔案分塊存儲(chǔ)的總塊數(shù)fileChuckSize。在算法中為了規(guī)范,不管文件的大小和類型,均采用統(tǒng)一大?。╢ixedSize)的分塊對(duì)檔案文檔進(jìn)行存放,即總分塊數(shù)如下所示:

    fileChuckSize=(fileSize%fixedSize)?(fileSize/fixedSize):

    (fileSize/fixedSize+1)

    并把該值記錄到fileInfo.files集合中對(duì)應(yīng)記錄中。然后對(duì)檔案文檔進(jìn)行上傳并對(duì)文檔內(nèi)容按固定的分塊大小存放到fileContent.chucks集合中,在該集合里會(huì)存儲(chǔ)fileChuckSize條記錄。如果要上傳的檔案文檔的MD5碼值和分布式數(shù)據(jù)庫中存儲(chǔ)的fileInfo.files集合中存儲(chǔ)的某個(gè)記錄的fileMD5值相同,則取出該條記錄對(duì)應(yīng)的fileID值并把該值存放到一個(gè)臨時(shí)存儲(chǔ)字段tempFileID中,已備后期使用。然后提取上傳者的信息和tempFileID的值組合成userInfo.users集合中的一條記錄,并與集合中的其他記錄進(jìn)行比較,如果有相同的記錄,則在該條記錄的UploadCount值加1。而組合的這條記錄將不再存儲(chǔ)在userInfo.users集合中。其中UploadCount值加1是判斷該用戶是否經(jīng)常在同一個(gè)地點(diǎn)上傳相同的檔案文檔。

    如果在該集合中沒有相同的記錄,則存儲(chǔ)該組合好的記錄。下次在訪問這個(gè)檔案文檔時(shí),通過userInfo.users集合中的upLoadfileID關(guān)聯(lián)到fileInfo.files集合,再通過fileInfo.files集合中的fileID關(guān)聯(lián)到fileContent.chucks集合,則順利訪問到需要的檔案文檔,其過程流程圖如圖2所示。

    根據(jù)算法流程圖,定義幾個(gè)類UserInfo,F(xiàn)ileInfo,F(xiàn)ileContent分別對(duì)應(yīng)3個(gè)集合,定義操作數(shù)據(jù)庫的類DBObj,定義去重的類RemoveRepeat。

    圖2 算法流程圖

    去重的關(guān)鍵代碼實(shí)現(xiàn)如下:

    / *在fileInfo.files集合中查找有沒有與指定的hashMD5碼相同的記錄存在*/

    private String findByFileMD5(hash fileMD5) {

    String tempFileID=null;

    List repeatList = new ArrayList();

    GeoEntiy ge = null;

    /*取得傳遞的fileMD5參數(shù) */

    String json = "{fileMD5 : \"" + fileMD5 + "\"}";

    DBObj fileMD5 = (DBObj) JSON.parse(json);

    DBCursor dbcursor = getDBColl().find(fileMD5);

    /* 根據(jù)坐標(biāo)點(diǎn)查詢的記錄數(shù)量*/

    int rowCount = dbcursor.count();

    /*如果結(jié)果大于0則說明有相同的MD5碼存在,則存放該記錄的fileID值*/

    if (rowCount > 0) {

    tempFileID= rowCount.get("fileID").toString();

    }

    }

    return tempFileID;

    }

    public List findRepeatData() {

    /* 構(gòu)建數(shù)據(jù)查重的MongoDB語句,并進(jìn)行查重 */

    DBObj groupObj = new BasicDBObj("$group", JSON.parse(" {_ID: { "

    + " UserID : \"$UserID\" , "

    + " UploadGeography : \"$UploadGeography\" "

    + " GeoType : \"$GeoType\" , "

    + " UploadGeoName : \"$UploadGeoName\" , "

    + " UploadGeoNameID: \"$UploadGeoNameID\" , "

    + " UploadGeoAddress : \"$UploadGeoAddress\" , "

    + " CityName : \"$CityName\" , "

    + " CountyName : \"$CountyName\" , "

    + " TownName : \"$TownName\" , "

    + " StreetName : \"$StreetName\" , "

    + " GeoPts : \"$GeoPts\" , "+ " Type : \"$Type\" , "

    + " GeoCoordinates: \"$UploadFileID\" , "

    + " UploadTime : \"$UploadTime\" , "

    + " UploadCount: \"$UploadCount\");

    // 排序條件 ?? 按照關(guān)鍵字_ID降序排列

    DBObj sortObj = new BasicDBObj("$sort",JSON.parse("{ _ID:?1 }"));

    // 確定疑似重復(fù)數(shù)據(jù)的條件返回的結(jié)果為1

    DBObj matchObj = new BasicDBObj("$match",JSON.parse("{ _ID:?1 });

    // key code

    AggregationOutput output = getDBColl().aggregate(groupObj, sortObj,matchObj);

    Iterator iter = output.results().iterator();

    //獲取查詢結(jié)果集

    List list = new ArrayList();

    while (iter.hasNext()) {

    DBObj dbo = iter.next();

    String _idValue = dbo.get("_ID").toString();

    //通過key,獲取對(duì)應(yīng)的value

    if (_idValue != null) {//如果查詢結(jié)果不為空,則將結(jié)

    果轉(zhuǎn)換

    JSONObj pointJson = com.alibaba.fastjson.JSON.parseObject(_idValue);

    // 如果存在坐標(biāo)點(diǎn)或有想太多 其他值,則獲取

    if (pointJson.get("GeoPts") != null) {

    list.addAll(findByPoints(pointJson.get("GeoPts").toString()));

    }

    }

    }

    return list;

    }

    在代碼中定義了findByFileMD5()方法判斷在已經(jīng)存儲(chǔ)的fileInfo.files集合的記錄中有沒有與將要上傳的檔案文檔的MD5校驗(yàn)碼相同的記錄存在。定義方法findRepeatData()用來檢查有無重復(fù)上傳檔案文檔上傳者信息,即判斷在usersInfo.user中有沒有重復(fù)的數(shù)據(jù)記錄,這些方法在批量導(dǎo)入數(shù)據(jù)記錄時(shí)也會(huì)調(diào)用逐一判斷。

    4 實(shí)驗(yàn)結(jié)果與分析

    本實(shí)驗(yàn)使用Hadoop作為分布式文件系統(tǒng)運(yùn)行在不同地理位置的10臺(tái)主機(jī)組成的集群上,在Window7系統(tǒng)中,采用MyEclipse8.5做Java代碼開發(fā),分布式數(shù)據(jù)庫MongoDB作數(shù)據(jù)存儲(chǔ),采用的是8核CPU,8 GB內(nèi)存,320 GB硬盤。批量導(dǎo)入使用的是shp文件。shp文件的格式定義同集合文件的格式。對(duì)單個(gè)的文檔上傳進(jìn)行驗(yàn)證無誤外,為了對(duì)更多的數(shù)據(jù)進(jìn)行驗(yàn)證,在shp文件中模擬產(chǎn)生10萬,20萬,30萬數(shù)據(jù)。結(jié)果如圖3所示。

    圖3 實(shí)驗(yàn)數(shù)據(jù)測(cè)試結(jié)果圖

    該方法在數(shù)據(jù)去重中達(dá)到90%以上,去重效果還比較理想。算法采用的是分布式文件系統(tǒng),對(duì)文件去重效率較高,且系統(tǒng)具有相應(yīng)的擴(kuò)展性。

    5 結(jié) 語

    本算法中采用分布式文件系統(tǒng)和分布式數(shù)據(jù)庫MongoDB對(duì)檔案文檔進(jìn)行存儲(chǔ)和去重,利用MongoDB數(shù)據(jù)庫的GridFs來處理不同類型和大小的檔案文檔,統(tǒng)一對(duì)檔案文檔進(jìn)行處理。提出利用了去重的算法思想,并通過實(shí)驗(yàn)?zāi)M測(cè)試去重效果較為理性。該方法具有一定的可行性。為以后大數(shù)據(jù)的存儲(chǔ)的去重有一定的借鑒性。

    參考文獻(xiàn)

    [1] 雷德龍,郭殿升,陳崇成,等.基于MongoDB的矢量空間數(shù)據(jù)云存儲(chǔ)與處理系統(tǒng)[J].地理信息科學(xué),2014(7):508?514.

    [2] 吳秀君.面向電子政務(wù)的MongoDB與MySQL混合存儲(chǔ)策略[J].計(jì)算機(jī)與現(xiàn)代化,2014(8):62?65.

    [3] CHODOROW Kristina.MongoDB 權(quán)威指南[M].北京:人民郵電出版社,2010.

    [4] 郭武士.基于MongoDB GridFS的圖片存儲(chǔ)方案的實(shí)現(xiàn)[J].四川工程職業(yè)技術(shù)學(xué)院學(xué)報(bào),2011(4):41?43.

    [5] 衛(wèi)啟云,渠偉勇,黃鴻,等.城市地理編碼的部門信息共享與應(yīng)用實(shí)踐[J].測(cè)繪通報(bào),2014(10):101?104.

    [6] 陳超,王亮,閆浩文,等.一種基于NoSQL 的地圖瓦片數(shù)據(jù)存儲(chǔ)技術(shù)[J].測(cè)繪科學(xué),2013(1):142?143.

    [7] MANBER U. Finding similar files in a large file system [C]// Proceedings of the Winter 1994 USENIX Technical Conference. San Fransisco, CA, USA: [s.n.], 1994: 1?10.

    [8] BRODER A Z. On the resemblance and containment of documents [C]// Proceedings of the International Conference on Compression and Complexity of Sequences. Salerno, Italy: [s.n.], 1997: 21?29.

    [9] 孫有軍,張大興.海量圖片文件存儲(chǔ)去重技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014(4):56?57.

    [10] RIVEST R. The MD5 message?digest algorithm [J]. RFC 1321, Internet Engineering Task Force, 1992, 22(1) : 15?26.

    [11] 成功,李小正,趙全軍.一種網(wǎng)絡(luò)爬蟲系統(tǒng)中URL去重方法的研究[J].中國(guó)新技術(shù)新產(chǎn)品,2014(12):23?24.

    [12] 楊祥清.存儲(chǔ)系統(tǒng)數(shù)據(jù)去重策略研究[J].信息通信,2014(8):132?133.

    [13] 高翔,李兵.中文短文本去重方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2014(16):196?201.

    猜你喜歡
    大數(shù)據(jù)
    基于在線教育的大數(shù)據(jù)研究
    “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
    基于大數(shù)據(jù)的小微電商授信評(píng)估研究
    大數(shù)據(jù)時(shí)代新聞的新變化探究
    商(2016年27期)2016-10-17 06:26:00
    淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
    今傳媒(2016年9期)2016-10-15 23:35:12
    “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
    今傳媒(2016年9期)2016-10-15 22:09:11
    大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
    新聞世界(2016年10期)2016-10-11 20:13:53
    基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
    科技視界(2016年20期)2016-09-29 10:53:22
    數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
    脱女人内裤的视频| 无限看片的www在线观看| 性少妇av在线| 欧美中文日本在线观看视频| 免费女性裸体啪啪无遮挡网站| 精品一区二区三卡| 欧美av亚洲av综合av国产av| 在线视频色国产色| 涩涩av久久男人的天堂| 亚洲精品在线观看二区| 国产精品影院久久| 亚洲成人免费av在线播放| 成人av一区二区三区在线看| 亚洲成人久久性| 纯流量卡能插随身wifi吗| 色哟哟哟哟哟哟| 精品一区二区三区视频在线观看免费 | 啪啪无遮挡十八禁网站| 亚洲精华国产精华精| 久久久久久久精品吃奶| 麻豆av在线久日| 国产成人精品无人区| 久久久久久久久久久久大奶| 久久久久久久精品吃奶| 久久精品成人免费网站| 淫秽高清视频在线观看| 亚洲久久久国产精品| 黄色视频不卡| 国产一区二区三区在线臀色熟女 | 在线观看舔阴道视频| 好看av亚洲va欧美ⅴa在| www日本在线高清视频| 国产精品99久久99久久久不卡| 亚洲三区欧美一区| 午夜视频精品福利| 日本欧美视频一区| 国产欧美日韩一区二区三| 视频区欧美日本亚洲| 亚洲七黄色美女视频| 69av精品久久久久久| av超薄肉色丝袜交足视频| 国产欧美日韩综合在线一区二区| 精品久久蜜臀av无| 交换朋友夫妻互换小说| 啦啦啦 在线观看视频| 一级a爱视频在线免费观看| av网站在线播放免费| 国产欧美日韩一区二区精品| 久久香蕉激情| 黄色丝袜av网址大全| 色综合婷婷激情| 日韩免费高清中文字幕av| 女人被躁到高潮嗷嗷叫费观| 亚洲人成网站在线播放欧美日韩| 欧洲精品卡2卡3卡4卡5卡区| 国产麻豆69| 性少妇av在线| 亚洲国产中文字幕在线视频| 国产成人av激情在线播放| 咕卡用的链子| 国产精品亚洲一级av第二区| 国产亚洲精品第一综合不卡| av视频免费观看在线观看| 亚洲av成人av| 亚洲九九香蕉| 嫁个100分男人电影在线观看| 午夜精品久久久久久毛片777| 亚洲免费av在线视频| 久久伊人香网站| 91在线观看av| 变态另类成人亚洲欧美熟女 | 免费在线观看影片大全网站| 男女午夜视频在线观看| 巨乳人妻的诱惑在线观看| 99热只有精品国产| 成人18禁高潮啪啪吃奶动态图| 黑人欧美特级aaaaaa片| 国产熟女xx| 一边摸一边做爽爽视频免费| 一进一出抽搐gif免费好疼 | 欧美一级毛片孕妇| 成人18禁高潮啪啪吃奶动态图| 成人精品一区二区免费| 日韩国内少妇激情av| 欧美成人午夜精品| 成人av一区二区三区在线看| 在线观看一区二区三区激情| a级片在线免费高清观看视频| 精品久久久久久久毛片微露脸| 最近最新中文字幕大全免费视频| 超色免费av| 亚洲成国产人片在线观看| 成人亚洲精品av一区二区 | 老熟妇仑乱视频hdxx| 新久久久久国产一级毛片| 午夜免费观看网址| 亚洲性夜色夜夜综合| 亚洲精华国产精华精| 午夜老司机福利片| 少妇的丰满在线观看| 久久伊人香网站| 久久久精品国产亚洲av高清涩受| 欧美中文综合在线视频| 免费在线观看日本一区| 亚洲一区中文字幕在线| 亚洲 欧美 日韩 在线 免费| 亚洲欧美日韩无卡精品| 亚洲av美国av| 51午夜福利影视在线观看| 制服诱惑二区| 在线播放国产精品三级| 亚洲午夜理论影院| 亚洲国产精品合色在线| ponron亚洲| 国产免费av片在线观看野外av| 国产亚洲欧美在线一区二区| 国产精品久久久久久人妻精品电影| 美女 人体艺术 gogo| 欧美日韩亚洲国产一区二区在线观看| 亚洲色图综合在线观看| 激情在线观看视频在线高清| 18禁观看日本| 在线永久观看黄色视频| videosex国产| 久久久久国内视频| 少妇的丰满在线观看| 一级毛片高清免费大全| 中文亚洲av片在线观看爽| av欧美777| 成人免费观看视频高清| 男人的好看免费观看在线视频 | 亚洲情色 制服丝袜| 国产免费男女视频| 99久久人妻综合| 欧美激情 高清一区二区三区| 日韩av在线大香蕉| 桃色一区二区三区在线观看| 精品卡一卡二卡四卡免费| 久久久久久人人人人人| 亚洲av美国av| 日韩大码丰满熟妇| 国产精品 欧美亚洲| 老熟妇乱子伦视频在线观看| 亚洲国产毛片av蜜桃av| av有码第一页| 真人一进一出gif抽搐免费| 搡老乐熟女国产| 又紧又爽又黄一区二区| 黄色女人牲交| 母亲3免费完整高清在线观看| 大码成人一级视频| netflix在线观看网站| 久久久久亚洲av毛片大全| 国产一区二区三区综合在线观看| 麻豆av在线久日| 高清av免费在线| 757午夜福利合集在线观看| 新久久久久国产一级毛片| 国产免费现黄频在线看| 中文欧美无线码| 亚洲欧洲精品一区二区精品久久久| 国产免费男女视频| 亚洲自拍偷在线| 成人亚洲精品一区在线观看| 男人的好看免费观看在线视频 | 黑人巨大精品欧美一区二区mp4| 一区福利在线观看| 在线看a的网站| 欧美一级毛片孕妇| av电影中文网址| 97碰自拍视频| 黄色视频不卡| 麻豆国产av国片精品| 在线播放国产精品三级| 激情在线观看视频在线高清| 91成人精品电影| 国产一区二区激情短视频| 在线观看免费日韩欧美大片| 国产精品永久免费网站| a级毛片黄视频| 国产在线观看jvid| 日韩视频一区二区在线观看| 两性夫妻黄色片| 久久热在线av| 欧美日韩瑟瑟在线播放| 神马国产精品三级电影在线观看 | 国产高清激情床上av| 国产欧美日韩一区二区三| 精品福利永久在线观看| 久久精品国产99精品国产亚洲性色 | 亚洲av日韩精品久久久久久密| 两性夫妻黄色片| av天堂久久9| 变态另类成人亚洲欧美熟女 | 免费av毛片视频| 日韩高清综合在线| 高清在线国产一区| 亚洲精品av麻豆狂野| 妹子高潮喷水视频| 亚洲男人天堂网一区| 在线观看午夜福利视频| svipshipincom国产片| www日本在线高清视频| 亚洲自拍偷在线| 亚洲第一青青草原| 免费搜索国产男女视频| 亚洲男人的天堂狠狠| 在线十欧美十亚洲十日本专区| 涩涩av久久男人的天堂| 国产一区二区三区在线臀色熟女 | 久久婷婷成人综合色麻豆| 国产91精品成人一区二区三区| 丝袜人妻中文字幕| 国产高清国产精品国产三级| 久久香蕉精品热| av视频免费观看在线观看| 男女下面插进去视频免费观看| 欧美一级毛片孕妇| 老司机深夜福利视频在线观看| 91字幕亚洲| 一二三四社区在线视频社区8| 两性夫妻黄色片| xxxhd国产人妻xxx| 女人被躁到高潮嗷嗷叫费观| 久久精品影院6| 欧美人与性动交α欧美精品济南到| av国产精品久久久久影院| 超碰97精品在线观看| 在线永久观看黄色视频| 中亚洲国语对白在线视频| 黄色丝袜av网址大全| 国产精品亚洲一级av第二区| 免费av毛片视频| 免费看十八禁软件| 国产精品亚洲av一区麻豆| 不卡av一区二区三区| 搡老岳熟女国产| 高清黄色对白视频在线免费看| 高清av免费在线| 成年版毛片免费区| 国产91精品成人一区二区三区| 欧美色视频一区免费| 国产1区2区3区精品| 午夜影院日韩av| 日本a在线网址| 欧美另类亚洲清纯唯美| 亚洲欧美精品综合一区二区三区| 亚洲国产精品sss在线观看 | 自拍欧美九色日韩亚洲蝌蚪91| 高清欧美精品videossex| 亚洲国产毛片av蜜桃av| 亚洲av第一区精品v没综合| 操出白浆在线播放| 国产成人av教育| 免费一级毛片在线播放高清视频 | 侵犯人妻中文字幕一二三四区| 99久久人妻综合| 国产精品一区二区三区四区久久 | 正在播放国产对白刺激| 欧美成人午夜精品| 亚洲视频免费观看视频| 中亚洲国语对白在线视频| 丰满迷人的少妇在线观看| 欧美成人午夜精品| 欧美日本中文国产一区发布| 精品无人区乱码1区二区| 丝袜美足系列| 亚洲欧美日韩无卡精品| 夜夜爽天天搞| 丰满迷人的少妇在线观看| 久久精品91蜜桃| 国产一区二区激情短视频| 亚洲成a人片在线一区二区| 色播在线永久视频| 欧美日本亚洲视频在线播放| 男女下面插进去视频免费观看| 在线播放国产精品三级| 国产亚洲精品久久久久久毛片| 日韩欧美三级三区| 久久久国产成人免费| 国产激情欧美一区二区| 精品电影一区二区在线| 久久中文字幕一级| 高清av免费在线| 国产视频一区二区在线看| 99精品欧美一区二区三区四区| 久久性视频一级片| 黄片播放在线免费| 麻豆久久精品国产亚洲av | 日韩大尺度精品在线看网址 | 精品一区二区三卡| 男人的好看免费观看在线视频 | 热re99久久精品国产66热6| 黄色视频不卡| 97超级碰碰碰精品色视频在线观看| 日韩免费高清中文字幕av| 男女下面进入的视频免费午夜 | 又黄又粗又硬又大视频| 男人舔女人下体高潮全视频| 18美女黄网站色大片免费观看| 9色porny在线观看| 久久人人97超碰香蕉20202| 久久久精品欧美日韩精品| 老司机午夜福利在线观看视频| 国产精品乱码一区二三区的特点 | 性欧美人与动物交配| 国产伦一二天堂av在线观看| 日本 av在线| 久久九九热精品免费| 99精品在免费线老司机午夜| 999久久久国产精品视频| 99国产综合亚洲精品| 美女扒开内裤让男人捅视频| 精品少妇一区二区三区视频日本电影| 少妇被粗大的猛进出69影院| 欧美乱妇无乱码| 丝袜美足系列| 美女午夜性视频免费| 日韩大码丰满熟妇| 黄色毛片三级朝国网站| 午夜影院日韩av| 亚洲一码二码三码区别大吗| 两个人看的免费小视频| 国产高清视频在线播放一区| 久久人妻福利社区极品人妻图片| 国产激情久久老熟女| 亚洲精品在线美女| 亚洲片人在线观看| 一区二区三区精品91| 啦啦啦在线免费观看视频4| 亚洲国产精品sss在线观看 | 最新美女视频免费是黄的| 女人被躁到高潮嗷嗷叫费观| 天天添夜夜摸| 老司机午夜福利在线观看视频| 国产视频一区二区在线看| 欧美日韩中文字幕国产精品一区二区三区 | 一进一出抽搐gif免费好疼 | 日韩国内少妇激情av| 国产成年人精品一区二区 | 乱人伦中国视频| 亚洲国产精品一区二区三区在线| 91大片在线观看| 亚洲自拍偷在线| 99riav亚洲国产免费| 麻豆一二三区av精品| 国产xxxxx性猛交| 午夜免费激情av| 亚洲国产欧美网| 久久狼人影院| 久久午夜亚洲精品久久| 搡老熟女国产l中国老女人| 国产精品久久久人人做人人爽| 麻豆国产av国片精品| 免费在线观看视频国产中文字幕亚洲| 男女做爰动态图高潮gif福利片 | 国产精品av久久久久免费| 多毛熟女@视频| 伊人久久大香线蕉亚洲五| 在线看a的网站| 黄色毛片三级朝国网站| 国产精品香港三级国产av潘金莲| 久久久国产成人免费| 欧美激情久久久久久爽电影 | 91成年电影在线观看| av片东京热男人的天堂| 国产精品1区2区在线观看.| 国产不卡一卡二| 国产精品成人在线| 中文字幕精品免费在线观看视频| 宅男免费午夜| 国产亚洲欧美98| 精品国产亚洲在线| 免费女性裸体啪啪无遮挡网站| 日韩大尺度精品在线看网址 | 99热只有精品国产| 中文字幕色久视频| 黄网站色视频无遮挡免费观看| 日韩视频一区二区在线观看| 搡老乐熟女国产| 亚洲国产精品sss在线观看 | 热re99久久国产66热| 久久精品国产亚洲av香蕉五月| 99在线视频只有这里精品首页| 国产精品免费视频内射| 久久久国产精品麻豆| 免费av中文字幕在线| av天堂在线播放| 久久精品成人免费网站| 国产伦一二天堂av在线观看| 亚洲av美国av| 老司机福利观看| 久久人人97超碰香蕉20202| 久久久久国内视频| 搡老熟女国产l中国老女人| 久久中文看片网| 亚洲第一欧美日韩一区二区三区| 在线观看www视频免费| 免费观看人在逋| 久久青草综合色| 日韩精品免费视频一区二区三区| 成人黄色视频免费在线看| 欧美国产精品va在线观看不卡| 88av欧美| 女人被狂操c到高潮| 午夜视频精品福利| 中国美女看黄片| 无限看片的www在线观看| www.999成人在线观看| 人妻久久中文字幕网| 一进一出抽搐gif免费好疼 | 亚洲av五月六月丁香网| 国产成人精品在线电影| 国产精品永久免费网站| 美女大奶头视频| 午夜老司机福利片| 亚洲精品在线美女| 亚洲黑人精品在线| 国产成+人综合+亚洲专区| 国产黄a三级三级三级人| 在线播放国产精品三级| 久久久国产欧美日韩av| 真人一进一出gif抽搐免费| 亚洲精品一卡2卡三卡4卡5卡| 淫秽高清视频在线观看| 久久热在线av| 在线观看一区二区三区| 日本wwww免费看| 国产成人欧美| av超薄肉色丝袜交足视频| 欧美人与性动交α欧美软件| 亚洲熟妇熟女久久| 正在播放国产对白刺激| 国产又爽黄色视频| 国产欧美日韩综合在线一区二区| 久久香蕉精品热| 久久亚洲真实| 757午夜福利合集在线观看| 国产成人精品在线电影| 国产在线精品亚洲第一网站| avwww免费| 亚洲免费av在线视频| 色哟哟哟哟哟哟| a在线观看视频网站| av免费在线观看网站| 日日干狠狠操夜夜爽| 亚洲欧美一区二区三区久久| 女生性感内裤真人,穿戴方法视频| xxx96com| av视频免费观看在线观看| 婷婷六月久久综合丁香| 黑人巨大精品欧美一区二区mp4| 欧美日韩亚洲综合一区二区三区_| 淫妇啪啪啪对白视频| 国产不卡一卡二| 久久午夜亚洲精品久久| 又黄又爽又免费观看的视频| 五月开心婷婷网| 黄色a级毛片大全视频| 亚洲片人在线观看| 女人被狂操c到高潮| 少妇粗大呻吟视频| 日韩大码丰满熟妇| 亚洲一区中文字幕在线| 国产精品自产拍在线观看55亚洲| 欧美最黄视频在线播放免费 | 十八禁人妻一区二区| 97人妻天天添夜夜摸| 大陆偷拍与自拍| 99精品在免费线老司机午夜| 亚洲视频免费观看视频| 人妻久久中文字幕网| 日韩成人在线观看一区二区三区| 午夜老司机福利片| 老汉色∧v一级毛片| 18美女黄网站色大片免费观看| 欧美性长视频在线观看| 国产精品爽爽va在线观看网站 | 男人舔女人下体高潮全视频| 日本vs欧美在线观看视频| 久久婷婷成人综合色麻豆| 亚洲人成电影观看| 在线十欧美十亚洲十日本专区| videosex国产| 日韩大尺度精品在线看网址 | 亚洲精品国产精品久久久不卡| 日本三级黄在线观看| 亚洲美女黄片视频| 中文字幕人妻熟女乱码| 国产精品亚洲一级av第二区| 免费搜索国产男女视频| 757午夜福利合集在线观看| 中文字幕另类日韩欧美亚洲嫩草| 国产成人精品久久二区二区免费| 99在线人妻在线中文字幕| 免费在线观看日本一区| 黄片小视频在线播放| 搡老乐熟女国产| 一区二区日韩欧美中文字幕| 午夜成年电影在线免费观看| 国产野战对白在线观看| 最新在线观看一区二区三区| 村上凉子中文字幕在线| 人人妻人人澡人人看| 久久久久久人人人人人| 制服诱惑二区| 99久久久亚洲精品蜜臀av| 国产欧美日韩综合在线一区二区| 久久婷婷成人综合色麻豆| 男人操女人黄网站| 丝袜在线中文字幕| 久久久国产成人免费| 女人被躁到高潮嗷嗷叫费观| 如日韩欧美国产精品一区二区三区| 亚洲熟女毛片儿| 这个男人来自地球电影免费观看| 在线观看免费视频日本深夜| 日韩人妻精品一区2区三区| 精品福利观看| 中亚洲国语对白在线视频| 精品少妇一区二区三区视频日本电影| 亚洲人成电影观看| 亚洲中文字幕日韩| 久久精品91无色码中文字幕| 日韩精品中文字幕看吧| 精品福利永久在线观看| 女性被躁到高潮视频| 狠狠狠狠99中文字幕| 色老头精品视频在线观看| 啪啪无遮挡十八禁网站| 97人妻天天添夜夜摸| 男女下面插进去视频免费观看| 久久久久国产精品人妻aⅴ院| 亚洲一码二码三码区别大吗| 国产乱人伦免费视频| 99riav亚洲国产免费| 妹子高潮喷水视频| 在线观看日韩欧美| 纯流量卡能插随身wifi吗| 日本wwww免费看| 色在线成人网| 91麻豆av在线| 国产av一区二区精品久久| 国产aⅴ精品一区二区三区波| 免费在线观看完整版高清| 精品一区二区三区av网在线观看| 老汉色av国产亚洲站长工具| 亚洲精品av麻豆狂野| 露出奶头的视频| 一本大道久久a久久精品| 狠狠狠狠99中文字幕| 97人妻天天添夜夜摸| 18禁裸乳无遮挡免费网站照片 | 免费观看人在逋| 曰老女人黄片| a级毛片在线看网站| 97人妻天天添夜夜摸| 久久精品91无色码中文字幕| 日韩中文字幕欧美一区二区| 制服诱惑二区| 91字幕亚洲| 狂野欧美激情性xxxx| 男女下面进入的视频免费午夜 | 巨乳人妻的诱惑在线观看| 日韩欧美在线二视频| 宅男免费午夜| 国产精品电影一区二区三区| 露出奶头的视频| 国产精品久久久久成人av| 久久99一区二区三区| 午夜激情av网站| 又大又爽又粗| 999久久久精品免费观看国产| 三级毛片av免费| 成人三级黄色视频| 日韩欧美在线二视频| 18禁国产床啪视频网站| 黄色a级毛片大全视频| 成人免费观看视频高清| 欧美人与性动交α欧美软件| 母亲3免费完整高清在线观看| 午夜两性在线视频| 亚洲人成电影免费在线| 成人av一区二区三区在线看| bbb黄色大片| 色在线成人网| 一级片'在线观看视频| 国产91精品成人一区二区三区| 免费在线观看日本一区| 俄罗斯特黄特色一大片| 曰老女人黄片| 成年人黄色毛片网站| 亚洲伊人色综图| 欧美另类亚洲清纯唯美| 99精品欧美一区二区三区四区| 91精品国产国语对白视频| 久久人妻熟女aⅴ| 在线观看66精品国产| av福利片在线| 最好的美女福利视频网| 精品欧美一区二区三区在线| av在线播放免费不卡| 久久热在线av| 亚洲人成77777在线视频| 亚洲国产精品合色在线| 国产黄色免费在线视频| 午夜视频精品福利| 欧美丝袜亚洲另类 | 在线观看66精品国产| 欧美色视频一区免费| 日本五十路高清| 免费久久久久久久精品成人欧美视频| 99热只有精品国产| 丝袜美足系列| 欧美成人性av电影在线观看|