• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于關(guān)聯(lián)規(guī)則的氣象服務(wù)智能推薦

      2018-04-12 03:20:33趙文芳劉亞楠余東昌
      大數(shù)據(jù) 2018年2期
      關(guān)鍵詞:日志頁面氣象

      趙文芳,劉亞楠,余東昌

      北京市氣象信息中心,北京 100089

      1 引言

      氣象與國(guó)民經(jīng)濟(jì)各行各業(yè)關(guān)系密切,氣象部門在千方百計(jì)提高預(yù)報(bào)預(yù)測(cè)準(zhǔn)確率的同時(shí),一直致力于推動(dòng)氣象與經(jīng)濟(jì)社會(huì)的融合,更好地發(fā)揮氣象在經(jīng)濟(jì)社會(huì)中的作用。為了順應(yīng)信息化時(shí)代發(fā)展趨勢(shì),中國(guó)氣象局提出了“互聯(lián)網(wǎng)+氣象”行動(dòng)計(jì)劃,促進(jìn)氣象與經(jīng)濟(jì)社會(huì)融合發(fā)展 。“互聯(lián)網(wǎng)+氣象”行動(dòng)計(jì)劃對(duì)氣象服務(wù)提出了明確要求,不再局限于單純地向社會(huì)提供氣象預(yù)報(bào)信息,而是為天氣高影響行業(yè)提供有針對(duì)性的專業(yè)氣象服務(wù),對(duì)公眾提供精細(xì)化、個(gè)性化的氣象服務(wù)。目前,面向公眾和行業(yè)的氣象服務(wù)由于缺乏對(duì)用戶行為數(shù)據(jù)的分析,難以把握其活動(dòng)特征,難以主動(dòng)提供個(gè)性化氣象服務(wù)產(chǎn)品,存在專業(yè)化程度不高、針對(duì)性不強(qiáng)等問題。因此,如何為用戶推薦合適的氣象服務(wù)產(chǎn)品成為了需解決的重要問題。

      推薦系統(tǒng)是幫助人們快速發(fā)現(xiàn)有用信息的重要工具,它不僅給用戶推薦符合個(gè)人興趣的內(nèi)容,還為用戶節(jié)省了在海量數(shù)據(jù)中查找信息的時(shí)間[1]。推薦系統(tǒng)中常用的推薦技術(shù)主要有基于內(nèi)容的推薦、協(xié)同過濾推薦及關(guān)聯(lián)規(guī)則推薦[2-7]等。其中,基于內(nèi)容的推薦算法適用于推薦新商品,但不適用于新用戶推薦;基于知識(shí)的推薦算法適用于用戶的行為數(shù)據(jù)較少,同時(shí)又有明確需求的場(chǎng)景;協(xié)同過濾算法依據(jù)用戶評(píng)分為用戶推薦商品,同時(shí)也存在冷啟動(dòng)問題。

      目前,現(xiàn)有的氣象服務(wù)模式主要以手機(jī)應(yīng)用程序、微信公眾號(hào)、微信小程序和網(wǎng)站為載體,向用戶提供氣象服務(wù)產(chǎn)品的瀏覽和查詢,沒有評(píng)分功能,無法獲取用戶評(píng)分?jǐn)?shù)據(jù),只能大量記錄用戶行為的Web日志數(shù)據(jù)。本文提出了一個(gè)根據(jù)用戶瀏覽記錄向用戶推薦氣象服務(wù)產(chǎn)品的方法,具體貢獻(xiàn)如下。

      ●提出了一種對(duì)氣象產(chǎn)品進(jìn)行挖掘的方法,利用FP-Growth算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,然后對(duì)誤導(dǎo)性強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行排查和過濾,建立暴雨、高溫、大風(fēng)、霧霾等高影響天氣下的氣象服務(wù)推薦模型。

      ●提出了一種基于頁面瀏覽總量的氣象產(chǎn)品相似度算法,實(shí)現(xiàn)用戶對(duì)每個(gè)產(chǎn)品瀏覽總量的線性變換處理,并映射到區(qū)間[1,5],作為用戶對(duì)每個(gè)產(chǎn)品的評(píng)分,最后利用修正后的余弦相似度計(jì)算產(chǎn)品之間的相似度。

      ●基于Spark框架設(shè)計(jì)了兩種數(shù)據(jù)預(yù)處理并行算法,將原始數(shù)據(jù)抽象為彈性分布式數(shù)據(jù)集(resilient distributed datasets,RDD)模型,利用map 、groupByKey等函數(shù)進(jìn)行數(shù)據(jù)的大量迭代計(jì)算、歸一化處理,快速實(shí)現(xiàn)數(shù)據(jù)清洗、轉(zhuǎn)換。

      ●提出了利用Impala實(shí)現(xiàn)原始數(shù)據(jù)冗余的處理方法。

      ●通 過在Cloudera大數(shù) 據(jù) 平臺(tái)的Spark框架下進(jìn)行實(shí)驗(yàn),說明本方法的實(shí)用性和高效性。

      2 相關(guān)工作

      對(duì)于氣象服務(wù)產(chǎn)品的推薦,目前主要以手機(jī)移動(dòng)軟件為載體實(shí)現(xiàn)兩個(gè)方面的研究應(yīng)用:基于用戶地理位置的氣象服務(wù);根據(jù)用戶的訂閱計(jì)劃及時(shí)推送相應(yīng)氣象產(chǎn)品。 “氣象雷達(dá)—天氣預(yù)報(bào)、溫度和雨量圖”手機(jī)應(yīng)用軟件提供了便捷的地點(diǎn)搜索,為用戶提供最近距離氣象站的精準(zhǔn)天氣數(shù)據(jù),并為用戶提供3種訂閱計(jì)劃 ?!爸袊?guó)氣象”手機(jī)應(yīng)用軟件能為用戶提供最近距離的氣象站實(shí)況監(jiān)測(cè)信息和站點(diǎn)搜索功能 。“智慧氣象”手機(jī)應(yīng)用軟件為用戶提供“一鍵式專業(yè)氣象信息訂制”功能,讓用戶一鍵輕松獲取所需信息 ?!安试铺鞖狻?“墨跡天氣” “北京氣象”等手機(jī)應(yīng)用軟件也提供了類似的功能。

      針對(duì)關(guān)聯(lián)規(guī)則個(gè)性化推薦的研究主要包括:參考文獻(xiàn)[8]對(duì)關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn),并提出了一種基于劃分的關(guān)聯(lián)規(guī)則并行分層挖掘算法;參考文獻(xiàn)[9]提出了Hadoop 平臺(tái)下的并行Web日志挖掘算法;參考文獻(xiàn)[10]首先利用模糊聚類進(jìn)行數(shù)據(jù)預(yù)處理,在此基礎(chǔ)上再進(jìn)行頻繁項(xiàng)集的挖掘;參考文獻(xiàn)[11]提出了基于MapReduce的并行關(guān)聯(lián)規(guī)則增量更新算法;參考文獻(xiàn)[12]提出了一種基于關(guān)聯(lián)規(guī)則挖掘的跨網(wǎng)絡(luò)知識(shí)關(guān)聯(lián)及協(xié)同應(yīng)用;參考文獻(xiàn)[13]提出了一種結(jié)合關(guān)聯(lián)規(guī)則的協(xié)同過濾推薦算法;參考文獻(xiàn)[14]提出了基于業(yè)務(wù)路徑和頻度矩陣的關(guān)聯(lián)規(guī)則挖掘算法;參考文獻(xiàn)[15]采用多重約束進(jìn)行時(shí)序關(guān)聯(lián)規(guī)則挖掘,分析得到了與實(shí)際情況高度吻合的氣候指數(shù)與陸地區(qū)域異常降水事件間的關(guān)系;參考文獻(xiàn)[16]采用了改進(jìn)的FP-Growth算法挖掘出各種氣象因子之間可能存在的關(guān)聯(lián),從而發(fā)現(xiàn)氣象特點(diǎn),對(duì)近期天氣氣象做出預(yù)報(bào)。

      以上研究表明,通過挖掘用戶行為提取興趣特征,在興趣特征基礎(chǔ)上再為用戶提供個(gè)性化推薦服務(wù)的方法廣泛用于電子商務(wù)中。但是,使用包含用戶軌跡的Web日志數(shù)據(jù)分析研究物品之間強(qiáng)關(guān)聯(lián)規(guī)則,再進(jìn)行推薦的方法相對(duì)較少。此外,氣象服務(wù)推薦也局限于基于地理位置的精細(xì)化服務(wù),缺少對(duì)氣象服務(wù)產(chǎn)品之間相關(guān)性的挖掘和用戶對(duì)不同產(chǎn)品的偏好研究,無法對(duì)用戶進(jìn)行更精準(zhǔn)、個(gè)性化的推薦。因此,本文提出一種基于氣象服務(wù)產(chǎn)品關(guān)聯(lián)規(guī)則的推薦模型。

      3 氣象服務(wù)產(chǎn)品推薦模型

      FP-Growth算法是韓家煒等人在2000年提出的關(guān)聯(lián)分析算法,通過構(gòu)造一個(gè)樹結(jié)構(gòu)來壓縮數(shù)據(jù)記錄,使挖掘頻繁項(xiàng)集只需要掃描兩次數(shù)據(jù)記錄,而且該算法不需要生成候選集合,效率比經(jīng)典Apriori算法高。本文將氣象服務(wù)網(wǎng)站的Web日志作為基礎(chǔ)數(shù)據(jù),結(jié)合FP-Growth算法和物品相似度算法建立氣象服務(wù)產(chǎn)品的推薦模型。

      本節(jié)主要介紹模型概述和相關(guān)數(shù)據(jù)預(yù)處理算法。

      3.1 模型概述

      用戶每次訪問氣象服務(wù)網(wǎng)站時(shí),會(huì)停留一段時(shí)間瀏覽一些頁面的服務(wù)產(chǎn)品,點(diǎn)擊頁面上的菜單按鈕,有時(shí)候還會(huì)下載相關(guān)的氣象數(shù)據(jù)和產(chǎn)品,這些被瀏覽的頁面、用戶點(diǎn)擊頁面、下載數(shù)據(jù)的行為形成用戶訪問記錄。用戶瀏覽軌跡表示用戶在這段時(shí)間內(nèi)瀏覽的氣象服務(wù)產(chǎn)品序列,該序列可以表示為:List={p1,p2,…,pn}。用戶訪問記錄定義為:User_Res=〈U,server_time,List,time_spent,actions,actions_count〉,其中,U表示一個(gè)用戶,server_time表示用戶訪問網(wǎng)站時(shí)間,List表示瀏覽過的產(chǎn)品序列,time_spent表示用戶停留在網(wǎng)站的時(shí)間,actions表示用戶的行為,actions_count表示用戶行為次數(shù)。

      氣象服務(wù)產(chǎn)品作為向用戶推薦的對(duì)象,其本身具有一些屬性。本文劃分為靜態(tài)屬性和動(dòng)態(tài)屬性,靜態(tài)屬性來自于產(chǎn)品氣象本質(zhì)特征,動(dòng)態(tài)屬性來自于對(duì)動(dòng)態(tài)數(shù)據(jù)的統(tǒng)計(jì)分類的結(jié)果。靜態(tài)屬性包括產(chǎn)品更新頻率、產(chǎn)品所屬氣象數(shù)據(jù)類別(如觀測(cè)、數(shù)值模式產(chǎn)品,預(yù)報(bào)產(chǎn)品)、產(chǎn)品的用途(如實(shí)況、預(yù)報(bào)、統(tǒng)計(jì))、產(chǎn)品來源等,本文以標(biāo)簽的形式描述這些屬性特征。氣象服務(wù)產(chǎn)品的靜態(tài)屬性定義為:P_sta=〈PID,tag1,tag2,…,tagn〉。PID表示產(chǎn)品的唯一編號(hào),tagi表示產(chǎn)品的第i個(gè)屬性標(biāo)簽,表示某個(gè)屬性特征。動(dòng)態(tài)屬性主要指產(chǎn)品瀏覽次數(shù)和瀏覽時(shí)間,這些數(shù)據(jù)需要從Web日志數(shù)據(jù)統(tǒng)計(jì)得到。本文根據(jù)氣象服務(wù)產(chǎn)品的靜態(tài)屬性和動(dòng)態(tài)屬性分別計(jì)算相似度。

      FP-Growth 算法中的關(guān)鍵參數(shù)min_support及min_confidence通常都是人為設(shè)置的,生成的規(guī)則容易受到挖掘者主觀因素的影響,有必要對(duì)強(qiáng)關(guān)聯(lián)規(guī)則做進(jìn)一步篩選和驗(yàn)證,以提升規(guī)則的可靠性和準(zhǔn)確性。

      基于以上定義,本文提出的基于關(guān)聯(lián)規(guī)則的氣象產(chǎn)品推薦模型如圖1所示。模型從網(wǎng)站訪問日志中提取出用戶瀏覽記錄,篩選出每個(gè)用戶在有效時(shí)間內(nèi)訪問過的氣象服務(wù)產(chǎn)品序列,形成樣本數(shù)據(jù)集,開始訓(xùn)練模型,使用FP-Growth算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,得到符合條件的關(guān)聯(lián)規(guī)則;計(jì)算氣象產(chǎn)品的相似度,根據(jù)相似度篩選關(guān)聯(lián)規(guī)則,構(gòu)建氣象服務(wù)產(chǎn)品推薦模型。

      3.2 數(shù)據(jù)預(yù)處理方法

      氣象服務(wù)網(wǎng)站一直使用谷歌公司的開源工具PIWIK進(jìn)行網(wǎng)站流量和用戶行為監(jiān)控,相關(guān)Web日志信息存放在MySQL數(shù)據(jù)庫表中。本文使用了兩個(gè)表的數(shù)據(jù):用戶訪問記錄表和頁面信息管理表。其中,用戶訪問記錄表用來記錄用戶每次訪問網(wǎng)站的相關(guān)頁面,包括用戶ID、頁面ID、用戶訪問時(shí)間、頁面停留時(shí)間、用戶行為(瀏覽或下載);頁面信息表包括頁面ID與頁面URL對(duì)應(yīng)關(guān)系。具體表結(jié)構(gòu)見表1和表2,表1中的頁面ID字段和表2中的頁面ID字段相關(guān)聯(lián)。

      與電子商務(wù)網(wǎng)站商品不同的是,氣象產(chǎn)品是與時(shí)間相關(guān)的,當(dāng)用戶請(qǐng)求同一個(gè)頁面URL并獲取不同時(shí)間氣象產(chǎn)品時(shí),相關(guān)的Web日志會(huì)賦給這個(gè)頁面URL一個(gè)新頁面ID。例如,用戶在2017年1月1日20:00和2017年1月1日21:00對(duì)命名為aws.index.php的自動(dòng)站實(shí)況頁面進(jìn)行訪問,頁面URL為aws.index.php?time=2017-01-01 20:00:00和aws.index_php?time=2017-01-01 21:00:00,Web日志會(huì)賦予這兩個(gè)URL不同的頁面ID進(jìn)行記錄,造成大量冗余頁面,在進(jìn)行數(shù)據(jù)挖掘前,必須進(jìn)行冗余頁面處理。

      本文對(duì)冗余頁面的處理利用數(shù)據(jù)表的關(guān)聯(lián)實(shí)現(xiàn)。首先,創(chuàng)建頁面元數(shù)據(jù)信息表,其結(jié)構(gòu)見表2的id_re_name字段和表3。其次,對(duì)表3中的對(duì)應(yīng)值,同時(shí)使用這個(gè)對(duì)應(yīng)值對(duì)表3的id_name字段進(jìn)行關(guān)聯(lián)匹配,得到表2的id_url在表1字段id_url進(jìn)行更新。

      本文中所有的挖掘算法處理都是基于經(jīng)過冗余處理的數(shù)據(jù)進(jìn)行的。

      表1 用戶行為記錄表結(jié)構(gòu)

      表2 頁面信息表結(jié)構(gòu)

      表3 頁面元數(shù)據(jù)信息表結(jié)構(gòu)

      3.3 氣象服務(wù)產(chǎn)品相似度計(jì)算方法

      3.3.1基于靜態(tài)屬性的相似度計(jì)算方法

      當(dāng)新的氣象服務(wù)產(chǎn)品上線時(shí),由于缺少Web訪問日志數(shù)據(jù),無法開展關(guān)聯(lián)規(guī)則推薦。當(dāng)用戶瀏覽該產(chǎn)品時(shí),可以把和它最相似的產(chǎn)品推薦給用戶。

      兩個(gè)氣象服務(wù)產(chǎn)品可能會(huì)包含相同標(biāo)簽,例如更新頻次、所屬氣象數(shù)據(jù)類別,那么這些相同標(biāo)簽就是這兩個(gè)氣象服務(wù)產(chǎn)品的相似之處。兩個(gè)產(chǎn)品(pi和pj)中的相同標(biāo)簽占兩個(gè)產(chǎn)品所包含的所有標(biāo)簽的比值表示這兩個(gè)產(chǎn)品的相似程度,用StaSim(pi,pj)表示,計(jì)算方法如式(1)所示:

      其中,Tags(pi)和Tags(pj)分別表示pi和pj包含的所有標(biāo)簽。對(duì)于pi和pj,它們包含的標(biāo)簽的交集中元素的個(gè)數(shù)與并集中元素的個(gè)數(shù)的比值表示pi與pj的相似程度。

      3.3.2基于動(dòng)態(tài)屬性的相似度計(jì)算方法

      基于物品的協(xié)同過濾算法適用于物品數(shù)量變化小于用戶數(shù)量變化的場(chǎng)合,本文采用該算法,使用修正后的余弦相似度計(jì)算式計(jì)算氣象服務(wù)產(chǎn)品相似度。具體計(jì)算方法如式(2)所示:

      其中,Sim(i,j)表示氣象服務(wù)產(chǎn)品i和j的相似度。Mu,i表示用戶u對(duì)產(chǎn)品i的評(píng)分,Mu,j表示用戶u對(duì)產(chǎn)品j的評(píng)分,表示用戶對(duì)產(chǎn)品i的平均評(píng)分,表示用戶對(duì)產(chǎn)品j的平均評(píng)分。

      3.3.3用戶訪問頁面總次數(shù)的線性變化方法

      對(duì)用戶訪問頁面總次數(shù)進(jìn)行線性變化處理,使結(jié)果值映射到區(qū)間[1,5],轉(zhuǎn)換函數(shù)如式(3)所示:

      其中,F(xiàn)(x)表示映射后的值,x表示用戶訪問某頁面的總次數(shù),max x表示某頁面訪問次數(shù)的最大值,min x表示該頁面訪問次數(shù)的最小值。

      3.3.4氣象產(chǎn)品相似度的計(jì)算方法

      算法將用戶瀏覽產(chǎn)品的總次數(shù)經(jīng)過線性變換后將結(jié)果映射到區(qū)間[1,5],利用修正后的余弦相似度計(jì)算式計(jì)算產(chǎn)品相似度。具體的算法描述如下,算法流程如圖2所示。

      圖2 氣象產(chǎn)品相似度算法流程

      算法:氣象產(chǎn)品相似度的預(yù)處理算法。輸入:去掉冗余后的用戶訪問記錄。輸出:氣象服務(wù)產(chǎn)品相似度矩陣。

      步驟1從日志信息中獲取用戶與頁面瀏覽量數(shù)據(jù)。

      步驟2對(duì)每個(gè)獨(dú)立IP用戶,迭代計(jì)算其瀏覽過的每個(gè)頁面總次數(shù)。將輸入數(shù)據(jù)map映射為JavaPairRDD的鍵值對(duì),命名為Res_1。其中,鍵值對(duì)的key表示為“用戶ID_頁面ID”,value值自動(dòng)累加,表示用戶ID訪問頁面ID所代表頁面的總次數(shù),即<用戶ID_頁面ID,總次數(shù)>。例如<3312_78,56>表示ID為3312的用戶,對(duì)ID為78的頁面一共訪問了56次。

      步驟3對(duì)用戶訪問每個(gè)頁面的總次數(shù)進(jìn)行歸一化處理。在數(shù)據(jù)集Res_1中,找出key中包含相同頁面ID的所有鍵值對(duì),對(duì)其中的value進(jìn)行歸一化處理,將頁面訪問總次數(shù)按式(3)映射到區(qū)間[1,5],生成新的數(shù)據(jù)集Res_2。

      步驟4對(duì)Res_2數(shù)據(jù)集進(jìn)行map映射計(jì)算,從key中提取出用戶ID,頁面ID和value的組合作為value,生成新的JavaPairRDD,得到數(shù)據(jù)集New_Res。

      步驟5對(duì)New_Re s數(shù)據(jù)集進(jìn)行g(shù)roupByKey聚合計(jì)算,將相同key的多個(gè)JavaPairRDD映射為JavaPairRDD>,得到數(shù)據(jù)集Count_Res。

      步驟6將Iterable從數(shù)據(jù)集Count_Res提取出來,轉(zhuǎn)換成氣象服務(wù)產(chǎn)品評(píng)分矩陣。

      步驟7對(duì)于n個(gè)產(chǎn)品,依次計(jì)算產(chǎn)品1與其他n-1個(gè)產(chǎn)品的相似度;再計(jì)算產(chǎn)品2與其他n-2個(gè)產(chǎn)品的相似度。對(duì)于其中任何兩個(gè)產(chǎn)品i和j而言:查找對(duì)i和j共同評(píng)價(jià)過的用戶集合Uij;分別計(jì)算用戶對(duì)產(chǎn)品i和產(chǎn)品j的平均評(píng)價(jià)值和;按照式(2)計(jì)算產(chǎn)品之間的相似度。

      步驟8將計(jì)算得到的相似度結(jié)果存在數(shù)據(jù)庫表中,數(shù)據(jù)庫表結(jié)構(gòu)見表4。

      表4 氣象服務(wù)產(chǎn)品相似度

      圖3 氣象產(chǎn)品item提取算法流程

      3.4 基于用戶訪問日志的關(guān)聯(lián)規(guī)則算法

      該算法用于從用戶訪問日志生成最終關(guān)聯(lián)規(guī)則。首先對(duì)用戶訪問日志進(jìn)行清洗,轉(zhuǎn)化為用戶訪問產(chǎn)品的序列數(shù)據(jù)集,然后調(diào)用FP-Growth算法產(chǎn)生關(guān)聯(lián)規(guī)則。該算法的關(guān)鍵在于用戶訪問日志的預(yù)處理階段,需要生成一個(gè)數(shù)據(jù)集,數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)項(xiàng)包含了用戶每次訪問網(wǎng)站瀏覽過的產(chǎn)品ID序列。具體的算法描述如下,算法流程如圖3所示。

      算法:基于用戶訪問日志的關(guān)聯(lián)規(guī)則算法。

      輸入:去掉冗余后的用戶訪問記錄。輸出:氣象服務(wù)產(chǎn)品關(guān)鍵規(guī)則列表。

      步驟1讀入訪問記錄,通過map映射為JavaPairRDD的鍵值對(duì)Res_1。其中,key表示用戶ID+訪問時(shí)間,訪問時(shí)間形式為YYYYMMDDHHMM,精確到分;value表示氣象產(chǎn)品ID。

      步驟2對(duì)Res_1數(shù)據(jù)集進(jìn)行g(shù)roup-ByKey聚合計(jì)算,將相同key的多個(gè)JavaPairRDD映射為JavaPairRDD>,得到數(shù)據(jù)集Res_2。

      步驟3從數(shù)據(jù)集Res_2中提取出每一個(gè)鍵值對(duì)的格式為Iterable的value,然后逐天保存,作為數(shù)據(jù)挖掘的數(shù)據(jù)樣本集data_sam。

      步驟4對(duì)數(shù)據(jù)樣本集data_sam調(diào)用FP-Growth算法,產(chǎn)生關(guān)聯(lián)規(guī)則列表。

      3.5 強(qiáng)關(guān)聯(lián)規(guī)則的篩選方法

      關(guān)聯(lián)規(guī)則挖掘算法需要預(yù)先設(shè)定最小支持度和最小可信度參數(shù)才能進(jìn)行計(jì)算。而人為主觀設(shè)置這兩個(gè)參數(shù)容易導(dǎo)致規(guī)則過多或者或少,或者把不相關(guān)的規(guī)則推薦給用戶等問題。為了減少關(guān)聯(lián)規(guī)則挖掘的這些不利影響,讓規(guī)則總數(shù)量盡可能在一個(gè)適當(dāng)范圍,利用氣象服務(wù)產(chǎn)品之間相似度來篩選關(guān)聯(lián)規(guī)則。本文重點(diǎn)針對(duì)2個(gè)向量頻繁項(xiàng)集和3個(gè)向量頻繁項(xiàng)集中置信度大于90%的強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行篩選。具體使用的方法描述如下。

      ●對(duì)于2個(gè)向量頻繁項(xiàng)集,查看2個(gè)向量表示的氣象服務(wù)產(chǎn)品的相似度。如果其相似度小于支持度,則剔除,反之則保留。例如有規(guī)則“[13]=> [4],置信度為 0.92”,而ID分別為13和4的氣象服務(wù)產(chǎn)品相似度為0.78,大于最小支持度0.2,標(biāo)記為有效規(guī)則進(jìn)行保留。

      ●對(duì)于3個(gè)向量的頻繁項(xiàng)集,將向量間的相似度加權(quán)平均,再與最小支持度進(jìn)行比較。對(duì)于規(guī)則“[A,B]=> [C]”,將向量A與向量C的相似度和向量B與向量C的相似度加權(quán)平均得出的結(jié)果與最小支持度相比,如果其相似度小于支持度,則剔除,反之則保留。

      4 實(shí)驗(yàn)與分析

      4.1 實(shí)驗(yàn)環(huán)境

      本文選擇Apache Flume 1.5、Spark1.5、Java JDK(Java Development Kit) 1.7、Impala2.0、Cloudera 5.8.3作為系統(tǒng)的運(yùn)行環(huán)境,采用另一種資源協(xié)調(diào)者(yet another resource negotiator,YARN)模式作為系統(tǒng)的運(yùn)行方式。其中,Cloudera集群由7臺(tái)實(shí)體服務(wù)器構(gòu)成,每臺(tái)服務(wù)器的硬件配置見表5。

      在Cloudera環(huán)境下,需要將YARN、Impala、Spark服務(wù)合理地部署在不同的節(jié)點(diǎn)上,以便充分利用集群資源給系統(tǒng)運(yùn)行提供更好的性能保障。選擇運(yùn)行Cloudera Manager服務(wù)的節(jié)點(diǎn)作為分布式文件系統(tǒng)的名字節(jié)點(diǎn)(namenode),并運(yùn)行Spark Master、Impala Server和YARN資源管理服務(wù)。

      4.2 實(shí)驗(yàn)數(shù)據(jù)

      本文使用的實(shí)驗(yàn)數(shù)據(jù)來源于氣象服務(wù)網(wǎng)站2011—2016年的Web日志信息。經(jīng)過冗余處理后,可以獲得39146882條用戶瀏覽記錄,每條記錄包括用戶的訪問時(shí)間、用戶ID、IP地址、瀏覽氣象產(chǎn)品ID、瀏覽時(shí)間。其中,獨(dú)立IP地址1946條,包含氣象產(chǎn)品562個(gè)。篩選掉包含錯(cuò)誤信息的記錄以及偽訪問用戶的記錄(有些用戶將客戶端瀏覽器設(shè)置為4 s以下頻率刷新網(wǎng)站,不能真實(shí)反映用戶瀏覽產(chǎn)品情況)后,提取出5148691條瀏覽記錄,在此基礎(chǔ)上進(jìn)行本文的所有實(shí)驗(yàn)。

      4.3 算法實(shí)現(xiàn)

      4.3.1冗余頁面的處理

      本文使用Impala實(shí)現(xiàn)對(duì)冗余頁面的處理。根據(jù)文中提到的方法,將表1和表2數(shù)據(jù)導(dǎo)入Impala,并在Impala中建表3。然后在Impala中進(jìn)行表的關(guān)聯(lián)操作。表2記錄數(shù)為5548191條,表1記錄數(shù)為39146882條,表3記錄數(shù)為563條。Impala是Cloudera平臺(tái)下的大規(guī)模并行處理(massive parallel processing,MPP)數(shù)據(jù)庫引擎,通過它進(jìn)行表2和表3的關(guān)聯(lián),耗時(shí)322 ms,表1和表2的關(guān)聯(lián)耗時(shí)9.13 s。

      4.3.2基于修正的余弦相似度算法實(shí)現(xiàn)

      基于修正的余弦相似度算法從5148691條瀏覽記中生成1946個(gè)用戶對(duì)562個(gè)產(chǎn)品的評(píng)分,最后得出562個(gè)產(chǎn)品相似度矩陣。算法基于Spark用Java語言開發(fā)實(shí)現(xiàn),程序選擇Spark on YARN運(yùn)行方式。在運(yùn)行之前,先調(diào)整YARN服務(wù)的可用資源。在7個(gè)節(jié)點(diǎn)的集群中,每個(gè)節(jié)點(diǎn)有8個(gè)核以及32 GB的內(nèi)存。其中,1個(gè)節(jié)點(diǎn)運(yùn)行YARN資源管理服務(wù),6個(gè)節(jié)點(diǎn)運(yùn)行YARN節(jié)點(diǎn)管理服務(wù);考慮到每個(gè)節(jié)點(diǎn)上操作系統(tǒng)、Hadoop 的Daemon(守護(hù))進(jìn)程以及其他組件進(jìn)程的運(yùn)行也需要一定資源,在該測(cè)試中分配給YARN 75%的資源,即每個(gè)節(jié)點(diǎn)上YARN服務(wù)的可用資源為28 GB內(nèi)存和5個(gè)核。

      對(duì)該算法運(yùn)行效率進(jìn)行測(cè)試,考察在數(shù)據(jù)量、任務(wù)提交方式及其他配置不變的情況下,改變num-executors、executorcores和executor-memory 3個(gè)運(yùn)行參數(shù)引起的時(shí)效變化。一共進(jìn)行9組試驗(yàn),詳細(xì)的參數(shù)配置見表6,num-executors、executor-cores和executor-memory在表中分別用參數(shù)1、參數(shù)2和參數(shù)3表示。

      表5 Cloudera集群中各主機(jī)配置

      表6 Spark Streaming作業(yè)運(yùn)行參數(shù)配置

      在試驗(yàn)中,num-executors從2逐漸增大到24。由表6中每組試驗(yàn)的耗時(shí)可知,算法耗時(shí)隨num-executors的增加呈下降趨勢(shì)。當(dāng)num-executors取值為2~4、4~8、8~16時(shí),耗時(shí)并沒有明顯的變化。在將num-executors設(shè)置為20~24的4組試驗(yàn)中,啟用spark.default.parallelism參數(shù),程序運(yùn)行效率得到提升。當(dāng)numexecutors為24、executor-cores為3、executor-memory為2 GB、spark.default.parallelism為900時(shí),整體性能達(dá)到最優(yōu)。spark.default.parallelism參數(shù)用于設(shè)置每個(gè)階段的默認(rèn)任務(wù)數(shù)量。前5組試驗(yàn)沒有啟用這個(gè)參數(shù),而Spark默認(rèn)設(shè)置任務(wù)數(shù)為幾十個(gè),導(dǎo)致60%~70%的Executor進(jìn)程沒有任務(wù)執(zhí)行,因此盡管Executor參數(shù)在增大,但程序的耗時(shí)基本沒有變化。由此可見,如果這個(gè)參數(shù)不設(shè)置或者設(shè)置不當(dāng),會(huì)直接影響Spark作業(yè)性能。另外,Spark作業(yè)性能與運(yùn)行參數(shù)、平臺(tái)分配給YARN的可用資源、spark.default.parallelism等諸多因素有關(guān),在其他參數(shù)不變的情況下,性能與num-executors參數(shù)也不是簡(jiǎn)單的線性關(guān)系。因此,在實(shí)際運(yùn)行中,需要統(tǒng)籌考慮這些參數(shù)的影響,選擇一個(gè)最優(yōu)的參數(shù)組合。

      4.3.3FP-Growth 算法的關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)

      編寫Java程序,從5148691條瀏覽記錄中經(jīng)過預(yù)處理生成2500000個(gè)樣本數(shù)據(jù),通過調(diào)用Spark機(jī)器學(xué)習(xí)庫(machine learning library,MLlib)生成FPGrowth 算法,最終生成氣象服務(wù)產(chǎn)品的關(guān)聯(lián)規(guī)則列表。程序選擇Spark on YARN運(yùn)行方式,按照表6中耗時(shí)最少的參數(shù)組合提交作業(yè)到集群上。

      設(shè)定最小支持度為20,取出1000、10000、50000、100000、500000、1000000、1500000、2000000、2500000條數(shù)據(jù),進(jìn)行算法效率對(duì)比實(shí)驗(yàn),結(jié)果如圖4所示。

      圖4 不同記錄數(shù)的算法效率對(duì)比

      由圖4可知,在給定最小支持度的條件下,F(xiàn)P-Growth算法挖掘所需的時(shí)間隨記錄數(shù)增加呈上升趨勢(shì),但是并非線性增加。記錄數(shù)為1000時(shí),耗時(shí)25 s左右,而記錄增加到2500000,擴(kuò)大2500倍時(shí),算法耗時(shí)僅增加一倍多。這說明當(dāng)數(shù)據(jù)量呈指數(shù)級(jí)別增加時(shí),算法耗時(shí)并沒有隨之大幅增加,充分體現(xiàn)了分布式并行計(jì)算框架的優(yōu)勢(shì)。

      圖5 最小支持度與關(guān)聯(lián)規(guī)則總數(shù)量對(duì)比

      另外給定2500000 條數(shù)據(jù),在最小支持度為10、20、30、40、50、60的條件下進(jìn)行實(shí)驗(yàn),進(jìn)行規(guī)則總條數(shù)與最小支持度的對(duì)比實(shí)驗(yàn),結(jié)果如圖5所示。圖5可知,隨著最小支持度的增加,規(guī)則挖掘的總數(shù)量在不斷減少,當(dāng)最小支持度達(dá)到70時(shí),幾乎沒有挖掘出符合條件的強(qiáng)關(guān)聯(lián)規(guī)則。這種變化說明,最小支持度對(duì)挖掘出的關(guān)聯(lián)規(guī)則數(shù)量有很大影響,在實(shí)際應(yīng)用上要小心設(shè)置最小支持度。設(shè)置過小,容易造成關(guān)聯(lián)規(guī)則過多,給篩選和排查帶來困難;設(shè)置過大,容易過濾掉很多關(guān)聯(lián)規(guī)則,對(duì)結(jié)果造成影響。由

      4.4 實(shí)驗(yàn)結(jié)果分析

      一共進(jìn)行5組實(shí)驗(yàn),第一組選擇所有樣本;第二組選擇2012—2016年累計(jì)降水超過50 mm的時(shí)間來收集樣本,作為暴雨天氣條件下的樣本集;第三組選擇2012—2016年超過35℃高溫的時(shí)間來收集樣本,作為高溫天氣條件下的樣本集;第四組選擇2012—2016年陣風(fēng)超過6級(jí)的時(shí)間來收集樣本,作為大風(fēng)天氣條件下的樣本集;第五組選擇2012—2016年有霧霾的時(shí)間來收集樣本,作為霧霾天氣條件下的樣本集;最小支持度為20%,最小置信度為80%。

      第一組實(shí)驗(yàn)得到819條規(guī)則,1個(gè)向量頻繁項(xiàng)集106個(gè),2個(gè)向量頻繁項(xiàng)集412個(gè),3個(gè)向量頻繁項(xiàng)集187個(gè),4個(gè)向量頻繁項(xiàng)集220個(gè)。第二組實(shí)驗(yàn)得到237條規(guī)則,第三組實(shí)驗(yàn)得到137條規(guī)則,第四組實(shí)驗(yàn)得到50條規(guī)則,第五組實(shí)驗(yàn)得到96條規(guī)則。表7給出了每組實(shí)驗(yàn)置信度最高的5條規(guī)則。

      對(duì)挖掘結(jié)果進(jìn)行分析可知:第一組大多數(shù)規(guī)則反映出瀏覽了自動(dòng)站實(shí)況和預(yù)警的用戶,會(huì)瀏覽逐小時(shí)天氣預(yù)報(bào);第二組大多數(shù)規(guī)則反映出瀏覽了雷達(dá)回波、自動(dòng)站累計(jì)降水量的用戶,會(huì)關(guān)注逐10 min累計(jì)降水量預(yù)報(bào)、全球定位系統(tǒng)(global positioning system,GPS)水汽分布、微波輻射計(jì)等;第三組大多數(shù)規(guī)則反映出瀏覽了溫度預(yù)報(bào)、自動(dòng)站溫度實(shí)況的用戶會(huì)查看模式預(yù)報(bào)結(jié)果和探空?qǐng)D;第四組大多數(shù)規(guī)則反映出風(fēng)和探空?qǐng)D存在較強(qiáng)關(guān)系;第五組大多數(shù)規(guī)則反映出能見度、相對(duì)濕度、風(fēng)、大氣成分存在較強(qiáng)關(guān)系。

      4.5 實(shí)驗(yàn)結(jié)果預(yù)測(cè)

      4.5.1命中率預(yù)測(cè)

      強(qiáng)降水天氣和霧霾天氣容易給公眾的出行和工作帶來很多影響,本文選擇這兩種天氣下的樣本數(shù)據(jù),用規(guī)則預(yù)測(cè)用戶行為,計(jì)算規(guī)則的命中率作為客觀指標(biāo)。把每次天氣過程當(dāng)成一個(gè)樣本集,對(duì)規(guī)則[A]=>B,計(jì)算[A]=>B出現(xiàn)次數(shù)與[A]=>[X]出現(xiàn)次數(shù)的比值。用pop(A,B)表示,計(jì)算方法如式(4)所示:

      其中,Sum(A,B)表示[A]=>B規(guī)則出現(xiàn)次數(shù),Sum([A]=>[X])表示所有以[A]為條件的規(guī)則總數(shù)。

      用表7中第二組關(guān)聯(lián)規(guī)則對(duì)北京2017年1—6月的5個(gè)強(qiáng)降水過程進(jìn)行預(yù)測(cè)。另外用表7中第五組關(guān)聯(lián)規(guī)則對(duì)北京2016年10—12月霧霾天氣過程進(jìn)行預(yù)測(cè)。結(jié)果如圖6和圖7所示。

      表7 1~5組實(shí)驗(yàn)最高置信度關(guān)聯(lián)規(guī)則

      由圖6可以看出,2個(gè)向量頻繁項(xiàng)的規(guī)則命中率高于3個(gè)向量頻繁項(xiàng),而且變化不明顯,大致分布在區(qū)間[60%,95%];而3個(gè)向量頻繁項(xiàng)的命中率隨不同降水過程波動(dòng)相對(duì)大一些,規(guī)則3、規(guī)則4和規(guī)則5在降水量過程4中的命中率明顯偏低。

      由圖7可以看出,規(guī)則的命中率分布在區(qū)間[20%,65%];規(guī)則1的命中率趨勢(shì)平坦,分布在區(qū)間[50%,60%];規(guī)則4和規(guī)則5的命中率較低,分布在區(qū)間[20%,40%]。造成這種現(xiàn)象的原因與霧霾樣本數(shù)偏少有關(guān),僅有182個(gè)樣本數(shù)據(jù)可用;此外,也與霧霾天氣特點(diǎn)有關(guān),例如持續(xù)時(shí)間長(zhǎng)、天氣系統(tǒng)穩(wěn)定等導(dǎo)致氣象服務(wù)產(chǎn)品本身隨時(shí)間變化較小,用戶總體訪問量也小,從而能收集的日志數(shù)據(jù)偏少。

      4.5.2不相關(guān)規(guī)則的過濾

      以第一組實(shí)驗(yàn)生成的819條規(guī)則為例進(jìn)行排查。選出置信度超過85%的2個(gè)向量頻繁項(xiàng)集規(guī)則,查看2個(gè)向量的相似度,如果相似度小于最小支持度,則判斷這條規(guī)則有明確不相關(guān)性,標(biāo)記為不可用規(guī)則。一共檢查了412個(gè)規(guī)則,結(jié)合相似度過濾了76條規(guī)則。對(duì)置信度超過85%的3個(gè)向量頻繁項(xiàng)集規(guī)則進(jìn)行處理,一共檢查了187個(gè)規(guī)則,過濾掉49個(gè)規(guī)則。

      5 結(jié)束語

      本文將關(guān)聯(lián)規(guī)則和物品協(xié)同過濾方法結(jié)合起來運(yùn)用于氣象服務(wù)產(chǎn)品的推薦方法中,綜合使用大數(shù)據(jù)平臺(tái)多種技術(shù)實(shí)現(xiàn)了算法的并行運(yùn)行,通過對(duì)算法效率的改進(jìn)和推薦規(guī)則的有效排查,使規(guī)則挖掘所需的時(shí)間以及推薦的準(zhǔn)確率都有所改善,初步證明了利用這種方法進(jìn)行氣象服務(wù)產(chǎn)品的推薦是可行的。在以后的工作中,可進(jìn)一步細(xì)化用戶興趣的行為因素,建立用戶人物畫像群,對(duì)挖掘得到的推薦結(jié)果按強(qiáng)關(guān)系和弱關(guān)系用戶進(jìn)行篩選,進(jìn)一步提升推薦的準(zhǔn)確性。

      圖6 關(guān)聯(lián)規(guī)則在5個(gè)降水過程中的命中率分布

      圖7 關(guān)聯(lián)規(guī)則在5個(gè)霧霾過程中的命中率分布

      參考文獻(xiàn):

      [1]紀(jì)淑娟, 王理, 梁永全, 等. 基于神經(jīng)網(wǎng)絡(luò)的用戶視頻評(píng)分自動(dòng)獲取方法[J]. 計(jì)算機(jī)科學(xué),2015, 42(11): 96-100.JI S J, WANG L, LIANG Y Q, et al. Neuralnetwork-based method for automatic acquisition of user’s video rating[J].Computer Science, 2015, 42(11): 96-100.

      [2]王濤, 覃錫忠, 賈振紅, 等. 基于相似度和信任度的關(guān)聯(lián)規(guī)則微博好友推薦[J]. 計(jì)算機(jī)應(yīng)用, 2016, 36(8): 2262-2267.WANG T, QIN X Z, JIA Z H, et al.Association rules recommendation of microblog friend based on similarity and trust[J]. Journal of Computer Applications,2016, 36(8): 2262-2267.

      [3]L I U J G, Z H O U T, WA N G B H.Personalized recommender systems: a survey of the state-of-the-art[J]. Progress in Natural Science, 2009, 19(1): 1-15.

      [4]LIN W, ALVAREZ S A, RUIZ C. Efficient adaptive-support association rule mining for recommendation systems[J]. Data Mining and Knowledge Discovery, 2002,6(1): 83-105.

      [5]李杰, 徐勇, 王云峰, 等. 面向個(gè)性化推薦的強(qiáng)關(guān)聯(lián)規(guī)則挖掘[J]. 系統(tǒng)工程理論與實(shí)踐,2009, 29(8): 144-152.LI J, XU Y, WANG Y F, et al. Strongest association rules mining for personalized recommendation[J]. System Engineering-Theory &Practice, 2009, 29(8): 144-152.

      [6]易芝, 汪琳琳, 王練. 基于關(guān)聯(lián)規(guī)則相關(guān)性分析的Web 個(gè)性化推薦研究[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2007, 19(2): 234-237.YI Z, WANG L L, WANG L. Research on Web personalized recommendation based on correlation analysis of association rule[J]. Journal of Chongqing University of Posts and Communications (Natural Science), 2007, 19(2): 234-237.

      [7]鮑玉斌, 王大玲, 于戈. 關(guān)聯(lián)規(guī)則和聚類分析在個(gè)性化推薦中的應(yīng)用[J]. 東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2003, 24(12): 1149-1188.BAO Y B, WANG D L, YU G. Application of association rules and clustering analysis to personalized recommendation[J]. Journal of Northeastern University (Natural Science ), 2003, 24(12): 1149-1188.

      [8]張忠林, 田苗鳳, 劉宗成. 大數(shù)據(jù)環(huán)境下關(guān)聯(lián)規(guī)則并行分層挖掘算法研究[J]. 計(jì)算機(jī)科學(xué),2016, 43(1): 286-289.ZHANG Z L, TIAN M F, LIU Z C. Parallel hierarchical association rule mining in big data environment[J]. Computer Science,2016, 43(1): 286-289.

      [9]周詩慧, 殷建. Hadoop 平臺(tái)下的并行Web 日志挖掘算法[J]. 計(jì)算機(jī)工程, 2013, 39(6): 43-46.ZHOU S H, YIN J. Parallel web log mining algorithm in Hadoop platform[J]. Computer Engineering, 2013, 39(6): 43-46.

      [10]劉帥, 楊英杰, 常德顯, 等. 改進(jìn)的模糊關(guān)聯(lián)規(guī)則及其挖掘算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2015, 36(4): 942-947.LIU S, YANG Y J, CHANG D X, et al.Improved fuzzy association rule and its mining algorithm[J]. Computer Engineer and Design, 2015, 36(4): 942-947.

      [11]程廣, 王曉峰. 基于MapReduce的并行關(guān)聯(lián)規(guī)則增量更新算法[J]. 計(jì)算機(jī)工程, 2016,42(2): 21-26.CHENG G, WANG X F. Incremental updating algorithm of parallel association rule based on MapReduce[J]. Computer Engineer, 2016, 42(2): 21-26.

      [12]黃曉雯, 嚴(yán)明, 桑基韜, 等. 基于關(guān)聯(lián)規(guī)則挖掘的跨網(wǎng)絡(luò)知識(shí)關(guān)聯(lián)及協(xié)同應(yīng)用[J]. 計(jì)算機(jī)科學(xué), 2016, 43(7): 51-57.HUANG X W, YAN M, SANG J T, et al.Association rules mining based crossnetwork knowledge association and collaborative application[J]. Computer Science, 2016, 43(7): 51-57.

      [13]陳平華, 陳傳瑜, 洪英. 一種結(jié)合關(guān)聯(lián)規(guī)則的協(xié)同過濾推薦算法[J]. 小型微型計(jì)算機(jī)系統(tǒng),2016,37(2): 287-293.CHEN P H, CHEN C Y, HONG Y.Incorporating association rules for collaborative filtering recommendation algorithm[J]. Journal of Chinese Computer Systems, 2016, 37(2): 287-293.

      [14]胡波, 黃寧, 仵偉強(qiáng). 基于業(yè)務(wù)路徑和頻度矩陣的關(guān)聯(lián)規(guī)則挖掘算法[J]. 計(jì)算機(jī)科學(xué),2016, 43(12): 146-154.HU B, HUANG N, WU W Q. Algorithm for mining association rules based on application paths and frequency matrix[J].Computer Science, 2016, 43(12): 146-154.

      [15]石巖, 鄧敏, 劉啟亮, 等. 海陸氣候事件關(guān)聯(lián)規(guī)則挖掘方法[J]. 地理信息科學(xué), 2014,16(2): 182-191.SHI Y, DENG M, LIU Q L, et al. Discovering sequential association rules between single ocean climate index and land abnormal climate events[J]. Journal of Geo-information Science, 2014, 16(2): 182-191.

      [16]劉娟, 宋安軍. 改進(jìn)FP-growth 算法在氣象預(yù)報(bào)中的應(yīng)用[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2016,25(10): 199-205.LIU J, SONG A J. Application of an improve FP-growth algorithm in meteorological forecast[J]. Application of Computer System, 2016, 25(10): 199-205.

      [17]BINZENH?FER A, TUTSCHKU K,GRABEN B A D, et al. A P2P-based framework for distributed network management[M]. Berlin: Springer Berlin Heidelberg, 2005.

      [18]CHEVUL S, BINZENHFER A, SCHMID M, et al. A self-organizing concept for distributed end-to-end quality monitoring[R]. Germany: University of Wurzburg Institute, 2006.

      [19]董長(zhǎng)青, 任女爾, 張慶余, 等. 基于HBase+ElasticSearch的海量交通數(shù)據(jù)實(shí)時(shí)存取方案設(shè)計(jì)[J]. 大數(shù)據(jù), 2017(1): 80-89.DONG C Q, REN N E, ZHANG Q Y, et al.Design scheme of massive traffic data real-time access based on HBase and Elastic Search[J]. Big Data Research,2017(1): 80-89.

      [20]李大中, 劉劍, 鄧景文. 大數(shù)據(jù)能力開放平臺(tái)創(chuàng)新和發(fā)展[J]. 大數(shù)據(jù), 2017(1): 72-80.LI D Z, LIU J, DENG J W. Innovation and development of big data ability open platform[J].Big Data Research, 2017(1): 72-80.

      [21]石勇, 孟凡. 信用評(píng)分基本理論及其應(yīng)用[J].大數(shù)據(jù), 2017(1): 19-27.SHI Y, MENG F. Credit scoring: basic theory and applications[J]. Big Data Research, 2017(1): 19-27.

      [22]劉巖, 王華, 秦葉陽, 等. 智慧城市多源異構(gòu)大數(shù)據(jù)處理框架[J]. 大數(shù)據(jù), 2017(1): 51-60.LIU Y, WANG H, QIN Y Y, et al.Multisource heterogeneous big data processing architecture in smart city[J].Big Data Research, 2017(1): 51-60.

      猜你喜歡
      日志頁面氣象
      氣象
      大狗熊在睡覺
      刷新生活的頁面
      氣象樹
      一名老黨員的工作日志
      《內(nèi)蒙古氣象》征稿簡(jiǎn)則
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      大國(guó)氣象
      游學(xué)日志
      一種基于粗集和SVM的Web日志挖掘模型
      千阳县| 皮山县| 华蓥市| 淮北市| 苏尼特右旗| 阿拉尔市| 西城区| 广州市| 多伦县| 高尔夫| 饶阳县| 古蔺县| 城市| 东乡| 山东省| 资中县| 定边县| 乌兰察布市| 大渡口区| 上栗县| 星座| 昌黎县| 汪清县| 鸡东县| 抚顺县| 绥滨县| 淮安市| 厦门市| 遂溪县| 高邮市| 邹平县| 亚东县| 盐边县| 渝北区| 柯坪县| 德格县| 奉节县| 钟祥市| 永平县| 汨罗市| 拜城县|