• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      隨機森林在運營商大數(shù)據(jù)補全中的應(yīng)用

      2016-02-08 03:56:20王錚任華方燕萍
      電信科學(xué) 2016年12期
      關(guān)鍵詞:日志運營商森林

      王錚,任華,方燕萍

      (中國電信股份有限公司上海研究院,上海 200122)

      隨機森林在運營商大數(shù)據(jù)補全中的應(yīng)用

      王錚,任華,方燕萍

      (中國電信股份有限公司上海研究院,上海 200122)

      電信運營商有大量數(shù)據(jù),但是鑒于多種原因,數(shù)據(jù)的質(zhì)量不夠理想,出現(xiàn)大量數(shù)據(jù)不完整甚至缺失。對于已有數(shù)據(jù)的挖掘,必須在數(shù)據(jù)滿足質(zhì)量要求且達到足夠采樣比例的前提下開展。依托現(xiàn)有的全國日志留存系統(tǒng),設(shè)計完整數(shù)據(jù)的模板樣庫,鑒別不能滿足質(zhì)量要求的數(shù)據(jù),使用隨機森林算法,找到最符合的相同或相關(guān)數(shù)據(jù),補全數(shù)據(jù)并提升數(shù)據(jù)質(zhì)量;用回溯反饋的方法優(yōu)化并擴充模板樣庫。在全國日志留存系統(tǒng)中構(gòu)建數(shù)據(jù)補全子系統(tǒng),實現(xiàn)端到端的數(shù)據(jù)質(zhì)量保障和提升,補全并改善歷史數(shù)據(jù)甚至實時數(shù)據(jù)的質(zhì)量,最終滿足數(shù)據(jù)處理和挖掘的要求,提升運營商數(shù)據(jù)質(zhì)量和價值。

      大數(shù)據(jù);隨機森林;機器學(xué)習(xí);數(shù)據(jù)補全

      1 引言

      電信運營商是天然的大數(shù)據(jù)擁有者,擁有著基于用戶的信令、上網(wǎng)、位置等多種類型的數(shù)據(jù)。隨著近年大數(shù)據(jù)技術(shù)發(fā)展和應(yīng)用推廣,電信運營商也愈發(fā)重視數(shù)據(jù)這一戰(zhàn)略資產(chǎn),研發(fā)了多種基于大數(shù)據(jù)技術(shù)的平臺和系統(tǒng),用來收集、存儲、處理、開放和應(yīng)用電信運營商的數(shù)據(jù),體現(xiàn)電信運營商的數(shù)據(jù)價值。但由于歷史的原因,電信運營商的各種設(shè)備和系統(tǒng),設(shè)計和建設(shè)的年代不同、承建的廠商不同、不同省份的需求不同、后期的升級狀況不同等,造成了數(shù)據(jù)質(zhì)量參差不齊。最常出現(xiàn)數(shù)據(jù)缺失、數(shù)據(jù)不全等現(xiàn)象,導(dǎo)致存儲和收集的數(shù)據(jù)質(zhì)量不高,甚至出現(xiàn)因為可采樣數(shù)據(jù)比例過低,造成大批量的數(shù)據(jù)不可用。

      在運營商全國日志留存系統(tǒng)的大數(shù)據(jù)集約運營應(yīng)用中,數(shù)據(jù)采集、匯聚、上傳在省一級實現(xiàn),數(shù)據(jù)接收、關(guān)聯(lián)入庫、查詢和開放共享則在全國一級實現(xiàn),在接收后關(guān)聯(lián)入庫前會對收集的數(shù)據(jù)預(yù)做完整性檢驗。但是由于較多數(shù)據(jù)完整性不足,導(dǎo)致可用數(shù)據(jù)不多。本文從解決全國日志留存系統(tǒng)當(dāng)前面臨的數(shù)據(jù)完整性不夠、數(shù)據(jù)質(zhì)量差的問題出發(fā),提出將隨機森林算法引入數(shù)據(jù)補全中,以提升數(shù)據(jù)完整性的技術(shù)方案。

      2 基于大數(shù)據(jù)架構(gòu)的全國日志留存系統(tǒng)

      用戶網(wǎng)絡(luò)行為信息是電信運營商數(shù)據(jù)信息的主要部分,也是進行用戶行為畫像的主要數(shù)據(jù)源,支持輔導(dǎo)預(yù)測、評估、決策等多項管理或商務(wù)行為,具有豐富價值和潛力。電信運營商的全國日志留存系統(tǒng)就是對相關(guān)信息進行收集、存儲、挖掘和服務(wù)共享的系統(tǒng),為基于電信運營商的大數(shù)據(jù)開展服務(wù)提供數(shù)據(jù)挖掘、共享等數(shù)據(jù)增值服務(wù)。

      2.1 總體功能概述

      (1)數(shù)據(jù)采集

      各省數(shù)據(jù)采集機需要采集上網(wǎng)日志數(shù)據(jù)以及業(yè)務(wù)網(wǎng)絡(luò)數(shù)據(jù)并提供緩存,上網(wǎng)日志數(shù)據(jù)包括WLAN方式下,在固網(wǎng)AAA平臺的DPI設(shè)備(或者類似設(shè)備)上取得的認證信息;分組域DPI上取得的認證信息和互聯(lián)網(wǎng)訪問信息;WAP網(wǎng)關(guān)上取得的認證信息和互聯(lián)網(wǎng)訪問信息;WAP網(wǎng)關(guān)防火墻、融合防火墻上取得的NAT信息;4G DPI上取得的認證信息和互聯(lián)網(wǎng)訪問信息。本期工程只采集上網(wǎng)日志數(shù)據(jù),業(yè)務(wù)網(wǎng)絡(luò)平臺及其他平臺的數(shù)據(jù)采集未來逐步擴展增加。

      (2)數(shù)據(jù)傳輸

      數(shù)據(jù)采集機定時掃描各數(shù)據(jù)源相關(guān)目錄的數(shù)據(jù),進行壓縮傳輸?shù)炔僮鳎ㄈ绻呀?jīng)壓縮不必再次壓縮,如果沒有壓縮,則進行壓縮),并配有重傳機制。

      (3)數(shù)據(jù)接收

      全國接口機對上傳的日志數(shù)據(jù)進行校驗、稽核、去冗、清洗等操作后裝載入HDFS(Hadoop distributed file system,Hadoop分布式文件系統(tǒng))。

      (4)數(shù)據(jù)關(guān)聯(lián)入庫

      對采集機上傳的全量日志數(shù)據(jù)根據(jù)規(guī)則要求進行關(guān)聯(lián)入庫,以供查詢和共享。

      (5)查詢功能

      通過頁面的方式提供相關(guān)數(shù)據(jù)查詢操作。

      (6)數(shù)據(jù)共享

      根據(jù)各共享數(shù)據(jù)需求平臺的需求,通過特定接口方式提供數(shù)據(jù)共享功能。

      2.2 系統(tǒng)架構(gòu)

      2.2.1 邏輯架構(gòu)

      全國日志留存系統(tǒng)從邏輯上可分為數(shù)據(jù)采集與傳輸層、數(shù)據(jù)接收層、數(shù)據(jù)處理層、數(shù)據(jù)服務(wù)層以及系統(tǒng)管理層,如圖1所示。

      數(shù)據(jù)采集與傳輸層采集各個數(shù)據(jù)源(DPI、WAP網(wǎng)關(guān)、WAP網(wǎng)關(guān)防火墻、融合防火墻、業(yè)務(wù)網(wǎng)絡(luò)數(shù)據(jù))上的原始數(shù)據(jù)并對數(shù)據(jù)進行壓縮(已經(jīng)壓縮過的數(shù)據(jù)不用再壓縮)、上傳,并提供重傳、緩存等功能。

      數(shù)據(jù)接收層接收各省采集機的數(shù)據(jù)后對數(shù)據(jù)格式、規(guī)范性、關(guān)聯(lián)性、完整性進行校驗、稽核、去冗、清洗等操作并裝載到HDFS中。接口機還可以將采集到的原始數(shù)據(jù)進行共享。

      數(shù)據(jù)處理層對原始數(shù)據(jù)進行加工處理,包括數(shù)據(jù)管理、數(shù)據(jù)統(tǒng)計匯總、數(shù)據(jù)關(guān)聯(lián)入庫等功能。

      數(shù)據(jù)服務(wù)層提供數(shù)據(jù)統(tǒng)一訪問和共享服務(wù),包括數(shù)據(jù)查詢、數(shù)據(jù)共享、業(yè)務(wù)統(tǒng)計分析報表等功能。

      系統(tǒng)管理層提供統(tǒng)一的接入訪問管理、系統(tǒng)訪問和數(shù)據(jù)安全管理、資源監(jiān)控和分配管理、任務(wù)調(diào)度和監(jiān)控管理、系統(tǒng)的運維、監(jiān)控和日志管理等功能。

      2.2.2 技術(shù)架構(gòu)

      全國日志留存系統(tǒng)從技術(shù)上可分為數(shù)據(jù)接收層、數(shù)據(jù)處理層、數(shù)據(jù)服務(wù)層以及系統(tǒng)管理層,如圖2所示。

      (1)數(shù)據(jù)接收層

      通過FTP/SFTP實現(xiàn)對數(shù)據(jù)的采集和傳輸,接收數(shù)據(jù)后進行文件的校驗稽核、合并、切分等功能并裝載到HDFS。

      (2)數(shù)據(jù)處理層

      提供海量數(shù)據(jù)的存儲、查詢、分析匯總等功能,用于支持業(yè)務(wù)的需求場景和應(yīng)用。

      ·HDFS:采用HDFS存儲原始文件,讀寫吞吐量高。HDFS存儲包括原始入庫數(shù)據(jù) (DPI、AAA、NAT等)、業(yè)務(wù)實時數(shù)據(jù)(HBase)、海量數(shù)據(jù)清洗和分析匯總(Hive)數(shù)據(jù)等。

      圖1 系統(tǒng)邏輯架構(gòu)

      圖2 系統(tǒng)技術(shù)架構(gòu)

      ·MapReduce/Yarn:為Hadoop存儲下的海量數(shù)據(jù)進行清洗、分析、關(guān)聯(lián)和匯總的計算框架和資源管理。通過MapReduce并行運算框架實現(xiàn)日志關(guān)聯(lián)任務(wù)的統(tǒng)一調(diào)度處理,充分利用集群內(nèi)資源進行高性能處理;保持以省為單位進行日志關(guān)聯(lián)處理。

      ·HBase:是一個針對結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動態(tài)模式數(shù)據(jù)庫。采用批量裝載(BulkLoad)或文件復(fù)制的方式將關(guān)聯(lián)后數(shù)據(jù)輸出為HBase的內(nèi)部數(shù)據(jù)格式,直接裝載到HBase中,性能高,占用CPU、網(wǎng)絡(luò)資源少,用于提供日志留存系統(tǒng)的對外數(shù)據(jù)實時查詢。

      ·Hive:基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。

      (3)數(shù)據(jù)服務(wù)層

      提供系統(tǒng)的對外服務(wù)接口,包括數(shù)據(jù)的文件共享、服務(wù)查詢、數(shù)據(jù)分析等功能。

      ·支持通過SFTP/FTP的批量數(shù)據(jù)的文件共享,包括HBase中實時查詢數(shù)據(jù)文件接口方式的數(shù)據(jù)共享。

      ·支持通用的Web services的消息接口,用于數(shù)據(jù)的訪問、業(yè)務(wù)查詢、數(shù)據(jù)分析等功能。

      ·支持通過訂閱方式進行數(shù)據(jù)共享(訂閱接口需根據(jù)不同的應(yīng)用開發(fā))。

      (4)系統(tǒng)管理層

      ·服務(wù)管理:用于針對服務(wù)的接入管理、服務(wù)統(tǒng)計報表等功能。

      ·安全管理:管理用戶和服務(wù)在數(shù)據(jù)平臺的安全管理,包括用戶管理、訪問授權(quán)、管理授權(quán)、數(shù)據(jù)授權(quán)等,支持對用戶訪問和數(shù)據(jù)的安全管理。

      ·資源管理:管理Hadoop平臺下的資源分配和資源使用監(jiān)控等。

      ·任務(wù)管理:維護和監(jiān)控服務(wù)發(fā)布任務(wù)的執(zhí)行情況,支持任務(wù)的依賴、關(guān)聯(lián)執(zhí)行。

      ·系統(tǒng)管理:包括平臺的基本配置信息、服務(wù)和平臺的日志信息、系統(tǒng)平臺的監(jiān)控和維護、平臺告警、工單管理等功能。

      ·數(shù)據(jù)管理:提供統(tǒng)一的前臺數(shù)據(jù)管理功能,管理數(shù)據(jù)平臺的數(shù)據(jù)全生命周期。

      2.3 當(dāng)前存在的問題

      全國日志留存系統(tǒng)在清洗、處理收集的數(shù)據(jù)時,會檢查數(shù)據(jù)的完整性。數(shù)據(jù)完整性檢查,經(jīng)常會發(fā)現(xiàn)一些關(guān)鍵數(shù)據(jù)不全,部分字段數(shù)據(jù)丟失(為空),導(dǎo)致數(shù)據(jù)檢查不符合系統(tǒng)閾值,無法入庫,最終導(dǎo)致入庫數(shù)據(jù)過少,采樣數(shù)據(jù)過少,影響到后繼的數(shù)據(jù)分析、挖掘等工作。

      根據(jù)現(xiàn)有全國日志留存系統(tǒng)發(fā)現(xiàn)的問題,重點要解決以下2個方面問題。

      ·對于一些缺失但非關(guān)鍵數(shù)據(jù)字段,在清洗使用時,做一定的填充,提高數(shù)據(jù)完整性。

      ·對于一些關(guān)鍵但不完整的數(shù)據(jù)字段,通過一些經(jīng)驗數(shù)據(jù)進行補全,提升數(shù)據(jù)完整性和質(zhì)量。

      3 隨機森林技術(shù)及應(yīng)用

      隨機森林 (random forest,RF)是由Leo Breiman于2001年提出來的,是一個可處理高維度和非線性樣本的分類器組合模型,并在眾多領(lǐng)域得到了廣泛應(yīng)用[1]。隨機森林是一種綜合性的分類方法,分類的準確率高[2]。其實質(zhì)是一個組合分類器,其中決策樹是其核心。它不僅可以用來做分類,還可以用來做回歸。隨機森林相關(guān)的理論及應(yīng)用實例極多,在此僅做簡單介紹分析。

      隨機森林核心是隨機樣本、隨機特征、決策樹搭建、隨機森林分類四大部分。其中,隨機性體現(xiàn)在前兩類:即在每次建樹時,在樣本全集中隨機取樣,訓(xùn)練集呈現(xiàn)的隨機性[3];在每個節(jié)點分裂時,從全集M個屬性中選取x個屬性,呈現(xiàn)特征屬性的隨機性[4]。

      (1)隨機樣本

      給定一個訓(xùn)練樣本集,數(shù)量為N,本文使用有放回采樣到N個樣本,構(gòu)成一個新的訓(xùn)練集。注意這里是有放回的采樣,所以會采樣到重復(fù)的樣本。詳細來說,就是采樣N次,每次采樣一個,放回,繼續(xù)采樣。即得到了N個樣本。然后把這個樣本集作為訓(xùn)練集,進入下一步。

      (2)隨機特征

      在構(gòu)建決策樹的時候,主要就是在一個節(jié)點上,計算所有特征的ID3(information gain)或者C4.5(gain ratio),然后選擇一個最大增益的特征作為劃分下一個子節(jié)點的走向。但是,在隨機森林中,本文不計算所有特征的增益,而是從總量為M的特征向量中,隨機選擇m個特征,其中m可以等于sqrt(M),然后計算m個特征的增益,選擇最優(yōu)特征(屬性)。注意,這里的隨機選擇特征是無放回的選擇!

      (3)決策樹搭建

      根據(jù)樣本集,搭建決策樹。用隨機特征選擇方法進行節(jié)點最優(yōu)分類特征的計算。一般用ID3或者C4.5等作為選擇特征的標準。

      例如:集合Y包含i個類別的記錄,那么其Gini指標為:

      其中,qi為類別i出現(xiàn)的頻率。

      如果集合T分成n部分M1,M2,…,Mn。那么這個分割的Gini為:

      一般采用選擇具有最小Gini的屬性為分裂屬性的選擇規(guī)則。

      (4)隨機森林分類

      重復(fù)上述過程N次,就得到了N棵決策樹。輸入一個測試樣本,用已有的每顆決策樹對它分類,得到N個分類結(jié)果。最后,使用簡單的投票機制獲取平均值,得到最終分類結(jié)果[5]。簡單投票機制包括一票否決、一致表決、閾值表決、貝葉斯投標機制等。

      隨機森林是一個用隨機方式建立的,包含多個決策樹的分類器。其輸出的類別是由各個樹輸出的類別的眾數(shù)而定。當(dāng)前,隨機森林在各個領(lǐng)域都有應(yīng)用,主要應(yīng)用方法則偏向于模型建立、回歸等。

      4 采用隨機森林算法的全國日志留存系統(tǒng)數(shù)據(jù)補全解決方案

      最理想的情況是,數(shù)據(jù)補全應(yīng)該在數(shù)據(jù)源頭進行數(shù)據(jù)上傳時進行,這樣既可以保證上級系統(tǒng)匯集的數(shù)據(jù)都是高質(zhì)量的有效數(shù)據(jù),又可以減少無用數(shù)據(jù)的傳輸和存儲,且降低并分擔(dān)數(shù)據(jù)匯聚系統(tǒng)的數(shù)據(jù)處理量。但考慮到運營商現(xiàn)網(wǎng)已有系統(tǒng)的改造量大,且初期需要盡量保證數(shù)據(jù)匯聚平臺中數(shù)據(jù)的原始性,所以數(shù)據(jù)補全可以在數(shù)據(jù)匯聚平臺進行。

      在現(xiàn)有全國日志留存系統(tǒng)中,當(dāng)務(wù)之急是解決歷史數(shù)據(jù)的完整性問題,通過篩選系統(tǒng)定義數(shù)據(jù)的關(guān)鍵和非關(guān)鍵字段,建立正確的模板作為采樣集,并通過訓(xùn)練集和決策樹構(gòu)建和分類,最終選取最適當(dāng)?shù)男问綄?shù)據(jù)進行補全。

      隨機森林進行數(shù)據(jù)補全技術(shù)解決方案包括隨機森林補全數(shù)據(jù)、不影響結(jié)果的反饋回歸驗證以及與現(xiàn)有平臺的融合。

      4.1 隨機森林處理數(shù)據(jù)補全技術(shù)解決方案

      在現(xiàn)有全國日志留存系統(tǒng)中或在整體體系架構(gòu)中,定義數(shù)據(jù)補全子系統(tǒng),如圖3所示。其中,數(shù)據(jù)檢測與修復(fù)模塊中采用隨機森林算法。

      圖3 數(shù)據(jù)補全子系統(tǒng)邏輯架構(gòu)

      數(shù)據(jù)源通過數(shù)據(jù)讀取模塊讀入,數(shù)據(jù)檢測與修復(fù)模塊根據(jù)數(shù)據(jù)源的類型讀入數(shù)據(jù)質(zhì)量庫中相關(guān)的數(shù)據(jù)執(zhí)行表,并執(zhí)行檢測與修復(fù)任務(wù),執(zhí)行完畢保存到數(shù)據(jù)存儲器。

      數(shù)據(jù)質(zhì)量庫由數(shù)據(jù)統(tǒng)計表和數(shù)據(jù)執(zhí)行表組成,數(shù)據(jù)統(tǒng)計表內(nèi)存儲每種業(yè)務(wù)歷史數(shù)據(jù)的統(tǒng)計情況,數(shù)據(jù)執(zhí)行表由具體業(yè)務(wù)需求確定,從數(shù)據(jù)統(tǒng)計表內(nèi)抽取相關(guān)日期或相關(guān)種類業(yè)務(wù)數(shù)據(jù)統(tǒng)計表,生成數(shù)據(jù)執(zhí)行表,執(zhí)行數(shù)據(jù)檢測和修復(fù)任務(wù)。

      在與現(xiàn)有系統(tǒng)融合時,數(shù)據(jù)補全子系統(tǒng)可以以Spark架構(gòu)作為功能模塊載入全國日志留存系統(tǒng)中,實現(xiàn)數(shù)據(jù)處理部分的功能。

      4.2 數(shù)據(jù)補全效果反饋回歸子系統(tǒng)技術(shù)方案

      一般來說,隨機森林算法通過現(xiàn)成的回歸處理,可以對算法本身的正確性進行驗證和測試。但是,電信運營商數(shù)據(jù)補全的最終目的,是提升數(shù)據(jù)采樣率以及數(shù)據(jù)的質(zhì)量,最后進行商用。所以,對于數(shù)據(jù)補全的效果反饋進行回歸。本回歸的目的,初期是解決當(dāng)前數(shù)據(jù)采樣率的問題,補全的數(shù)據(jù)不求提升大數(shù)據(jù)應(yīng)用的效果或命中率。所以在回歸的效果評定閾值,應(yīng)該設(shè)置為100%。其含義為,數(shù)據(jù)補全后百分百不影響數(shù)據(jù)應(yīng)用的結(jié)果。簡單的說,就是數(shù)據(jù)補全后,用更多的數(shù)據(jù)構(gòu)建的模型計算出來的結(jié)果與不補全時計算的結(jié)果是一樣的。

      具體實現(xiàn)就是讀取若干批次相同業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)應(yīng)用結(jié)果統(tǒng)計表,采用融合權(quán)重且自適應(yīng)的算法(式(3))計算出數(shù)據(jù)結(jié)果執(zhí)行表的各執(zhí)行參數(shù),并據(jù)此驗證數(shù)據(jù)補全后的效果。

      這樣既可以避免造成補全決策錯誤造成數(shù)據(jù)完整度高,但效果反而更差的情況;也盡量不要因為數(shù)據(jù)完整度高而效果提高,造成的決策正確的假象??偠灾跀?shù)據(jù)補全的初期,先求數(shù)據(jù)利用率和價值的提升、不求數(shù)據(jù)應(yīng)用結(jié)果的提升。

      在數(shù)據(jù)補全任務(wù)結(jié)束后,效果回歸子系統(tǒng)評估修復(fù)效果,與這批數(shù)據(jù)的無瑕疵部分的數(shù)據(jù)應(yīng)用結(jié)果進行比較,越接近越優(yōu)。針對靜態(tài)數(shù)據(jù)可通過調(diào)整相關(guān)參數(shù)多次實驗,針對流式數(shù)據(jù)可間隔一定時間重新生成數(shù)據(jù)執(zhí)行表投入使用,以此不斷完善數(shù)據(jù)質(zhì)量庫。

      5 結(jié)束語

      隨機森林用于數(shù)據(jù)補全,優(yōu)點是相當(dāng)明顯的,對于如全國日志留存系統(tǒng)這類數(shù)據(jù)噪聲小的系統(tǒng)中,實現(xiàn)簡單、效率高。但是,對電信運營商而言,在全國層面數(shù)據(jù)過多,且當(dāng)數(shù)據(jù)應(yīng)用實例擴充后,這樣的數(shù)據(jù)補全及效果反饋回歸子系統(tǒng)會導(dǎo)致更多的計算量和資源開銷。所以,在數(shù)據(jù)補全系統(tǒng)逐步演進的過程中,對于初級的數(shù)據(jù)補全和效果反饋回歸可以在升級數(shù)據(jù)上傳時進行,而在全國層面則可以開展多系統(tǒng)融合、內(nèi)外數(shù)據(jù)關(guān)聯(lián)后的數(shù)據(jù)補全及效果反饋回歸。這樣既可以分擔(dān)全國系統(tǒng)的工作壓力提高效率,又可以全國和省兩級的數(shù)據(jù)補全聯(lián)動、質(zhì)量提升分工。當(dāng)然,在今后的數(shù)據(jù)補全中,不僅僅是隨機森林,其他的分類聚類等各種算法都可以逐步引入,以適應(yīng)不同的需求和場景。

      [1]BREIMAN L.Random forests[J].Machine Learning,2001,45(1): 5-32.

      [2]李慧.一種改進的隨機森林并行分類方法在運營商大數(shù)據(jù)的應(yīng)用[D].成都:電子科技大學(xué),2015.LI H.An improved random forest parallel classification method and its application to big data of telecom operators[D]. Chengdu:University of Electronic Science and Technology of China,2015.

      [3]BREIMAN L.Bagging predictors[J].Machine Learning,1996, 24(1):123-140.

      [4]DIETTERICH T.An experimental comparison of three methods for constructing ensembles of decision trees:bagging boosting and randomization[J].Machine Learning,2000(40): 139-157.

      [5]方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述 [J].統(tǒng)計與信息論壇.2011(3):32-38. FANG K N,WU J B,ZHU J P,et al.A review of technologies on random forests[J].Statistics&Information Forum,2011(3): 32-38.

      [6]曹正鳳.隨機森林算法優(yōu)化研究 [D].北京:首都經(jīng)濟貿(mào)易大學(xué),2014. CAO Z F.Study on optimization of random forests algorithm[D]. Beijing:Capital University of Economics and Business,2014.

      [7] 黃師師,黃哲學(xué).隨機森林理論淺析[J].集成技術(shù),2013,2(1): 1-7. HUANG S S,HUANG Z X.A brief theoretical overview of random forests[J].Journal of Integration Technology,2013,2(1):1-7.

      王錚(1973-),男,中國電信股份有限公司上海研究院工程師,主要研究方向為大數(shù)據(jù)平臺、應(yīng)用及業(yè)務(wù)網(wǎng)絡(luò)。

      任華(1977-),女,中國電信股份有限公司上海研究院工程師,主要研究方向為大數(shù)據(jù)平臺和業(yè)務(wù)平臺。

      方燕萍(1981-),女,中國電信股份有限公司上海研究院工程師,主要研究方向為大數(shù)據(jù)和移動互聯(lián)網(wǎng)領(lǐng)域。

      Application of random forest in big data completion

      WANG Zheng,REN Hua,FANG Yanping
      Shanghai Research Institute of China Telecom Co.,Ltd.,Shanghai 200122,China

      Telecom operators have a lot of data,but in view of a variety of reasons,the quality of the data is not ideal,there are a lot of data is not complete or even missing.For existing data mining,it is necessary to carry out the data to meet the quality of the data and to achieve sufficient sampling proportion.Relying on the country’s existing log retention system,template library design data integrity,authentication could not meet the quality requirements of the data,using the random forest algorithm,the same data with or related data was found,data was completed and data quality was improved,and the template library was extended by optimization of feedback.The construction of completion data subsystem in the system log retained end-to-end data quality guaranteed and improved quality,completed and improved the real-time data and historical data,and ultimately met the requirements of data processing and mining operators,improved data quality and value.

      big data,random forest,machine learning,data completion

      TN919.5

      A

      10.11959/j.issn.1000-0801.2016317

      2016-11-08;

      2016-12-13

      猜你喜歡
      日志運營商森林
      一名老黨員的工作日志
      華人時刊(2021年13期)2021-11-27 09:19:02
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      游學(xué)日志
      哈Q森林
      哈Q森林
      哈Q森林
      取消“漫游費”只能等運營商“良心發(fā)現(xiàn)”?
      消費者報道(2016年3期)2016-02-28 19:07:30
      哈Q森林
      第一章 在腐敗火上烤的三大運營商
      IT時代周刊(2015年9期)2015-11-11 05:51:43
      三大運營商換帥不是一個簡單的巧合
      IT時代周刊(2015年9期)2015-11-11 05:51:27
      鄯善县| 普陀区| 五河县| 昔阳县| 神池县| 耒阳市| 买车| 察哈| 博乐市| 澎湖县| 塘沽区| 抚远县| 聂拉木县| 高陵县| 富蕴县| 顺义区| 张掖市| 贵州省| 普安县| 大埔县| 榆中县| 南部县| 夏津县| 通许县| 汝州市| 鹤峰县| 永仁县| 双柏县| 桂阳县| 晋宁县| 新竹市| 大埔县| 贞丰县| 岚皋县| 海阳市| 怀化市| 德化县| 紫金县| 舞阳县| 于都县| 虞城县|