• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于大數(shù)據(jù)的未到達(dá)貨票清算預(yù)測平臺研究

    2019-10-23 07:53:36謝大鋒霍鵬敏
    鐵路計算機應(yīng)用 2019年10期
    關(guān)鍵詞:二叉樹貨運運輸

    謝大鋒,安 騰,霍鵬敏

    (北京經(jīng)緯信息技術(shù)有限公司, 北京 100081)

    隨著鐵路大提速的實施以及貨運組織和服務(wù)水平的提升,運輸企業(yè)對貨運分析內(nèi)容的多樣性、實時性和準(zhǔn)確性提出了更高的要求。為了滿足分析需求,2018年鐵路貨物運輸承運制清算正式實施。鐵路貨物運輸建立了收入來自市場、服務(wù)定價補償、公正透明的清算體系,明晰運輸企業(yè)之間的經(jīng)濟(jì)利益關(guān)系[1-2]。

    鐵路貨運承運制清算中工作量數(shù)據(jù)與收入數(shù)據(jù)采用制票日期與貨票號碼進(jìn)行匹配,匹配成功貨票直接進(jìn)行清算,未匹配成功貨票則認(rèn)定為未到達(dá)貨票,即收入部門已核算收入,但貨物仍在運輸途中的貨票?,F(xiàn)行的貨運清算系統(tǒng)只能實現(xiàn)對已到達(dá)貨票的清算,而未到達(dá)貨票由于缺失實際徑路和工作量信息,無法實現(xiàn)對其的清算。由于鐵路貨物承運制清算剛剛起步,針對未到達(dá)貨票的承運制清算預(yù)測研究尚少。為促進(jìn)大數(shù)據(jù)在我國鐵路行業(yè)的落地生效,充分展現(xiàn)貨運數(shù)據(jù)價值[3-4],對未到達(dá)貨票的分析和預(yù)測已成為整個貨運承運清算工作必不可少的一環(huán)。

    本文旨在構(gòu)建基于大數(shù)據(jù)的未到達(dá)貨票清算預(yù)測平臺,通過對貨票歷史數(shù)據(jù)的分析建模,結(jié)合專家經(jīng)驗和人工處理,對未到達(dá)貨票進(jìn)行承運制清算預(yù)測,使得運輸企業(yè)可較為精確掌握本月本企業(yè)營收情況,為后續(xù)業(yè)務(wù)開展和經(jīng)營決策及時提供數(shù)據(jù)基礎(chǔ)和決策支持[5-6]。

    1 預(yù)測算法模型研究

    1.1 k近鄰算法模型

    k近鄰(k-NN ,k-Nearest Neighbor)算法是1967年由Cover T和Hart P提出的一種基本分類與回歸方法,工作原理是:存在一個樣本數(shù)據(jù)集合,也稱作訓(xùn)練樣本集,并且樣本集中每個數(shù)據(jù)都存在標(biāo)簽,即樣本集中每一個數(shù)據(jù)與所屬分類的對應(yīng)關(guān)系。輸入沒有標(biāo)簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個特征與樣本集中數(shù)據(jù)對應(yīng)的特征進(jìn)行比較,然后提取樣本最相似數(shù)據(jù)(最近鄰)的分類標(biāo)簽。一般只選擇樣本數(shù)據(jù)集中前k個最相似的數(shù)據(jù)作為分類參考,這就是k-NN算法中k的出處,通常k是不大于20的整數(shù)。

    新數(shù)據(jù)分類過程如圖1所示,其中綠色圓圈為未知類的新數(shù)據(jù),若設(shè)定k=3,由于紅色三角形所占比例為2/3,則新數(shù)據(jù)被賦予紅色三角形類;若k=5,由于藍(lán)色四方形所占比率為3/5,則新數(shù)據(jù)被賦予藍(lán)色四方形類。

    圖1 k-NN算法分類示意圖

    (2)設(shè)計1個數(shù)據(jù)結(jié)構(gòu),使算法能夠以線性的時間查找1個點的最鄰近點集。在1個樣本個數(shù)為n的有序序列中二分查找1個元素,理論上只需要進(jìn)行l(wèi)og n次查找,故此二分查找的時間復(fù)雜度為O(logn)。因此若將已到達(dá)貨票歷史數(shù)據(jù)樣本點構(gòu)建成1顆二叉樹,則查詢時間可控制在O(log n)。

    如圖2所示,在數(shù)據(jù)空間中隨機選擇2個樣本點,以這2個節(jié)點為初始中心節(jié)點,執(zhí)行聚類數(shù)為2的k均值聚類算法,最終產(chǎn)生收斂后的2個聚類中心點。這2個聚類中心點之間連1條線段(灰色短線),建立1條垂直于這條灰線,并且通過灰線中心點的線(黑色粗線)。這條黑色粗線把數(shù)據(jù)空間分成2部分,在多維空間中這條黑色粗線就是超平面。

    在進(jìn)行貨運承運制清算未到達(dá)貨票預(yù)測時,采用已到達(dá)貨票的歷史數(shù)據(jù)作為訓(xùn)練樣本集。將未到達(dá)貨票中的收入信息與貨票信息相結(jié)合,并選擇制票站、發(fā)車站、到達(dá)站、運輸類別、貨物品類、貨物重量等信息作為標(biāo)簽,進(jìn)行新數(shù)據(jù)和樣本集中數(shù)據(jù)對應(yīng)特征的匹配。本文選取10作為k-NN算法中的k值,將10個最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,作為新數(shù)據(jù)的分類[7]

    1.2 構(gòu)建模型

    k-NN算法模型構(gòu)建的目的是要在一個空間內(nèi)找到一個已知點的最近鄰集合。算法模型構(gòu)建的過程如下。

    (1)構(gòu)建一個具有大量數(shù)據(jù)樣本的多維空間,本文中已到達(dá)貨票歷史數(shù)據(jù)就是多維空間的構(gòu)建基礎(chǔ)。

    圖2 數(shù)據(jù)空間劃分示意圖

    (3)按照步驟(2)在每個子集上進(jìn)行迭代劃分,直到每個節(jié)點最多剩下k個樣本點,形成完整二叉樹結(jié)構(gòu),如圖3所示。

    圖3 k-NN算法的完整二叉樹示意圖

    (4)遍歷二叉樹,查找鄰近點。

    二叉樹的每個中間節(jié)點(圖3中方形節(jié)點)用超平面來定義,因此能夠計算出該節(jié)點的遍歷方向。搜索一個節(jié)點能夠在logn時間內(nèi)完成,正好是二叉樹的高度,節(jié)點查找過程如圖4所示。

    圖4 k-NN算法節(jié)點查找示意圖

    2 未到達(dá)貨票清算預(yù)測平臺搭建與應(yīng)用

    Hadoop目前已成為公認(rèn)的大數(shù)據(jù)處理領(lǐng)域的標(biāo)準(zhǔn),可滿足大數(shù)據(jù)的各種技術(shù)需求[8]。本文通過建立基于大數(shù)據(jù)的未到達(dá)貨票清算預(yù)測平臺,達(dá)到分析、預(yù)測未到達(dá)貨票數(shù)據(jù)的目的。

    2.1 大數(shù)據(jù)平臺架構(gòu)

    大數(shù)據(jù)平臺的技術(shù)架構(gòu)分為3層:數(shù)據(jù)層、模型層和展示層,如圖5所示。

    圖5 平臺技術(shù)架構(gòu)圖

    其中,數(shù)據(jù)層主要建立用戶行為分析數(shù)據(jù)模型,需要用到鐵路貨票系統(tǒng)和鐵路貨物運輸承運制清算系統(tǒng)2部分?jǐn)?shù)據(jù),具體內(nèi)容如下:

    (1)歷史數(shù)據(jù):歷史到達(dá)貨票數(shù)據(jù)包括貨票票根、機車牽引、線路使用、車輛服務(wù)、接觸網(wǎng)使用及電費、長交路輪乘和特殊運價;

    (2)未到達(dá)貨票數(shù)據(jù):未到達(dá)貨票的票根數(shù)據(jù)等;

    (3)未到達(dá)貨票收入數(shù)據(jù):未到達(dá)貨票的收入信息。

    通過Hive工具保存關(guān)系型數(shù)據(jù)庫轉(zhuǎn)換的數(shù)據(jù),通過Open TSDB工具保存準(zhǔn)實時數(shù)據(jù),為模型層分布式計算提供數(shù)據(jù)條件。

    2.2 預(yù)測模型

    未到達(dá)貨票清算預(yù)測模型的流程如圖6所示。

    (1)通過對鐵路貨票歷史數(shù)據(jù)進(jìn)行一系列預(yù)處理,歸納出不同運輸企業(yè)的同類貨票的特征和規(guī)律,提取歷史貨票相關(guān)的特征變量。通過分析匹配未到達(dá)貨票與歷史貨票特征的區(qū)別,提取未到達(dá)貨票的特征屬性,利用Hadoop分布式特點存儲數(shù)據(jù)。

    圖6 預(yù)測模型流程圖

    (2)整合業(yè)務(wù)專家的輸入特征建議,利用k-NN算法建立未到達(dá)貨票預(yù)測及分析模型,計算出每張未到達(dá)貨票的最相似歷史貨票集合,并根據(jù)系數(shù)(相似程度)進(jìn)行排序。

    (3)業(yè)務(wù)人員可以根據(jù)系數(shù)(相似程度),將適合納入預(yù)測的貨票批量納入清算預(yù)測范圍,形成完整貨票信息并進(jìn)行清算預(yù)測。

    2.3 應(yīng)用效果

    應(yīng)用該平臺對2018年5月產(chǎn)生的18萬張未到達(dá)貨票進(jìn)行清算預(yù)測,涉及100余家運輸企業(yè)。通過與2018年6月實際數(shù)據(jù)進(jìn)行對比,各項預(yù)測應(yīng)付金額與實際應(yīng)付金額誤差率在10%以內(nèi),具體數(shù)值如表1所示。通過預(yù)測使運輸企業(yè)能及時掌握本企業(yè)每月實時整體經(jīng)營情況,便于其及時調(diào)整經(jīng)營策略。

    表1 預(yù)測應(yīng)付金額與實際金額對比列表

    3 結(jié)束語

    未到達(dá)貨票清算預(yù)測問題,對各運輸企業(yè)預(yù)判經(jīng)營效益影響巨大,關(guān)系到各運輸企業(yè)的后續(xù)業(yè)務(wù)開展和經(jīng)營決策。伴隨貨運承運制清算的深入推進(jìn),未到達(dá)貨票清算預(yù)測平臺作為鐵路貨物運輸承運制清算系統(tǒng)的重要組成部分,會逐步積累大量的貨運承運制生產(chǎn)數(shù)據(jù),為預(yù)測運輸企業(yè)的運輸行為提供更精準(zhǔn)的數(shù)據(jù)模型,更好的讓中國國家鐵路集團(tuán)有限公司資金清算中心及時掌握全路貨運情況、發(fā)揮宏觀調(diào)控作用,為防范與化解貨運金融風(fēng)險提供決策依據(jù)。

    猜你喜歡
    二叉樹貨運運輸
    CSP真題——二叉樹
    電腦報(2022年37期)2022-09-28 05:31:07
    二叉樹創(chuàng)建方法
    波音公司試飛電動垂直起降貨運無人機
    無人機(2018年1期)2018-07-05 09:51:00
    AT200大型貨運無人機實現(xiàn)首飛
    無人機(2017年10期)2017-07-06 03:04:36
    一種由層次遍歷和其它遍歷構(gòu)造二叉樹的新算法
    貨運之“云”
    專用汽車(2016年5期)2016-03-01 04:14:38
    受阻——快遞運輸“快”不起來
    專用汽車(2016年4期)2016-03-01 04:13:39
    比甩掛更高效,交換箱漸成運輸“新寵”
    專用汽車(2016年1期)2016-03-01 04:13:08
    關(guān)于道路運輸節(jié)能減排的思考
    俄發(fā)射“進(jìn)步”M23M貨運飛船
    太空探索(2014年6期)2014-07-10 13:06:11
    尚志市| 泰州市| 南皮县| 聂荣县| 五大连池市| 镇巴县| 嘉荫县| 磐石市| 龙州县| 连云港市| 克拉玛依市| 盱眙县| 金乡县| 遵化市| 苏尼特左旗| 固镇县| 泽普县| 长垣县| 新绛县| 三穗县| 思茅市| 定陶县| 班玛县| 宜昌市| 仪征市| 和龙市| 繁峙县| 宜良县| 阿城市| 吉木萨尔县| 瑞昌市| 正镶白旗| 同心县| 德化县| 昭平县| 金湖县| 虞城县| 巴彦淖尔市| 百色市| 麻江县| 崇左市|