王 堯,劉貝貝,李保民,張愛華
(中國航天系統(tǒng)工程有限公司,北京 10070)
近年來,隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、移動互聯(lián)聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)出行公司為乘客提供了更加便捷的打車方式與多元化出行方式,推出的出行APP能夠即時或預(yù)約出租車、快車、專車等出行?,F(xiàn)在人們也逐漸養(yǎng)成使用出行APP打車的習(xí)慣,導(dǎo)致傳統(tǒng)出租企業(yè)出行市場份額正在被分流到快車、專車等出行方式,逐漸失去了出行市場老大的地位。
相較于互聯(lián)網(wǎng)出行公司通過出行APP服務(wù)于乘客并監(jiān)管車輛運營,傳統(tǒng)出租企業(yè)因信息化建設(shè)滯后,很難快速響應(yīng)乘客出行需求與實時服務(wù)于企業(yè)運營管理及司機運營的需求,也沒有通過挖掘以往運營數(shù)據(jù)來發(fā)現(xiàn)運營問題,或提高企業(yè)出租運營管理及服務(wù)水平。為了達到提升企業(yè)運營效率與運營安全管理及運營服務(wù)水平,鑒于以往的交通大數(shù)據(jù)平臺的研究對象多為省級或城市級[1-2],針對出租企業(yè)級研究較少,所以本文在分析北京市出租企業(yè)信息化與業(yè)務(wù)現(xiàn)狀的基礎(chǔ)上,提出了出租企業(yè)交通大數(shù)據(jù)平臺總體架構(gòu)與技術(shù)實現(xiàn)架構(gòu)。
(1)企業(yè)業(yè)務(wù)軟件。出租企業(yè)核心的信息化軟件一般為出租車運營監(jiān)控系統(tǒng)、違章系統(tǒng)、人事管理系統(tǒng)、財務(wù)系統(tǒng),具有車輛維修能力的企業(yè)還有車輛維修管理系統(tǒng)。因出租企業(yè)普遍缺少軟件研發(fā)能力,以上軟件均采用采購或委托第三方企業(yè)進行定制開發(fā)。因定制化程度差等原因,企業(yè)業(yè)務(wù)軟件間互通性很差,通常需要靠人工才能互通。已采購系統(tǒng)的升級也因缺少資金的支持或領(lǐng)導(dǎo)對信息化重視程度不夠而不能適應(yīng)業(yè)務(wù)的發(fā)展或變化。
(2)乘客打車軟件。乘客的打車軟件使用第三方的居多,比如北京市大部分出租車均使用滴滴、嘀嗒、曹操出行,也有自研的平臺,如首汽出租自研的首汽約車。
(1)安全管理。出租企業(yè)司機在上崗前均需經(jīng)過嚴格的考核,正式上車運營后,每月還需參加兩次安全例會。例會上安全管理人員與出租車員工集體進行安全學(xué)習(xí),安全管理人員通報最近企業(yè)內(nèi)部運營安全違規(guī)事件,提醒司機安全注意事項。在非安全例會時間,安全隊長會負責(zé)隨機巡邏車隊隊內(nèi)車輛,減少司機在公司外違規(guī)運營可免于處罰的僥幸心理。
(2)車輛管理。相較于互聯(lián)網(wǎng)出行公司輕資產(chǎn)運營,出租車企業(yè)屬于重資產(chǎn)運營,出租車輛是出租車公司出資購買的,車輛技術(shù)隊長負責(zé)管理車輛車況安全。
(3)運營承包。出租企業(yè)出租車運營均實行承包制,按照車輛運營的方式可分為單班車、雙班車,單班車即一個司機租一輛車;而雙班車則兩個司機租一輛車,分早、晚班運營。
(4)運營考核。在員工運營效益考核方面,出租車企業(yè)更注重安全,比如違章、事故、糾紛等。車輛的運營成本、司機的收入情況,因為已經(jīng)承包給司機,所以企業(yè)并不考核。
(5)司機運營。司機運營時間長短均有自己控制,一般司機運營的時間和最小收入、期望收入有關(guān),最小收入=日承包費用+日均凈收入,期望收入=日承包費用+日最高期待凈收入。當(dāng)達到期待收入后,司機一般會選擇下班休息而不再考慮繼續(xù)運營。
從以上5個方面可以看出出租企業(yè)管理重心在于安全,而司機的運營收入的多少取決于司機經(jīng)驗與運氣?;ヂ?lián)網(wǎng)出行平臺出現(xiàn)后,APP叫車成為主流趨勢,司機收入則取決于互聯(lián)網(wǎng)出行平臺的派單情況。
(1)運營安全。運營安全包車輛車況安全與車輛行駛安全。保證車況安全有利于車輛行駛安全、也有利于延長車輛零部件的使用壽命、減少車輛維修保養(yǎng)費用支出;行駛安全主要指司機在駕駛車輛過程中各種操作均符合企業(yè)、行業(yè)、道路交通安全相關(guān)法規(guī)條例,避免因為司機的疏忽或過失,對乘客及道路上的車輛行人造成傷害。(2)運營效率。高效運營能夠降低企業(yè)及司機的運營成本、提高企業(yè)與司機運營收入、提升企業(yè)的整體運營服務(wù)水平,還可輔助企業(yè)降低車輛空駛率,完成企業(yè)節(jié)能減排目標(biāo)。(3)平臺使用。因為出租企業(yè)從業(yè)人員的組成結(jié)構(gòu),員工普遍抵觸使用復(fù)雜的軟件。又由于快車、專車加入到運營車輛大軍中,出租企業(yè)車輛被承包率開始下降,企業(yè)需要能夠以較低的成本實現(xiàn)企業(yè)整體運營管理水平的升級。
平臺能夠互通企業(yè)內(nèi)部數(shù)據(jù),支持數(shù)據(jù)挖掘分析,且分析后的數(shù)據(jù)可支持企業(yè)搭建用于提升企業(yè)運營安全、運營效率管理與服務(wù)水平相關(guān)的應(yīng)用。
為達到平臺設(shè)計目標(biāo),本文從感知數(shù)據(jù)互通、數(shù)據(jù)深度挖掘、數(shù)據(jù)創(chuàng)新應(yīng)用3個方面著手,構(gòu)建了“一個中心、四大應(yīng)用”的出租企業(yè)級交通大數(shù)據(jù)框架,如圖1所示。其中,“一個中心”指的是企業(yè)交通大數(shù)據(jù)中心,對應(yīng)數(shù)據(jù)分析層,用于支撐數(shù)據(jù)的實時處理、存儲、挖掘分析、數(shù)據(jù)管理、數(shù)據(jù)共享,“四大應(yīng)用”分別是服務(wù)于企業(yè)運營管理者的實時監(jiān)控報警、統(tǒng)計挖掘、決策支持,服務(wù)于司機的服務(wù)應(yīng)用。
圖1 出租企業(yè)大數(shù)據(jù)平臺總體架構(gòu)
2.1.1 物理感知
物理感知為大數(shù)據(jù)中心準(zhǔn)備數(shù)據(jù),包括兩個方面的數(shù)據(jù),主要數(shù)據(jù)為出租終端上傳的位置、出租計價(運營)、車輛OBD(車輛各種狀態(tài))、實時乘車人數(shù)數(shù)據(jù),還包括原各個業(yè)務(wù)系統(tǒng)中數(shù)據(jù)庫的數(shù)據(jù),比如違章管理、例會管理、人事管理、財務(wù)等業(yè)務(wù)系統(tǒng)。
2.1.2 大數(shù)據(jù)中心
大數(shù)據(jù)中心主要負責(zé)數(shù)據(jù)接入、數(shù)據(jù)計算、數(shù)據(jù)存儲、數(shù)據(jù)統(tǒng)計分析挖掘、數(shù)據(jù)共享和數(shù)據(jù)管理。物理感知層數(shù)據(jù)全部實時接入大數(shù)據(jù)中心后處理流程如圖2所示。具體流程如下:經(jīng)過數(shù)據(jù)解析后一方面存儲原始數(shù)據(jù),另一方面用于實時監(jiān)控報警等類業(yè)務(wù)處理。存儲的原始數(shù)據(jù)經(jīng)過批處理引擎的處理一方面存入數(shù)據(jù)倉庫,另一方面用于支撐對數(shù)據(jù)倉庫的統(tǒng)計分析(或挖掘)類服務(wù),為應(yīng)用層提供分析后的數(shù)據(jù)。數(shù)據(jù)共享主要與交通管理部門共享運營、能耗數(shù)據(jù);而數(shù)據(jù)管理則負責(zé)管理大數(shù)據(jù)中心所有的數(shù)據(jù)。
圖2 大數(shù)據(jù)中心數(shù)據(jù)處理流程
2.1.3 四大應(yīng)用
(1)實時監(jiān)控報警,主要包含車況報警、駕駛行為報警、位置報警、客流實時分析等。其中,車況報警可包含故障碼、水溫異常、車輛電壓異常、前/后氧傳感器異常、三元催化發(fā)生異常報警;駕駛行為報警可包含超速、超轉(zhuǎn)、過長怠速、疲勞駕駛、急加速、急減速、急轉(zhuǎn)彎、發(fā)動機非經(jīng)濟運轉(zhuǎn)等不良行為;客流實時分析主要指所有車輛經(jīng)過客流實時分析后,顯示不同地點的打車熱度及人員流向。
(2)統(tǒng)計挖掘,主要分析的對象包含車況、能耗、司機、客流。對車況的統(tǒng)計挖掘能夠挖掘車輛零部件發(fā)生各種類型故障的規(guī)律,有助于企業(yè)制定預(yù)防性的維修策略;對能耗的統(tǒng)計挖掘能夠挖掘車輛能耗與行駛里程、車齡、行駛道路、天氣、路況之間的關(guān)聯(lián)關(guān)系;對司機的統(tǒng)計挖掘主要包含對司機的運營特征及駕駛行為特征的挖掘分析,能夠分析出司機的運營時間偏好、駕駛行為類型、駕駛安全類型。對客流的分析能夠分析不同時間客流的發(fā)生點及客流流向、吸引點及客流流向,有助于企業(yè)提升司機運營效率。
(3)決策支持,主要包含企業(yè)采購車輛、安全、運營策略的制定。第一,車輛采購。企業(yè)在積累的不同車型隨行駛里程、行駛時間車輛零部件的故障變化、車輛能耗變化的規(guī)律后,既可支持車型評價,又可定制汽車企業(yè)車輛零部件甚至參與車輛設(shè)計與制造,來降低企業(yè)車輛運營及司機運營成本,提高在企業(yè)在出租市場上的競爭力。第二,安全策略。企業(yè)在掌握車況、司機駕駛行為及違章的狀況后,著重針對司機行駛不安全問題及車輛車況不安全問題制定安全策略,盡可能減少或杜絕可誘發(fā)不安全運營的各種因素。第三,運營策略。企業(yè)在掌握車況、當(dāng)前的司機的運營里程、運營時長狀況后,可適當(dāng)?shù)靥岣呋蛘呓档退緳C承包運營車輛月租金,達到企業(yè)運營車輛整體上充分利用的目的,依此提高企業(yè)運營收入。
(4)服務(wù)應(yīng)用,主要服務(wù)于司機,包含事故提醒、車輛維修提醒、違章提醒、駕駛行為的警告、客流大地點推薦等。事故、違章提醒是基于相同地點或相似場景下常發(fā)事故及違章的及時提醒;維修提醒是車輛零部件需要維修或者保養(yǎng)的預(yù)防性提醒或者實時的報警;駕駛行為警告是對司機不良駕駛行為的預(yù)警或者實時報警;客流服務(wù)是當(dāng)客流滯留時,調(diào)度車輛疏散客流或者為長時間空載的司機提供調(diào)度服務(wù),增加司機運營收入,或者為工時長、收入低司機優(yōu)先提供調(diào)度支持,平衡司機收入差距。
為降低企業(yè)搭建平臺成本,技術(shù)架構(gòu)設(shè)計上均使用開源且已經(jīng)經(jīng)受住眾多場景下考驗的組件;考慮到企業(yè)人員使用的易上手性及操作方便性,架構(gòu)上考慮盡可能支持SQL分析、處理數(shù)據(jù)(如Flink,Spark,Phonix,Kylin)、拖拽+配置組件完成數(shù)據(jù)整合與挖掘(如kettle,RapidMiner),可視化操作(如Zeppelin)。通過技術(shù)架構(gòu)中組件的整合,可實現(xiàn)數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)整合、業(yè)務(wù)整合、數(shù)據(jù)分析、數(shù)據(jù)挖掘。大數(shù)據(jù)中心技術(shù)架構(gòu)如圖3所示。
圖3 大數(shù)據(jù)中心技術(shù)架構(gòu)
2.2.1 數(shù)據(jù)接入
(1)Flume,是一種分布式的、可靠的、高可用的海量日志采集、聚合和傳輸系統(tǒng),支持在系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集日志數(shù)據(jù)。同時,它提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方的能力[3]。本架構(gòu)中用于實時收集車載終端上傳的日志數(shù)據(jù),并將數(shù)據(jù)傳輸至Kafka。(2)Kafka,是一個高吞吐量分布式發(fā)布訂閱消息系統(tǒng),因其擴展性好、高吞吐量、快速持久化、高可用性等優(yōu)點被各大消息系統(tǒng)、流數(shù)據(jù)處理平臺等廣泛使用[4]。本架構(gòu)中可保證在Flume瞬間上傳實時車載終端數(shù)據(jù)量超過集群處理能力時,數(shù)據(jù)不丟失,并按照時序進行處理。
2.2.2 數(shù)據(jù)處理
(1)批處理。Spark能夠在內(nèi)存中進行計算,比MapReduce更加高效,適用于批處理、迭代算法、交互式查詢場景。并且可通過SQL完成Hive數(shù)據(jù)倉庫數(shù)據(jù)批處理,在spark分布式集群上快速完成機器學(xué)習(xí)的訓(xùn)練[5]。(2)實時處理。Apache Flink是一個高吞吐、低延遲、高性能分布式流式數(shù)據(jù)處理框架。Flink支持SQL完成大部分計算場景[6],本架構(gòu)中使用Flink實時處理Kafka中的實時終端類數(shù)據(jù),用于駕駛行為及車況的報警等。
2.2.3 數(shù)據(jù)存儲
(1)HBase,是一個分布式、持久的、強一致性存儲系統(tǒng),適用于有序數(shù)據(jù)的讀取場景,具有近似最優(yōu)的寫性能(能使I/O利用率達到飽和)和出色的讀性能[7],本架構(gòu)中Hbase用于存儲出租車載終端上傳的數(shù)據(jù)。HBase不支持SQL操作,本架構(gòu)通過Phonix 執(zhí)行SQL對Hbase 中存儲的數(shù)據(jù)進行查詢。(2)Hive,是最適合數(shù)據(jù)倉庫應(yīng)用程序的,可以維護海量數(shù)據(jù),可以對數(shù)據(jù)進行挖掘,然后形成意見和報告[8]。Hive提供HiveQL查詢語言,將大多數(shù)查詢轉(zhuǎn)譯成MapReduce作業(yè)[8]。本架構(gòu)應(yīng)用Hive存儲海量客流分析、能耗分析等主題庫中的數(shù)據(jù)。
2.2.4 數(shù)據(jù)整合
Kettle具有容易使用的圖形用戶界面[9],數(shù)據(jù)抽取高效穩(wěn)定,轉(zhuǎn)換組件豐富多樣,是關(guān)聯(lián)原有業(yè)務(wù)系統(tǒng)數(shù)據(jù)及建立數(shù)據(jù)倉庫得力工具。本架構(gòu)應(yīng)用kettle用于數(shù)據(jù)進入數(shù)據(jù)倉庫前清洗及補充關(guān)聯(lián)企業(yè)的人、車基礎(chǔ)信息。
2.2.5 業(yè)務(wù)整合
ESB提供了網(wǎng)絡(luò)中最基本的連接中樞,是構(gòu)筑企業(yè)神經(jīng)系統(tǒng)的必要元素。通過ESB新建平臺與原有系統(tǒng)能夠互聯(lián)互通,在平臺數(shù)據(jù)的應(yīng)用方面ESB的主要功能是通過ESB發(fā)布的接口獲取對應(yīng)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。平臺相關(guān)的服務(wù)也將注冊到ESB上,支撐原有或新業(yè)務(wù)系統(tǒng)的升級或建設(shè)。
2.2.6 數(shù)據(jù)分析
(1)OLAP分析。Apache Kylin是一個開源的分布式分析引擎,提供Hadoop/Spark之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規(guī)模數(shù)據(jù),能在亞秒內(nèi)查詢巨大的Hive表。比如按照公司、車隊、車輛分析年/月/日/時/運營里程、運營時間、運營收入的統(tǒng)計值(最大、最小、平均值等)。
(2)交互分析。Apache Zeppelin提供了Web版的notebook,支持使用scala 編寫Spark 腳本、使用SQL查詢JDBC支持的數(shù)據(jù)庫、使用Python、shell腳本交互式分析、處理數(shù)據(jù)和數(shù)據(jù)的可視化。
2.2.7 數(shù)據(jù)挖掘
RapidMiner[10]是用于數(shù)據(jù)挖掘、機器學(xué)習(xí)、商業(yè)預(yù)測分析的開源計算環(huán)境。提供的數(shù)據(jù)挖掘和機器學(xué)習(xí)程序包括:數(shù)據(jù)預(yù)處理、可視化、建模、評估和部署。其數(shù)據(jù)挖掘過程簡單,強大和直觀,非常適用于搭建數(shù)據(jù)挖掘demo,而sparkML則可用于分布式機器學(xué)習(xí)訓(xùn)練。數(shù)據(jù)挖掘可用于推薦空載司機乘客高頻乘車點、車輛零部件故障預(yù)測等。
交通大數(shù)據(jù)中心在出租企業(yè)中起著最基礎(chǔ)的分析作用,比如,本企業(yè)出租出行路網(wǎng),支撐著客流發(fā)生吸引點的時空變化分析、客流分流時空分析,相同發(fā)生吸引點乘車路徑傾向性分析、道路承載客流分析,對車輛的事故、違章預(yù)警等也都起著支撐性的作用。下面簡單介紹下出租出行路網(wǎng),及其如何支撐客流發(fā)生吸引點的時空變化分析、客流分流時空分析、乘車路徑傾向性分析、道路承載客流分析。
(1)出租出行路網(wǎng)。通過處理出租車歷史位置可生成出租出行所經(jīng)過所有的路段記錄。路段包含了路段的起終點、道路的等級、主路/輔路還有路段節(jié)點是平面交叉/立體交叉,本功能支持了以下分析結(jié)果的展示,輔助企業(yè)制定空載車輛調(diào)度策略。(2)客流發(fā)生吸引點的時空變化分析。在分析某時間段內(nèi)出租上下客流的基礎(chǔ)上,可在出租出行路網(wǎng)上渲染出不同時間、不同地點客流發(fā)生吸引的強度。(3)客流分流時空分析。在分析某時間段內(nèi)出租乘車客流的基礎(chǔ)上,可分析出不同時間、不同乘車地點客流去往不同目的地的流向變化。(4)乘車路徑傾向性分析。在分析某時間段內(nèi)出租乘車客流的基礎(chǔ)上,找出乘車地點與目的地均相同的出行,可分析出不同時間、某一乘車地點客流去往相同目的地實際出行路徑變化。(5)道路承載客流分析。在分析某時間段內(nèi)出租乘車客流的基礎(chǔ)上,可分析出不同時間、不同路段載客人數(shù)變化情況,載客人數(shù)越多的路段。
隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、移動互聯(lián)聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,為出租行業(yè)發(fā)展帶來了革命性的機遇。本文分析了出租企業(yè)信息化與業(yè)務(wù)現(xiàn)狀,設(shè)計了可滿足平臺目標(biāo)的租企業(yè)級交通大數(shù)據(jù)平臺的總體架構(gòu)與技術(shù)架構(gòu),此架構(gòu)以為出租企業(yè)自設(shè)計大數(shù)據(jù)平臺架構(gòu)提供參考。