徐瀚杰
(四川大學(xué) 四川省成都市 610065)
車(chē)聯(lián)網(wǎng)是利用傳感和視覺(jué)技術(shù)感知車(chē)輛的狀態(tài)信息,并借助無(wú)線互聯(lián)網(wǎng)使用大數(shù)據(jù)分析和分布式云計(jì)算處理實(shí)現(xiàn)交通運(yùn)輸?shù)闹悄芑芾?,以及交通信息服?wù)的智能決策和車(chē)輛的智能化控制。隨著大數(shù)據(jù)和云計(jì)算技術(shù)的進(jìn)步,在車(chē)聯(lián)網(wǎng)領(lǐng)域中基于大數(shù)據(jù)的采集、存儲(chǔ)、處理、分析、預(yù)測(cè)和可視化的技術(shù)方法,能夠有效滿(mǎn)足客戶(hù)的需求。通過(guò)對(duì)車(chē)聯(lián)網(wǎng)運(yùn)營(yíng)數(shù)據(jù)動(dòng)態(tài)和實(shí)時(shí)的分析和挖掘,平臺(tái)運(yùn)營(yíng)方能夠更為精準(zhǔn)的為客戶(hù)提供增值服務(wù)。
基于微服務(wù)架構(gòu)的車(chē)聯(lián)網(wǎng)大數(shù)據(jù)分析系統(tǒng),使用微服務(wù)架構(gòu)的分布式服務(wù)治理平臺(tái),對(duì)數(shù)據(jù)進(jìn)行采集、轉(zhuǎn)換計(jì)算存儲(chǔ)、檢索分析并進(jìn)行可視化頁(yè)面展示。整個(gè)數(shù)據(jù)流使用分布式服務(wù)治理的基礎(chǔ)設(shè)施進(jìn)行統(tǒng)一的配置管理和服務(wù)監(jiān)控,根據(jù)需要對(duì)微服務(wù)彈性擴(kuò)容,使用消息中間件對(duì)數(shù)據(jù)采集服務(wù)和轉(zhuǎn)換計(jì)算存儲(chǔ)服務(wù)進(jìn)行模塊解耦,提高了數(shù)據(jù)流的吞吐量和處理速度,從而完成車(chē)聯(lián)網(wǎng)大數(shù)據(jù)的存儲(chǔ)和實(shí)時(shí)分析。使得本方案具備擴(kuò)展性好、易于監(jiān)控、便于管理、吞吐量大、處理迅速的特點(diǎn)。
本系統(tǒng)采用微服務(wù)架構(gòu)并通過(guò)AWS 云組件設(shè)計(jì)和實(shí)現(xiàn)車(chē)聯(lián)網(wǎng)數(shù)據(jù)的收集、處理和分析,并以可視化方式展示多個(gè)維度的數(shù)據(jù)分析結(jié)果。方案既對(duì)歷史數(shù)據(jù)進(jìn)行回測(cè),同時(shí)對(duì)未來(lái)趨勢(shì)進(jìn)行預(yù)測(cè),對(duì)于車(chē)輛物聯(lián)網(wǎng)的大數(shù)據(jù)智能化分析具有重要的意義。
大數(shù)據(jù)指龐大復(fù)雜的數(shù)據(jù)集,數(shù)據(jù)來(lái)源包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)價(jià)值需要分析和挖掘,處理速度近實(shí)時(shí),大數(shù)據(jù)的特征主要有四個(gè)方面,分別是數(shù)據(jù)規(guī)模大、數(shù)據(jù)流傳快、數(shù)據(jù)類(lèi)型多以及數(shù)據(jù)密度價(jià)值大。云計(jì)算是“分布式”計(jì)算的一種,通過(guò)數(shù)據(jù)的處理程序分解成多個(gè)微服務(wù)組件,然后通過(guò)分布式服務(wù)器系統(tǒng)進(jìn)行處理和分析,最后得到結(jié)果再返還給用戶(hù)。
車(chē)聯(lián)網(wǎng)信息融合系統(tǒng)通過(guò)計(jì)算、通信和控制三大領(lǐng)域的技術(shù),影響和改變著智能交通的發(fā)展。隨著車(chē)聯(lián)網(wǎng)數(shù)據(jù)的日益增長(zhǎng),以及大數(shù)據(jù)技術(shù)的不斷發(fā)展,使得大數(shù)據(jù)在車(chē)聯(lián)網(wǎng)信息融合系統(tǒng)的應(yīng)用越來(lái)越重要。大數(shù)據(jù)中潛在的價(jià)值對(duì)提高車(chē)聯(lián)網(wǎng)智能化、改善用戶(hù)出行體驗(yàn)等方面有很大幫助。然而,爆發(fā)式增加的數(shù)據(jù)量使得車(chē)聯(lián)網(wǎng)在數(shù)據(jù)的處理、存儲(chǔ)和分析方面面臨著挑戰(zhàn)。本文以車(chē)聯(lián)網(wǎng)行業(yè)數(shù)據(jù)管理與分析應(yīng)用出發(fā),以數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)保存、數(shù)據(jù)處理和數(shù)據(jù)分析為流程,采用微服務(wù)的分布式架構(gòu),對(duì)大數(shù)據(jù)進(jìn)行深度挖掘,抽取和統(tǒng)計(jì)出有效和有意義的信息,并動(dòng)態(tài)對(duì)方案調(diào)整和優(yōu)化。
互聯(lián)網(wǎng)大數(shù)據(jù)的發(fā)展使得物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)等網(wǎng)終數(shù)據(jù)緊密地連成一體。車(chē)聯(lián)網(wǎng)是全球網(wǎng)絡(luò)數(shù)據(jù)中重要的環(huán)節(jié),車(chē)聯(lián)網(wǎng)在對(duì)各種車(chē)輛行駛時(shí)的多方面數(shù)據(jù)采集后,全面分析駕駛員的操作狀態(tài)、車(chē)輛自身的運(yùn)行狀態(tài)以及路況情況,最后用準(zhǔn)確的數(shù)據(jù)表述出來(lái)。
在傳統(tǒng)的中小型車(chē)輛物聯(lián)網(wǎng)平臺(tái)的日常運(yùn)營(yíng)中,往往采用的是與本地?cái)?shù)據(jù)中心集群連接,數(shù)據(jù)在本地服務(wù)器中進(jìn)行處理,相應(yīng)的冗雜、容錯(cuò)以及災(zāi)備都集中在本地?cái)?shù)據(jù)中心。在實(shí)時(shí)數(shù)據(jù)源呈現(xiàn)出爆發(fā)式的增長(zhǎng)下,數(shù)據(jù)的獲取和處理速度需要不斷的提升,在可擴(kuò)展性、冗余、容錯(cuò)、災(zāi)備等方面也遇到瓶頸,基于預(yù)測(cè)的可視化提供方面也難以適應(yīng)數(shù)據(jù)爆炸的時(shí)代。
出于對(duì)面臨問(wèn)題的解決和應(yīng)對(duì)未來(lái)發(fā)展的需要,平臺(tái)將其數(shù)據(jù)分析通道解耦并使用云原生技術(shù),用微服務(wù)架構(gòu)的組件重新搭建分布式系統(tǒng)。系統(tǒng)能夠滿(mǎn)足以下需求:
平臺(tái)需要承載運(yùn)營(yíng)車(chē)輛超過(guò)10 萬(wàn)輛,日訂單數(shù)據(jù)數(shù)百萬(wàn)單。系統(tǒng)能夠完成實(shí)時(shí)的數(shù)據(jù)攝取、處理、分析,這種數(shù)據(jù)獲取具有科學(xué)性和準(zhǔn)確性。系統(tǒng)可以實(shí)時(shí)的基于歷史的可視化和基于趨勢(shì)預(yù)測(cè)(機(jī)器學(xué)習(xí))的可視化,能夠隨時(shí)對(duì)車(chē)輛的各種數(shù)據(jù)進(jìn)行收集和使用。實(shí)現(xiàn)智能交通調(diào)度,實(shí)時(shí)確定用車(chē)需求量大的熱點(diǎn)區(qū)域,引導(dǎo)空載的網(wǎng)約車(chē)過(guò)去哪里,可以保證提供精準(zhǔn)的服務(wù)。根據(jù)預(yù)測(cè)(機(jī)器學(xué)習(xí))估計(jì)用車(chē)需求量大的熱點(diǎn)區(qū)域,引導(dǎo)空載的網(wǎng)約車(chē)提前準(zhǔn)備。根據(jù)實(shí)時(shí)和預(yù)測(cè)的交通擁堵情況,為車(chē)輛推薦行車(chē)路線等??梢栽诓煌纸M中對(duì)數(shù)據(jù)表授予細(xì)粒度的訪問(wèn)權(quán)限,不同城市的運(yùn)營(yíng)和市場(chǎng)組只能看到自己所在城市的數(shù)據(jù)。設(shè)定預(yù)設(shè)監(jiān)測(cè)指標(biāo)閾值,可以在未達(dá)到指定閾值時(shí)發(fā)出警報(bào)并保持響應(yīng)和處理的速度??梢园葱枧渲媒M件和精準(zhǔn)的構(gòu)建采集和處理通道,根據(jù)熱點(diǎn)和流量大小彈性的擴(kuò)展或縮小系統(tǒng)容量和處理通道,既避免整體性能不足也避免過(guò)度配置,使成本處于受控狀態(tài)。
在充分考量了具體的場(chǎng)景和應(yīng)用環(huán)境,進(jìn)行需求分析后,筆者設(shè)計(jì)了基于Amazon AWS 和Apache Flink 組件的微服務(wù)分布式架構(gòu)來(lái)實(shí)現(xiàn)大數(shù)據(jù)分析系統(tǒng)。架構(gòu)由提取、轉(zhuǎn)換、加載(ETL)服務(wù),分析服務(wù),存儲(chǔ)服務(wù),可視化及智能決策服務(wù)4 部分組成。
在新的環(huán)境中,數(shù)據(jù)采集的數(shù)量和速度都大大提升,基于這種狀況需要進(jìn)行連續(xù)的數(shù)據(jù)采集,還要保證工作的負(fù)載要求,采用了Kinesis Data Firehose 組件服務(wù)作為攝取車(chē)輛IoT 數(shù)據(jù)、點(diǎn)擊流數(shù)據(jù)和Web 訂單數(shù)據(jù)等的工具,這樣就能夠保證系統(tǒng)在第一時(shí)間反應(yīng),可以說(shuō)是近乎實(shí)時(shí)。在Kinesis Data Firehose 提取數(shù)據(jù)后,使用Lambda 轉(zhuǎn)換數(shù)據(jù),使用Apache Flink (Kinesis Data Analytics for Java)來(lái)分析和篩選數(shù)據(jù)以檢測(cè)熱點(diǎn)。在具體的分析和篩選后,使用Kinesis Data Firehose 將數(shù)據(jù)加載到列式數(shù)據(jù)倉(cāng)庫(kù)Redshift 中。QuickSight 用于大數(shù)據(jù)的可視化并構(gòu)建可與組織中其他用戶(hù)共享的控制面板。系統(tǒng)根據(jù)機(jī)器學(xué)習(xí)ML 進(jìn)行趨勢(shì)預(yù)測(cè)和智能調(diào)度決策,同時(shí)在監(jiān)控指標(biāo)未達(dá)閾值時(shí)通過(guò)SNS 向運(yùn)營(yíng)人員發(fā)出報(bào)警信息。
數(shù)十萬(wàn)個(gè)聯(lián)網(wǎng)的車(chē)輛設(shè)備和傳感器創(chuàng)建的IoT 數(shù)據(jù)連同點(diǎn)擊流日志等流數(shù)據(jù),需要連續(xù)實(shí)時(shí)采集。流數(shù)據(jù)通過(guò)讀取大量較小的事件進(jìn)行分類(lèi),IoT 設(shè)備和傳感器不斷發(fā)出 1 KB 有效負(fù)載連續(xù)寫(xiě)入流。然后按時(shí)間、事件量或特定段綁定流數(shù)據(jù),以分配要處理的數(shù)據(jù)量,實(shí)時(shí)發(fā)出結(jié)果。流數(shù)據(jù)處理是采集高頻熱數(shù)據(jù),實(shí)時(shí)轉(zhuǎn)換和加載這些數(shù)據(jù)的較佳方案。
Kinesis Data Firehose 能夠完成從數(shù)十萬(wàn)個(gè)來(lái)源中捕獲、轉(zhuǎn)換大量流數(shù)據(jù),是一項(xiàng)提取、轉(zhuǎn)換、加載(ETL)的服務(wù)。它將流式處理IoT 和點(diǎn)擊數(shù)據(jù)以可靠方式捕獲、轉(zhuǎn)換和加載到數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)存儲(chǔ)和分析服務(wù)中。它同時(shí)調(diào)用無(wú)服務(wù)器、事件驅(qū)動(dòng)型的計(jì)算服務(wù)Lambda 函數(shù)來(lái)轉(zhuǎn)換傳入的訂單源數(shù)據(jù)并交付轉(zhuǎn)換數(shù)據(jù)到目標(biāo)地,并將其加載到Kinesis Data Analytics 和Redshift 等,這種分析和洞察力能夠第一時(shí)間傳達(dá),可以說(shuō)是近乎實(shí)時(shí)。
盡管Glue ETL 也能夠進(jìn)行相應(yīng)的數(shù)據(jù)轉(zhuǎn)換,代替數(shù)據(jù)轉(zhuǎn)換功能,但是在批量處理環(huán)境中,ETL 任務(wù)間隔時(shí)間相對(duì)來(lái)說(shuō)比較長(zhǎng),至少需要5 分鐘,而這就超出了近乎實(shí)時(shí)的處理需求。Kinesis Data Firehose 則能夠完成比較快的處理,間隔僅僅最短60 秒,實(shí)現(xiàn)了近實(shí)時(shí)的數(shù)據(jù)延遲。
在進(jìn)行Kinesis Data Firehose 啟用過(guò)程中,數(shù)據(jù)轉(zhuǎn)換速度能夠大大加快,Kinesis Data Firehose 能夠?qū)魅氲臄?shù)據(jù)進(jìn)行相應(yīng)的緩沖,并異步調(diào)用每個(gè)緩沖批處理的指定AWS Lambda 函數(shù)。轉(zhuǎn)換后的數(shù)據(jù)從Lambda 發(fā)送到Kinesis Data Firehose 進(jìn)行緩沖,最后完成目標(biāo)的傳送。
由于實(shí)時(shí)數(shù)據(jù)源的爆發(fā)式增長(zhǎng),車(chē)聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)正以前所未有的速度獲取著數(shù)據(jù)。無(wú)論是需要處理來(lái)自IoT 設(shè)備的傳感器數(shù)據(jù),移動(dòng)應(yīng)用程序和 Web 應(yīng)用程序的日志數(shù)據(jù),還是電子商務(wù)平臺(tái)的訂單數(shù)據(jù),實(shí)時(shí)獲取數(shù)據(jù)能夠有助于平臺(tái)和合作伙伴及時(shí)了解客戶(hù)、組織和業(yè)務(wù)的實(shí)時(shí)動(dòng)態(tài)消息。
Apache Flink 在本質(zhì)上是一種處理數(shù)據(jù)流的開(kāi)源框架和引擎。它的應(yīng)用價(jià)值主要是來(lái)源于其能夠提供功能強(qiáng)大的運(yùn)算符,能夠解決包括準(zhǔn)確復(fù)制處理過(guò)程等核心流問(wèn)題,這樣能夠大大的簡(jiǎn)化流應(yīng)用程序,避免出現(xiàn)冗雜結(jié)構(gòu)。Apache Flink 能夠?yàn)閿?shù)據(jù)流創(chuàng)造更好的環(huán)境,可以讓數(shù)據(jù)流上的分布式計(jì)算具備數(shù)據(jù)分發(fā)、通信和容錯(cuò)能力。Kinesis Data Analytics for Java 使用無(wú)服務(wù)器的完全托管式Apache Flink 從串流數(shù)據(jù)中獲得實(shí)時(shí)轉(zhuǎn)換和分析。與此同時(shí),能夠以亞秒級(jí)延遲處理平臺(tái)來(lái)自Kinesis Data Firehose 等數(shù)據(jù)源的數(shù)據(jù),能夠完成對(duì)具體時(shí)間的實(shí)時(shí)響應(yīng)。下載AWS SDK、Apache Flink 和AWS 服務(wù)連接器,使用數(shù)據(jù)流和流運(yùn)算符編寫(xiě)Apache Flink 車(chē)聯(lián)網(wǎng)大數(shù)據(jù)分析的邏輯程序代碼。應(yīng)用邏輯程序數(shù)據(jù)流使用應(yīng)用程序代碼執(zhí)行處理所依據(jù)的數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)不斷地從源流向應(yīng)用程序數(shù)據(jù)流,一個(gè)或多個(gè)流運(yùn)算符用于定義對(duì)應(yīng)用程序數(shù)據(jù)流的處理。將代碼部署為持續(xù)運(yùn)行的流處理應(yīng)用程序后,部署的大數(shù)據(jù)分析應(yīng)用程序?qū)⒊蔀檫m用于Apache Flink 的Kinesis Data Analytics 應(yīng)用程序,其本身還具備持久性狀態(tài)和自動(dòng)縮放功能。能夠?qū)υ?、目?biāo)位置、日志記錄和監(jiān)控層級(jí)等內(nèi)容進(jìn)行更改。
在預(yù)先設(shè)定指標(biāo)的前提下,可以通過(guò)CloudWatch和SNS 監(jiān)測(cè)在未達(dá)到指定閾值的情況下,完成警報(bào)發(fā)出動(dòng)作,還能夠保持響應(yīng)和處理的速度。Kinesis Data Firehose 收集相應(yīng)的數(shù)據(jù),并且將數(shù)據(jù)傳輸?shù)終inesis Data Analytics,在Kinesis Data Analytics 中創(chuàng)建參考數(shù)據(jù)源以臨時(shí)存儲(chǔ)來(lái)自S3 的閾值,在這個(gè)過(guò)程中,還要完成特定計(jì)數(shù)與其對(duì)應(yīng)的指標(biāo)閾值的比較工作,如果并沒(méi)有達(dá)到閾值,使用Simple Notification Service(SNS)進(jìn)行相關(guān)通知的傳遞。
系統(tǒng)會(huì)根據(jù)自身的需求,對(duì)存儲(chǔ)流數(shù)據(jù)的Redshift數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行頻繁訪問(wèn),同時(shí)對(duì)數(shù)據(jù)源在S3 存儲(chǔ)桶中做備份。在用Apache Flink 進(jìn)行分析和篩選后,可將數(shù)據(jù)加載到列式數(shù)據(jù)倉(cāng)庫(kù)Redshift 中。系統(tǒng)平臺(tái)啟用Redshift 中的機(jī)器學(xué)習(xí)ML 功能在工作負(fù)載或并發(fā)用戶(hù)活動(dòng)各不相同的情況下提供高吞吐量和高性能?;趥魅氩樵?xún)的運(yùn)行時(shí)間和資源要求,平臺(tái)利用復(fù)雜的算法來(lái)對(duì)其進(jìn)行預(yù)測(cè)和分類(lèi),從而動(dòng)態(tài)管理性能和并發(fā)性,同時(shí)幫助確定關(guān)鍵業(yè)務(wù)型工作負(fù)載的優(yōu)先順序。啟用短查詢(xún)加速 (SQA) 從控制面板等應(yīng)用程序中將短查詢(xún)發(fā)送到快速隊(duì)列進(jìn)行即時(shí)處理,啟用自動(dòng)工作負(fù)載管理 (WLM)使用機(jī)器學(xué)習(xí)來(lái)動(dòng)態(tài)管理內(nèi)存和并發(fā)性,有助于最大限度地提高查詢(xún)吞吐量。平臺(tái)還使用IAM 與Redshift 結(jié)合使用,允許用戶(hù)通過(guò) SAML 2.0 身份提供程序使用聯(lián)合單點(diǎn)登錄(SSO)訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)。部分收集數(shù)據(jù)放在S3 存儲(chǔ)桶中,S3 存儲(chǔ)桶是對(duì)象存儲(chǔ),存儲(chǔ)所有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。S3 存儲(chǔ)桶用作數(shù)據(jù)的備份位置。為了提升數(shù)據(jù)效率和控制成本,系統(tǒng)平臺(tái)設(shè)定的12 個(gè)月的時(shí)間量后,這些文件將使用生命周期策略傳輸?shù)?S3 Glacier 存儲(chǔ)桶。
在該系統(tǒng)的設(shè)計(jì)中,最重要的就是能夠?qū)崿F(xiàn)可視化和智能決策,這將是提供優(yōu)質(zhì)服務(wù)的最重要的方式。在可視化和智能決策功能中,系統(tǒng)能夠在前期采集的數(shù)據(jù)處理中獲得大量的信息,能夠?qū)ι宪?chē)和下車(chē)地點(diǎn)、乘客人數(shù)、路程時(shí)間、訂單收入等進(jìn)行全方位記錄和分析,在相應(yīng)數(shù)據(jù)的支持下,平臺(tái)就能夠通過(guò)具體的流數(shù)據(jù)進(jìn)行網(wǎng)約車(chē)車(chē)隊(duì)的運(yùn)營(yíng)管理,并且能夠?qū)崿F(xiàn)科學(xué)化安排。通過(guò)確定熱點(diǎn)區(qū)域(目前對(duì)網(wǎng)約車(chē)需求量很大的區(qū)域),以此為基礎(chǔ),平臺(tái)運(yùn)營(yíng)方就能夠?qū)ξ磥?lái)的需求以及交通狀況進(jìn)行分析,并且對(duì)網(wǎng)約車(chē)進(jìn)行引導(dǎo),從而更好地完成閑置網(wǎng)約車(chē)的科學(xué)安排,避免出現(xiàn)資源浪費(fèi),同時(shí)提供優(yōu)質(zhì)服務(wù)。
在相應(yīng)的數(shù)據(jù)過(guò)程中,能夠獲得近乎實(shí)時(shí)的處理結(jié)果,具體的結(jié)論將會(huì)通過(guò)QuickSight 的可視化和智能決策去展現(xiàn)。借助QuickSight,平臺(tái)能夠?qū)⑵錁I(yè)務(wù)分析功能擴(kuò)展到成千上萬(wàn)用戶(hù),并通過(guò)使用強(qiáng)大的內(nèi)存中引擎(SPICE) 交付快速而敏捷的查詢(xún)性能。
在相應(yīng)的數(shù)據(jù)進(jìn)行分析后,要有具體的展示面板,而這就是可視化的儀表板,為保證給使用者提供更安全的訪問(wèn)通道,使用Active Directory 對(duì)所有訪問(wèn)進(jìn)行身份驗(yàn)證,這種方式能夠讓傳輸中和靜止的數(shù)據(jù)都處于加密狀態(tài),從而保證信息的安全性。啟用QuickSight Enterprise 版本配置為使用SAML0 和默認(rèn)加密設(shè)置執(zhí)行身份聯(lián)合。不僅如此,不同的部門(mén)進(jìn)行具體的儀表板查看,可以設(shè)置不同的查看權(quán)限,啟用QuickSight Enterprise 版本對(duì)表實(shí)施行級(jí)安全RLS,能夠?qū)崿F(xiàn)此功能并讓數(shù)據(jù)更加安全,從而提供更加優(yōu)質(zhì)的服務(wù)。行級(jí)別安全性 (RLS) 使QuickSight 平臺(tái)能夠基于和與數(shù)據(jù)交互的用戶(hù)關(guān)聯(lián)的權(quán)限以行粒度控制對(duì)數(shù)據(jù)的訪問(wèn),這種訪問(wèn)更加精準(zhǔn)。
平臺(tái)借助機(jī)器學(xué)習(xí)ML 可持續(xù)分析所有數(shù)據(jù)異常(異常值),幫助確定業(yè)務(wù)指標(biāo)的重大變化,例如銷(xiāo)售額高于預(yù)期或下降。平臺(tái)應(yīng)用QuickSight 對(duì)數(shù)百萬(wàn)指標(biāo)和數(shù)十億個(gè)數(shù)據(jù)點(diǎn)完成科學(xué)的分析處理,完成后能夠?yàn)闆Q策者和運(yùn)營(yíng)者提供更好的幫助,從而實(shí)現(xiàn)真正的智能決策。隨著大數(shù)據(jù)時(shí)代的帶來(lái),海量數(shù)據(jù)的收集和處理,將會(huì)產(chǎn)生科學(xué)的洞察力,而傳統(tǒng)的數(shù)據(jù)分析方式是無(wú)法得到這些的,這就是大數(shù)據(jù)科學(xué)帶來(lái)的好處。平臺(tái)通過(guò)機(jī)器學(xué)習(xí)ML 從而能夠?qū)ξ磥?lái)發(fā)展的趨勢(shì)進(jìn)行預(yù)測(cè),啟用ML 隨機(jī)切割森林RCF 算法處理復(fù)雜的真實(shí)場(chǎng)景,預(yù)測(cè)其關(guān)鍵業(yè)務(wù)指標(biāo)包括早高峰、節(jié)假日和季節(jié)性的趨勢(shì)變化,這些顯著的變化會(huì)成為車(chē)輛運(yùn)營(yíng)部署的重要信息。
在大數(shù)據(jù)時(shí)代,車(chē)聯(lián)網(wǎng)平臺(tái)面臨的是實(shí)時(shí)數(shù)據(jù)源的爆發(fā)式增長(zhǎng),系統(tǒng)以前所未有的速度獲取海量數(shù)據(jù),無(wú)論是需要處理來(lái)自 IoT 設(shè)備的傳感器數(shù)據(jù),或是移動(dòng)應(yīng)用程序和 Web 應(yīng)用程序的日志數(shù)據(jù),還是電子商務(wù)平臺(tái)的訂單數(shù)據(jù)。本文采用微服務(wù)架構(gòu)通過(guò)AWS 和Apache Flink組件的分布式部署,實(shí)現(xiàn)近實(shí)時(shí)的大數(shù)據(jù)分析架構(gòu),使平臺(tái)能夠?qū)崟r(shí)獲取數(shù)據(jù)和分析,并通過(guò)機(jī)器學(xué)習(xí)等增強(qiáng)智能決策功能,實(shí)現(xiàn)平臺(tái)運(yùn)營(yíng)方和用戶(hù)實(shí)時(shí)了解業(yè)務(wù)的動(dòng)態(tài)并運(yùn)用智能分析輔助決策。