【歡迎引用】郝雄博, 蔡君同, 譚新治, 等. 新能源汽車監(jiān)測平臺數(shù)據(jù)異常識別及質(zhì)量評價研究[J]. 汽車文摘,2024(XX): 1-11(待定).
【Cite this paper】HAO X B, CAI J T, TIAN X Z, et al. Identification and Quality Evaluation of Abnormal Data in the New Energy Vehicle Monitoring Platform [J]. Automotive Digest (Chinese), 2021(XX):1-11.
【摘要】為了提高新能源汽車監(jiān)控數(shù)據(jù)的質(zhì)量,提出了一種系統(tǒng)性的異常數(shù)據(jù)識別與質(zhì)量評估方案。針對監(jiān)控數(shù)據(jù)中的多種異常情況,設(shè)計了從數(shù)據(jù)收集到解析后的全面評估流程。該流程涵蓋了數(shù)據(jù)規(guī)范、完整性、準(zhǔn)確性、一致性和時效性等關(guān)鍵維度,并采用層次分析法與熵權(quán)法相結(jié)合的方式計算各維度權(quán)重。通過模糊綜合評價方法,量化數(shù)據(jù)質(zhì)量評分,避免了單一主觀或客觀因素對評估結(jié)果的影響。實證分析表明,該方案能夠全面識別新能源汽車數(shù)據(jù)中的異常類型,并提供合理的質(zhì)量評價結(jié)果。
關(guān)鍵詞:新能源汽車;數(shù)據(jù)異常識別;數(shù)據(jù)評價;熵權(quán)法
中圖分類號:U469.7;TP274
Identification and Quality Evaluation of Abnormal Data in the New Energy Vehicle Monitoring Platform
HaoXiongbo1,3, CaiJuntong1,3, Tan Xinzhi2, He Shan2, Li Haowei3
(1. Automotive Data of China (Tianjin) Co., Ltd.Automotive Technologyamp;Research Center Co. Ltd., Tianjin 300000; 2. Shenzhen Power Supply Co., Ltd., Shenzhen 518000; 3. China Academy of Industrial Internet., Beijing100000)
【Abstract】To improve the quality of new energy vehicle monitoring data, a systematic abnormal data identification and quality evaluation scheme is proposed. The scheme addresses various abnormal situations in the monitoring data and designs a comprehensive evaluation process from data collection to data analysis. This process covers key dimensions such as data standardization, completeness, accuracy, consistency, and timeliness. The weights of each dimension are calculated using a combination of the Analytic Hierarchy Process (AHP) and the entropy weight method. Through the fuzzy comprehensive evaluation method, the data quality score is quantified, avoiding the influence of single subjective or objective factors on the evaluation results. Empirical analysis shows that this scheme can comprehensively identify abnormal data types in new energy vehicle monitoring and provide reasonable quality evaluation results.
Key words: New energy vehicles,Identification of data anomalies, Data evaluation, Entropy weight method
引言
隨著新能源汽車保有量迅速增長,電動汽車的安全問題也日益凸顯,行業(yè)積極采取監(jiān)控數(shù)據(jù)方法來提高新能源汽車產(chǎn)品的安全水平。數(shù)據(jù)識別在新能源汽車行業(yè)以及其他工程領(lǐng)域發(fā)揮著越來越重要的作用,但是由于設(shè)備故障和人為因素的干擾,識別的數(shù)據(jù)中往往會夾雜大量的異常數(shù)據(jù)。異常數(shù)據(jù)的存在會影響數(shù)據(jù)的分析和處理,出現(xiàn)嚴(yán)重情況會引發(fā)系統(tǒng)安全檢測系統(tǒng)的誤報和失靈。針對異常數(shù)據(jù)的識別,國內(nèi)各類工程領(lǐng)域?qū)W者提供了大量可借鑒思路方法。在風(fēng)力發(fā)電領(lǐng)域,沈小軍等[1]通過分析風(fēng)力發(fā)電機(jī)組在風(fēng)速-功率運行中異常數(shù)據(jù)的特征,提出基于變點分組法和四分位法用于識別異常數(shù)據(jù)的方法。結(jié)果證明該方法可有效識別異常數(shù)據(jù),流程合理并具有較強(qiáng)通用性。在車輛交通領(lǐng)域,王英會[2]致力于辨識交通流異常數(shù)據(jù),提出從交通流缺失數(shù)據(jù)角度出發(fā),結(jié)合閾值法和交通流機(jī)理,進(jìn)一步提出了基于混沌理論的錯誤數(shù)據(jù)辨識方法。在光伏發(fā)電研究領(lǐng)域,葉林等[3]基于連續(xù)型光伏功率異常數(shù)據(jù)的時間連續(xù)性特點,采用相似日同時段均值對比算法識別并剔除連續(xù)型異常數(shù)據(jù)。郝穎等[4]為提高光伏限電異常數(shù)據(jù)的辨識效果,提出基于數(shù)學(xué)形態(tài)學(xué)去噪的限電異常數(shù)據(jù)辨識方法。該方法將初始數(shù)據(jù)轉(zhuǎn)化為二值圖像,然后利用數(shù)學(xué)形態(tài)學(xué)的膨脹和腐蝕等操作,自適應(yīng)地辨識限電異常數(shù)據(jù),顯著改善了限電異常數(shù)據(jù)的辨識效率。此外,在海洋船舶制造領(lǐng)域,劉釗等[5]提出一種綜合考慮船舶位置和航行狀態(tài)的多維船舶異常識別方法,以對不同環(huán)境影響因素下的船舶異常行為進(jìn)行高效識別。
車輛異常數(shù)據(jù)探測來源大多是依靠系統(tǒng)監(jiān)控。因此,監(jiān)控數(shù)據(jù)異常識別也成為了異常數(shù)據(jù)識別中非常重要的組成部分。"""" 在軌道交通領(lǐng)域,付時瑞等[6]利用某型號動車組振動監(jiān)控系統(tǒng)捕獲的異常振動信息為案例,成功識別出該型號動車組齒輪箱的異常振動故障位置。在環(huán)境治理領(lǐng)域,鄭濤[7]運用2種統(tǒng)計學(xué)方法來判斷廢氣污染源自動監(jiān)控數(shù)據(jù)中的異常數(shù)據(jù),比較了2種方法的適用性并找出更為適合的方法。在電路元件監(jiān)控方面,通過傳感器采集各類電器件的實時數(shù)據(jù),黃雄波等[8]提出一種改進(jìn)的時序數(shù)據(jù)流異常值檢測算法,有效構(gòu)建了更高效實用的監(jiān)控系統(tǒng)。實驗證明,在不增加計算成本的同時,該方法檢測精度和算法的魯棒性提升顯著。在煤炭安全監(jiān)控系統(tǒng)中,殷大發(fā)等[9]綜合應(yīng)用關(guān)聯(lián)分析、聚類分析和時間序列等方法,通過分析數(shù)據(jù)異常波動的影響因素,制定了異常識別原則,構(gòu)建了相應(yīng)的異常識別模型,從而有效提高了識別效率。
異常數(shù)據(jù)的識別在各行各業(yè)得到越來越多的關(guān)注,數(shù)據(jù)質(zhì)量評估同樣也發(fā)揮著越來越重要的作用。數(shù)據(jù)質(zhì)量直接決定了數(shù)據(jù)能否進(jìn)一步分析和處理應(yīng)用。目前,國內(nèi)外其他領(lǐng)域的數(shù)據(jù)質(zhì)量評價的方法和技術(shù)有很多。例如,數(shù)據(jù)質(zhì)量問題是醫(yī)療保健數(shù)據(jù)模型(Clinical Data Management, CDM)發(fā)展的主要障礙。Seol[10]基于代表性數(shù)據(jù)模型CDM創(chuàng)建了高質(zhì)量數(shù)據(jù)生成和多中心CDM質(zhì)量評價方案,并且通過現(xiàn)有CDM質(zhì)量評估系統(tǒng)的規(guī)則,創(chuàng)建了大量高級評估規(guī)則并將其納入系統(tǒng)。最后,通過多家醫(yī)院的數(shù)據(jù)質(zhì)量進(jìn)行了驗證,總體錯誤率為0.197%。黃國彬等[11]對3種較成熟的國外科學(xué)數(shù)據(jù)質(zhì)量評估框架進(jìn)行了比較研究。結(jié)果發(fā)現(xiàn)3個較成熟的數(shù)據(jù)質(zhì)量評估框架涉及的數(shù)據(jù)質(zhì)量維度大多是相同的,如可信度、準(zhǔn)確度、及時性、可訪問性等。除了研究和分析外國相關(guān)質(zhì)量評估框架外,國內(nèi)眾多學(xué)者在航海航天領(lǐng)域以及能源運輸領(lǐng)域也采用了以層析分析法為典型的多種數(shù)據(jù)質(zhì)量評價方案。郭昊等[12]率先引入了對船舶自動識別系統(tǒng)(AutomaticIdentificationSystem, AIS)數(shù)據(jù)的評價,重點關(guān)注了完整性、連續(xù)性和時效性這3個關(guān)鍵指標(biāo)。他們提出了一種綜合質(zhì)量評分算法,將這3個關(guān)鍵指標(biāo)結(jié)合起來,用于得出AIS數(shù)據(jù)的綜合質(zhì)量評分。劉承磊等[13]基于改進(jìn)層次分析法(Improved Analytic Hierarchy Process, IAHP)和模糊綜合評價法建立了石油管道的數(shù)據(jù)質(zhì)量評估模型并用于劃分管道數(shù)據(jù)質(zhì)量等級。虞業(yè)濼等[14]通過初檢數(shù)據(jù)質(zhì)量篩選評價對既定衛(wèi)星裝備數(shù)據(jù)閾值性指標(biāo)進(jìn)行首輪質(zhì)量評價及篩選;在此基礎(chǔ)上利用多因素模糊推理下的層次分析法完成了衛(wèi)星數(shù)據(jù)質(zhì)量復(fù)檢。
數(shù)據(jù)集質(zhì)量評價大致可分為2類主要評價方式[15]:一是直接使用屬性指標(biāo)如準(zhǔn)確性、完整性、一致性、可用性等進(jìn)行評價。二是建立不同的分級評價指標(biāo)體系進(jìn)行評價,包括基于重復(fù)性、準(zhǔn)確性、完整性的三維二級評價方法等。全面評估數(shù)據(jù)質(zhì)量方法在大數(shù)據(jù)生產(chǎn)中得到了實際應(yīng)用,構(gòu)建了數(shù)據(jù)質(zhì)量評價的基礎(chǔ),不僅豐富了數(shù)據(jù)治理的分析和應(yīng)用經(jīng)驗,還為數(shù)據(jù)修正、篩選以及數(shù)據(jù)價值提取提供了新思路。
目前,行業(yè)內(nèi)針對整車企業(yè)按GB/T 32960《電動汽車遠(yuǎn)程服務(wù)與管理系統(tǒng)技術(shù)規(guī)范》上傳的汽車數(shù)據(jù)尚沒有一個成熟的質(zhì)量評估方案。但針對監(jiān)測數(shù)據(jù)的數(shù)據(jù)評估將有效提升數(shù)據(jù)后續(xù)預(yù)警應(yīng)用的準(zhǔn)確性,因此本文提出車輛異常情況識別流程及數(shù)據(jù)質(zhì)量評估方案??紤]不同行業(yè)中數(shù)據(jù)出現(xiàn)的主要異常情況:數(shù)據(jù)缺失、數(shù)據(jù)超限、數(shù)據(jù)間關(guān)聯(lián)性錯誤等。結(jié)合監(jiān)測平臺數(shù)據(jù)特點,將數(shù)據(jù)異常類型具體化并補(bǔ)充特有異常類型,如難以解析等,力圖涵蓋車輛數(shù)據(jù)的全部異常情況。并同時對現(xiàn)有監(jiān)控數(shù)據(jù)中的異常類型進(jìn)行具體化與分類,通過建立科學(xué)的評估機(jī)制,實現(xiàn)數(shù)據(jù)質(zhì)量的量化分析,為數(shù)據(jù)的整體質(zhì)量提升和后續(xù)預(yù)警應(yīng)用提供基礎(chǔ)支撐。
監(jiān)控平臺數(shù)據(jù)質(zhì)量評價方法介紹
根據(jù)GB/T 32960要求,車輛T-box將車輛監(jiān)測數(shù)據(jù)傳輸?shù)狡脚_后,平臺需按照國家標(biāo)準(zhǔn)要求,針對上傳數(shù)據(jù)進(jìn)行解析。因此,該數(shù)據(jù)質(zhì)量評價內(nèi)容從解析前異常數(shù)據(jù)與解析后異常數(shù)據(jù)兩部分展開。
監(jiān)測平臺收集到車輛T-box上傳的數(shù)據(jù),并在數(shù)據(jù)解析前,首先需核查識別的各項內(nèi)容包括:(1)判斷上傳數(shù)據(jù)是否符合GB/T 32960協(xié)議規(guī)范;(2)VIN檢查合理性;(3)上傳數(shù)據(jù)是否可以解析。
針對解析后的監(jiān)控數(shù)據(jù)質(zhì)量評價,可分為5個一級維度即規(guī)范性、完整性、準(zhǔn)確性、一致性以及時效性。5個維度又可以分為15個二級維度,如表1所示。
數(shù)據(jù)規(guī)范性是指上傳監(jiān)測平臺的數(shù)據(jù)需滿足GB/T 32960的強(qiáng)制要求。不符合數(shù)據(jù)規(guī)范性的異常類型包括:(1)上傳數(shù)據(jù)字段的異常值解析為“FE”;(2)上傳數(shù)據(jù)字段的無效值解析為“FF”。同時區(qū)分異常持續(xù)時間是否過長,一般根據(jù)持續(xù)異常是否超過3 min判斷。
數(shù)據(jù)完整性指數(shù)據(jù)長度是否滿足要求。不符合數(shù)據(jù)完整性的異常類型包括:缺失與冗余。缺失具體包括:數(shù)據(jù)字段的某幾幀數(shù)值短時缺失及長時缺失。字段冗余包括兩種,即采集數(shù)據(jù)內(nèi)容相較目標(biāo)數(shù)據(jù)內(nèi)容存在冗余字段,包括各單體電壓及溫度探針數(shù)的備份字段。第二種為在一時間幀內(nèi),某字段內(nèi)數(shù)據(jù)重復(fù)多次存儲在一個數(shù)據(jù)位。
數(shù)據(jù)準(zhǔn)確性是指數(shù)據(jù)值有效合理并符合數(shù)據(jù)類型的要求。不符合數(shù)據(jù)準(zhǔn)確性的異常類型包括:(1)字段采集數(shù)值不符合預(yù)期閾值;(2)數(shù)值恒值性;(3)數(shù)據(jù)格式不合規(guī)。
數(shù)據(jù)一致性用來衡量某數(shù)據(jù)字段與其他字段或該時間幀前后數(shù)據(jù)之間的矛盾程度。不符合數(shù)據(jù)一致性的異常類型包含以下維度:(1)關(guān)聯(lián)一致性:在同一時間幀上,不同字段滿足邏輯程度的度量;(2)時變一致性:同一字段隨時間變化趨勢滿足邏輯程度的度量。
數(shù)據(jù)時效性是指數(shù)據(jù)采集時間字段的合理程度的度量。不符合數(shù)據(jù)時效性的異常類型包含以下維度:(1)時間規(guī)范性;(2)時間連續(xù)性;(3)及時性。
基于上述數(shù)據(jù)異常情形的定義,針對解析后的監(jiān)控數(shù)據(jù)進(jìn)行異常識別。
異常數(shù)據(jù)識別
0.1解析前異常數(shù)據(jù)識別
監(jiān)測平臺收集到車輛T-box上傳的數(shù)據(jù)后,識別解析前異常情況,具體包括:(1)車輛登入登出檢測,驗證車輛登入登出數(shù)據(jù)是否符合要求;上傳數(shù)據(jù)是否滿足數(shù)據(jù)包結(jié)構(gòu);上傳數(shù)據(jù)長度是否與預(yù)設(shè)的數(shù)據(jù)單元長度一致。(2)識別當(dāng)前時間幀數(shù)據(jù)的VIN是否為平臺內(nèi)部VIN。(3)上傳數(shù)據(jù)是否可以解析。
記錄上述異常數(shù)據(jù)包的上傳時間及幀數(shù)。同時記錄監(jiān)測數(shù)據(jù)中標(biāo)記為補(bǔ)發(fā)數(shù)據(jù)的上傳時間及采集時間。
0.2解析后異常數(shù)據(jù)識別
解析后,新能源汽車監(jiān)測平臺系統(tǒng)中上傳的汽車全生命周期數(shù)據(jù)已具備物理含義。結(jié)合平臺內(nèi)構(gòu)建的安全預(yù)警模型的自身特點,從數(shù)據(jù)規(guī)范性、數(shù)據(jù)完整性、數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)一致性、數(shù)據(jù)時效性5個維度,開展解析后數(shù)據(jù)異常識別。
0.2.1數(shù)據(jù)規(guī)范性
監(jiān)測平臺將上傳數(shù)據(jù)按照GB/T 32960規(guī)則進(jìn)行解析后,識別上傳數(shù)據(jù)中是否存在“FE”及“FF”字段,從而判斷上傳數(shù)據(jù)是否存在異常值及無效值。記錄異常持續(xù)時間、異常幀數(shù)。
0.2.2數(shù)據(jù)完整性
針對不符合數(shù)據(jù)完整性的異常類型識別及記錄方法包括:(1)記錄出現(xiàn)空值的字段及缺失持續(xù)時間、缺失幀數(shù)。(2)提取上傳字段中預(yù)設(shè)單體電壓數(shù)及溫度探針數(shù),計算實際上傳的電池單體電壓數(shù)及探針溫度數(shù),并將其與預(yù)設(shè)值進(jìn)行對比,從而識別是否有預(yù)留冗余單體電壓及探針溫度,標(biāo)記是否存在備份數(shù)據(jù)字段、備份字段名稱。(3)識別字段內(nèi)上傳數(shù)據(jù)長度、格式是否滿足國標(biāo)要求,從而識別某字段內(nèi)數(shù)據(jù)是否重復(fù)多次存儲在一個數(shù)據(jù)位。記錄數(shù)據(jù)重復(fù)字段、重復(fù)對應(yīng)時間幀的全部數(shù)據(jù)。
0.2.3數(shù)據(jù)準(zhǔn)確性
針對數(shù)據(jù)準(zhǔn)確性異常識別,首先篩選字段采集數(shù)值是否符合預(yù)期閾值。預(yù)設(shè)的字段閾值范圍參考GB/T 32960要求。
數(shù)值恒值性檢查內(nèi)容包括:識別相鄰2幀電流變化絕對值>20 A時,計算2幀數(shù)據(jù)間電池單體電壓變化值。若存在某單體電壓保持不變,則認(rèn)為數(shù)據(jù)恒值異常。若識別車速持續(xù)大于60 km/h的3 min內(nèi),存在累計里程恒定不變的情況,則認(rèn)為數(shù)據(jù)恒值異常。
核查數(shù)據(jù)格式(包括數(shù)據(jù)類型、數(shù)據(jù)長度、精度等)是否滿足預(yù)期要求。如因為存儲原因,數(shù)值型被誤記為字符串。記錄各類異常的對應(yīng)字段及時間。
0.2.4數(shù)據(jù)一致性
針對數(shù)據(jù)一致性異常識別方法包括:(1)關(guān)聯(lián)一致性:靜置時車速為0;停車充電時電流為負(fù)且車速為0;單體電壓最值與各單體電壓的關(guān)系一致;溫度最值與各探針溫度的關(guān)系一致;單體電池數(shù)、溫度探針數(shù)與車輛靜態(tài)上傳的數(shù)據(jù)一致。(2)時變一致性:累計里程跳變是否違背里程隨時間的變化規(guī)律;充電狀態(tài)下,相鄰時間幀SOC的變化情況。當(dāng)相鄰時間幀遞增時,計算相鄰兩幀的累計里程變化是否大于等于0;以及累計里程的變化值是否在合理范圍內(nèi)(里程差/時間差≤0.09 km/s);充電狀態(tài)下,當(dāng)相鄰時間幀遞增時,計算相鄰2幀的SOC變化是否小于等于4%。
0.2.5數(shù)據(jù)時效性
針對數(shù)據(jù)時效性的異常識別方案如下:(1)檢查上傳兩幀數(shù)據(jù)時間間隔是否大于0;(2)針對連續(xù)的充電狀態(tài),相鄰兩幀數(shù)據(jù)時間差是否基本固定,沒有丟幀。(3)計算每一幀數(shù)據(jù)的上傳時間與采集時間(若有采集時間)、上傳時間與平臺接收時間之間的時間差。識別時間差距是否大于1 min。
根據(jù)識別異常類型的結(jié)果情況,得到各自的異常情況的時間幀占比。
綜上,數(shù)據(jù)解析前可能存在3種異常類型、數(shù)據(jù)解析后可能存在15種異常類型,這些字段的異常類型均會導(dǎo)致數(shù)據(jù)處理出現(xiàn)錯誤,甚至?xí)?dǎo)致數(shù)據(jù)應(yīng)用時出現(xiàn)錯誤,如基于數(shù)據(jù)的安全預(yù)警工作會出現(xiàn)大量誤報現(xiàn)象。
數(shù)據(jù)質(zhì)量綜合評價方法
第2章針對監(jiān)控數(shù)據(jù)提出了數(shù)據(jù)質(zhì)量分析的多個維度,本章則針對多種分析維度提出最終的量化打分方案。利用層次分析法和熵權(quán)法,將主觀和客觀方法相結(jié)合確定多維度分析權(quán)重。利用模糊綜合評價法對數(shù)據(jù)質(zhì)量實際情況與理想情況進(jìn)行了評分比較,實現(xiàn)了解析后數(shù)據(jù)質(zhì)量的量化打分。
同時考慮數(shù)據(jù)存在漏發(fā)補(bǔ)發(fā)、解析異常等問題,將數(shù)據(jù)解析前的異常情形也納入數(shù)據(jù)質(zhì)量評估考量范圍,在本節(jié)最后基于層次分析法,建立解析前數(shù)據(jù)異常、補(bǔ)發(fā)數(shù)據(jù)、解析后數(shù)據(jù)異常的得分權(quán)重,從而進(jìn)行整車數(shù)據(jù)質(zhì)量情況的綜合評價。根據(jù)分?jǐn)?shù)區(qū)間設(shè)置數(shù)據(jù)質(zhì)量等級,用于評判數(shù)據(jù)質(zhì)量優(yōu)劣程度。
0.3基于層次分析法確定主觀權(quán)重
解析后的監(jiān)控數(shù)據(jù)質(zhì)量評價,可分為5個一級維度及15個二級維度。首先,確定每一維度的各元素的相對重要性,進(jìn)行兩兩比較,采用表2所示的1~9標(biāo)度法進(jìn)行定量化評價。
針對規(guī)范性、完整性、準(zhǔn)確性、一致性以及時效性5個維度,分別確定內(nèi)部細(xì)分的二級維度之間的判斷矩陣。
數(shù)據(jù)質(zhì)量規(guī)范性維度判斷矩陣:
數(shù)據(jù)質(zhì)量完整性維度判斷矩陣:
數(shù)據(jù)質(zhì)量準(zhǔn)確性維度判斷矩陣:
數(shù)據(jù)質(zhì)量一致性維度判斷矩陣:
數(shù)據(jù)質(zhì)量時效性維度判斷矩陣:
針對規(guī)范性、完整性、準(zhǔn)確性、一致性、時效性五個維度的判斷矩陣:
其中,對應(yīng)矩陣內(nèi)第行第列數(shù)表示為分析維度比分析維度的重要程度,如:
,表示分析維度與分析維度同等重要;
,表示分析維度比分析維度略重要;
,表示分析維度比分析維度明顯重要;
,且當(dāng)=,。
使用幾何平均法進(jìn)行權(quán)重向量計算,得到相對權(quán)重為:
針對判斷矩陣計算相關(guān)權(quán)重為
針對6個判斷矩陣進(jìn)行一致性檢驗,從而確定構(gòu)建矩陣的合理性。當(dāng)指標(biāo)CRlt;0.1,認(rèn)為具備滿足需求的一致性。
式中:CR為一致性比率,判斷矩陣是否具有一致性的指標(biāo);CI為一致性指標(biāo),表示偏離一致性矩陣的程度;RI為隨機(jī)一致性值,表示基于隨機(jī)生成的判斷矩陣得到的平均一致性指標(biāo)值,用于平衡的大小。
其中,滿足
為特征根最大值,n為待分析的判斷矩陣階數(shù)。查表3可知具體如下:
例如對于判斷矩陣,為 4,計算得為0,小于0.1,矩陣具有一致性;對于重要性判斷矩陣,為3.018,計算得為0.016,小于0.1,矩陣具有一致性;同理可確定判斷矩陣,均具有一致性。
根據(jù)3.1節(jié)中的,確定數(shù)據(jù)質(zhì)量評估5個一級維度中二級維度的相對重要程度?;诳纱_定5個一級維度之間的相對重要程度,基于數(shù)據(jù)之間關(guān)系,可以得到在數(shù)據(jù)質(zhì)量評估的目的下,分析的15個二級維度各自的權(quán)重,即:
式中:w為15個二級維度的權(quán)重。
0.4基于熵權(quán)法確定客觀權(quán)重
熵值衡量了數(shù)據(jù)的混亂程度,熵權(quán)法就是利用不同維度之間信息量的波動程度從而確定不同維度權(quán)重,實現(xiàn)了基于客觀可量化因素確定各自維度的客觀權(quán)重。
為更便于客觀評價數(shù)據(jù)相對熵值,需預(yù)設(shè)一種最優(yōu)的數(shù)據(jù)質(zhì)量狀態(tài)。即設(shè)定完美狀態(tài)所有維度對應(yīng)值均為1。此時對應(yīng)綜合評價結(jié)果為100分。各個維度數(shù)值范圍為0至1,且數(shù)值越大,說明此數(shù)據(jù)異常識別維度的數(shù)據(jù)質(zhì)量越好,值的大小與質(zhì)量好壞為正相關(guān)。
因此預(yù)設(shè)最優(yōu)數(shù)值為:
后續(xù)計算過程中定義此最優(yōu)情況為樣本一,并定義新能源汽車數(shù)據(jù)實際異常情況為樣本二。設(shè)某新能源汽車數(shù)據(jù)經(jīng)異常識別的對應(yīng)的各分值如下:
為減小數(shù)據(jù)大小對分析結(jié)果的影響,通過密度公式對上述的進(jìn)行標(biāo)準(zhǔn)化。
標(biāo)準(zhǔn)化公式為:
從而得到對應(yīng)的標(biāo)準(zhǔn)矩陣為:
[0.505,0.526,0.513,0.503,0.526,0.526,0.5,0.556,0.526,0.526,0.507,0.508,0.503,0.505,0.513]
[0.495,0.474,0.487,0.497,0.473,0.474,0.5,0.444,0.474,0.474,0.492,0.492,0.497,0.495,0.487]
根據(jù)以下公式計算每一個維度對應(yīng)的熵值:
式中:,2表示理想最優(yōu)狀態(tài)樣本與實際樣本的數(shù)量。在0-1的閉區(qū)間范圍內(nèi),j取值為1-15的整數(shù),表征分析的15個維度。進(jìn)一步可計算權(quán)重:
0.5基于組合賦權(quán)的模糊綜合評價
利用層次分析法與熵權(quán)法可分別得到數(shù)據(jù)質(zhì)量評價中15個維度的2組權(quán)重,將其點乘標(biāo)準(zhǔn)化即可得到對應(yīng)的綜合權(quán)重值,即
式中:表示基于層次分析法確定的權(quán)重,表示基于熵權(quán)法確定的權(quán)重。
在本數(shù)據(jù)中綜合權(quán)重為:
將各個維度的數(shù)據(jù)質(zhì)量分為3個評價等級,即為優(yōu)秀、可用、較差,相應(yīng)的評分為100、60、40。模糊評價及相應(yīng)的評分集是模糊綜合評價的基礎(chǔ)。
定義各維度需滿足的要求,15個維度中設(shè)定最低異常占比要求a為0.9,中等要求b為0.95,最高要求c為1。即,認(rèn)為完全沒有數(shù)據(jù)異常問題為優(yōu)秀,某種數(shù)據(jù)異常情況多于數(shù)據(jù)長度的10%,認(rèn)為數(shù)據(jù)較差。本次分析中均為正相關(guān),即數(shù)據(jù)質(zhì)量越好,打分越高。
可建立如下隸屬函數(shù):
屬于“優(yōu)秀”的隸屬函數(shù)為
屬于“可用”的隸屬函數(shù)為
屬于“較差”的隸屬函數(shù)為
結(jié)合上述3個隸屬函數(shù),可得到各個維度分?jǐn)?shù)在3個評價中的比例情況。選用帶有立方根的隸屬度函數(shù)可以放大數(shù)據(jù)變化程度,增加該方法對數(shù)據(jù)異常的敏感性。
對應(yīng)的評價矩陣見表3。
對應(yīng)的評價矩陣見表4。
將綜合權(quán)重矩陣與評價矩陣相乘可以得到對應(yīng)的3個評價的占比,即綜合模糊評價向量D。
對應(yīng)的綜合模糊評價向量為:。對應(yīng)的綜合模糊評價向量為:
根據(jù)前期評價集,確定3種評價對應(yīng)分值為100、60、40。因此將模糊評價向量與評價集合得分相乘得到最終得分:樣本1即滿分100,樣本2得分:40.23。
0.6數(shù)據(jù)質(zhì)量綜合評價
本節(jié)建立了考慮解析前后異常情況的綜合評價放方法。建立解析前異常、補(bǔ)發(fā)數(shù)據(jù)、解析后數(shù)據(jù)異常3者的判斷矩陣,判斷矩陣:
對于判斷矩陣,為3.012,計算得為0.010,小于0.1,矩陣具有一致性。
使用幾何平均法進(jìn)行權(quán)重向量計算,得到判斷矩陣的相對權(quán)重為:
2.1節(jié)中得到了解析前異常的幀數(shù)、補(bǔ)發(fā)數(shù)據(jù)幀數(shù)。計算異常及補(bǔ)發(fā)幀數(shù)與上傳的數(shù)據(jù)總量的比值,可得到解析前異常占比為p1,補(bǔ)發(fā)數(shù)據(jù)占比為p2。
即最終得分結(jié)果R為:
根據(jù)分?jǐn)?shù)區(qū)間設(shè)置數(shù)據(jù)質(zhì)量等級,用于評判數(shù)據(jù)質(zhì)量優(yōu)劣程度。根據(jù)相關(guān)專家經(jīng)驗,其中數(shù)據(jù)質(zhì)量等級與數(shù)據(jù)得分關(guān)系,見表5。
實車數(shù)據(jù)測試
選取多家車企數(shù)據(jù)進(jìn)行測試,論證了異常數(shù)據(jù)類型的全面性及質(zhì)量評價方法的合理性。
選用A、B、C3家整車企業(yè),各20臺車輛監(jiān)測數(shù)據(jù),單臺車輛數(shù)據(jù)分析時間為1年,數(shù)據(jù)分析字段為GB/T 32960要求內(nèi)容,每臺車的時間幀數(shù)平均約為934608幀。
針對數(shù)據(jù)中異常類型進(jìn)行人為識別,發(fā)現(xiàn)數(shù)據(jù)可能存在的異常類型完全被涵蓋在上述提及的解析前后的18種異常情況。通過Python針對車輛數(shù)據(jù)進(jìn)行批量處理及異常識別,其中各類異常出現(xiàn)的時間幀數(shù)占比如表6所示。
根據(jù)以上表格內(nèi)容可以直觀發(fā)現(xiàn)不同整車企業(yè)數(shù)據(jù)的異常占比情況??赏ㄟ^上述內(nèi)容確定從硬件層面的數(shù)據(jù)質(zhì)量提升策略。
針對每家車企數(shù)據(jù)的數(shù)據(jù)質(zhì)量評分結(jié)果如表7。
根據(jù)如上的結(jié)果能直觀展示車企的數(shù)據(jù)質(zhì)量情況?;谝陨辖Y(jié)果可幫助整車企業(yè)建立數(shù)據(jù)質(zhì)量優(yōu)劣的報警機(jī)制,并提升數(shù)據(jù)傳輸質(zhì)量。涉及的數(shù)據(jù)異常識別及數(shù)據(jù)質(zhì)量評價方法具有重要的現(xiàn)實意義。
結(jié)束語
描述了新能源汽車監(jiān)控平臺數(shù)據(jù)的異常識別及數(shù)據(jù)質(zhì)量評價方法。數(shù)據(jù)評價的內(nèi)容包括數(shù)據(jù)上傳平臺解析前和解析后兩類。解析前識別了異常數(shù)據(jù)的幀數(shù)及補(bǔ)發(fā)數(shù)據(jù)幀數(shù)。數(shù)據(jù)解析后異常情況涵蓋數(shù)據(jù)規(guī)范性、數(shù)據(jù)完整性、數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)一致性、數(shù)據(jù)時效性5個一級維度、15個二級維度。數(shù)據(jù)異常種類基本涵蓋了新能源汽車監(jiān)控平臺數(shù)據(jù)可能出現(xiàn)的全部異常問題。
針對解析后的監(jiān)控數(shù)據(jù),首次利用層次分析法和熵權(quán)法對不同維度的權(quán)重進(jìn)行計算,通過組合賦權(quán)確定了主客觀兩個角度考量的綜合權(quán)重?;谀:C合評價方法,針對異常數(shù)據(jù)識別結(jié)果與理想識別結(jié)果的對比,確定了最終量化評分,避免了單純的主客觀因素的影響。
最終基于判斷矩陣將解析前數(shù)據(jù)情況、補(bǔ)發(fā)數(shù)據(jù)情況、解析后數(shù)據(jù)情況,得到數(shù)據(jù)質(zhì)量最終分析結(jié)果。利用多家車企的實際運行狀態(tài)數(shù)據(jù)證明數(shù)據(jù)異常類型的全面性及評價方法的合理性。該分析過程分析維度廣泛,考慮因素全面,參數(shù)確定方法科學(xué),評價結(jié)果可信度高。
參考文獻(xiàn)
[1]沈小軍, 付雪姣, 周沖成, 等. 風(fēng)電機(jī)組風(fēng)速-功率異常運行數(shù)據(jù)特征及清洗方法[J].電工技術(shù)學(xué)報, 2018, 33(14): 3353-3361.
[2]王英會. 高速公路交通流異常數(shù)據(jù)識別及修復(fù)方法研究[D]. 北京: 北京交通大學(xué), 2015.
[3]葉林, 崔寶丹, 李卓, 等. 光伏電站高比例異常運行數(shù)據(jù)組合識別方法[J].電力系統(tǒng)自動化,2022,46(20): 74-82.
[4]郝穎, 冬雷, 王麗婕, 等. 基于數(shù)學(xué)形態(tài)學(xué)去噪的光伏發(fā)電限電異常數(shù)據(jù)識別算法[J]. 中國電機(jī)工程學(xué)報, 2022, 42(21): 7843-7855.
[5]劉釗, 齊磊, 梁茂晗, 等. 數(shù)據(jù)驅(qū)動的船舶異常行為識別方法[J]. 中國航海, 2022, 45(4): 1-7.
[6]付時瑞, 卜峰, 吳艷鵬, 等. 動車組齒輪箱異常振動監(jiān)控數(shù)據(jù)分析[J]. 城市軌道交通研究, 2022, 25(2): 99-102.
[7]鄭濤, 徐海紅. 廢氣污染源自動監(jiān)控數(shù)據(jù)中異常數(shù)據(jù)的識別方法[J]. 天津科技, 2013, 40(6): 13-16.
[8]黃雄波, 鐘全. 路燈監(jiān)控系統(tǒng)中時序數(shù)據(jù)流的異常值檢測研究[J]. 微處理機(jī), 2018, 39(6): 47-53.
[9]殷大發(fā). 煤礦安全監(jiān)控系統(tǒng)監(jiān)測點數(shù)據(jù)異常識別技術(shù)研究[J]. 礦山機(jī)械, 2013, 41(4): 120-123.
[10]Whan S O, Jeong S K, Seon Y I, et al. Data Quality Assessment for Observational Medical Outcomes Partnership Common Data Model of Multi-Center[J]. Studies in health technology and informatics, 2023, 302: 322-326.
[11]黃國彬, 陳麗. 國外科學(xué)數(shù)據(jù)質(zhì)量評估框架比較研究[J].圖書與情報, 2021(1): 97-107.
[12]郭昊, 李海濱, 馮姣, 等.基于大數(shù)據(jù)處理的船舶數(shù)據(jù)質(zhì)量評價方法研究[J]. 計算機(jī)仿真, 2022, 39(2): 298-303.
[13]劉承磊, 姜曉紅, 張翰釗, 等. 基于模糊綜合評價的管道內(nèi)檢測數(shù)據(jù)質(zhì)量評估[J]. 油氣田地面工程, 2023, 42(5): 69-77.
[14]虞業(yè)濼, 施敏華, 鄧洛鳳, 等.衛(wèi)星裝備試驗鑒定數(shù)據(jù)質(zhì)量評價技術(shù)及實現(xiàn)[J]. 計算機(jī)測量與控制, 2021, 29(8): 233-237.
[15]盛小平, 焦鳳枝. 國內(nèi)外開放數(shù)據(jù)評價研究綜述[J]. 情報雜志, 2022, 41(8): 131-137.