摘要:隨著汽車在網(wǎng)聯(lián)化、智能化的發(fā)展,以及大數(shù)據(jù)、云計算技術的興起,汽車故障診斷技術在過去幾年得到迅猛的發(fā)展,大數(shù)據(jù)和人工智能的診斷方法研究和應用是當前國內(nèi)外學者和企業(yè)關注的熱點之一?;诖?,介紹了維修數(shù)據(jù)處理模型、語言處理模型在汽車故障診斷中的應用,闡述了汽車故障診斷知識圖譜的構建方法,描述了知識抽取、知識融合、知識學習、知識推理的過程,也介紹了一種基于知識圖譜模型的汽車故障智能診斷方法。
關鍵詞:故障診斷;知識圖譜;機器學習
中圖分類號:U469" 收稿日期:2024-11-20
DOI:1019999/jcnki1004-0226202502025
1 前言
隨著中國經(jīng)濟持續(xù)穩(wěn)定高速發(fā)展,我國汽車產(chǎn)業(yè)實現(xiàn)了飛速發(fā)展,2023年我國汽車整體銷量突破3 000萬輛,汽車產(chǎn)銷總量連續(xù)15年穩(wěn)居全球第一。截至2024年6月底,全國機動車保有量達44億輛[1],汽車已經(jīng)走進千家萬戶。
隨著中國汽車保有量持續(xù)不斷的增長,汽車后市場的規(guī)模也在不斷擴大。2023年我國汽車后市場維保行業(yè)產(chǎn)值達12萬億元,未來幾年,傳統(tǒng)燃油汽車老齡化以及新能源汽車的快速發(fā)展,將促使維保市場規(guī)模持續(xù)擴大[2]。汽車運行在各種路況條件和工況下,故障的發(fā)生無法避免,車輛故障對用戶出行和圍繞車輛進行的商業(yè)生產(chǎn)帶來嚴重的影響,因此開展汽車故障智能診斷技術的研究,提供高效、精準的診斷與維修服務是保障汽車安全運行的重要前提,如何高效、精準的診斷也是各大汽車廠商持續(xù)研究的課題。
大數(shù)據(jù)和人工智能的診斷方法研究和應用是當前國內(nèi)外學者和企業(yè)關注的熱點之一,但是投入實踐應用的成果不多。一方面是故障維修數(shù)據(jù)的封閉性,各汽車廠商的售后故障和維修數(shù)據(jù)都僅在各自封閉的系統(tǒng)且拒絕對外開放;另一方面是故障診斷的延續(xù)性,各汽車廠商的售后故障診斷和維修具備一套完整的、基于故障樹的診斷系統(tǒng)。因此,將維保大數(shù)據(jù)與人工智能融合的故障診斷系統(tǒng)的應用是未來的重要研究方向。
2 汽車售后維修數(shù)據(jù)處理方法
汽車售后維修數(shù)據(jù)類型多、數(shù)據(jù)量大、數(shù)據(jù)結構復雜。例如,福特汽車開發(fā)的售后維修技術出版物就包含維修手冊、電路圖、診斷手冊等,在售后的維修過程中還會產(chǎn)生技術服務公告(TSB)、產(chǎn)品問題報告(PCR)、索賠單、維修單、維修案例等數(shù)據(jù),如此多的數(shù)據(jù)堆積,必須要找到有效的數(shù)據(jù)處理方法,才能將這些數(shù)據(jù)應用到汽車故障診斷中。
以全順車型PDF版本維修手冊為例進行了分析,該手冊包含6種數(shù)據(jù)格式:文本、圖片、表格、癥狀表、精確測試、故障代碼表(DTC),這些數(shù)據(jù)對應的應用場景不一樣,因此解析的時候?qū)?種數(shù)據(jù)格式進行區(qū)分并保存,為了保持和原始pdf文件一樣的目錄結構,按照目錄結構進行數(shù)據(jù)解析,數(shù)據(jù)的解析采用第三方包PP-StructureV2進行總體解析,OCR識別采用PaddleOCR進行識別,然后進行數(shù)據(jù)的組合,具體的流程見圖1。
PP-PicoDet模型是目標檢測模型,整體的網(wǎng)絡架構圖見圖2。
ES Block是百度自研的輕量級網(wǎng)絡ESNet,它是根據(jù) ShuffleNet V2進行的改進。CSP-PAN每一層輸入的網(wǎng)絡結構是CSP的結構,CSP是YOLOV4的創(chuàng)新點,它能夠增強CNN學習的能力,移除了計算瓶頸,降低顯存的使用。
PP-StructureV2包含兩個子系統(tǒng):布局信息提取和關鍵信息提取。PP-StructureV2輸出結果類型:
{‘type’:text、title、figure、table;‘bbox’:[xx,xx,xx,xx],‘res’:;‘img_idx’:}
結構化數(shù)據(jù)處理方案則相對簡單,基于13B-LLM大模型的工單數(shù)據(jù)(維修案例、維修工單、索賠單等結構化數(shù)據(jù))自動抽取歸類技術,對現(xiàn)有的技術資料進行抽取,生成標簽和歸類,形成維修數(shù)據(jù)處理模型,具體的解析流程見圖3。
13B-LLM大模型是一款基于Transformer架構的先進自然語言處理模型,擁有130億參數(shù),在此基礎上通過深入學習汽車維修領域的專業(yè)知識,能夠準確理解案例中的癥狀、故障原因和維修方法等汽車維修內(nèi)容。根據(jù)品質(zhì)報告單、質(zhì)量索賠單、維修案例這三種數(shù)據(jù)通過13B模型在內(nèi)容及標題中提取每個單據(jù)的故障現(xiàn)象、檢測方法、維修措施及肇事配件,根據(jù)大模型的語義理解,將故障現(xiàn)象歸為不同的現(xiàn)象主題類型。
3 自然語言處理在汽車故障診斷的應用
基于BGE-BERT模型的語義消歧技術,在BGE模型基礎上,對BGE的詞庫進行擴展,增加車輛專有名詞庫,然后搜集車輛售后維修行業(yè)的數(shù)據(jù),進行tokenizer層的學習,對車輛領域的專有中文及對應的別名叫法進行向量的映射。映射到高維空間的向量,相當于把文本的語義進行細顆粒的切分,每一個維度都代表不同的語義信息,可以把不同維度的語義信息進行語義轉(zhuǎn)化,進行語義消歧;并且針對同一個詞在不同的地方,代表不同的語義信息,模型在學習的時候會結合上下文的信息進行語義的區(qū)分,在BGE的tokenizer層,相同的詞語在不同的話術里面是不同的token值,代表了不同的語義信息。
基于BGE及向量數(shù)據(jù)庫的相似度計算技術,采用BGE(Bidirectional Graph Embedding)算法將故障現(xiàn)象映射到1 024維度的高斯空間,每種故障現(xiàn)象可以細分為1 024細維度的信息,針對同一種故障現(xiàn)象的不同表述方式,進行向量相似度匹配,實現(xiàn)語義理解;同時將故障現(xiàn)象向量數(shù)據(jù)與歷史維修資料內(nèi)向量數(shù)據(jù)進行相似度匹配計算,實現(xiàn)故障診斷方案的精準推送。
4 知識圖譜模型在汽車故障診斷的應用
a.知識抽取方法的研究。從各種數(shù)據(jù)源中自動抽取實體、關系和屬性等知識,包括命名實體識別、關系抽取、屬性抽取等技術。
b.知識融合方法的研究。將從不同數(shù)據(jù)源抽取到的知識進行整合,解決知識的重復、沖突和不一致等問題,包括實體對齊、屬性融合、關系融合等。
c.知識表示學習,將知識圖譜中的實體和關系映射到低維向量空間中,以便于計算機進行處理和計算,同時也能夠更好地捕捉實體和關系之間的語義信息。
d.知識推理的研究。根據(jù)已有的知識推導出新的知識,包括基于規(guī)則的推理、基于統(tǒng)計的推理、基于深度學習的推理等,能夠豐富知識圖譜的內(nèi)容,提高知識圖譜的完整性和應用價值。
將維修數(shù)據(jù)處理模型、語言處理模型應用到故障診斷中,通過知識抽取、知識融合、知識學習、知識推理,建立故障知識圖譜,從而建立基于知識圖譜模型的汽車故障智能診斷方法,智能診斷流程見圖4。
將結構化數(shù)據(jù)與非結構化數(shù)據(jù),通過數(shù)據(jù)處理、知識抽取、知識融合、語言處理(語義消歧)、知識學習等步驟自動構建故障診斷知識圖譜。依托故障知識圖譜,用戶在和機器問答過程中,機器根據(jù)故障知識圖譜中的關聯(lián)關系,引導用戶逐步排查從而來解決問題。
參考文獻:
[1]編輯部公安部:全國新能源汽車保有量達2 472萬輛,占比718%[J]汽車與配件,2024(13):48
[2]2023年中國汽車后市場維保行業(yè)調(diào)查報告[J]汽車維修與保養(yǎng),2024(2):58-61
作者簡介:
魏艷飛,男,1984年生,工程師,研究方向為汽車服務工程、汽車檢測和維修技術、汽車營銷與策劃。