摘 要:針對車輛故障診斷復雜化問題,研究開發(fā)了基于ChatGPT4.0和RAG技術的智能診斷專家系統(tǒng)。系統(tǒng)通過整合歷史服務公告、維修手冊等數據,構建向量化知識庫,實現故障的智能檢索與解決方案自動生成。采用語義分塊和Word2Vec模型提升檢索效率,結合大語言模型輸出精準診斷建議。實際應用表明,該系統(tǒng)診斷準確率達90%,響應時間縮短至分鐘級,減少50%人工咨詢量,顯著提升了維修效率和質量,為車輛智能診斷提供了創(chuàng)新解決方案。
關鍵詞:智能技術 診斷專家系統(tǒng) 檢索增強生成技術 設計與實現
1 介紹
隨著汽車電子控制系統(tǒng)日益復雜,涵蓋新能源、智能駕駛等多元領域,故障診斷難度顯著增加。目前某車企售后部門日均處理200+維修咨詢,依賴10名工程師人工響應,存在三大痛點:一是專業(yè)知識覆蓋有限,復雜問題需2-3天反饋;二是響應時效受工作時間制約;三是新能源車型問題激增導致處理壓力倍增。為此,研究創(chuàng)新性地提出融合ChatGPT 4.0與RAG技術的智能問答系統(tǒng),為AI在專業(yè)領域的落地提供了可復用的技術框架[1]。核心價值在于通過機器學習不斷優(yōu)化診斷模型,推動汽車售后服務向智能化轉型。
2 方法
診斷專家系統(tǒng)采用RAG技術,通過檢索知識庫增強大語言模型的輸出質量。系統(tǒng)主要模塊包括知識處理、向量數據庫構建、嵌入式模型、用戶查詢、檢索查全、大語言模型及答案生成。如圖1所示,其核心是包含服務公告、維修手冊等知識的診斷知識庫。知識經過清洗、分塊后導入向量數據庫,并利用ChatGPT 4.0將文本轉為向量表示,有效捕捉語義關系。該系統(tǒng)通過先進算法,能快速準確診斷故障,生成診斷報告和服務工單,顯著提升診斷效率和準確性。
2.1 知識模塊設計
日常應用中積累了海量新能源汽車技術數據,包括百萬級服務案例、車型公告、手冊、論壇技術帖及T-BOX數據。這些資料以Word、TXT、CSV、Excel、PDF、圖片和視頻等多種格式存儲。為處理這些數據,系統(tǒng)采用PDF提取器和OCR技術將其轉為純文本。
2.1.1 收集服務公告
服務公告是汽車廠商發(fā)布的官方技術文件,持續(xù)更新典型案例、解決方案和技術標準。如圖2所示,某電動車充電公告包含14個項目,詳細說明故障處理流程和技術規(guī)范。例如圖2《直流快充故障指南》指導技術人員通過測量電阻和電壓值,精準定位快充故障電路。
2.1.2 收集《維修手冊》中的“診斷步驟”
車輛維修手冊是重要技術文件,包含維修流程、故障代碼解析等技術參數。如圖3所示,手冊詳細說明DTC P012200的診斷流程,幫助技術人員快速定位和解決故障。
2.2 數據清理
車輛診斷專家系統(tǒng)依賴精準的數據,需優(yōu)化文檔處理并進行數據清洗。
A)基礎清洗:規(guī)范文本格式,清除特殊字符、冗余及敏感信息。如圖4案例所示,需刪除客戶姓名等隱私內容。
B)術語標準化:統(tǒng)一技術用語,消除歧義。如圖7案例中,需將非標準表述“多媒體”修正為官方術語“娛樂系統(tǒng)”,確保知識庫準確性。
2.3 向量庫的建立
矢量數據庫是專門為存儲和檢索矢量數據而設計的數據庫系統(tǒng)。可以實現高效檢索。針對不同文檔類型采用差異化分塊方案:服務手冊使用固定大小分塊,服務公告采用遞歸分塊,服務案例運用語義分塊。
2.3.1 大小分塊方案
服務手冊內容多、結構好,書寫規(guī)范。在研究中,將整個手冊分成多個文本塊,然后將它們嵌入到向量中。一般將手冊分成500個單詞作為一個塊,目的是在保持語義連貫的同時盡量減少嵌入內容中的噪聲,從而更有效地找到文檔中與用戶查詢最相關的部分。然后將所有不同大小的塊存儲到一個向量數據庫中,并保留每個塊的上下文關系[2-4]。
2.3.2 語義分塊處理
服務案例是經銷商上傳的故障圖片和數據列表,內容復雜且非結構化。系統(tǒng)采用語義分塊策略,確保每塊信息獨立完整,利用標點符號和自然段落進行分塊。接著,使用嵌入方法將用戶查詢轉為向量以保留語義,并借助預訓練的Word2Vec模型捕捉深層語義關系。最后,通過計算查詢向量與數據庫內容的相似度,檢索最相關的結果。
2.4 嵌入式模型的設計與實現
嵌入模型的核心任務是將文本轉換為向量形式,而系統(tǒng)使用了大量充滿歧義和輔助詞的服務用例,這些服務用例對傳達單詞的含義沒有用處,向量表示更加密集和精確,捕獲了上下文關系和句子的核心含義。這種轉換使系統(tǒng)能夠通過簡單地計算向量之間的差異來識別語義上相似的句子。
該診斷系統(tǒng)基于Word2Vec的CBOW模型,通過淺層神經網絡訓練生成詞向量。CBOW模型忽略單詞順序,通過上下文預測目標詞,將單詞映射為向量以表達語義關。具體流程:a.初始化:每個單詞分配隨機向量(通常50-300維);b.訓練:輸入定長文本(如5個詞),將上下文詞向量拼接(例如“品牌 車型 汽車 失控”→[0.2,0.1,0.3,0.1,0.3,...]);C.計算:通過神經網絡處理拼接向量,輸出故障診斷結果[5-7]。
如圖6所示,假設輸入的文本為“品牌車型汽車跑掉”,則圖V1為“品牌”,V2為“車型”,V3為“汽車”,V4為“失控”,假設隨機初始化的詞向量字典為{“品牌”:[0.2,0.1,0.3],“車型”:[0.1,0.3,0.4],“汽車”:[0.8,0.5,0.1],“失控”:[0.5,0.5,0.5]},則圖中的Xw運算就是將“品牌車型汽車跑掉”的詞向量按順序依次排列。然后圖中的Xw運算就是將“品牌車型汽車跑偏”這四個單詞的單詞向量從開始到結束依次拼接為[0.2,0.1,0.3,0.1,0.3,0.4,0.8,0.5,0.1,0.5,0.5],然后這個拼接數組就是最后要代入神經網絡進行計算的輸入,通過這個輸入系統(tǒng)希望神經網絡能夠計算出故障的問題。
2.5 導入ChatGPT格式
ChatGPT 是基于 Transformer 的生成式預訓練模型,具備強大的自然語言處理和邏輯推理能力,能夠逐步分析并解決數學與邏輯問題。調用方法:導入OpenAI庫并配置API密鑰;構建消息列表(如 role: \"user\", content: \"Do you know DataWhale?\");調用 ChatCompletion.create 指定模型(如 gpt-4.0-mini),發(fā)送請求;從響應對象的 choices[0]['message']['content'] 提取 ChatGPT 的回復。
代碼實現:
進口openai
#設置API密鑰
#構建消息對象列表
Messages = [
{\" role \": \" user \", \" content \": “ Do you know DataWhale? ”\"}
#調用API并打印響應
response = openai.ChatCompletion.create(
模型= \" gpt - 4.0渦輪增壓”,
消息=消息,
溫度= 0)
打?。憫猍'選擇'][0](“信息”)(“內容”))
2.6 查詢檢索
根據診斷專家系統(tǒng)需求,采用關鍵詞匹配和向量相似度計算兩種檢索方法,未來可拓展基于圖片的檢索。關鍵詞匹配直接比對查詢詞與知識庫內容;向量相似度計算則將文本轉化為向量,通過空間模型進行相似度比對。為提升效率,系統(tǒng)構建了三種索引:關鍵詞索引、向量索引、圖像索引;索引構建流程包括:文本分割、特征提取、索引結構建立。
2.7 用戶輸入查詢
在完成前期準備后,系統(tǒng)通過嵌入模型將用戶問題矢量化,并從向量數據庫中檢索相似知識。試運行發(fā)現,技術人員常僅輸入DTC代碼或癥狀(如“U140287”或“DC快速充電器無法充電”),導致回答不理想。統(tǒng)計顯示僅45%的提問包含完整的“車型+癥狀+DTC+需求”四要素。為此,系統(tǒng)通過案例對比培訓(如將僅查詢“DTC P180516”與完整提問對比)提升提問質量,并增加問答對話環(huán)節(jié),逐步優(yōu)化查詢準確性。
2.8 LLM大語言模型
大語言模型LLM生成響應,是生成問題答案響應的核心組件。與嵌入式模型類似,該診斷專家系統(tǒng)使用了langchain開發(fā)框架來構建RAG系統(tǒng),該系統(tǒng)用于定義回調函數,查看使用了哪些上下文,檢查檢索結果來自哪個文檔等。
2.9 生成答案
用戶的問題和上一步檢索到的信息的最終組合構建了一個提示模板,該模板被饋送到大型語言模型中,等待模型輸出答案。當用戶輸入查詢或問題時,RAG系統(tǒng)首先接收該輸入。然后將檢索到的關鍵信息與用戶的輸入查詢結合起來,作為語言模型的輸入。最后生成輸出:語言模型根據輸入信息生成相應的輸出文本。根據輸入的問題和檢索到的相關信息生成詳細的答案。
2.10 系統(tǒng)設計測試與優(yōu)化
本系統(tǒng)在開發(fā)中應用了Python語言編程,并將主要代碼開發(fā)體現在處理知識模塊、嵌入式模型代碼開發(fā)、LLM大語言模型代碼開發(fā)上。隨后在20個汽車服務中心進行三個月試運行,要求每家每天測試至少3個問題,經優(yōu)化后系統(tǒng)穩(wěn)定性顯著提升,最終系統(tǒng)能及時提供準確解決方案,減少50%人工問答,同時幫助技術人員通過參考文檔學習診斷邏輯和流程,提升知識積累和效率,獲得用戶滿意。
3 結論
研究通過開發(fā)汽車診斷專家系統(tǒng),驗證了AI技術在智能診斷領域的應用價值。該系統(tǒng)整合大數據、機器學習和自然語言處理技術,顯著提升了故障診斷效率和準確性,縮短排查時間,降低維修成本,有效提升了用戶滿意度。盡管存在挑戰(zhàn),但隨著技術進步,該系統(tǒng)將在汽車服務領域發(fā)揮更大作用。未來通過支持語音輸入等功能優(yōu)化,診斷專家系統(tǒng)有望成為行業(yè)標配,推動維修服務整體升級。
參考文獻:
[1] Hossain M N, Rahman M M, Ramasamy D.Artificial Intelligence-Driven Vehicle Fault Diagnosis to Revolutionize Automotive Maintenance: A Review[J].CMES-Computer Modeling in Engineering amp; Sciences, 2024, 141(2):951-996.
[2]金志剛,張慶宇,王耀富.基于故障樹的低速無人車診斷系統(tǒng)研究[J].物理學報:會議叢刊,2024,2816(1):12083.
[3] Jung J, Han S, Park M, et al.Automotive digital forensics through data and log analysis of vehicle diagnosis Android apps[J].Forensic Science International: Digital Investigation, 2024, 49:301752.
[4]鄭一凡,張正杰,周思達,等.基于多特征融合模型的電動汽車故障診斷與預警創(chuàng)新方法[J].儲能學報,2024:78.
[5]吳國芳,劉福佳,徐淑全.汽車故障診斷信息的編制方法[J].MATEC會議網,2022,355:71-75.
[6]李玉坤.基于智能診斷的人工智能神經網絡應用分析[J].計算機科學學報,2022,20:19-23.
[7]王玉平,李衛(wèi)東.基于傳遞的深度神經網絡新能源汽車故障診斷[J].能源研究前沿,2021,9:89-91.