引言
在信息爆炸的時代,數(shù)據(jù)的規(guī)模、復雜性和增長速度都達到了前所未有的水平。近年來,大語言模型展現(xiàn)出強大的對世界知識掌握和對語言的理解能力。國家各部門陸續(xù)發(fā)布政策,促進人工智能的發(fā)展。例如,工業(yè)和信息化部發(fā)布的《國家人工智能產(chǎn)業(yè)綜合標準化體系建設指南(2024版)》1聚焦產(chǎn)業(yè)標準化建設;全國網(wǎng)絡安全標準化技術委員會2024年發(fā)布的《人工智能安全治理框架》1.0版,將鼓勵創(chuàng)新作為首要任務,提出了一系列科學合理的治理原則[2]。
本文以通用消費領域數(shù)據(jù)為基點,深人挖掘公眾在社交網(wǎng)絡媒體渠道發(fā)布的投訴意見。借助LLM強大的分析手段,深入挖掘用戶需求,捕捉關鍵信息,從而提高企業(yè)決策能力、優(yōu)化業(yè)務流程。團隊成員曾在創(chuàng)新數(shù)據(jù)摘要領域分別進行詞云分析和潛在狄利克雷分布(latentdirichletallocation,LDA)主題模型研究3,具備實踐經(jīng)驗。
1.研究思路
本文結合計算機科學、數(shù)據(jù)科學、人工智能等領域的理論與實踐,搭建一個高效的數(shù)據(jù)分析線路。針對投訴數(shù)據(jù)具有文本量大、語義復雜、情感多元等特點,以及傳統(tǒng)數(shù)據(jù)挖掘技術在處理此類數(shù)據(jù)時存在的效率低、語義理解偏差等問題,提出將大語言模型(LLM)引入投訴數(shù)據(jù)挖掘領域的設想。通過分析大語言模型在自然語言處理方面的優(yōu)勢,論證其應用于投訴數(shù)據(jù)挖掘的可行性。
2.基于大語言模型的投訴數(shù)據(jù)挖掘流程
數(shù)據(jù)挖掘流程如圖1所示。首先是數(shù)據(jù)收集,為了保證數(shù)據(jù)多樣性及隱私性,多采自公開數(shù)據(jù)及網(wǎng)絡平臺。其次是數(shù)據(jù)預處理,此過程包括識別并糾正錯誤的、不完整的、不準確的、不相關的數(shù)據(jù),確保數(shù)據(jù)的質量和準確性。來自多平臺的投訴數(shù)據(jù)也需要進行歸一化處理,且脫敏。
再次是模型選擇,對中文文本識別,優(yōu)先從國內(nèi)主流模型中選取。最后是推理分析,采用抽樣檢測方法進行結果驗證,得到模型數(shù)據(jù)分析效果。
2.1數(shù)據(jù)收集
獲取優(yōu)質可信賴的數(shù)據(jù)是進行深入分析和改進服務的關鍵,所收集的數(shù)據(jù)內(nèi)容通常圍繞特定主題,如產(chǎn)品質量、售后服務、物流問題、價格爭議等,包括投訴內(nèi)容、時間、地點、產(chǎn)品/服務信息、客戶信息等。
2.2數(shù)據(jù)預處理
首先,對數(shù)據(jù)收集階段獲取到的數(shù)據(jù)進行綜合分析,篩選出真實有效的投訴信息,如剔除缺少投訴編號、與內(nèi)容無關、無實質性建議、字段缺失較多等的數(shù)據(jù),以免影響后續(xù)最終結果。對于有效范圍內(nèi)的數(shù)據(jù),須聚焦于有效核心信息提取,涵蓋投訴時間、處理時長、情感傾向等關鍵點。
其次,對數(shù)據(jù)進行清洗。第一,因收集到的數(shù)據(jù)格式有差異,需要將其轉換為統(tǒng)一的格式(如JSON、CSV),便于后續(xù)處理。若識別的是大規(guī)模數(shù)據(jù)集中的近似重復項,可采用局部敏感哈希(LSH)算法識別并刪除重復的投訴記錄,確保數(shù)據(jù)唯一性。第二,處理缺失值,對于缺失的字段,本研究采用fillnaO均值/中位數(shù)填充法,根據(jù)樣本之間相似性及變化趨勢填補缺失值。第三,噪聲過濾,用正則表達式去除無意義的字符。第四,敏感信息過濾,樣本數(shù)據(jù)中包含用戶隱私信息,使用特定詞元進行替換處理。
最后,進行數(shù)據(jù)分類。先將數(shù)據(jù)按投訴來源(快遞物流、電商平臺、金融服務、其他)進行分類,在大類下,再劃分為產(chǎn)品質量、服務態(tài)度、物流問題等子類。
2.3模型處理結果
隨著大語言模型迅速發(fā)展,其語言理解和生成能力大幅提升,在上下游任務處理能力上表現(xiàn)卓越。目前在基于Transformer架構的先進深度學習模型中,LLM具備強大的自然語言生成、分析、推理能力,不需要大量的人工標記和模型訓練,就可以進行文本分類、情感分析、主題挖掘等。
在處理客戶投訴反映產(chǎn)品質量或服務的問題時,必須深入了解客戶實質需求及期望,掌握訴求特征[4]。本文通過設計優(yōu)化提示詞工程(promptengineering)進行微調,引導模型生成準確、有針對性且滿足期望的分析結果。提示詞(prompt)結構采用“指令 + 輸人數(shù)據(jù) + 背景 + 輸出要求”的形式,指令即明確告訴模型需要執(zhí)行什么任務或回答什么問題,如簡述、解釋、翻譯、總結等;輸入數(shù)據(jù)提供模型需要處理或分析的具體數(shù)據(jù),一般為文本、數(shù)字、代碼等;背景是與任務相關的信息,以便模型能更好地理解需求;輸出要求為期望模型產(chǎn)生的格式或結構,可以幫助生成更符合用戶的輸出。
在情感分析方面,本文建立三級情感標簽體系:負面(投訴/不滿)、中性(事實陳述)、正面(問題解決/認可),將投訴文本與情感傾向對應,幫助識別高風險投訴,確保模型評估的準確性。利用Embedding技術,將高維文本數(shù)據(jù)映射到低維詞向量、句向量[5]。這些向量表征包含文本的語義信息,并且能夠捕捉到詞語和句子之間的語義相似性[。構建情感詞典,將文本中的詞語與情感詞典中的詞語進行匹配映射,同時結合上下文、語義角色,從而初步推理出文本總體情感傾向[7]。
在主題挖掘方面,需要從數(shù)據(jù)中提取有用的信息和知識,幫助企業(yè)識別潛在客戶和市場趨勢,從而優(yōu)化產(chǎn)品和服務,使決策過程更為高效。主題模型常用技術有潛在狄利克雷分布(LDA)、概率潛在語義分析(probabilisticlatentsemanticanalysis,PLSA)。以LDA為例,其作為一種無監(jiān)督的三層貝葉斯概率模型,包含詞、主題和文檔三個層次[8]。其基本假設是每篇文檔是由多個主題構成的,而每個主題則是一組特定詞匯的概率分布[。這種詞袋模型通過對大量文檔的學習,可以自動發(fā)現(xiàn)潛在主題結構,廣泛應用于文本分類、信息檢索等領域。在深度學習領域,卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)可以用來進行文本主題挖掘,利用卷積核自動提取文本中的局部特征,通過池化操作實現(xiàn)特征降維,能夠捕捉文本中的關鍵短語和句子結構,從而應用于文本主題分類任務[10]。
3.基于大語言模型的投訴數(shù)據(jù)挖掘實踐
3.1投訴數(shù)據(jù)挖掘過程及結果
首先,為驗證基于大語言模型的投訴數(shù)據(jù)挖掘技術的有效性,本文選取黑貓投訴等公開網(wǎng)絡平臺的投訴數(shù)據(jù),這些平臺數(shù)據(jù)向全網(wǎng)公開,類型多樣,數(shù)量眾多,其中包含消費者各類投訴,涵蓋商品質量、服務態(tài)度、售后保障等多方面,共計2000條。選取的數(shù)據(jù)中,電商平臺占比 30% 、快遞物流占比 30% 、金融服務占比 30% 、其他占比 10% ,如圖2所示。
其次,對2000條投訴數(shù)據(jù)進行預處理,部分脫敏數(shù)據(jù)樣本如表1所示。
再次,對預處理后的1926條有效投訴數(shù)據(jù)進行分析,識別出來的投訴情緒中負面占比 72% ,表達了客戶對于商品及
D-高山-投訴數(shù)據(jù)挖掘技術研究
服務的強烈不滿,而中性、正面情緒分別為 18% 、 10% 。具體呈現(xiàn)如圖3所示。
最后,對投訴數(shù)據(jù)進行主題挖掘。通過對1926條有效投訴數(shù)據(jù)進行大模型分析,挖掘出的主題詞云圖如圖4所示。
3.2投訴數(shù)據(jù)挖掘結果的應用
基于大語言模型的消費投訴數(shù)據(jù)挖掘結果,可在多個方面實現(xiàn)價值轉化,實現(xiàn)“變訴為寶”。企業(yè)通過情感分析識別投訴文本,正面情緒可發(fā)現(xiàn)服務亮點、優(yōu)化服務體驗,而負面情緒可幫助快速定位服務短板、重塑企業(yè)形象。
例如,京東智聯(lián)云技術團隊結合自身的技術優(yōu)勢,快速研發(fā)并上線“生命通道”,實現(xiàn)全平臺自動識別用戶極端負面情緒。2020年初,一位用戶在京東購買藥品在線咨詢時觸發(fā)了智能情感客服的預警,緣由是內(nèi)容含有極端情緒化的因素,預警觸發(fā)了危機專員的介入,結合該用戶購買的藥品劑量,推斷其存在輕生傾向,通過危機專員妥善處理,避免了悲劇的發(fā)生[11]。
4.結語
本文研究充分利用大語言模型對上下文的學習能力,構建消費者投訴處理挖掘流程,包括數(shù)據(jù)收集、預處理、模型選擇、結果分析。從消費者的投訴數(shù)據(jù)中,對數(shù)據(jù)進行分類,識別投訴情緒、挖掘主題詞,從而幫助客戶解決問題。未來研究可進一步探索大語言模型在不同行業(yè)投訴數(shù)據(jù)挖掘中的應用,以及如何結合更多新技術進一步優(yōu)化該技術。
參考文獻:
[1]工業(yè)和信息化部中央網(wǎng)絡安全和信息化委員會辦公室國家發(fā)展和改革委員會國家標準化管理委員會關于印發(fā)國家人工智能產(chǎn)業(yè)綜合標準化體系建設指南(2024版)的通知(工信部聯(lián)科[2024]113號)[EB/OL].(2024-07-02)[2025-05-05].https://www.miit.gov.cn/jgsj/kjs/wjfb/art/2024/art_0b6ff6228d0a47cc9519dd76c7a02ef2.html.
[2]全國網(wǎng)絡安全標準化技術委員會.《人工智能安全治理框架》1.0版[EB/OL].(2024-09-09)[2025-05-05].https://www.cac.gov.cn/2024-09/09/c_1727567886199789.htm.
[3]王野夫,裴晨蕊,張璐恒.基于LDA模型的創(chuàng)新數(shù)據(jù)主題挖掘探索高技術(服務業(yè))與制造業(yè)交互路徑[J].軟件,2024,45(2):40-43.
[4]張蕊,張麗紅,吳登群.客戶投訴處理精準分析與定位研究[J].技術研究,2024,6(17):58-60.
[5]李晁銘,劉盼,蘇康友,等.基于大語言模型與特征融合的大學生情感分析[]電子元器件與信息技術,2024,7(17):55-58.
[6]洪沛,戴勝林,仇國慶,等.大模型深度數(shù)據(jù)挖掘—文本摘要生成與商機智能識別研究[J].數(shù)字通信世界,2024.9(15):43-47.
[7]郭麗.基于概率推斷性語言模型的大數(shù)據(jù)流分析框架研究:應用于近乎實時的情感分析[J].九江學報(自然科學版),2024,3(145):85-89.
[8]孫秋鳳.基于改進LDA模型與情感分析的微博評論分析[J].黑龍江科學,2025,16(1):69-75.
[9]張小婉.基于LDA主題模型及情感分析的電商直播熱點主題分析[].現(xiàn)代信息科技,2024,8(21):88-101.
[10]解勉,陳剛,余曉晗.基于大語言模型的論文檢索與分析方法研究[].計算機技術與發(fā)展.2024,34(12):118-124.
[11]量子位.京東智能情感客服挽 救一名學生生命,“可信賴的AI”用 溫暖前行[EB/OL].(2020-06-15)[2025- 05-23].https://mp.weixin.qq.com/s/ wo6MEw58BZKSIvwOymZ52w.
作者簡介:吳瑕,碩士研究生,wuxia@sptc.edu.cn,研究方向:人工智能、職業(yè)教育。
基金項目:四川郵電職業(yè)技術學院2024年度校級科研項目課題基于VUE框架和大語言模型的投訴數(shù)據(jù)可視化及挖掘研究(編號:YDXJKY202429)。