[摘要]簡(jiǎn)述NLP的發(fā)展過(guò)程與各類應(yīng)用場(chǎng)景,并針對(duì)車企所需的內(nèi)容,著重在輿情監(jiān)控與語(yǔ)音文本數(shù)據(jù)處理方面加強(qiáng)構(gòu)建具體的應(yīng)用系統(tǒng),提高車企對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理的程度,利用NLP中BERT模型與機(jī)器學(xué)習(xí)方法能高效地挖掘出數(shù)據(jù)的價(jià)值,讓產(chǎn)品體驗(yàn)不斷提升。
[關(guān)鍵詞] NLP;輿情監(jiān)控;文本數(shù)據(jù)
中圖分類號(hào):U463.6 " 文獻(xiàn)標(biāo)志碼:A " " "文章編號(hào):1003-8639(2023)06
Application of NLP in Automobile Enterprises
ZHANG Sen,CHENG Deng,SONG Guan-yu,LIU Wei,DING Xiao-wen,MO Chun-jin
(SAIC GM Wuling Automoblie Co.,Ltd .,Guangxi Laboratory of New Energy Automobile,Guangxi Key Laboratory of Automobile Four New Features,Liuzhou,545007,China)
[Abstract]This paper introduces the development mileage and various application scenarios of NLP,and focuses on building specific application systems in public opinion monitoring and voice data processing to improve the degree of unstructured data processing of car enterprises. It uses the Bert model in NLP and the machine learning to mine the data value efficiently,so as to continuously improve the product experience.
[Key words]NLP;public opinion monitoring;text data
收稿日期:2022-11-23
作者簡(jiǎn)介:張森(1995—),男,助理工程師,研究方向?yàn)槠嚧髷?shù)據(jù)相關(guān)。
1 "引言
在新能源汽車紅火的當(dāng)下,汽車行業(yè)內(nèi)各企業(yè)都愈發(fā)敢于嘗試,開(kāi)始擁抱理解并吸收更多的新技術(shù),并將其運(yùn)用在售前、研發(fā)、售后等各個(gè)業(yè)務(wù)節(jié)點(diǎn)當(dāng)中。隨著人工智能的不斷發(fā)展,深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等內(nèi)容不斷沖擊著汽車行業(yè),原本深?yuàn)W的技術(shù)正在走向大眾。其中,自然語(yǔ)言處理(Natural Language Processing,NLP)是一座鏈接人與機(jī)器的橋梁,激活了人與系統(tǒng)交流的通道,是人工智能行業(yè)重要的發(fā)展內(nèi)容與方向。車企可以利用自然語(yǔ)言處理技術(shù),深切落地運(yùn)用人工智能項(xiàng)目,不斷在輿情監(jiān)控、語(yǔ)音數(shù)據(jù)處理等方面推進(jìn),登上高峰,高效打造更多優(yōu)質(zhì)體驗(yàn)的產(chǎn)品。
2 "自然語(yǔ)言處理概述
自然語(yǔ)言處理橫跨計(jì)算機(jī)科學(xué)、人工智能和語(yǔ)言學(xué)三大領(lǐng)域,是人工智能發(fā)展的重要組成部分(圖1)。語(yǔ)言是信息的重要載體,為了讓系統(tǒng)了解語(yǔ)言,無(wú)數(shù)科學(xué)家前仆后繼。自然語(yǔ)言處理發(fā)展從“鳥(niǎo)飛派”受慣性思維的影響,到利用強(qiáng)大數(shù)學(xué)、概率的“統(tǒng)計(jì)派”,并依靠各類模型的優(yōu)化與計(jì)算機(jī)的進(jìn)化,壯大至今。自然語(yǔ)言處理技術(shù)目的是讓計(jì)算機(jī)‘理解’自然語(yǔ)言,以此人們通過(guò)日常交流方式傳輸?shù)闹噶?,而不是相比較更晦澀地計(jì)算機(jī)語(yǔ)言進(jìn)行輸入至系統(tǒng)并處理相關(guān)內(nèi)容。
圖1 "自然語(yǔ)言處理與人工智能
自然語(yǔ)言處理主要分為2個(gè)流程:自然語(yǔ)言理解(Natural language Understanding,NLU)和自然語(yǔ)言生成(Natural language Generation,NLG)。NLU主要是理解文本的含義,具體到每個(gè)單詞和結(jié)構(gòu)都需要被理解;NLG與理解相反,分3個(gè)階段,確定目標(biāo),通過(guò)評(píng)估情況和可用的交際資源來(lái)計(jì)劃如何實(shí)現(xiàn)目標(biāo),并將計(jì)劃形成為文本[1]??偨Y(jié)NLP內(nèi)容可分為兩大類,6種模型。第1大類,輸入聲音進(jìn)行處理,分別可以輸出為文本、另一種聲音、文本類型;第2大類,輸入文本進(jìn)行處理,分別可以輸出為聲音、另一種文本、文本類型(圖2)。
圖2 "自然語(yǔ)言處理基本模型分類
3 "車企中NLP的具體運(yùn)用
基于以上模型分類,NLP實(shí)際可以在語(yǔ)音識(shí)別、語(yǔ)種翻譯、從文本到聲音、聲音轉(zhuǎn)換等場(chǎng)景進(jìn)行運(yùn)用。利用AI技術(shù)快速發(fā)展自身業(yè)務(wù),打造優(yōu)質(zhì)產(chǎn)品也是各家車企最迫切的需求。如今智能網(wǎng)聯(lián)車輛發(fā)展愈發(fā)蓬勃,語(yǔ)音是智能網(wǎng)聯(lián)中最為主要的交互方式之一,自然語(yǔ)言處理為語(yǔ)音識(shí)別提供了最基礎(chǔ)的能力。除此之外,結(jié)合實(shí)際工作業(yè)務(wù),車企可以利用自然語(yǔ)言處理技術(shù),不斷在輿情監(jiān)控、語(yǔ)音數(shù)據(jù)處理等方面進(jìn)行突破和創(chuàng)新。
3.1 "打造智能輿情檢測(cè)系統(tǒng)
輿情監(jiān)測(cè),是產(chǎn)品定義與改進(jìn)的重要參考依據(jù)。市場(chǎng)瞬息萬(wàn)變,積極把握人民群眾對(duì)產(chǎn)品的評(píng)價(jià)與喜好,全面“TOC”,能更好、更快速地實(shí)現(xiàn)人民對(duì)優(yōu)秀產(chǎn)品的基本訴求。利用自然語(yǔ)言處理技術(shù)制作短文本相似度、評(píng)論觀點(diǎn)抽取、情感傾向分析等接口后,打造輿情檢測(cè)系統(tǒng),實(shí)時(shí)分析在售前、售中、售后、線上社交平臺(tái)采集到的評(píng)論文本數(shù)據(jù),利用得到的數(shù)據(jù)建立某一特征產(chǎn)品數(shù)據(jù)庫(kù),輸出結(jié)構(gòu)化數(shù)據(jù),制作可視化大屏供給分析使用。
傳統(tǒng)輿情信息收集方式多為人工獲取,收集效率低,又存在數(shù)據(jù)易遺漏、來(lái)源單一、時(shí)效性差等缺點(diǎn),需要一套高效智能的系統(tǒng)來(lái)完成信息采集和分析工作。如今輿情分析需要選擇足夠有代表性,同時(shí)也可以敏銳反應(yīng)市場(chǎng)變化的輿情數(shù)據(jù)?;谛聲r(shí)代特點(diǎn),車企對(duì)于外部公開(kāi)平臺(tái),需要關(guān)注各自媒體平臺(tái)評(píng)論、各大新聞平臺(tái)輿論導(dǎo)向、線上用戶之聲留言、各搜索平臺(tái)指數(shù)、汽車類門(mén)戶網(wǎng)站反饋及相關(guān)負(fù)面新聞等;而對(duì)于內(nèi)部平臺(tái),更多需要關(guān)注取得的售后反饋問(wèn)題記錄、車主調(diào)研等信息。輿情數(shù)據(jù)來(lái)源如圖3所示。通過(guò)大數(shù)據(jù)平臺(tái)工具,收集到需要關(guān)注的輿情信息后,借助于語(yǔ)言處理基礎(chǔ)技術(shù)進(jìn)行智能處理。
1)短文本相似度:消除重復(fù)度高的新聞報(bào)道、各類評(píng)論,提高分析數(shù)據(jù)的品質(zhì)。
2)情感傾向分析:各平臺(tái)評(píng)論信息的情感傾向是一項(xiàng)重要的參考指標(biāo),有助于分析產(chǎn)品或車企風(fēng)格等是否受歡迎,了解新產(chǎn)品的市場(chǎng)反響,幫助車企提高后續(xù)作品的品質(zhì),特別是對(duì)消極中立級(jí)別的新聞和評(píng)論的監(jiān)控,可以及時(shí)將負(fù)面消息進(jìn)行處理,提高客訴響應(yīng)速度。
3)評(píng)論觀點(diǎn)抽取:提取評(píng)論的觀點(diǎn),匯總統(tǒng)計(jì)后得到對(duì)產(chǎn)品評(píng)價(jià)的核心觀點(diǎn),對(duì)真實(shí)建議與意見(jiàn)做歸納整理,為產(chǎn)品迭代或版本優(yōu)化提供有效支撐。
將數(shù)據(jù)輸入系統(tǒng),自動(dòng)化處理,為設(shè)計(jì)、運(yùn)營(yíng)、優(yōu)化提供決策參考,提升產(chǎn)品體驗(yàn)。
圖3 "輿情數(shù)據(jù)來(lái)源
3.2 "打造語(yǔ)音數(shù)據(jù)處理系統(tǒng)
目前,各家車企對(duì)智能座艙都投以資源進(jìn)行開(kāi)發(fā)與優(yōu)化,其中語(yǔ)音交互又是最主要的提升亮點(diǎn)。經(jīng)過(guò)發(fā)展,各家車企都逐步研制具有特色的語(yǔ)音交互產(chǎn)品,其中,自主研發(fā)能力較強(qiáng)的車企會(huì)不斷在遵循法規(guī)的條件下采集各類的語(yǔ)音/文本數(shù)據(jù),以優(yōu)化語(yǔ)音交互系統(tǒng),提高產(chǎn)品體驗(yàn)。
數(shù)據(jù)可根據(jù)其特性及治理方法差異劃分為內(nèi)部數(shù)據(jù)與外部數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù),元數(shù)據(jù)與主數(shù)據(jù)等,而語(yǔ)音/文本數(shù)據(jù)根據(jù)分類皆為非結(jié)構(gòu)化數(shù)據(jù)。從車企內(nèi)部的數(shù)據(jù)類型來(lái)看,非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)速度保持在高位,但開(kāi)發(fā)程度不足30%,長(zhǎng)期以來(lái),其價(jià)值未得到充分有效利用。另,非結(jié)構(gòu)化數(shù)據(jù)的信息含量又是較為豐富的,從中挖掘出的價(jià)值能夠直接運(yùn)用在語(yǔ)音交互系統(tǒng)優(yōu)化操作中,既能直發(fā)掘到用戶痛點(diǎn),又能即時(shí)響應(yīng),縮短客訴處理時(shí)間,最重要的是,車企真實(shí)地利用AI為業(yè)務(wù)賦能。隨著非結(jié)構(gòu)化數(shù)據(jù)的積累,增加與AI應(yīng)用的數(shù)據(jù)需求推動(dòng),車企對(duì)非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值化需求將加速釋放,利用NLP加快對(duì)語(yǔ)音數(shù)據(jù)處理進(jìn)程變得愈發(fā)重要。
語(yǔ)音交互系統(tǒng)由車端、云端兩大部分組成。不同語(yǔ)音系統(tǒng)兩端的分工有所區(qū)別,以常見(jiàn)架構(gòu)為例,車端一般負(fù)責(zé)處理拾音、降噪、轉(zhuǎn)換等內(nèi)容,利用強(qiáng)大的通信能力,在云端部署了ASR、NLP、TTS等在線服務(wù)等待或主動(dòng)服務(wù)車端。由此得知,語(yǔ)音數(shù)據(jù)大多為云端收集到的脫敏后的語(yǔ)音交互數(shù)據(jù),包括交互中產(chǎn)生的系統(tǒng)識(shí)別結(jié)果、用戶表達(dá)的指令樣式、系統(tǒng)主動(dòng)回復(fù)內(nèi)容等,均以文本樣式存儲(chǔ)。
完整的一次交互內(nèi)容確定輸入與輸出,系統(tǒng)響應(yīng)內(nèi)容與識(shí)別到的用戶意圖是否一致,若系統(tǒng)響應(yīng)內(nèi)容與用戶需求一致,即認(rèn)為本次交互基本滿足實(shí)際要求。在語(yǔ)音系統(tǒng)的開(kāi)發(fā)過(guò)程中,已經(jīng)盡最大可能收集海量的說(shuō)法存入系統(tǒng)中,以便提高命中的概率,但車輛作為具體的產(chǎn)品,用戶群體分布又是極為廣泛的,中國(guó)地域遼闊,每個(gè)地方的語(yǔ)言、發(fā)音等習(xí)慣或多或少存在差異,同一種意圖與請(qǐng)求可能出現(xiàn)多種說(shuō)法。為此,在車企中,利用NLP可以在語(yǔ)音系統(tǒng)運(yùn)營(yíng)的過(guò)程中高效處理語(yǔ)音文本的數(shù)據(jù),挖掘其中的說(shuō)法、語(yǔ)言價(jià)值,優(yōu)化系統(tǒng)整體適用性,提高用戶體驗(yàn)?;诩寄苊械慕嵌龋梢詫⒄Z(yǔ)音文本數(shù)據(jù)分為:命中數(shù)據(jù)與未命中數(shù)據(jù),而打造的語(yǔ)音數(shù)據(jù)處理系統(tǒng)則以處理本部分的命中數(shù)據(jù)與未命中數(shù)據(jù)為主。
3.2.1 "未命中數(shù)據(jù)處理
NLP在語(yǔ)音交互系統(tǒng)中已經(jīng)處理了大部分識(shí)別需求內(nèi)容,從根本上分析,處理邏輯基于系統(tǒng)已存在的說(shuō)法規(guī)則、詞庫(kù)、意圖等內(nèi)容與拾音識(shí)別結(jié)果的匹配關(guān)系。完整的、符合意圖的識(shí)別結(jié)果可命中具體內(nèi)容并進(jìn)行回復(fù),但由于部分說(shuō)法規(guī)則、熱詞等未收錄系統(tǒng),識(shí)別文本未能找到對(duì)應(yīng)的處理方案則產(chǎn)生未命中數(shù)據(jù)。絕大部分未命中數(shù)據(jù)在系統(tǒng)中由最基礎(chǔ)的閑聊回復(fù)作為兜底,一般為“沒(méi)有聽(tīng)到你說(shuō)話哦,有什么可以幫你?”等表達(dá)未能識(shí)別意圖的內(nèi)容。根據(jù)此類內(nèi)容,回顧交互中用戶語(yǔ)音輸入可以發(fā)現(xiàn),未命中數(shù)據(jù)中存在有真實(shí)意圖可做系統(tǒng)優(yōu)化說(shuō)法進(jìn)行增加。
谷歌公司AI團(tuán)隊(duì)在2018年發(fā)布了預(yù)訓(xùn)練語(yǔ)言表示模型——BERT(Bidirectional Encoder Representations from Transformers)模型[2],并刷新了11項(xiàng)自然語(yǔ)言處理任務(wù)的精度,引起了廣泛重視。與其他語(yǔ)言表征模型不同的是,BERT的設(shè)計(jì)目的是通過(guò)對(duì)標(biāo)記的文本上進(jìn)行預(yù)訓(xùn)練,調(diào)節(jié)各個(gè)層的參數(shù),學(xué)習(xí)上下文表示[3]。通過(guò)大規(guī)模通用語(yǔ)料和預(yù)訓(xùn)練任務(wù)學(xué)習(xí)通用的語(yǔ)言表示,這種預(yù)訓(xùn)練模型可以為下游自然語(yǔ)言處理任務(wù)提供豐富的語(yǔ)言表示信息[4]。而Adhkari A等人首次將BERT用于文本分類,通過(guò)對(duì)BERT模型進(jìn)行微調(diào)以獲取分類結(jié)果,并證實(shí)BERT在文本分類中依然可以取得較好的結(jié)果。
基于考慮選擇BERT預(yù)訓(xùn)練語(yǔ)言模型,對(duì)語(yǔ)料文本進(jìn)行逐字切割,生成動(dòng)態(tài)字向量。BERT預(yù)訓(xùn)練模型中的BERT-base Chinese模型為BERT預(yù)訓(xùn)練模型中支持中文的單語(yǔ)言模型。采集的未命中語(yǔ)料數(shù)據(jù)的各語(yǔ)句關(guān)聯(lián)性不強(qiáng),考慮選擇單一的詞語(yǔ)層Attention機(jī)制,計(jì)算各特征向量的權(quán)重,從而實(shí)現(xiàn)更精確有效的特征提取語(yǔ)音數(shù)據(jù)處理系統(tǒng)對(duì)收集的文本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,清除文本中的空值,并去重。針對(duì)文本信息“有/無(wú)意義”類別的區(qū)分,根據(jù)語(yǔ)音業(yè)務(wù)使用場(chǎng)景,將句式結(jié)構(gòu)完整、語(yǔ)義明晰等語(yǔ)音文本則劃分至“有意義”的范疇中,而識(shí)別錯(cuò)誤、缺詞斷句等語(yǔ)音文本劃分至“無(wú)意義”的范疇中。
經(jīng)過(guò)系統(tǒng)處理后的數(shù)據(jù),將“有意義”的數(shù)據(jù)保留,經(jīng)過(guò)人工復(fù)核處理后作技能優(yōu)化直接的指導(dǎo)意見(jiàn),“無(wú)意義”數(shù)據(jù)不做進(jìn)一步人工復(fù)核處理。此類辦法極大提高了語(yǔ)音交互系統(tǒng)運(yùn)營(yíng)工作的效率,從海量數(shù)據(jù)中不斷提取最新的用戶說(shuō)法,從而使系統(tǒng)能更好地服務(wù)產(chǎn)品的具體受眾。
3.2.2 "命中數(shù)據(jù)處理
從數(shù)據(jù)分類上考慮,還存在已命中系統(tǒng)技能數(shù)據(jù)。系統(tǒng)對(duì)此類內(nèi)容,均做了技能反饋,形成了具體的標(biāo)簽,但由于置信度、各技能說(shuō)法重疊、系統(tǒng)識(shí)別錯(cuò)誤等問(wèn)題,造成了部分命中數(shù)據(jù)出現(xiàn)反饋與用戶真實(shí)意圖不符合的情況。其中有可能表現(xiàn)為:用戶語(yǔ)音輸入后,系統(tǒng)識(shí)別文本數(shù)據(jù)呈現(xiàn)的意圖可能是某一問(wèn)題,命中的技能卻是音樂(lè)。因此,對(duì)命中數(shù)據(jù)處理可依據(jù)以下流程:首先利用分詞工具進(jìn)行文本分詞與過(guò)濾停用詞的處理,隨后選取特征運(yùn)用TF-IDF模型進(jìn)行文本的向量化,并利用XGBoost機(jī)器學(xué)習(xí)算法進(jìn)行分類預(yù)測(cè)[5],將系統(tǒng)識(shí)別意圖與真實(shí)意圖做差標(biāo)注,得到命中數(shù)據(jù)可進(jìn)行下一步人工復(fù)核處理的部分。
人工復(fù)核得到命中數(shù)據(jù)中需要關(guān)注優(yōu)化系統(tǒng)的內(nèi)容,將錯(cuò)誤的說(shuō)法規(guī)則、技能順序等內(nèi)容進(jìn)行調(diào)整,確保對(duì)應(yīng)的語(yǔ)音需求能夠有正確的反饋。
4 "結(jié)語(yǔ)
本文研究NLP在車企中的運(yùn)用,分析在輿情監(jiān)控與語(yǔ)音文本數(shù)據(jù)處理中關(guān)鍵的思維脈絡(luò),并提供一定的實(shí)驗(yàn)方案,切實(shí)提高車企在AI領(lǐng)域的實(shí)踐。綜合來(lái)看,NLP作為AI領(lǐng)域的掌上明珠,有著更宏大的未來(lái),針對(duì)已提出的場(chǎng)景應(yīng)用,有著更為豐富的解決辦法。輿情監(jiān)控中的情感分類,需要有更嚴(yán)謹(jǐn)?shù)姆桨敢?guī)定各級(jí)別閾值,使決策內(nèi)容更加明確詳實(shí)。語(yǔ)音文本數(shù)據(jù)處理,在預(yù)處理階段可以引入更多分詞庫(kù)作為參考,把握好特征值,將正確率不斷提升。
參考文獻(xiàn):
[1]趙京勝,宋夢(mèng)雪,高祥. 自然語(yǔ)言處理發(fā)展及應(yīng)用綜述[J]. 信息技術(shù)與信化,2019(7):142-145.
[2]賈澎濤,孫煒. 基于深度學(xué)習(xí)的文本分類綜述[J]. 計(jì)算機(jī)與現(xiàn)代化,2021(7):29-37.
[3]李琳,董璐璐,馬洪超. 基于BERT的漢語(yǔ)作文自動(dòng)評(píng)分研究[J]. 中國(guó)考試,2022(5):73-80.
[4]沈自強(qiáng),李曄,丁青艷,等. 基于BERT模型的科技政策文本分類研究[J]. 數(shù)字圖書(shū)館論壇,2022(1):10-16.
[5]劉威,張森,宋冠諭,等. 基于多種機(jī)器學(xué)習(xí)算法的車載語(yǔ)音文本分類研究[J]. 信息與電腦(理論版),2021,33(23):68-70.
(編輯 "凌 "波)