季曹婷,馬偉鋒,樓 姣,馬來賓
(浙江科技學(xué)院 信息與電子工程學(xué)院,浙江 杭州310023)
在智能制造的背景下,個(gè)性化生產(chǎn)是未來制造業(yè)發(fā)展的必然趨勢(shì), 用戶除了對(duì)商品基本功能的要求之外,個(gè)性化定制的需求正不斷地增加[1]。 汽車制造業(yè)是智能制造的典型應(yīng)用行業(yè),根據(jù)調(diào)查,我國(guó)超過七成的消費(fèi)者認(rèn)為汽車造型是決定購(gòu)買汽車時(shí)的首要考慮因素[2],因此汽車造型能否符合用戶需求是個(gè)性化汽車造型設(shè)計(jì)成敗的關(guān)鍵[3]。 目前,汽車造型的用戶需求描述主要以文本數(shù)據(jù)形式存在[4]。 自然語(yǔ)言處理技術(shù)是當(dāng)前文本分析的主流方法,通常采用無(wú)監(jiān)督方法進(jìn)行自動(dòng)關(guān)鍵詞提取。 但是該算法完全基于詞頻,忽略了詞語(yǔ)其他特征對(duì)關(guān)鍵詞提取影響的問題[5-7]。 許多研究人員對(duì)此展開研究,趙曉平[8]等人提出文本結(jié)構(gòu)特征與經(jīng)典的TFIDF方法進(jìn)行融合,應(yīng)用于科技項(xiàng)目文本的相似度度量計(jì)算中;牛永潔[9]等人不僅考慮到詞頻、詞跨度和位置權(quán)重特征,還考慮到詞性、詞長(zhǎng)與語(yǔ)義關(guān)聯(lián)度因素,相比經(jīng)典的TFIDF 算法有所改進(jìn);然而在實(shí)際應(yīng)用中,不僅要考慮到詞匯本身的特征信息,而且還需要考慮應(yīng)用場(chǎng)景的問題。 所以余本功[10]等人在解決問答社區(qū)關(guān)鍵詞提取的問題時(shí)融合了詞匯特征與社會(huì)化問答社區(qū)文本的用戶關(guān)注屬性來綜合度量詞語(yǔ)權(quán)重,提升了社區(qū)問答關(guān)鍵詞提取的效果。
圖1 融合多特征TFIDF 文本分析的汽車造型需求提取方法流程圖
雖然上述研究均取得了一些成果,但是無(wú)法有效地對(duì)汽車造型的用戶需求文本進(jìn)行提取。本文利用融合多特征TFIDF 算法對(duì)用戶需求文本數(shù)據(jù)進(jìn)行分析, 獲取有效的用戶需求特征,為汽車造型設(shè)計(jì)的需求確定提供支撐。
本文提出一種融合多特征TFIDF 文本分析的汽車造型需求提取方法,具體方法流程如圖1 所示。
由圖1 可知,首先基于汽車之家口碑語(yǔ)料庫(kù)計(jì)算得到未登錄詞匯,結(jié)合分詞工具從用戶需求文本中獲取修正后的分詞詞匯;然后計(jì)算詞匯特征以及情感特征,并利用改進(jìn)的TFIDF 算法量化詞匯權(quán)重,獲取用戶需求特征候選集;最后根據(jù)實(shí)驗(yàn)數(shù)據(jù)確定閾值,得到有效的用戶需求特征。 其中,未登錄詞匯獲取方法和融合多特征TFIDF 算法是有效提取用戶需求的關(guān)鍵。
用戶需求特征提取首要任務(wù)是分詞,然而面對(duì)口語(yǔ)化的汽車造型風(fēng)格文本描述, 存在著大量未登錄詞匯,如“腰線很犀利”、“整體車身流線”、“小蠻腰”等出現(xiàn)頻率很高但傳統(tǒng)分詞工具難以區(qū)分的詞匯。本文基于互信息[11]與邊界自由度[12]獲取未登錄詞匯,具體方法流程如圖2 所示。
圖2 未登錄詞匯獲取方法流程圖
由圖2 可知,首先對(duì)語(yǔ)料庫(kù)進(jìn)行分詞,然后統(tǒng)計(jì)分詞詞匯的頻率信息, 并根據(jù)定義計(jì)算邊界自由度和互信息, 最后根據(jù)本文自行確定的閾值確定未登錄詞匯。
1.2.1 詞匯特征因素
由于TFIDF 算法僅考慮了詞頻信息,沒有全面地考慮詞匯的本身特性,因此本文從詞匯的位置信息、詞匯詞性、詞匯跨度3 個(gè)方面進(jìn)行考慮,具體內(nèi)容如表1 所示。
表1 詞匯特征表
由表1 可知,詞匯位置信息考慮到首句、末句兩個(gè)因素,因?yàn)槲谋镜氖拙渫钅荏w現(xiàn)全文的主題,末句往往是全文的總結(jié)性文字描述;詞匯詞性考慮到名詞、形容詞和動(dòng)詞3 個(gè)因素,因?yàn)樵陉P(guān)鍵詞分布中一般以名詞或名詞性短語(yǔ)、形容詞、動(dòng)詞為主。詞跨度反映了描述詞匯的描述范圍,跨段數(shù)越多反映該詞越重要,全局性越強(qiáng)。 |li|為文檔di中包含詞匯的句子總數(shù)量,|L|為文檔di的分句總數(shù)目。
1.2.2 詞匯情感特征因素
根據(jù)汽車造型設(shè)計(jì)任務(wù)主要是對(duì)正向情感文本描述進(jìn)行用戶需求分析的實(shí)際要求,提出一種基于語(yǔ)義規(guī)則的情感特征計(jì)算方法,核心思想是基于汽車造型情感詞典,利用詞語(yǔ)搭配規(guī)則與句型分析規(guī)則計(jì)算詞匯的情感強(qiáng)度,其中情感詞典是基于知網(wǎng)詞典與BosonNLP 詞典,并結(jié)合本文的實(shí)際需求,構(gòu)建了情感詞典、否定詞典與程度副詞詞典,詳細(xì)計(jì)算方法與定義如表2 所示。
1.2.3 算法步驟
TFIDF 算法是基于統(tǒng)計(jì)的自動(dòng)關(guān)鍵字提取最具代表性的方法之一,其核心思想是提取某一文檔內(nèi)容的關(guān)鍵字候選集以及對(duì)應(yīng)的權(quán)重[13]。 如果某關(guān)鍵詞出現(xiàn)在某一文檔的頻率越高, 同時(shí)出現(xiàn)在其他文檔的頻率越少,表明該詞具備本文檔與其他文檔區(qū)別的能力。 TF 為某個(gè)詞出現(xiàn)在一篇文檔的次數(shù),IDF 是該詞區(qū)別于其他文檔的能力。TF 與IDF 具體計(jì)算方法如式(1)所示,融合多特征的TFIDF 方法具體定義如式(2)所示。
表2 基于語(yǔ)義規(guī)則的計(jì)算方法
表示所有文檔中關(guān)鍵字出現(xiàn)的次數(shù)之和;|D|為語(yǔ)料庫(kù)中的文檔總數(shù),|Di|為包含關(guān)鍵詞ti的文檔總數(shù)目。
權(quán)重Wij反映了關(guān)鍵字ti在文檔dj占比,數(shù)值越大,反映了關(guān)鍵詞所占比重越大。 其中,Wspan為詞匯跨權(quán)重,Wloc為詞匯位置權(quán)重,Wseepch為詞性權(quán)重,Mij反映了關(guān)鍵詞ti在文檔dj中的情感權(quán)重。 具體算法步驟描述如下:
(1)對(duì)用戶需求文本描述進(jìn)行文本預(yù)處理,將文本dj劃分為n 個(gè)句子。 并載入人工構(gòu)建的詞典、未登錄詞匯和停用詞去除重復(fù)詞匯和停用詞,對(duì)分句s 進(jìn)行分詞,形成相應(yīng)的詞匯集C。
(2)記錄每個(gè)分詞Ci的詞匯信息與在句中的位置Iindex,并以字典形式存儲(chǔ)。
(3)若Ci為情感詞匯,在情感詞表中尋找情感詞,以每個(gè)情感詞為基準(zhǔn),向前依次尋找程度副詞、否定詞,并作相應(yīng)分值計(jì)算。
(4)判斷該句是否為感嘆句,是否為反問句,并作相應(yīng)分值計(jì)算。 獲得該詞匯所在分句的情感強(qiáng)度,即詞匯Ci的情感特征權(quán)重Mij。
(5)計(jì)算詞匯Ci的位置特征權(quán)重Wloc、詞性特征權(quán)重Wseepch與詞跨度權(quán)重Wspan,并根據(jù)式(2)量化詞匯權(quán)重Wij,利用改進(jìn)的TFIDF 算法分別得出用戶需求特征的關(guān)鍵詞候選集k 及其權(quán)重w。
為了驗(yàn)證本文方法的有效性,選取來自汽車之家網(wǎng)站的用戶口碑語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn)對(duì)比與分析,并選取2 952篇口碑汽車造型評(píng)價(jià)數(shù)據(jù)作為驗(yàn)證集,人工標(biāo)注合計(jì)9 351 個(gè)關(guān)鍵詞標(biāo)簽。 關(guān)鍵詞標(biāo)簽數(shù)據(jù)主要描述了用戶屬性(如用戶性別、年齡階段、用途和工作性質(zhì))和汽車風(fēng)格屬性(如時(shí)尚、霸氣、硬朗等),實(shí)驗(yàn)命名這個(gè)數(shù)據(jù)集為PUBLIC-PRAISE。
實(shí)驗(yàn)采用準(zhǔn)確率[14](precision)、召回率[15](recall)和F1值[16](F1-Measure)來評(píng)價(jià)關(guān)鍵詞提取的效果。
2.2.1 融合不同特征的TFIDF 效果對(duì)比
為了驗(yàn)證獲取未登錄詞匯方法與融合多特征TFIDF方法的有效性, 在PUBLIC-PRAISE 數(shù)據(jù)集合上進(jìn)行不同組合的實(shí)驗(yàn)效果對(duì)比,具體實(shí)驗(yàn)結(jié)果數(shù)據(jù)如表3 所示。
表3 不同特征組合的TFIDF 效果對(duì)比
對(duì)表3 分析可知,相比于經(jīng)典的TFIDF 算法而言,本文方法在關(guān)鍵詞提取效果上有明顯提升,原因在于:(1)引入未登錄詞匯方法解決了用戶需求文本描述中出現(xiàn)傳統(tǒng)分詞工具不能識(shí)別的詞匯,一定程度上提升了傳統(tǒng)分詞工具的分詞能力;(2)引入詞匯特征解決了經(jīng)典的TFIDF 方法僅考慮詞頻信息的問題,從詞性、詞位置與詞跨度角度考慮能夠提升關(guān)鍵詞提取能力;(3)由于包含負(fù)面情緒的文本數(shù)量較少,因此引入情感特征準(zhǔn)確率稍有提升,也說明引入情感特征符合本實(shí)驗(yàn)的實(shí)際需求,能夠去除文本中負(fù)面情緒的相關(guān)詞匯。 總體上,本文的方法相比于經(jīng)典的TFIDF 方法在關(guān)鍵詞提取效果上有所提升,不僅解決了僅考慮詞頻信息的問題,而且考慮到了正向情感的用戶需求分析的實(shí)際問題。
為了提升本文方法的關(guān)鍵詞提取的性能,分別設(shè)置不同關(guān)鍵詞提取個(gè)數(shù)進(jìn)行探索,實(shí)驗(yàn)結(jié)果如圖3 所示。
圖3 不同關(guān)鍵詞提取個(gè)數(shù)效果對(duì)比
對(duì)圖3 分析可知,當(dāng)關(guān)鍵詞個(gè)數(shù)K ≤25 時(shí),隨著關(guān)鍵詞個(gè)數(shù)的增加,提取效果呈現(xiàn)不斷上升的趨勢(shì);當(dāng)K>25 時(shí),提取效果呈現(xiàn)趨于平穩(wěn)的趨勢(shì)。 所以,選取K=25 作為關(guān)鍵詞提取個(gè)數(shù)。
2.2.2 與兩種改進(jìn)的TFIDF 方法對(duì)比
根據(jù)文獻(xiàn)[10]提出的基于多屬性線性加權(quán)的TFIDF與文獻(xiàn)[9]提出的融合多因素的TFIDF 兩種關(guān)鍵詞提取方法,基于PUBLIC-PRAISE 數(shù)據(jù)集合,引入未登錄詞匯,并統(tǒng)一關(guān)鍵詞提取個(gè)數(shù)K=25,將兩種改進(jìn)的TFIDF 方法與本文改進(jìn)的關(guān)鍵詞提取方法進(jìn)行實(shí)驗(yàn)對(duì)比,具體實(shí)驗(yàn)結(jié)果如表4 所示。
表4 本文方法與改進(jìn)的TFIDF 方法對(duì)比
對(duì)表4 分析可知,本文方法相比于兩種改進(jìn)的算法,在準(zhǔn)確率、召回率與綜合評(píng)價(jià)指標(biāo)的F1 值上提取效果有了明顯的提升。 原因在于:(1)本文基于文獻(xiàn)[10]的思想,引入詞頻、詞性特征以及用戶評(píng)論數(shù)、贊同數(shù)和瀏覽數(shù)用戶關(guān)注屬性特征。 根據(jù)實(shí)驗(yàn)結(jié)果分析可知,引入用戶關(guān)注屬性對(duì)關(guān)鍵詞提取意義不大。 (2)文獻(xiàn)[9]僅考慮了詞匯本身的特征,如詞頻、詞性等特征,而本文需要提取出正向情感的用戶需求特征,因此該方法不適用于本文研究的實(shí)際情況。
為了對(duì)比3 種方法應(yīng)用于不同文本數(shù)量的效果,分別隨機(jī)選取500、1 000、1 500、2 000、2 500 條文本集,引入未登錄詞匯,并統(tǒng)一關(guān)鍵詞提取個(gè)數(shù)K=25,進(jìn)行關(guān)鍵詞提取,得到的實(shí)驗(yàn)結(jié)果如圖4 所示。
圖4 不同文本數(shù)量下3 種方法對(duì)比
對(duì)圖4 分析可知,文獻(xiàn)[10]隨著本文數(shù)量的增加提取關(guān)鍵詞的能力變?nèi)?,文獻(xiàn)[9]的方法隨著本文數(shù)量的增加提取關(guān)鍵詞的能力趨于平穩(wěn),而本文方法的綜合指標(biāo)F1 值不僅明顯大于其他兩種方法, 而且呈現(xiàn)增長(zhǎng)的趨勢(shì),反映了本文方法具備良好的性能。
總體而言,本文方法相比于現(xiàn)有基于TFIDF 改進(jìn)的方法效果有所提升,并取得了一定的實(shí)驗(yàn)效果。
2.2.3 用戶需求特征提取
以3 位用戶的汽車造型風(fēng)格評(píng)價(jià)文本描述為例,利用本文方法進(jìn)行用戶需求特征提取,獲取文本描述的關(guān)鍵詞以及對(duì)應(yīng)的權(quán)重,具體文本描述和關(guān)鍵詞提取結(jié)果如表5 所示。
由表5 可知,用戶1 僅包含正向情感的用戶需求文本描述,而用戶2 和用戶3 不僅包含正向情感的用戶需求文本描述,而且存在負(fù)向情感的文本描述。 所以設(shè)置閾值P=0,篩選出大于閾值的用戶需求特征,根據(jù)用戶需求特征提取結(jié)果可知,用戶3 中去除了無(wú)效的負(fù)向情感詞匯,得到了有效的用戶需求特征。
表5 用戶需求文本特征提取結(jié)果
本文基于統(tǒng)計(jì)思想的關(guān)鍵詞提取方法,綜合考慮詞匯特征與情感特征,提出適用于汽車造型設(shè)計(jì)領(lǐng)域的用戶需求文本特征提取方法,相比于經(jīng)典的無(wú)監(jiān)督提取方法和現(xiàn)階段研究的無(wú)監(jiān)督關(guān)鍵詞提取方法性能有所提升。結(jié)果表明,該方法能夠有效獲取用戶需求特征,且輔助汽車造型設(shè)計(jì)師完成用戶需求分析的任務(wù)。 當(dāng)然,該方法還存在不足之處:仍需要人工構(gòu)造詞匯集和人工篩選未登錄詞匯的手段,確保關(guān)鍵詞提取的有效性,且該方法采用的詞匯特征和情感特征不能完全反映文本的的語(yǔ)義信息,所以該方法的關(guān)鍵詞提取性能仍需進(jìn)一步提升。