劉國柱,張津烽,王華東
(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島 266061)
從20世紀(jì)九十年代開始,中國電子商務(wù)飛速發(fā)展,已成為全球電子商務(wù)領(lǐng)先者。電商仿真實訓(xùn)平臺的建設(shè)是企業(yè)需求人才培養(yǎng)目標(biāo)導(dǎo)向的重要實踐,也是目前中國高校電商專業(yè)教學(xué)改革的重要內(nèi)容,在提高教學(xué)可實踐性、前沿性,突破傳統(tǒng)教學(xué)模式瓶頸,加強(qiáng)教學(xué)創(chuàng)新力度方面有重要的意義。仿真平臺將模擬現(xiàn)實行業(yè)平臺的運(yùn)營思想應(yīng)用于實踐教學(xué)中來,為電商相關(guān)專業(yè)教學(xué)提供了真實互動的教學(xué)與實踐環(huán)境,讓學(xué)生在實踐中提高崗位能力。在電商仿真實訓(xùn)平臺中,學(xué)生可扮演六大角色:廠家、商場、外貿(mào)公司、銀行、物流以及消費者,角色之間進(jìn)行自主商務(wù)交互,展現(xiàn)電子商務(wù)交易,從原材料采購開始,制成中間產(chǎn)品及最終產(chǎn)品,最后通過網(wǎng)絡(luò)服務(wù)平臺將產(chǎn)品送到消費者手中。同時,電商仿真實訓(xùn)平臺也是一個學(xué)生能力評測的教學(xué)應(yīng)用平臺,不僅能讓學(xué)生在平臺項目中進(jìn)行實操,獲得職業(yè)技能,而且可以將學(xué)生專業(yè)能力與就業(yè)崗位進(jìn)行對應(yīng),實現(xiàn)對學(xué)生崗位能力的智能評分和評價。其中,商品詳情是評測學(xué)生專業(yè)能力的重要內(nèi)容,用戶的購買意愿是通過描述來深入了解商品的,在很大程度上決定著商品的銷售量,影響店鋪的利潤率。
商品編寫能力的智能評測功能需要通過自然語言處理中的主題詞提取技術(shù)實現(xiàn)。自然語言處理研究內(nèi)容可細(xì)分到語法與句法分析、語義理解、語言認(rèn)知、語言表示和知識圖譜等基礎(chǔ)研究,其應(yīng)用領(lǐng)域有:文本的分類與聚類分析、信息抽取等[1]。國內(nèi)許多學(xué)者致力于中文自然語言處理的研究,早期的如董振東先生的知網(wǎng),哈爾濱工業(yè)大學(xué)信息管理實驗室的同義詞詞林,黃曾陽先生的HNC理論等,都在各自的研究方向上對自然語言處理的發(fā)展做出了不同程度的貢獻(xiàn),極大地推動了國內(nèi)自然語言處理的發(fā)展。日常所能獲取到的信息中約有百分之八十是依賴自然語言商品詳情的文本形式存在的,如何快速獲取文章的主要內(nèi)容取決于是否能夠快速定位文章主題以及能否準(zhǔn)確地獲取文章的關(guān)鍵詞[1]。從近年來主題詞提取的研究進(jìn)展來看,雖然針對短文本的主題詞提取發(fā)展快速,但不足的是短文本應(yīng)用方向的不同導(dǎo)致其文本格式差距較大,算法針對性強(qiáng),適用范圍也就大大降低。因此,短文本主題詞提取這一領(lǐng)域,仍有很大的發(fā)展空間。本文在TF-IDF算法基礎(chǔ)上,綜合詞語位置、詞性、頻率等特征并創(chuàng)新性提出數(shù)據(jù)字典這一特征強(qiáng)化方式對詞語權(quán)值進(jìn)行重定義,該方法提升了短文本提取主題詞的正確率,并用于評測電商實訓(xùn)平臺中學(xué)生撰寫的商品描述。
商品詳情是內(nèi)容包含商品的重要信息,是顧客近一步獲取商品信息的方式。仿真實訓(xùn)平臺通過商品詳情與商品標(biāo)題的契合度為依據(jù)評測判斷學(xué)生編寫的商品詳情是否符合崗位能力要求,但商品詳情一般文字相對較多,教師人工評測需要花費大量的時間,工作效率比較低,且不利于平臺數(shù)字化過程評測的整體應(yīng)用。因此,平臺需要實現(xiàn)對學(xué)生編寫的商品詳情進(jìn)行智能化評測,即通過提取商品詳情中的主題詞來檢驗描述是否緊扣主題,是否和商品標(biāo)題相對應(yīng)等。
目前,暫無適用于此類短文本主題詞提取的算法。主流如LDA[2]、LSI,TextRank[3-5]、TF-IDF[6,7]等算法在長文本的主題詞提取中應(yīng)用較多,但在短文本主題詞提取中效果不理想。綜合考慮上述幾種算法的特點,TF-IDF算法實現(xiàn)原理簡單,操作復(fù)雜度更低,運(yùn)行效率更高,本文在現(xiàn)有的TF-IDF算法基礎(chǔ)上,保留算法簡便、容易實現(xiàn)等優(yōu)點,針對提取特征單一的缺點進(jìn)行改進(jìn)。改進(jìn)后的TF-IDF算法將在商品詳情類短文本主題詞提取中更具優(yōu)勢,提升主題詞提取的正確率,實現(xiàn)商品詳情與商品標(biāo)題契合度的更準(zhǔn)確評測。
TF-IDF算法主要評估字詞對于一個文件集或一個語料庫中其中一份文件的重要程度。字詞對于一個文本的重要性會隨著它在此文中的出現(xiàn)頻率TF的增加而增加,也會隨著它在文檔集合的其他文檔中的出現(xiàn)頻率IDF的增加而減少[7]。TF-IDF算法基本思想是找到現(xiàn)文中出現(xiàn)頻率較高但在其它文檔中出現(xiàn)頻率低的詞語并以它去代表這篇文章。
TF表示商品詳情文本中一個詞的出現(xiàn)頻率。作為衡量一個詞的重要程度的權(quán)值,TF的取值極大程度上決定了一個詞被選取為主題詞的概率[8]。TF的計算公式如下所示
IDF為逆向文本頻率,可以由商品詳情總條數(shù)的數(shù)目除以包含該詞語的商品詳情的數(shù)目,再將得到的商取對數(shù)得到。包含詞條t的文檔越少, IDF越大,則說明詞條具有很好的類別區(qū)分能力[9]。其計算公式如下
其中,D為商品詳情總數(shù); |{j:ti∈dj}|為包含詞語ti的商品詳情數(shù)目,即ni,j≠ 0 的文件數(shù)目。如果該詞語不在D中,就會導(dǎo)致被除數(shù)為 0,因此一般情況下使用|{j:ti∈dj}|+1,即公式改為
TF-IDF的公式為
TF-IDF=TFij×IDFi
由于不同商品的描述不同,即文本的長短不一。需要對公式進(jìn)行歸一化處理,處理后的公式為
式中:N為商品詳情Di中特征詞的個數(shù);|{j:ti∈dj}|+1為包含詞語ti的商品詳情數(shù)目。
傳統(tǒng)的TF-IDF算法在長文本、多文檔的情況下具有較好的提取效果。在足夠長的文檔中,各詞語出現(xiàn)的頻率更高,便于TF的計算。多文檔的情況下,傳統(tǒng)算法獲得的IDF值更具區(qū)分性。其劣勢在于傳統(tǒng)TF-IDF提取特征單一,在短文本中計算的TF值與IDF值不具備區(qū)分性。此外,IDF是一種試圖去除噪聲的加權(quán),詞語出現(xiàn)的文檔數(shù)越多,其代表一篇文章的能力越弱,由此降低詞語的權(quán)值[9]。但對于商品詳情這一特定形式的文檔來說,同一件商品的信息,如:材質(zhì)、名稱、用途等描述性詞語的重復(fù)度就會隨著商品重復(fù)次數(shù)的增高而增高。假定商品詳情總數(shù)為N,若物品i的數(shù)量為m,則商品i的名稱就有可能出現(xiàn)m次,這樣的詞語恰恰是商品信息提取的關(guān)鍵詞,而如商品的推薦性詞語將會因店主的不同宣傳有了更大的差異性,從而獲得更大的IDF值,若使用傳統(tǒng)的TF-IDF來提取,將會錯漏重要的信息詞。商品詳情格式簡單,通常以較短的文本對商品進(jìn)行描述,詞語的重合度較低。對于依靠詞頻來抽取關(guān)鍵詞的TF-的IDF算法來說,無法通過頻率這一單一特征有效辨別詞語的重要程度。本文將在傳統(tǒng)TF-IDF算法的基礎(chǔ)上對IDF值的影響進(jìn)行弱化,著重加強(qiáng)TF值及位置、詞性等特征的影響。
商品詳情是對商品的描述介紹,篇幅較短,描述主要圍繞商品和商品的各種屬性展開,如:材質(zhì)、顏色、成分等屬性名稱。此類詞語為系統(tǒng)的主要提取對象,暫稱為一類提取對象。通過分詞結(jié)果來看,一類詞中名詞的占比近百分之百。其次是產(chǎn)品的屬性值,如:顏色、材料等等,此類詞語暫稱為二類詞,二類詞中多為名詞與形容詞。第三種是表達(dá)產(chǎn)品用途和使用方法的詞語,暫稱為三類詞,三類詞中含有名詞與動詞,可以同詞性詞語在分詞結(jié)果中做占比重對這三種詞性的詞語設(shè)置詞性權(quán)重,對測試的一萬條樣本進(jìn)行分詞后的結(jié)果可得:在過濾掉停用詞后,名詞在剩余總詞數(shù)中的占比達(dá)到近百分之八十,為體現(xiàn)這三類詞的優(yōu)先級并防止詞性影響大于詞頻影響,可將三類詞的詞性權(quán)重設(shè)為0.8、0.5、0.3,權(quán)值影響因子的數(shù)學(xué)表達(dá)式式為
商品詳情的行文脈絡(luò)基本為總分結(jié)構(gòu),即文段開頭即會出現(xiàn)商品名稱等關(guān)鍵信息。從采集的實際電商平臺數(shù)據(jù)中隨機(jī)抽取一千條進(jìn)行觀察,其中高達(dá)百分之九十七的商品詳情格式為兩部分:首先,總體介紹商品或者商品制造商;其次,分句對商品的各個屬性進(jìn)行介紹。針對商品詳情文本的規(guī)律,可以提取文本詞語的位置特征并融入權(quán)值的計算中,參考文獻(xiàn)其位置因素的計算公式如下,其中Posi為詞語在句中的位置,Address_leni為詞語所在句子的長度,Weight_posi為詞語i的位置權(quán)重
傳統(tǒng)TF-IDF不善于短文本的主題詞提取,其主要是因為TF-IDF算法所能提取到的頻率特征單一,而短文本中詞語重復(fù)度低、詞量少,僅僅靠頻率這一單一特征難以發(fā)揮作用。商品詳情重點是對商品的介紹,商品的種類很多,但相同類別的商品其屬性名(如:材質(zhì)、用料等等)一定相同,同類商品的描述越多,分詞過后其屬性值出現(xiàn)的概率越高?;谝陨戏治?可以用足夠多的樣本建立數(shù)據(jù)字典,計算各個分詞的出現(xiàn)頻率,以此強(qiáng)化文本特征的提取,以Num_Wi表示W(wǎng)ordi出現(xiàn)的總次數(shù),Num_Di表示W(wǎng)ordi出現(xiàn)的總文檔數(shù),則每個詞語出現(xiàn)的頻率計算公式如下
在短文本中使用分詞字典,可以有效解決TF-IDF因詞量少、詞頻差距小而無法有效抓取文本特征的弊端。
調(diào)用Jieba對文本進(jìn)行分詞后,文本將被分割為單字、二字或者多字的詞語集合,一些動詞-名詞、名詞-名詞、形容詞-名詞的短語組合將被拆分。期望的算法提取對象是商品的名稱以及商品的各種屬性及屬性值,如果同一修飾性的詞語出現(xiàn)的頻率過高,將會在一定程度上影響對期望對象的提取,間接的影響提取效果。所以,在前述主題詞提取的結(jié)果中,找出與提取結(jié)果位置相近的動詞、名詞、形容詞等修飾性詞語,將修飾性詞語與分詞結(jié)果拼接,重新構(gòu)成短語。
算法改進(jìn)的目的在于提取盡可能多的文本特征,提升主題詞的提取效率與準(zhǔn)確率,使得原算法不局限于單一的頻率特征。要實現(xiàn)的功能是通過主題詞的提取來查驗文本描述是否脫離了商品的實際范圍,描述是否與當(dāng)前的商品相對應(yīng)。所以,在計算詞語權(quán)重時,改進(jìn)后的算法會基于詞語的頻率-逆文本頻率進(jìn)行多特征融合,使得主題詞的抽取更加準(zhǔn)確、完整[10-15]。權(quán)值的計算公式如下(除以3做歸一化處理,防止數(shù)值過大)
其中:為詞語i新權(quán)值,Ti=TF-IDFi,Pi=Weight_posi,Wi=Weight(Wordi),Fi=Freq(Wordi)
改進(jìn)后的TF-IDF主題詞提取流程如圖1所示。
圖1 算法運(yùn)行流程圖
其步驟可總結(jié)如下:
1)采集實驗數(shù)據(jù),對實驗數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)清洗、格式符號的清除、分詞、詞性標(biāo)注、停用詞過濾;
2)建立數(shù)據(jù)字典,計算各個詞語出現(xiàn)的文本數(shù)n及各個詞語在此次建立數(shù)據(jù)字典所用的文本中出現(xiàn)的總次數(shù)N,以N/n作為各個詞語在數(shù)據(jù)字典中的頻率值,將所得數(shù)據(jù)依次存入Excel中;
3)搜集詞語在文中的具體位置信息,通過jieba分詞獲取詞語的詞性,獲取詞語的頻率-逆文本頻率值,導(dǎo)入數(shù)據(jù)字典Excel,獲得詞語在數(shù)據(jù)字典中的值;
4)結(jié)合所獲得的特征信息帶入權(quán)值計算公式,計算詞語權(quán)值,并以權(quán)值降序排列;
5)對標(biāo)題進(jìn)行分詞處理,過濾停用詞,將處理后的剩余詞語個數(shù)作為要提取的主題詞個數(shù),提取主題詞。
本次實驗所用亞馬遜平臺數(shù)據(jù)本身并無標(biāo)注,但從商品詳情類文本的特性而言,其商品名稱及標(biāo)題可看作其主題詞的集合。可以就標(biāo)題分詞結(jié)果進(jìn)行過濾,過濾后的詞語集合作為參照集。實驗選用準(zhǔn)確率 P、召回率 R、F1-Measure(F1值)作為評價指標(biāo);準(zhǔn)確率 P 是標(biāo)題分詞處理后的詞語集合與計算機(jī)提取關(guān)鍵詞的交集和計算機(jī)提取關(guān)鍵詞的比率,是用于評價查找準(zhǔn)確程度的指標(biāo);召回率是用設(shè)定的關(guān)鍵詞與算法提取的關(guān)鍵詞的比率,是用于評價查找完全程度的指標(biāo);F1 因子是兩者的綜合指標(biāo),F1值越高,表示算法越有效。
不同數(shù)據(jù)量下改進(jìn)前后的TF-IDF提取結(jié)果如表1、表2所示,同數(shù)據(jù)量(2000)下各算法的提取結(jié)果如表3、表4所示,各項數(shù)據(jù)準(zhǔn)確率P、召回率R、F1值的對比結(jié)果如圖2所示。P、R、F1對比散點圖如圖3所示:
表1 改進(jìn)的TF-IDF算法在不同數(shù)據(jù)量下的實驗結(jié)果對比
表2 改進(jìn)的TF-IDF算法在不同數(shù)據(jù)量下的提取效果對比
表3 各算法同數(shù)據(jù)量下的提取效果對比
表4 各算法同數(shù)據(jù)量下的實驗結(jié)果對比
圖2 各算法的準(zhǔn)確率、召回率、F1值柱形圖對比
圖3 改進(jìn)TF-IDF在不同數(shù)據(jù)量下的實驗結(jié)果散點圖
1)不同數(shù)據(jù)量下改進(jìn)后的TF-IDF提取效果
數(shù)據(jù)量的大小不會對改進(jìn)后的TF-IDF算法準(zhǔn)確率與健壯性造成直接影響。改進(jìn)后的TF-IDF算法融合位置、詞頻、詞性等多方面的特征結(jié)合數(shù)據(jù)字典重新設(shè)立權(quán)值,詞語的權(quán)值僅僅受到其自身特征影響,并不會因為數(shù)據(jù)量的上升而產(chǎn)生明顯變化。但對標(biāo)題進(jìn)行分詞后無法將噪聲完全剔除,商品標(biāo)題的描述方式不同會造成標(biāo)題內(nèi)贅詞數(shù)量的變化,從而導(dǎo)致準(zhǔn)確率、召回率的輕微浮動。因此,數(shù)據(jù)量的變化所造成結(jié)果的輕微浮動屬于正?,F(xiàn)象。
2)相同數(shù)據(jù)量下不同算法提取結(jié)果對比
通過實驗結(jié)果可以得出結(jié)論:改進(jìn)后的TF-IDF算法在正確率及召回率等方面已有明顯提升。針對商品詳情類文本的主題詞提取,改進(jìn)后的TF-IDF算法在準(zhǔn)確率、召回率、F1值方面相較于原算法均有提升,原因為:改進(jìn)后的算法針對此類短文本進(jìn)行多方面的特征提取,彌補(bǔ)了原算法及其它三類算法在此類短文本中的缺陷,如LDA主題模型本質(zhì)為詞袋模型,不考慮文內(nèi)詞語的相對順序。但改進(jìn)后的TF-IDF算法結(jié)合了詞語位置這一特征,可補(bǔ)足LDA在詞語順序這一方面的不足。所以,改進(jìn)后的TF-IDF算法能更充分的提取文本詞語在文中的特征。此外,由本文首次提出的數(shù)據(jù)字典這一特征強(qiáng)化方式可有效強(qiáng)化詞語特征,提升詞語的提取準(zhǔn)確率。
3)算法尚存的不足
本算法提升了實驗效果,也暴露出一些問題,如:改進(jìn)后的位置影響因素同時作用在句子兩端的名詞,會同時提取商品的屬性名及屬性值,雖然它們同屬商品主題詞,但標(biāo)題分詞中不含商品屬性名,降低了召回率。另外,算法無法識別如漁具、魚竿、釣竿、釣具等同義詞,影響了提取結(jié)果比對,降低了提取的準(zhǔn)確率。
改進(jìn)后的TF-IDF算法經(jīng)過實驗驗證取得了顯著的效果,在電商仿真實訓(xùn)平臺智能評測應(yīng)用中,此算法可有效提取商品詳情中的主題詞,提高評測功能的準(zhǔn)確率。通過提取的主題詞與商品標(biāo)題的分詞結(jié)果做比對,可以驗證學(xué)生編寫的商品描述與當(dāng)前商品標(biāo)題的契合度,并可以通過主題詞與標(biāo)題分詞結(jié)果的交集查驗描述是否準(zhǔn)確充分,利用算法對此進(jìn)行查驗可以保證評測的及時性和數(shù)據(jù)的有效性,減輕教師的工作量。同時,本文首次提出的數(shù)據(jù)字典特征強(qiáng)化方法,在一定程度上彌補(bǔ)了傳統(tǒng)TF-IDF算法提取文本特征單一、權(quán)重分配不準(zhǔn)確的問題。本算法通過對多文檔進(jìn)行分詞,收集屬性等詞語出現(xiàn)的頻率信息,將短文本詞語少、頻率低的問題放入多文本、大詞量中進(jìn)行解決。經(jīng)過實驗證明,對商品詳情這類主題范圍明確的特殊文本,數(shù)據(jù)字典可有效提高算法提取的正確率,最終很好的實現(xiàn)了對學(xué)生專業(yè)能力智能評測的平臺功能。