左笑晨 竇志成 黃 真 盧淑祺 文繼榮
1(中國(guó)人民大學(xué)信息學(xué)院 北京 100872)2(大數(shù)據(jù)管理與分析方法研究北京市重點(diǎn)實(shí)驗(yàn)室(中國(guó)人民大學(xué)) 北京 100872)
隨著移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展,在線購(gòu)物和社交媒體成為中國(guó)網(wǎng)民頻繁使用的2類互聯(lián)網(wǎng)應(yīng)用.在在線購(gòu)物方面,2017年雙十一期間京東全球好物節(jié)歷時(shí)10天累計(jì)交易額達(dá)1 271億元,天貓更是以1 682億的交易額創(chuàng)下歷史新高.人們?cè)谌粘I钪袑?duì)于電商平臺(tái)的依賴程度也越來越高,在線購(gòu)物成為人們生活中的常態(tài).在社交媒體方面,包括微博微信在內(nèi)的社交平臺(tái)已經(jīng)成為了人們溝通交流和獲取信息的主要手段.很多大家廣泛關(guān)注的話題一方面在微博上產(chǎn)生大量的瀏覽和轉(zhuǎn)發(fā)行為,同時(shí)可能進(jìn)一步刺激和推動(dòng)用戶的其他行為,包括在線購(gòu)物.例如,一位明星發(fā)微博曬照抒發(fā)一天的心情,可能會(huì)引起網(wǎng)友購(gòu)買照片中同款衣物或者飾品的熱情.微博上有關(guān)冬日保暖養(yǎng)生的博文,則可能會(huì)引導(dǎo)用戶購(gòu)買保暖用品、養(yǎng)生茶甚至茶具.微博上“吃雞”游戲話題的廣泛傳播,會(huì)激發(fā)網(wǎng)友購(gòu)買相應(yīng)游戲鼠標(biāo)、鍵盤、顯示器等相應(yīng)外設(shè)的購(gòu)買意愿.針對(duì)這一問題,本文重點(diǎn)研究如何挖掘微博熱門話題和購(gòu)物品類的關(guān)聯(lián)關(guān)系.
及時(shí)有效地挖掘微博熱門話題所對(duì)應(yīng)的電商購(gòu)物品類是非常有價(jià)值的.首先,提前知曉熱門話題可能會(huì)帶來某些商品的熱銷,可幫助商城運(yùn)維人員提前做好相應(yīng)商品的庫(kù)存調(diào)配,避免出現(xiàn)缺貨或者斷貨的狀態(tài),實(shí)現(xiàn)用戶購(gòu)物意圖的高轉(zhuǎn)化率.其次,可幫助商家或者商城運(yùn)維人員及時(shí)進(jìn)行商品標(biāo)題運(yùn)營(yíng),解決用戶查詢?cè)~與商品名稱失配的問題.在現(xiàn)有的電商平臺(tái)中,大部分商品的標(biāo)題與描述都僅僅與商品本身的特性相關(guān),著重突出商品樣式與功能,比如商品的類別、規(guī)格、適用人群等.這些描述都是商品本身固有的,并不會(huì)隨著時(shí)間變化.而社交媒體上的熱門話題是會(huì)隨著時(shí)間的遷移而變化的.用戶受社交媒體上的熱門話題驅(qū)動(dòng)在購(gòu)物引擎中檢索相關(guān)商品信息,所使用的查詢經(jīng)常是和話題想關(guān)聯(lián)的.例如,在熱門話題“吃雞”的驅(qū)動(dòng)下,用戶可能會(huì)在購(gòu)物引擎中搜索“吃雞耳機(jī)”.某些滿足用戶購(gòu)買需求的游戲耳機(jī)的商品名稱中因?yàn)椴话俺噪u”字樣,而無法出現(xiàn)在搜索結(jié)果中.及時(shí)挖掘出商品和熱門話題的關(guān)聯(lián)關(guān)系,可幫助賣家及時(shí)在商品標(biāo)題中增加熱門話題相關(guān)關(guān)鍵詞,一方面提升搜索轉(zhuǎn)化率,同時(shí)提升用戶滿意度.最后,商城對(duì)應(yīng)品類的運(yùn)維人員可根據(jù)挖掘出的熱門話題進(jìn)行促銷活動(dòng)或者設(shè)計(jì)專門的購(gòu)買入口.例如,在電商電腦外設(shè)頻道或者首頁上發(fā)布“吃雞”外設(shè)專屬促銷頁面,可進(jìn)一步吸引用戶(包括非微博用戶)購(gòu)買商品.
在如今的一些電商平臺(tái)中,一些商品描述中已包含與熱點(diǎn)有關(guān)的詞匯,在搜索一些熱門話題時(shí),有可能得到一些滿意的結(jié)果.但在大部分情況下,這部分商品是在熱門話題產(chǎn)生之后一段時(shí)間出現(xiàn)的,或者是這些店家根據(jù)自己對(duì)部分時(shí)事熱點(diǎn)的了解,在商品描述上面進(jìn)行的修改.在電商平臺(tái)中,商戶間普遍存在競(jìng)爭(zhēng),最先捕捉到用戶需求的商戶往往會(huì)占據(jù)先機(jī).當(dāng)一個(gè)社會(huì)熱門話題產(chǎn)生之后,相應(yīng)的消費(fèi)需求也隨之產(chǎn)生.如果店家通過自己對(duì)于熱點(diǎn)的發(fā)現(xiàn)來更新商品的描述信息,很可能會(huì)產(chǎn)生消息的滯后,原因就在于店家無法時(shí)刻關(guān)注熱搜話題,而要做到盡快地更新信息,通過人工的方式會(huì)消耗大量成本.對(duì)于電商平臺(tái)也同樣需要運(yùn)維部門及時(shí)快速地對(duì)熱門話題進(jìn)行響應(yīng).定期對(duì)微博熱門話題進(jìn)行掃描,挖掘出話題對(duì)應(yīng)的商品品類,同時(shí)反過來為商品推送相關(guān)熱門話題,對(duì)電商平臺(tái)和商戶都是具有重要價(jià)值的.
針對(duì)這一實(shí)際需求,本文提出了一種微博熱門話題所關(guān)聯(lián)的潛在購(gòu)物品類的挖掘方法.首先根據(jù)已知的商品實(shí)體信息,構(gòu)建出商品品類知識(shí)圖譜.然后根據(jù)采集到的微博熱門話題,獲取相關(guān)的微博文本,對(duì)微博文本進(jìn)行分詞與命名實(shí)體識(shí)別,提取出與商品存在潛在關(guān)聯(lián)的實(shí)體,將這些實(shí)體在之前構(gòu)建好的知識(shí)圖譜上進(jìn)行檢索,通過設(shè)計(jì)規(guī)則對(duì)檢索結(jié)果進(jìn)行評(píng)估,從而得到該話題與商品品類的關(guān)聯(lián)性.進(jìn)一步,為了考慮微博文本的語義信息,本文引入用于商品標(biāo)題與微博文本的匹配模型——基于核函數(shù)的神經(jīng)網(wǎng)絡(luò)排序模型(kernel based neural ranking model),將匹配模型的結(jié)果與之前知識(shí)圖譜的檢索結(jié)果結(jié)合,得到最終的匹配模型K-KCM(KNRM-knowledge graph Weibo content matching model).實(shí)驗(yàn)顯示通過知識(shí)圖譜檢索的方式可以發(fā)現(xiàn)許多與熱點(diǎn)關(guān)聯(lián)的商品品類,但召回率較低,仍有許多應(yīng)有的相關(guān)商品未被發(fā)掘.在加入了商品標(biāo)題與微博文本的匹配結(jié)果之后,召回率得到了顯著的提升,大部分顯著相關(guān)的商品都能夠被發(fā)現(xiàn).
目前有一系列工作致力于研究社交媒體和在線購(gòu)物之間的關(guān)系,其中具有代表性的研究是基于社交媒體的商品推薦.在電子商務(wù)迅猛發(fā)展的背景之下,幫助用戶在海量信息中找到合適的商品變得愈加重要.社交媒體上擁有的海量數(shù)據(jù)對(duì)于商品個(gè)性化推薦的作用不容忽視.其作用體現(xiàn)在很多方面:首先體現(xiàn)在冷啟動(dòng)方面.對(duì)于已使用電商平臺(tái)的顧客,在推薦時(shí)可以參考該用戶的訪問記錄與反饋記錄[1],然而對(duì)于初次使用電商平臺(tái)的用戶不具備消費(fèi)歷史,有研究通過從與該用戶關(guān)聯(lián)的社交網(wǎng)絡(luò)中提取知識(shí)用于跨站點(diǎn)冷啟動(dòng)[2].具體地,可以采用社交媒體平臺(tái)中提取的人口統(tǒng)計(jì)信息[3]進(jìn)行產(chǎn)品推薦,以及使用產(chǎn)品圖像與用戶評(píng)論作為推薦系統(tǒng)的依據(jù)[4],或者使用產(chǎn)品采用者的在線評(píng)論信息做產(chǎn)品推薦[5],還有研究采用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)每個(gè)用戶和商品的特征表示進(jìn)而完成推薦[6].其他方面,有的研究通過對(duì)于早期在線評(píng)論的預(yù)測(cè)來對(duì)顧客的購(gòu)買行為進(jìn)行指導(dǎo)[7].還有研究根據(jù)消費(fèi)者購(gòu)物時(shí)更傾向朋友意見的現(xiàn)象,從多維性和動(dòng)態(tài)性2點(diǎn)出發(fā),提出了基于社交網(wǎng)絡(luò)信任模型的商品推薦系統(tǒng)[8].進(jìn)一步地,還有研究從網(wǎng)絡(luò)信任角度探討了消費(fèi)者的認(rèn)知能力、關(guān)系強(qiáng)度和交互作用對(duì)社交媒體網(wǎng)絡(luò)中消費(fèi)者網(wǎng)絡(luò)購(gòu)物決策的影響,并通過微博數(shù)據(jù)進(jìn)行回歸分析[9].另外,還可以通過結(jié)合用戶吸引力相似度和用戶交互相似度來獲得多屬性綜合相似度,結(jié)合多屬性相似度采用加強(qiáng)協(xié)同過濾的算法完成推薦[10].
然而,文獻(xiàn)[1-10]主要針對(duì)用戶的個(gè)性化推薦問題,并沒有考慮到社交媒體中引起廣泛關(guān)注的熱點(diǎn)話題潛在促進(jìn)商品熱銷的作用.事實(shí)上,除了個(gè)性化推薦以外,微博數(shù)據(jù)能夠發(fā)現(xiàn)新的熱門趨勢(shì)帶來的商品銷售機(jī)會(huì).有關(guān)研究[11]通過學(xué)習(xí)微博中的商業(yè)意圖來識(shí)別與熱門趨勢(shì)相關(guān)的產(chǎn)品.本文同樣基于微博熱點(diǎn)話題與內(nèi)容,挖掘其與商品品類存在的潛在關(guān)聯(lián),從而對(duì)電商平臺(tái)的運(yùn)營(yíng)起到輔助作用.
對(duì)微博文本的分析問題中,比較重要的是實(shí)體與事件的抽取.對(duì)微博內(nèi)容進(jìn)行實(shí)體抽取的研究很多:姜仁會(huì)等人[12]提出了一種基于統(tǒng)計(jì)與規(guī)則相結(jié)合的命名實(shí)體識(shí)別的方法.李剛等人[13]提出了一種基于條件隨機(jī)場(chǎng)模型改進(jìn)的方法.李治國(guó)等人[14]針對(duì)大量存在于網(wǎng)絡(luò)信息中不規(guī)則書寫的命名實(shí)體和商務(wù)領(lǐng)域中系列類型的命名實(shí)體,利用它們的特點(diǎn)提出了在篇章中使用詞與詞之間的互信息來識(shí)別命名實(shí)體類的辦法.劉玉嬌等人[15]提出了一種基于深度學(xué)習(xí)的微博命名實(shí)體識(shí)別方法.陳簫簫等人[16]針對(duì)微博中的開放域事件抽取問題進(jìn)行了深入研究.主要通過序列標(biāo)記方法提取微博語句中的命名實(shí)體和事件短語表征事件,利用非監(jiān)督分類方法對(duì)事件進(jìn)行分類.其中運(yùn)用條件隨機(jī)場(chǎng)模型完成事件抽取中的序列標(biāo)記任務(wù),非監(jiān)督分類方法使用的是LDA主題模型.基于微博文本進(jìn)行實(shí)體抽取是本文模型中的一個(gè)步驟,但不是本文的研究重點(diǎn).
本節(jié)主要介紹商品品類與微博熱點(diǎn)話題的匹配模型K-KCM.在此之前,商品與熱點(diǎn)話題的關(guān)聯(lián)關(guān)系并沒有引起足夠的重視,然而這種關(guān)聯(lián)關(guān)系實(shí)際上是存在且十分重要的,熱點(diǎn)話題一定程度上影響著社會(huì)潮流,因此也對(duì)人們的消費(fèi)行為產(chǎn)生著不可忽略的影響.然而將這種關(guān)聯(lián)關(guān)系挖掘出來并不容易,因?yàn)樯唐菲奉惻c微博話題屬于不同領(lǐng)域,有著不同的表達(dá)結(jié)構(gòu).為了將這2種不同結(jié)構(gòu)的事物相關(guān)聯(lián),本文提出一種商品品類與微博熱點(diǎn)話題的匹配算法,將商品抽象為3級(jí)品類結(jié)構(gòu),并使用商品品類知識(shí)圖譜與微博熱門話題匹配以及商品標(biāo)題與微博內(nèi)容匹配2種方法綜合得出商品與微博匹配得分,整體流程如圖1所示.
在大部分電商平臺(tái)中,由于商品種類繁多,以及許多不同品類的商品之間差異并不明顯,導(dǎo)致商品品類劃分粒度極其細(xì)微,給商品管理造成了極大不便.因此,大部分的購(gòu)物引擎對(duì)于商品品類使用分級(jí)管理.通常分為3級(jí),從商品的一級(jí)品類到三級(jí)品類,商品所屬的范疇被不斷地壓縮.商家通過將自己的產(chǎn)品準(zhǔn)確劃分到所屬的三級(jí)品類,可以提高用戶搜索該產(chǎn)品的準(zhǔn)確度.家用電器和電腦辦公品類下的3級(jí)品類結(jié)構(gòu)如圖2所示.
Fig.1 The process of K-KCM algorithm圖1 K-KCM匹配算法流程
Fig. 2 Examples of the three-level structure of category圖2 3級(jí)品類結(jié)構(gòu)示例
本文在商品匹配過程中使用的是三級(jí)品類,同時(shí)從某電商平臺(tái)爬取了各級(jí)品類名稱.雖然圖2中展示的級(jí)品類名稱在匹配時(shí)差異不大,但實(shí)際上許多屬于同一個(gè)二級(jí)品類下的三級(jí)品類商品仍有不小差異.比如同屬于手機(jī)運(yùn)營(yíng)商數(shù)碼一級(jí)品類下、電子教育二級(jí)品類下的早教益智和電子詞典2個(gè)三級(jí)品類,在匹配過程中并不能當(dāng)成含義相近的品類,因而使用三級(jí)品類.
2.2.1 商品品類知識(shí)圖譜的構(gòu)建
挖掘商品品類與微博話題的關(guān)聯(lián),首先需要讓計(jì)算機(jī)對(duì)于商品品類有一定的認(rèn)知.比如對(duì)于一個(gè)三級(jí)商品品類中央空調(diào),僅僅知道這個(gè)名字對(duì)于關(guān)聯(lián)的挖掘來說是遠(yuǎn)遠(yuǎn)不夠的,需要知道這個(gè)名字的含義.這個(gè)含義的表達(dá)方式有很多,比如它的形狀(長(zhǎng)方形)、顏色(白色)、用途(制冷)等.當(dāng)掌握了這些信息之后,計(jì)算機(jī)便對(duì)某個(gè)商品品類的含義有了真正的認(rèn)識(shí),這樣才能與之后分析得到的微博文本語義做關(guān)聯(lián)挖掘.因此,本文構(gòu)建了商品品類知識(shí)圖譜,其結(jié)構(gòu)如圖3所示:
Fig. 3 Knowledge graph of product category圖3 電商品類知識(shí)圖譜
從圖3可知,每一個(gè)商品品類與其他3個(gè)實(shí)體關(guān)聯(lián),分別是泛產(chǎn)品品類、熱搜詞和品牌,其中商品品類本身還具有一些品類本身特有的屬性,熱搜詞還有詞頻屬性.具體的實(shí)體含義為
1) 泛產(chǎn)品品類.原始數(shù)據(jù)給出了所有的商品品類,但是在這些商品品類中有很多品類對(duì)于顧客的需求沒有太大的差異,如表1中品類名稱.表1中呈現(xiàn)了3組泛產(chǎn)品品類名稱,它們分別屬于休閑娛樂、VR設(shè)備、保溫壺這3個(gè)商品品類.泛產(chǎn)品品類存在的意義在于將多個(gè)相近的品類集中起來,作為匹配過程中的一個(gè)整體,可以減少匹配品類總數(shù),提高話題匹配成功的概率.
Table 1 Examples of Generic Product Category表1 泛產(chǎn)品品類示例
2) 品牌.對(duì)于每一個(gè)商品品類,都擁有許多商品品牌.比如衛(wèi)衣品類下有諸如丹杰仕、喬丹、朵比妮等品牌名稱.在微博文本中,許多商家的官方微博內(nèi)容中經(jīng)常會(huì)涉及到許多品牌名,例如Dior官博發(fā)布的微博:“青年演員身著Dior迪奧2018早秋系列精彩演繹時(shí)尚街拍……”中提到的品牌名Dior.對(duì)于品牌名的匹配可以準(zhǔn)確找到關(guān)聯(lián)的商品品類.
3) 熱搜詞.用戶在搜索指定商品時(shí)輸入的搜索詞.比如對(duì)于中央空調(diào)品類下有關(guān)的熱搜詞有家用中央空調(diào)、美的中央空調(diào)、吸頂空調(diào)等.熱搜詞和微博內(nèi)容類似,都有口語化現(xiàn)象,因此也更容易在微博文本中匹配成功.加入熱搜詞之后,大部分的熱門話題都與部分商品關(guān)聯(lián)成功.
熱搜詞具有詞頻的屬性,不同的熱搜詞被使用的次數(shù)不同,使用次數(shù)高的熱搜詞更能夠代表對(duì)應(yīng)的品類,在匹配過程中匹配成功之后貢獻(xiàn)的得分也相應(yīng)更高.
4) 商品品類屬性.除了幾個(gè)與商品品類相關(guān)的實(shí)體之外,商品品類本身也有若干屬性.比如品類T恤下?lián)碛袑傩砸r衫領(lǐng)形、袖長(zhǎng)等屬性;品類珍珠胸針下?lián)碛袑傩澡偳恫馁|(zhì)等.例如,戒指品類下知識(shí)圖譜結(jié)構(gòu)具體實(shí)例如表2所示:
Table 2 Examples of Knowledge Graph Structure表2 知識(shí)圖譜結(jié)構(gòu)示例
在實(shí)際匹配過程中發(fā)現(xiàn),一些出現(xiàn)頻率比較低的熱搜詞實(shí)際上對(duì)于匹配結(jié)果的影響卻很大.原因在于雖然這些詞在商品搜索過程中出現(xiàn)頻率較低,理論上對(duì)于匹配結(jié)果的貢獻(xiàn)值也不太高,但這些詞往往都是人們?nèi)粘I钪谐S脜s對(duì)搜索結(jié)果沒有什么意義的詞,比如:男士、女士……人們一般不會(huì)在搜索欄中輸入這樣的詞語,因?yàn)檫@種描述過于模糊,并不能夠代表該類商品的特點(diǎn).雖然這類詞很少出現(xiàn),但是在微博文本中卻大量出現(xiàn),累計(jì)的貢獻(xiàn)值要遠(yuǎn)遠(yuǎn)超出想象,最終得到的匹配結(jié)果也受到影響.因此實(shí)際上刪除了熱搜詞中出現(xiàn)頻率低于某一閾值的詞,該閾值與實(shí)際日志數(shù)據(jù)的長(zhǎng)短有關(guān).
2.2.2 微博熱門話題內(nèi)容的獲取
微博數(shù)據(jù)通過網(wǎng)絡(luò)爬取,抓取最新的熱搜微博內(nèi)容,這些微博內(nèi)容圍繞同一個(gè)微博熱搜榜話題,不僅包括話題發(fā)起者的微博,同時(shí)也包括微博用戶對(duì)于該話題的相關(guān)評(píng)論,以及引用該話題的其他微博.將這些微博整理為文本,對(duì)其進(jìn)行除噪過濾,作為語料文本進(jìn)行匹配.過濾方法有3種:
1) 去除所有的標(biāo)點(diǎn)符號(hào)以及表情等非常用文本符號(hào).發(fā)微博或者評(píng)論微博的用戶用語具有口語化以及隨意性等特點(diǎn),甚至有時(shí)整篇內(nèi)容都是沒有意義的符號(hào).比如表示震驚的情緒時(shí),可能會(huì)使用大量的感嘆號(hào),以及表達(dá)一些豐富的情感時(shí),常使用一些特殊的表情符號(hào),這些加強(qiáng)情感的符號(hào)對(duì)于商品品類的匹配沒有較多的幫助,屬于文本噪音,需要?jiǎng)h去.
2) 去除所有以“@”開頭以及冒號(hào)結(jié)尾的字符串.微博內(nèi)容中一個(gè)非常鮮明的特點(diǎn)就是當(dāng)微博涉及到其他用戶或者是想讓其他用戶看到這篇微博時(shí),會(huì)使用@加上該用戶的昵稱.除了一些官方微博以外,大部分用戶的昵稱對(duì)于商品的匹配過程是沒有貢獻(xiàn)的,甚至?xí)a(chǎn)生極大的誤導(dǎo),因此用正則表達(dá)式匹配的方法將這些昵稱刪除.
3) 去除以“#”開頭與結(jié)尾的字符串.與前文提到的昵稱問題類似,以“#”開頭結(jié)尾的往往表示一個(gè)話題的名稱.正常情況下,在一個(gè)話題中使用這樣的符號(hào)引用另一個(gè)與之相似的話題并不會(huì)有不良影響,但通過觀察數(shù)據(jù)發(fā)現(xiàn),許多微博用戶并不遵循這種相似性規(guī)則,甚至有的人喜歡在某話題下面引用與之毫不相關(guān)的話題,這便對(duì)不同話題之間的比對(duì)造成干擾,所以刪除類似這樣的話題引用.
將過濾之后的所有微博內(nèi)容連接在一起,作為此話題對(duì)應(yīng)的用于分析的微博內(nèi)容.
2.2.3 知識(shí)圖譜與熱門話題內(nèi)容的匹配
對(duì)于每一個(gè)實(shí)時(shí)產(chǎn)生的熱門話題,通過2.2.2節(jié)方法獲得該話題對(duì)應(yīng)的微博內(nèi)容.對(duì)于其中涉及到的知識(shí)圖譜中涉及的不同實(shí)體,采用不同的分析方法.將分析結(jié)果在已構(gòu)建好的知識(shí)圖譜上進(jìn)行檢索,計(jì)算流程如圖4所示:
Fig. 4 The process of knowledge graph retrieval圖4 知識(shí)圖譜檢索流程
2.2.3.1 泛產(chǎn)品名稱識(shí)別
1) 使用HanLP漢語言處理包對(duì)微博內(nèi)容進(jìn)行分詞,并將所有的泛產(chǎn)品品類名稱作為詞典對(duì)分詞結(jié)果進(jìn)行過濾.過濾后統(tǒng)計(jì)出現(xiàn)次數(shù)最多的前10個(gè)詞,去除其中出現(xiàn)次數(shù)不超過1次的詞.用這些詞在知識(shí)圖譜中的泛產(chǎn)品品類名稱部分進(jìn)行檢索,即與每一個(gè)商品品類下相關(guān)的所有泛產(chǎn)品品類名稱進(jìn)行精確匹配.每匹配成功,便為該品類累計(jì)得分Scoreg1,其計(jì)算為
2) 對(duì)微博內(nèi)容進(jìn)行命名實(shí)體識(shí)別(named entity recognition, NER),這里采用的是雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(chǎng)(bi-direction long-short term memory-conditional random field, biLSTM-CRF)模型識(shí)別出微博文本中所有類型為泛產(chǎn)品品類的實(shí)體.將得到的實(shí)體在知識(shí)圖譜中的泛產(chǎn)品品類名稱部分進(jìn)行檢索.為了避免重復(fù),如果識(shí)別出的實(shí)體在之前HanLP分詞結(jié)果中出現(xiàn),則不再重復(fù)計(jì)算.實(shí)體識(shí)別結(jié)果在知識(shí)圖譜中檢索的累計(jì)得分Scoreg2計(jì)算為
Scoreg2=Scoreg21+Scoreg22,
2.2.3.2 品牌名稱識(shí)別
品牌名稱識(shí)別部分直接使用2.2.3.1節(jié)所述實(shí)體識(shí)別結(jié)果,識(shí)別出所有類型為品牌的實(shí)體.將這些實(shí)體在知識(shí)圖譜中進(jìn)行檢索,與每個(gè)商品品類下相關(guān)的所有品牌進(jìn)行比對(duì),累計(jì)得分Scoreb1計(jì)算為
2.2.3.3 熱搜詞識(shí)別
熱搜詞不同于泛產(chǎn)品品類名稱與品牌名稱,它的內(nèi)容往往很隨意,比如對(duì)于品類項(xiàng)鏈,有熱搜詞迪士尼黃金蘋果吊墜、SOINLOVE鉆石旗艦店,這樣的熱搜詞里面不僅可能包含泛產(chǎn)品品類名稱和品牌名稱,還可能包含其他的實(shí)體,例如上述熱搜詞中的迪士尼和旗艦店.因此無法使用簡(jiǎn)單的分詞技術(shù)或者命名實(shí)體識(shí)別方法得到滿意的結(jié)果.因此這一部分與之前采用的方法不同,對(duì)于所有的商品品類,找到該品類下相關(guān)的所有熱搜詞,將它們?cè)谖⒉﹥?nèi)容中進(jìn)行檢索,檢索結(jié)果累計(jì)得分Scoreh1計(jì)算為
2.2.3.4 商品屬性識(shí)別
由于不同商品品類屬性種類各異,屬性值在表達(dá)方式上也不規(guī)范,因此匹配過程與熱搜詞的匹配過程類似.對(duì)于所有的商品品類,找到品類具有的屬性值,將它們?cè)谖⒉﹥?nèi)容中進(jìn)行檢索,檢索結(jié)果累計(jì)得分Scorea1可計(jì)算為
最終匹配得分Score可計(jì)算為
Score=Scoreg1+Scoreg2+Scoreb1+Scoreh1+Scorea1.
通過設(shè)計(jì)規(guī)則得到的電商品類知識(shí)圖譜與微博熱門話題內(nèi)容的匹配結(jié)果有一定的局限.首先,在各個(gè)匹配過程中都采用精確匹配,比如對(duì)于泛產(chǎn)品品類熱水袋,當(dāng)微博內(nèi)容中出現(xiàn)“暖寶”、“熱水囊”類似的實(shí)體時(shí)并不會(huì)對(duì)匹配結(jié)果產(chǎn)生貢獻(xiàn),在實(shí)匹配中只有準(zhǔn)確匹配的詞語才會(huì)對(duì)結(jié)果產(chǎn)生貢獻(xiàn),這在處理微博這種語言規(guī)范性極低的文本過程中并不合理.另外,知識(shí)圖譜檢索的匹配方式并沒有考慮到微博文本的語義信息.比如當(dāng)微博文本中出現(xiàn)“筆記本”時(shí),電腦品類和記事本品類下都存在筆記本這個(gè)泛產(chǎn)品品類名稱,而實(shí)際上微博內(nèi)容很可能只表達(dá)其中的一個(gè)實(shí)體,要判斷這里的筆記本指的是電腦還是紙質(zhì)本,還需要結(jié)合文本的上下文語義進(jìn)行判斷,這在知識(shí)圖譜檢索的算法中是難以實(shí)現(xiàn)的.
為了解決該問題,本文采用文本匹配的思路,使用機(jī)器學(xué)習(xí)的方法.采用文本匹配的思路首先要確定待匹配的文本,微博熱門話題采用整理好的微博正文內(nèi)容文本即可,而在商品品類方面,我們使用的是商品標(biāo)題文本,因?yàn)榇蟛糠值纳唐窐?biāo)題都是由商家書寫,同時(shí)沒有絕對(duì)規(guī)范的格式,與微博內(nèi)容中常見的日常用語風(fēng)格相近.對(duì)于某一商品品類,將該品類下的若干條商品標(biāo)題連接起來形成待匹配的文本.為解決此局限,本文使用KNRM[17]模型,相比于傳統(tǒng)的基于交互的匹配模型DRMM[18],KNRM通過引入核函數(shù)機(jī)制,在多個(gè)不同相似度下統(tǒng)計(jì)每個(gè)詞的貢獻(xiàn)值,其模型結(jié)構(gòu)如圖5所示.
將商品標(biāo)題與微博內(nèi)容文本的詞向量矩陣計(jì)算相似度得到相似度矩陣.并在相似度矩陣上使用多個(gè)不同的核函數(shù),在多種相似度水平上,分別計(jì)算微博文本內(nèi)各個(gè)詞的軟詞頻(Soft-TF),之后將各詞的軟詞頻加和得到用于排序的特征,通過多層感知機(jī)得到最終的匹配分?jǐn)?shù).
Fig. 5 The structure of KNRM model圖5 KNRM模型結(jié)構(gòu)
另外,為了與本文提出的K-KCM模型對(duì)比,本文參照文獻(xiàn)[19]使用了多個(gè)深度網(wǎng)絡(luò)模型:ARC-I模型[20]、ARC-II模型[20]、Matchpyramid模型[21]和MVLSTM模型[22].
本文使用某電商平臺(tái)提供的商品數(shù)據(jù)集,其中包括商品三級(jí)品類名稱、商品屬性、商品品牌和商品相關(guān)熱搜詞.其中,有751個(gè)三級(jí)商品品類,平均每個(gè)商品包括1~10個(gè)商品屬性、100~2 000個(gè)商品品牌,經(jīng)過濾后每個(gè)商品包括0~500個(gè)熱搜詞.在此基礎(chǔ)上,將三級(jí)品類中類型相近的商品品類綜合在一起作為同一個(gè)品類,該品類具體包含的所有品類作為泛產(chǎn)品品類.通過熱搜詞詞頻對(duì)熱搜詞進(jìn)行過濾時(shí),使用長(zhǎng)度為1年的日志數(shù)據(jù),根據(jù)經(jīng)驗(yàn)將閾值設(shè)置為100.此外,還需要對(duì)商品的屬性做篩選,去除一部分品類間區(qū)分度不大的屬性.比如價(jià)格、規(guī)格、省份以及顏色等,保留諸如自由度、機(jī)身系統(tǒng)、像素、凈化技術(shù)等具有一定區(qū)分度的屬性.最終再通過這些數(shù)據(jù)構(gòu)建商品品類知識(shí)圖譜.
使用計(jì)算機(jī)爬取微博數(shù)據(jù)集,通過每個(gè)小時(shí)訪問微博熱搜榜,獲取話題集與相關(guān)的內(nèi)容集,對(duì)其中的話題內(nèi)容做索引,存儲(chǔ)在Solr搜索引擎中.每當(dāng)從熱搜榜單上獲取新的熱搜話題,就到搜索引擎中查找,返回所有相關(guān)的微博正文,將這些正文作為微博文本數(shù)據(jù).數(shù)據(jù)中包括話題500個(gè),微博約3 000條.實(shí)驗(yàn)訓(xùn)練集、測(cè)試集、驗(yàn)證集劃分比例為10∶1∶1,并進(jìn)行人工標(biāo)注約2 500例匹配數(shù)據(jù).
在實(shí)驗(yàn)過程中不斷根據(jù)匹配結(jié)果調(diào)整各匹配部分權(quán)值,調(diào)整過程中發(fā)現(xiàn)泛產(chǎn)品品類名稱和品牌名稱識(shí)別結(jié)果的準(zhǔn)確度要高于熱搜詞與商品屬性識(shí)別結(jié)果的準(zhǔn)確度,同時(shí),泛產(chǎn)品品類名包含實(shí)體名稱時(shí)結(jié)果的準(zhǔn)確度要高于實(shí)體名稱包括泛產(chǎn)品品類名稱時(shí)的結(jié)果.因此,最終泛產(chǎn)品品類識(shí)別過程中使用分詞方法獲得分?jǐn)?shù)的權(quán)值wg1、泛產(chǎn)品品類識(shí)別過程中使用實(shí)體識(shí)別方法獲得分?jǐn)?shù)的權(quán)值wg21和wg22、品牌識(shí)別獲得分?jǐn)?shù)的權(quán)值wb1、熱搜詞識(shí)別獲得分?jǐn)?shù)的權(quán)值wh1的最優(yōu)權(quán)值以及商品屬性值識(shí)別獲得分?jǐn)?shù)的權(quán)值wa1分別為3,3,2,3,1,1.
商品標(biāo)題與微博內(nèi)容的匹配部分涉及的參數(shù)主要是模型中結(jié)構(gòu)中的參數(shù)和一些超參數(shù).實(shí)驗(yàn)中發(fā)現(xiàn),使用Word2Vec訓(xùn)練出的詞向量為100維時(shí),訓(xùn)練的效果會(huì)更好.模型內(nèi)部的超參數(shù)設(shè)置如表3所示.
Table 3 Model Parameters表3 模型參數(shù)
在匯總各個(gè)深度模型的結(jié)果以及知識(shí)圖譜匹配結(jié)果時(shí),使用排序?qū)W習(xí)(learning to rank)中的LambdaMart模型,模型中回歸樹的總數(shù)設(shè)置為1 000,每棵回歸樹的葉子節(jié)點(diǎn)數(shù)量值設(shè)置為10.
1) ARC-I+KCM.使用商品品類知識(shí)圖譜匹配結(jié)果,與ARC-I模型得到的商品標(biāo)題和微博文本匹配結(jié)果相結(jié)合.其中ARC-I模型用于匹配商品品類標(biāo)題與熱門話題內(nèi)容的模型.使用卷積神經(jīng)網(wǎng)絡(luò),首先在2段文本各自的詞向量矩陣上使用多個(gè)相同尺寸的卷積核進(jìn)行1維卷積操作,將多次卷積的結(jié)果經(jīng)過池化層之后拼接成各自的特征向量,將2個(gè)特征向量連接起來放入多層感知機(jī)中訓(xùn)練得到最終的匹配得分.
2) ARC-II+KCM.使用商品品類知識(shí)圖譜匹配結(jié)果,與ARC-II模型得到的商品標(biāo)題和微博文本匹配結(jié)果相結(jié)合.其中ARC-II模型用于匹配商品品類標(biāo)題與熱門話題內(nèi)容的模型.使用卷積神經(jīng)網(wǎng)絡(luò),同時(shí)對(duì)2段文本的詞向量矩陣做1維卷積操作并對(duì)卷積結(jié)果進(jìn)行池化操作,得到匹配2段文本的特征矩陣,并對(duì)該矩陣使用2維卷積操作并池化,將獲得的矩陣鋪平(flatten)得到匹配向量,將該匹配向量放入多層感知機(jī)中訓(xùn)練得到最終的匹配得分.
3) Matchpyramid+KCM.使用商品品類知識(shí)圖譜匹配結(jié)果,與Matchpyramid模型得到的商品標(biāo)題和微博文本匹配結(jié)果相結(jié)合.Matchpyramid模型用于匹配商品品類標(biāo)題與熱門話題內(nèi)容的模型.使用卷積神經(jīng)網(wǎng)絡(luò),將2段文本的詞向量矩陣交互得到相似度矩陣,并在該相似度矩陣上做卷積與池化操作,得到的結(jié)果作為2段文本的匹配特征向量.將該向量放入多層感知機(jī)中訓(xùn)練得到最終的匹配得分.該模型與ARC-I和ARC-II模型均采用卷積神經(jīng)網(wǎng)絡(luò),不同之處在于ARC-I和ARC-II是基于文本的表示,該模型是基于文本矩陣的交互.
4) MVLSTM+KCM.使用商品品類知識(shí)圖譜匹配結(jié)果,與MVLSTM模型得到的商品標(biāo)題和微博文本匹配結(jié)果相結(jié)合.MVLSTM模型用于匹配商品品類標(biāo)題與熱門話題內(nèi)容的模型,使用循環(huán)神經(jīng)網(wǎng)絡(luò).對(duì)2段文本分別使用雙向LSTM網(wǎng)絡(luò)訓(xùn)練得到標(biāo)題文本與話題內(nèi)容特征向量,將2個(gè)向量結(jié)合起來放入多層感知機(jī)中訓(xùn)練得到最終的匹配得分.
5) Learning to rank.使用商品品類知識(shí)圖譜匹配結(jié)果與另外5個(gè)商品標(biāo)題和微博內(nèi)容匹配模型的得分結(jié)合起來,作為6維的特征,通過Learning to rank[23],使用gradient boosted regression tree模型[24]得到綜合匹配結(jié)果.
6) KNRM+KCM(K-KCM).本文使用的模型,使用商品品類知識(shí)圖譜匹配結(jié)果,與KNRM模型得到的商品標(biāo)題和微博文本匹配結(jié)果相結(jié)合.
對(duì)比模型中除了Learning to rank模型之外,其他的模型均需要將2個(gè)獨(dú)立的模型結(jié)果結(jié)合.在實(shí)驗(yàn)過程中,首先采用無監(jiān)督的方法得到KCM模型的實(shí)驗(yàn)結(jié)果,然后在其他5個(gè)深度模型輸出層之后添加一個(gè)全連接層,通過訓(xùn)練分別得到KCM模型與其他5個(gè)深度模型結(jié)合的權(quán)重,得到最終的匹配結(jié)果.
在得到標(biāo)注數(shù)據(jù)之后,對(duì)3.3節(jié)提出的各個(gè)對(duì)比模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示.實(shí)驗(yàn)過程中各個(gè)模型采用分類的思路,評(píng)測(cè)指標(biāo)為Accuracy值(Acc)、F1值、Precision值(Pre)和Recall值(Rec).
Table 4 Overall Result表4 實(shí)驗(yàn)結(jié)果
Note: Bold figures represent the best-performing results under the corresponding metric.
通過表4可以發(fā)現(xiàn),本文提出的KNRM+KCM對(duì)商品品類標(biāo)題與微博熱門話題內(nèi)容文本進(jìn)行匹配得到的Accuracy值、F1值和Precision值相對(duì)較高.綜合所有結(jié)果采用Learning to rank得到的結(jié)果召回率最高.此外,所有匹配模型得到的結(jié)果普遍比采用商品品類知識(shí)圖譜檢索得到的結(jié)果要高(除了MVLSTM+KCM在召回率方面比較低).分析其原因,一方面是由于微博內(nèi)容文本中蘊(yùn)含著一定的語義信息,在單純進(jìn)行知識(shí)圖譜檢索時(shí)難以挖掘;另一方面有可能是商品標(biāo)題文本中蘊(yùn)含了很多知識(shí)圖譜以外的詞語.比如在吊墜這個(gè)品類中,在一些商品標(biāo)題中包含了“送女友”、“驚喜”這一類很可能在微博中出現(xiàn)的卻并不與商品有直接關(guān)系的詞語.
另外,結(jié)果表明采用深度網(wǎng)絡(luò)的ARC-I,ARC-II, MVLSTM, Matchpyramid這4個(gè)模型效果不如KNRM,甚至在最后Learning to rank綜合排序中拖低了結(jié)果.原因可能在于商品標(biāo)題文本有一定的特殊性,文本中很多詞語并沒有很強(qiáng)的詞序關(guān)系,甚至顛倒順序仍然通順,比如把容量、商標(biāo)、適用人群這些屬性任意排列仍可以看作同一個(gè)商品的標(biāo)題.因而基于計(jì)數(shù)原理忽略詞序的KNRM模型有可能會(huì)有更好的結(jié)果.
針對(duì)K-KCM模型,綜合知識(shí)圖譜匹配結(jié)果與KNRM模型匹配結(jié)果時(shí)使用的最佳權(quán)重是通過訓(xùn)練得到的,為了驗(yàn)證訓(xùn)練效果,使用不同的權(quán)值計(jì)算得到相應(yīng)結(jié)果如圖6所示:
Fig. 6 Influence of K-KCM weight on model effect圖6 K-KCM權(quán)重對(duì)模型效果影響
實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)KNRM權(quán)值為0.813左右時(shí)綜合結(jié)果最佳,可見KNRM模型對(duì)于最終結(jié)果的影響更大.但KCM模型也對(duì)綜合結(jié)果有一定的貢獻(xiàn),體現(xiàn)在KNRM模型權(quán)值大于0.813之后模型綜合效果會(huì)下降.
進(jìn)一步地,將知識(shí)圖譜各部分識(shí)別結(jié)果的重要程度做對(duì)比,可以得到4個(gè)對(duì)比模型.
1) BH-KCM.只計(jì)算商品品類相關(guān)的品牌、熱搜詞、商品屬性值的匹配分?jǐn)?shù)和,不考慮泛產(chǎn)品品類名稱部分匹配分?jǐn)?shù).
2) GH-KCM.只計(jì)算商品品類相關(guān)的泛產(chǎn)品品類名稱、熱搜詞、商品屬性值的匹配分?jǐn)?shù)和,不考慮品類相關(guān)品牌部分匹配分?jǐn)?shù).
3) GB-KCM.只計(jì)算商品品類相關(guān)的品牌、泛產(chǎn)品品類名稱、商品屬性值的匹配分?jǐn)?shù)和,不考慮熱搜詞部分匹配分?jǐn)?shù).
4) KCM.考慮知識(shí)圖譜中所有實(shí)體部分的匹配得分,通過表5中知識(shí)圖譜部分對(duì)比模型的結(jié)果,可以發(fā)現(xiàn)知識(shí)圖譜各部分實(shí)體的匹配結(jié)果均對(duì)最終的匹配結(jié)果有貢獻(xiàn).其中熱搜詞部分對(duì)于模型的貢獻(xiàn)值最大,當(dāng)去掉熱搜詞相關(guān)匹配結(jié)果之后模型GB-KCM的效果顯著下降.原因在于熱搜詞的語言風(fēng)格與微博文本的語言風(fēng)格更為相近,精確匹配成功的可能性更高,而泛產(chǎn)品品類名稱和品牌名均是官方提供,與口語習(xí)慣不符.比如對(duì)于水杯商品品類,微博內(nèi)容中更可能會(huì)出現(xiàn)“杯子”,這種情況下熱搜詞更可能會(huì)匹配成功.
Table 5 Comparison Result of Knowledge Graph表5 知識(shí)圖譜部分對(duì)比結(jié)果
Note: Bold figures represent the best-performing results under the corresponding metric.
通過使用商品品類知識(shí)圖譜與微博熱點(diǎn)內(nèi)容匹配的方法不僅可以獲得匹配得分,還可以獲得與匹配相關(guān)的匹配詞,可以由此對(duì)匹配結(jié)果進(jìn)行定性分析,匹配結(jié)果如表6所示.對(duì)于“甜馨公主裙”這個(gè)話題,匹配結(jié)果中得分比較高的4個(gè)品類分別是早教啟智、芭比娃娃、裙子和兒童配飾.其中早教啟智得分最高,因?yàn)樗?個(gè)關(guān)鍵詞與話題相關(guān),這3個(gè)關(guān)鍵詞都來自于熱搜詞,由此也不難發(fā)現(xiàn)在知識(shí)圖譜匹配過程中熱搜詞起了很大的作用.對(duì)于芭比娃娃和裙子這2個(gè)品類,都只有一個(gè)“公主”的熱搜詞與話題相關(guān),但是芭比娃娃品類的得分卻比裙子品類的高,原因在于芭比娃娃品類的熱搜詞數(shù)量比裙子品類的熱搜詞數(shù)量少,可以認(rèn)為芭比娃娃這個(gè)品類具有更強(qiáng)的識(shí)別度.
Table 6 Knowledge Graph Matching Details表6 知識(shí)圖譜匹配詳情
本文針對(duì)商品品類與微博熱門話題的關(guān)聯(lián)問題進(jìn)行了深入探究,提出了K-KCM匹配模型,在電商品類知識(shí)圖譜檢索的基礎(chǔ)上添加了文本匹配的方法,采用KNRM匹配模型對(duì)商品標(biāo)題與微博熱點(diǎn)內(nèi)容文本進(jìn)行了匹配,并通過實(shí)驗(yàn)證明模型的有效性,可以挖掘出微博話題與商品品類的關(guān)聯(lián).
在本文中電商品類知識(shí)圖譜的檢索結(jié)果并不高,下一階段我們希望對(duì)知識(shí)圖譜進(jìn)行填充,從而提高這一部分的結(jié)果,同時(shí)在商品標(biāo)題與微博內(nèi)容匹配的部分,采用更多的模型進(jìn)行嘗試,提高綜合排序的結(jié)果.