張秋韻,郭 斌,郝少陽(yáng),王 豪,於志文,景 瑤
西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,西安 710072
隨著電子商務(wù)的快速發(fā)展,越來(lái)越多的人選擇網(wǎng)上購(gòu)物,在無(wú)法接觸到實(shí)體商品的情況下,商品描述對(duì)顧客的購(gòu)買(mǎi)選擇尤為重要。傳統(tǒng)的商品描述方法對(duì)商品本身進(jìn)行推薦,向不同類(lèi)別用戶推送相同的商品內(nèi)容,但不同用戶個(gè)體對(duì)同一商品的關(guān)注點(diǎn)也是不同的,故單一的商品描述不能有效地吸引用戶。而高質(zhì)量的商品描述不僅可以提高用戶點(diǎn)擊率,還可以輔助用戶做出選擇。近年來(lái),個(gè)性化商品描述生成開(kāi)始受到了研究者的廣泛關(guān)注,通過(guò)對(duì)用戶進(jìn)行畫(huà)像,得到用戶對(duì)商品的偏好信息,并以此為根據(jù)生成符合用戶偏好的個(gè)性化商品描述。一方面,個(gè)性化商品描述能夠更加準(zhǔn)確地提供用戶所需要的商品信息,激發(fā)用戶購(gòu)買(mǎi)興趣;另一方面,其可降低撰寫(xiě)商品描述的人工成本。
近年來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等諸多領(lǐng)域取得了巨大的成功,使得自動(dòng)生成個(gè)性化商品描述成為了可能。Bengio等人首次將神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型應(yīng)用于文本生成任務(wù)中[1],之后循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)、序列到序列模型(sequence to sequence,Seq2seq)、生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)等被廣泛應(yīng)用于文本生成領(lǐng)域。文本生成也從流水線結(jié)構(gòu)發(fā)展為端到端的模型結(jié)構(gòu),端到端模型能夠自動(dòng)在數(shù)據(jù)中尋找合適的特征分布,將人類(lèi)從繁復(fù)的數(shù)據(jù)處理中解放出來(lái)。但個(gè)性化商品描述生成工作還存在以下兩點(diǎn)挑戰(zhàn):
(1)缺乏個(gè)性化商品描述數(shù)據(jù)集?,F(xiàn)有的商品描述多為單一的文本,單個(gè)商品項(xiàng)對(duì)應(yīng)一條描述文本,不存在針對(duì)特定用戶的個(gè)性化商品描述。
(2)用戶通常關(guān)注商品的多個(gè)特征,而神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型無(wú)法準(zhǔn)確生成有關(guān)多個(gè)商品特征的描述文本。
本研究通過(guò)用戶的購(gòu)物記錄和歷史評(píng)論信息學(xué)習(xí)用戶的個(gè)性偏好;通過(guò)收集商品內(nèi)容與評(píng)論內(nèi)容學(xué)習(xí)商品的賣(mài)點(diǎn)特征,針對(duì)特定類(lèi)別商品(如書(shū)籍等),通過(guò)生成式文本生成、抽取式文本生成以及模板-規(guī)則文本生成方法進(jìn)行融合,生成個(gè)性化商品描述。本文貢獻(xiàn)如下:
(1)提出CrowdDepict,一種基于多源群智數(shù)據(jù)的個(gè)性化商品描述內(nèi)容生成方法。該方法挖掘多平臺(tái)商品(豆瓣、京東、CN-DBpedia[2]數(shù)據(jù)庫(kù))評(píng)論以及商品描述,構(gòu)造基于多源群智數(shù)據(jù)的個(gè)性化商品描述方法。
(2)采用多種文本生成方法,分別生成不同對(duì)應(yīng)商品特征的商品描述文本,避免單一生成式文本生成方法無(wú)法學(xué)習(xí)到商品不同特征的問(wèn)題。
(3)基于真實(shí)數(shù)據(jù)集驗(yàn)證了個(gè)性化商品描述模型的有效性,可根據(jù)用戶偏好自動(dòng)生成流暢且富有個(gè)性化的商品描述,內(nèi)容體現(xiàn)用戶興趣及主要的產(chǎn)品特征。
在用戶畫(huà)像領(lǐng)域,基于用戶行為進(jìn)行用戶屬性畫(huà)像的技術(shù)已有大量的工作。Weinsberg等人[3]利用用戶對(duì)不同電影的評(píng)分來(lái)預(yù)測(cè)用戶的性別。美國(guó)加州大學(xué)的Bi等人[4]基于用戶的搜索查詢歷史記錄,可以有效和準(zhǔn)確地推斷出用戶的特征,如年齡和性別,甚至政治和宗教觀點(diǎn)。美國(guó)斯坦福大學(xué)的Kosinski等人[5]比較了人類(lèi)和計(jì)算機(jī)對(duì)目標(biāo)用戶進(jìn)行人格判斷的準(zhǔn)確性,結(jié)果表明計(jì)算機(jī)能比關(guān)系密切的朋友做出更準(zhǔn)確和有效的性格判斷。美國(guó)賓夕法尼亞大學(xué)的Schwartz等人[6]通過(guò)收集75 000名志愿者的7億條Facebook信息,提取信息中與人口統(tǒng)計(jì)信息屬性相關(guān)的單詞、短語(yǔ)和話題,發(fā)現(xiàn)用戶使用的語(yǔ)言因其個(gè)性、性別和年齡等存在顯著差異。推薦系統(tǒng)通過(guò)用戶畫(huà)像和用戶歷史行為對(duì)用戶進(jìn)行商品的偏好程度預(yù)測(cè),從而將對(duì)用戶更有價(jià)值或用戶更偏愛(ài)的商品及內(nèi)容優(yōu)先呈現(xiàn)出來(lái)。
生成式文本生成是自然語(yǔ)言生成的技術(shù)之一,在各領(lǐng)域都有重要應(yīng)用。由于RNN神經(jīng)網(wǎng)絡(luò)適合處理序列數(shù)據(jù),因而也成為文本生成所使用的主要模型之一?,F(xiàn)實(shí)生活中自然語(yǔ)言通常是在特定的語(yǔ)境中產(chǎn)生的,例如時(shí)間、地點(diǎn)、情感或情緒等,因此文本生成過(guò)程中需要考慮特定的語(yǔ)境信息,比如在生成用戶評(píng)論的過(guò)程中,需要根據(jù)用戶的特定屬性生成對(duì)應(yīng)的個(gè)性化評(píng)論內(nèi)容。
Tang等人[7]利用RNN神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了基于語(yǔ)境的文本生成模型。通過(guò)給定的語(yǔ)境信息,如產(chǎn)品的類(lèi)別、標(biāo)題以及用戶評(píng)價(jià),生成相應(yīng)的評(píng)論內(nèi)容。Zheng等人[8]提出了一種結(jié)合RNN神經(jīng)網(wǎng)絡(luò)對(duì)評(píng)級(jí)、評(píng)論及其時(shí)間動(dòng)態(tài)進(jìn)行建模的新方法。使用用戶的電影評(píng)級(jí)歷史記錄作為更新?tīng)顟B(tài)的輸入。利用一個(gè)循環(huán)網(wǎng)絡(luò)來(lái)捕捉用戶和電影狀態(tài)的時(shí)間演化,并直接用于預(yù)測(cè)收視率。Lipton等人[9]構(gòu)建了一個(gè)提供用戶/項(xiàng)目組合的系統(tǒng),以生成用戶對(duì)指定產(chǎn)品的評(píng)論。他們?cè)O(shè)計(jì)了一個(gè)字符級(jí)的RNN網(wǎng)絡(luò)來(lái)生成個(gè)性化的產(chǎn)品評(píng)論。該模型利用BeerAdvocate.com網(wǎng)站上的大量評(píng)論,學(xué)習(xí)了近千名不同作者的語(yǔ)言風(fēng)格并生成相應(yīng)的評(píng)論內(nèi)容。Costa等人[10]提出利用RNN的模型能夠生成接近真實(shí)用戶書(shū)面評(píng)論的句子,并能夠識(shí)別拼寫(xiě)錯(cuò)誤和特定領(lǐng)域的詞匯。RNN神經(jīng)網(wǎng)絡(luò)存在梯度消失與梯度爆炸問(wèn)題,無(wú)法學(xué)習(xí)到長(zhǎng)距離的信息。為了解決長(zhǎng)期依賴(lài)的問(wèn)題,RNN的變種神經(jīng)網(wǎng)絡(luò)LSTM(long short-term memory)和GRU(gated recurrent unit)被提出。Ni等人[11]設(shè)計(jì)了一個(gè)采用LSTM神經(jīng)網(wǎng)絡(luò)的評(píng)論生成模型,該模型可以利用用戶和產(chǎn)品的信息以輔助文本生成過(guò)程。在模型的編碼階段,有三個(gè)編碼器(序列編碼器、屬性編碼器和類(lèi)別編碼器)進(jìn)行信息集成。解碼器對(duì)編碼信息的處理使該模型偏向于生成最接近目標(biāo)的文本。
抽取式文本摘要目前已經(jīng)非常成熟,Nenkova等人[12]使用單詞頻率作為摘要的特征,研究了由詞頻估計(jì)的句子重要性的復(fù)合函數(shù)以及根據(jù)上下文調(diào)整詞頻權(quán)重的方法。Erkan等人[13]提出了一種基于特征向量的中心性模型,稱(chēng)為L(zhǎng)exPageRank。該模型建立了基于余弦相似度的句子連通性矩陣。在深度學(xué)習(xí)成熟后,神經(jīng)網(wǎng)絡(luò)也被用于抽取式文摘的生成。Svore等人[14]提出了一種基于神經(jīng)網(wǎng)絡(luò)的自動(dòng)摘要方法,其名稱(chēng)為NetSum,模型從每個(gè)句子中檢索一組特征,以幫助確定其重要性。Cheng等人[15]使用神經(jīng)網(wǎng)絡(luò)提取摘要,分別是單詞和句子級(jí)提取文章內(nèi)容,這項(xiàng)工作的特別之處在于注意力機(jī)制的使用。Cao等人[16]使用注意力機(jī)制對(duì)句子進(jìn)行加權(quán)。加權(quán)基礎(chǔ)是要查詢的文檔句子之間的相關(guān)性,通過(guò)對(duì)句子進(jìn)行排序來(lái)提取摘要。Paulus等人[17]介紹了基于Seq2Seq架構(gòu)的強(qiáng)化學(xué)習(xí)方法在抽象生成中的應(yīng)用。Pasunuru等人[18]也使用了強(qiáng)化學(xué)習(xí)來(lái)生成文章的摘要。Facebook[19]使用了基于注意力的神經(jīng)網(wǎng)絡(luò)生成句子摘要。
為了通過(guò)生成式、抽取式等文本生成方法端到端生成個(gè)性化商品描述,需要有效地學(xué)習(xí)多源數(shù)據(jù)的數(shù)據(jù)特征。不同的商品數(shù)據(jù)源數(shù)據(jù)結(jié)構(gòu)不同,且內(nèi)容主題不同。以書(shū)籍商品為例,京東等書(shū)籍購(gòu)買(mǎi)網(wǎng)站評(píng)論內(nèi)容較為單一,多是關(guān)于書(shū)籍裝幀、物流等的評(píng)論內(nèi)容,而豆瓣讀書(shū)等書(shū)籍討論網(wǎng)站的評(píng)論內(nèi)容則相對(duì)較豐富,多是關(guān)于書(shū)籍內(nèi)容、書(shū)籍主旨等的評(píng)論內(nèi)容。通過(guò)將多源數(shù)據(jù)進(jìn)行結(jié)合,可以獲取商品的多源描述文本。通過(guò)將不同的文本生成方法與多源數(shù)據(jù)進(jìn)行結(jié)合,可生成更加流暢的、切合主題的商品描述。
本系統(tǒng)的整體結(jié)構(gòu)如圖1所示,個(gè)性化商品文本生成系統(tǒng)主要分為多源群智數(shù)據(jù)獲取模塊,用戶、圖書(shū)畫(huà)像模塊以及個(gè)性化商品描述生成模塊。
Fig.1 System structure diagram圖1 系統(tǒng)結(jié)構(gòu)圖
群智數(shù)據(jù)獲取模塊:此模塊收集個(gè)性化商品描述所需的兩部分?jǐn)?shù)據(jù):(1)用戶及商品數(shù)據(jù),用于對(duì)用戶與商品進(jìn)行畫(huà)像;(2)商品評(píng)論內(nèi)容,用于生成個(gè)性化商品描述。
用戶、圖書(shū)畫(huà)像模塊:此模塊對(duì)用戶及圖書(shū)進(jìn)行畫(huà)像,得到相應(yīng)的用戶標(biāo)簽及圖書(shū)標(biāo)簽。對(duì)獲取到的用戶數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,得到用戶偏好標(biāo)簽。對(duì)獲取的圖書(shū)數(shù)據(jù)進(jìn)行分析,得到圖書(shū)商品描述點(diǎn)標(biāo)簽。
個(gè)性化商品描述生成模塊:此模塊對(duì)獲取的用戶標(biāo)簽以及圖書(shū)標(biāo)簽進(jìn)行匹配,針對(duì)不同的偏好標(biāo)簽生成對(duì)應(yīng)的商品個(gè)性化描述。通過(guò)對(duì)商品評(píng)論等文本進(jìn)行預(yù)處理,分別使用生成式、抽取式以及模板-規(guī)則文本生成方法生成個(gè)性化商品描述內(nèi)容。
3.3.1 多源群智描述文本獲取
由于各種書(shū)籍購(gòu)買(mǎi)以及評(píng)論網(wǎng)站上缺少個(gè)性化書(shū)籍商品描述文本,需使用其他類(lèi)型的文本進(jìn)行替代。本文根據(jù)書(shū)籍商品的不同特征,在多個(gè)不同的數(shù)據(jù)來(lái)源上獲取個(gè)性化描述文本替代語(yǔ)料。
(1)豆瓣書(shū)評(píng)。豆瓣書(shū)籍評(píng)論中包含用戶對(duì)書(shū)籍內(nèi)容和風(fēng)格的評(píng)價(jià),以及對(duì)書(shū)籍主旨的思考,有很強(qiáng)的書(shū)籍風(fēng)格特征,故可以作為書(shū)籍商品描述目標(biāo)文本。
(2)京東書(shū)評(píng)。京東是一個(gè)大型的網(wǎng)上交易平臺(tái),從京東評(píng)論中可以獲取到每條評(píng)論數(shù)據(jù)的評(píng)價(jià)星級(jí)、評(píng)價(jià)內(nèi)容、商品屬性等相關(guān)信息。而其中關(guān)于書(shū)籍商品的評(píng)論多是有關(guān)裝幀、物流等方面的,可以作為書(shū)籍裝幀的商品描述目標(biāo)文本。
(3)CN-DBpedia數(shù)據(jù)庫(kù)。來(lái)源于復(fù)旦大學(xué)GDM實(shí)驗(yàn)室中文知識(shí)圖譜CN-DBpedia,其中包含900萬(wàn)的百科實(shí)體數(shù)據(jù)以及6 600萬(wàn)的三元組關(guān)系。該數(shù)據(jù)可以用于根據(jù)作者關(guān)鍵詞查詢作者的獲獎(jiǎng)情況等信息,作為書(shū)籍商品描述的作者的商品描述目標(biāo)文本。
3.3.2 用戶、圖書(shū)畫(huà)像數(shù)據(jù)獲取
(1)用戶數(shù)據(jù)收集
用戶畫(huà)像可以通過(guò)分析用戶的相關(guān)數(shù)據(jù)得到用戶標(biāo)簽。豆瓣讀書(shū)中的書(shū)評(píng)一般篇幅較長(zhǎng),內(nèi)容與作者、體裁等相關(guān)性較大且評(píng)論質(zhì)量較高??梢詮亩拱曜x書(shū)中獲取到的用戶數(shù)據(jù)為用戶所有讀過(guò)的書(shū)的書(shū)名、作者、裝幀、出版社和豆瓣標(biāo)簽信息,以及每本書(shū)中所有用戶的評(píng)論信息和相應(yīng)的評(píng)分。通過(guò)對(duì)以上信息進(jìn)行統(tǒng)計(jì)整合得到用戶畫(huà)像內(nèi)容。
(2)圖書(shū)畫(huà)像手機(jī)
從豆瓣圖書(shū)數(shù)據(jù)集中可以獲取到的圖書(shū)信息很豐富,包括作者、出版社、譯者、裝幀類(lèi)別、豆瓣用戶短評(píng)/長(zhǎng)評(píng)等,通過(guò)以上信息進(jìn)行圖書(shū)畫(huà)像。
此模塊采用定量的用戶畫(huà)像方法,通過(guò)對(duì)采集得到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,得到用戶的偏好。其中用戶評(píng)分為五星的數(shù)據(jù)作為該用戶喜歡的書(shū)籍。對(duì)于用戶喜歡的作者、出版社、裝幀形式、題材進(jìn)行統(tǒng)計(jì)分析得到用戶偏好畫(huà)像。表1展示了用戶畫(huà)像規(guī)則。
Table 1 User portrait rules表1 用戶畫(huà)像規(guī)則
圖書(shū)畫(huà)像則是根據(jù)圖書(shū)數(shù)據(jù)獲取到的圖書(shū)信息來(lái)實(shí)現(xiàn)的。從京東網(wǎng)站中可以獲取到圖書(shū)的作者、裝幀、書(shū)籍題材和出版社信息,從豆瓣讀書(shū)中可以獲取到圖書(shū)的內(nèi)容相關(guān)的信息,將其共同作為圖書(shū)標(biāo)簽進(jìn)行圖書(shū)畫(huà)像。
Table 2 Redundant data on commodity trading platforms表2 商品交易平臺(tái)冗余數(shù)據(jù)
(1)內(nèi)容冗余度處理
商品交易平臺(tái)中的書(shū)籍商品評(píng)論通常包含大量冗余信息,如表2所示。通過(guò)計(jì)算文本之間的余弦相似度去除冗余數(shù)據(jù)。余弦相似度,又稱(chēng)為余弦相似性,是通過(guò)計(jì)算兩個(gè)向量的夾角余弦值來(lái)評(píng)估它們的相似度。通過(guò)計(jì)算評(píng)論數(shù)據(jù)集中同種類(lèi)型評(píng)論中不同評(píng)論之間的余弦相似度,將相似度較高的冗余評(píng)論進(jìn)行刪除,每種類(lèi)型評(píng)論如裝幀評(píng)論只保留具有代表性的評(píng)論內(nèi)容。
(2)中文詞嵌入
中文句子的單詞之間不像英文單詞之間有天然的空格分隔符,因此需要首先進(jìn)行分詞操作才可以進(jìn)行接下來(lái)的數(shù)據(jù)處理過(guò)程。jieba分詞(結(jié)巴分詞)是一個(gè)Python的中文分詞組件,可以將中文進(jìn)行分詞,將句子分割成單詞序列。利用Word2vec工具對(duì)分詞后的數(shù)據(jù)進(jìn)行詞嵌入處理,得到句子序列中每個(gè)詞語(yǔ)的向量表示,作為模型的輸入。
圖2為個(gè)性化商品描述生成模型。首先將用戶畫(huà)像和圖書(shū)畫(huà)像得到的用戶偏好和書(shū)籍標(biāo)簽進(jìn)行匹配后得到用戶個(gè)性化偏好標(biāo)簽。個(gè)性化商品描述生成模型通過(guò)利用個(gè)性化偏好標(biāo)簽的不同關(guān)鍵詞,分別采用生成式、抽取式和模板-規(guī)則生成方法生成對(duì)應(yīng)的描述文本,最后將不同關(guān)鍵詞生成的對(duì)應(yīng)商品描述文本拼接得到最終商品描述內(nèi)容。
4.3.1 Encoder-Decoder生成商品描述文本模塊
該模塊生成有關(guān)書(shū)籍裝幀的商品描述文本和有關(guān)書(shū)籍題材的商品描述文本。在文本生成領(lǐng)域,Sequence to Sequence架構(gòu)多用于處理序列到序列的文本轉(zhuǎn)換問(wèn)題。Sequence可以理解為一個(gè)文本序列,在給定輸入后,希望得到與之對(duì)應(yīng)的另一個(gè)輸出文本序列(如翻譯后的、語(yǔ)義上對(duì)應(yīng)的),這個(gè)任務(wù)稱(chēng)為Seq2Seq。
本文采用編解碼結(jié)構(gòu)實(shí)現(xiàn)Sequence to Sequence架構(gòu)。其中,encoder編碼器將source sequence源序列(x1,x2,…,xn-1,xn)轉(zhuǎn)化為一個(gè)固定長(zhǎng)度的中間語(yǔ)義向量context vector(c),decoder解碼器將context vector轉(zhuǎn)化為target sequence目標(biāo)序列(y1,y2,…,ym-1,ym)。在Encoder-Decoder架構(gòu)中,encoder相當(dāng)于信息壓縮,而decoder相當(dāng)于信息還原。通常encoder使用RNN或者LSTM神經(jīng)網(wǎng)絡(luò),對(duì)文本序列進(jìn)行信息的整合壓縮得到語(yǔ)義向量,再通過(guò)另外一個(gè)RNN或者LSTM網(wǎng)絡(luò)進(jìn)行解碼得到目標(biāo)序列。
由于裝幀文本數(shù)據(jù)重復(fù)性過(guò)高,訓(xùn)練文本相似度大,抽取式文本生成方法不能得到很好的效果。書(shū)籍題材文本數(shù)據(jù)是用戶對(duì)書(shū)籍內(nèi)容的心得,或?qū)?shū)籍人物行為的評(píng)價(jià),沒(méi)有真正的主題,因此通過(guò)抽取和壓縮無(wú)法生成很好的介紹書(shū)籍題材的文本?;贓ncoder-Decoder框架的生成式文本方法可以解決序列到序列的轉(zhuǎn)換映射。生成的文本更加多樣性,可以學(xué)習(xí)到用戶評(píng)價(jià)書(shū)籍裝幀的語(yǔ)言風(fēng)格,也可以學(xué)習(xí)到書(shū)籍題材對(duì)應(yīng)的文本,因此選擇生成式文本生成方法來(lái)生成書(shū)籍裝幀和題材的個(gè)性化商品描述文本。
用戶偏好關(guān)鍵詞生成個(gè)性化文本是一個(gè)關(guān)鍵詞到文本序列的轉(zhuǎn)換問(wèn)題,即通過(guò)word2vec得到關(guān)鍵詞的詞向量后,將詞向量輸入encoder編碼中,得到context vector,進(jìn)行decoder解碼得到對(duì)應(yīng)的商品描述文本。
Fig.2 Personalized product description generation model圖2 個(gè)性化商品描述生成模型
直接使用Encoder-Decoder結(jié)構(gòu),會(huì)將輸入序列編碼為一個(gè)固定長(zhǎng)度的向量,而輸出解碼階段的初始信息局限于該定長(zhǎng)向量。在輸入序列較長(zhǎng)時(shí),定長(zhǎng)向量無(wú)法存儲(chǔ)充足的信息,模型性能較差。圖3展示的Attention機(jī)制打破了Encoder-Decoder框架在編解碼時(shí)依賴(lài)于中間語(yǔ)義向量,通過(guò)保留encoder階段的每個(gè)中間輸出結(jié)果,然后對(duì)這些結(jié)果進(jìn)行選擇性學(xué)習(xí)并且應(yīng)用在模型輸出decoder階段。通過(guò)引入Attention機(jī)制,模型打破了只能利用encoder階段最終時(shí)刻固定長(zhǎng)度隱向量的限制,使得模型可以在解碼階段的每個(gè)時(shí)刻都集中在對(duì)當(dāng)前時(shí)刻目標(biāo)單詞更加重要的輸入信息上,模型效果得到極大提升。
Fig.3 Generating text generation model with Attention圖3 加入Attention的生成式文本生成模型
本文采用加入Attention機(jī)制的Encoder-Decoder結(jié)構(gòu),如圖3。
書(shū)籍題材關(guān)鍵詞對(duì)應(yīng)的訓(xùn)練文本為豆瓣書(shū)籍評(píng)論。對(duì)豆瓣書(shū)籍評(píng)論數(shù)據(jù)集中每句話分詞后,在所有評(píng)論集合中提出有關(guān)這本書(shū)內(nèi)容風(fēng)格的評(píng)論作為書(shū)籍題材最終生成的語(yǔ)料庫(kù)。書(shū)籍裝幀關(guān)鍵詞對(duì)應(yīng)的訓(xùn)練文本為京東書(shū)籍購(gòu)買(mǎi)評(píng)論。對(duì)京東購(gòu)買(mǎi)評(píng)論數(shù)據(jù)集中的每句話分詞,提取有關(guān)裝幀的評(píng)論作為書(shū)籍裝幀生成的語(yǔ)料庫(kù)。
4.3.2 模板生成商品描述文本模塊
模板,指的是包含變量和常量的一種填充框架,需要定義模板結(jié)構(gòu)、模板中每個(gè)變量的取值范圍以及模板調(diào)用規(guī)則。根據(jù)輸入內(nèi)容對(duì)模板進(jìn)行填充,可以產(chǎn)生相應(yīng)的自然語(yǔ)言文本。
本文設(shè)置句子和短語(yǔ)雙層模板,在句子層面使用句子模板,在句子構(gòu)件層面使用短語(yǔ)模板。句子、短語(yǔ)層面模板如表3所示。
4.3.3 抽取式生成商品描述文本模塊
本文使用TextRank[20]等抽取式方法來(lái)提取文本中的重要信息,Textrank算法根據(jù)句子的詞之間的共現(xiàn)關(guān)系構(gòu)造圖,將文本的每個(gè)句子作為節(jié)點(diǎn)。如果兩個(gè)句子之間有相似性,則對(duì)兩個(gè)句子對(duì)應(yīng)的節(jié)點(diǎn)之間連邊,通過(guò)圖排序算法可以做到對(duì)一段文本進(jìn)行主題綜合。例如對(duì)原標(biāo)題為“亞馬遜依然行進(jìn)在快車(chē)道:一邊瘋狂投資,一邊創(chuàng)造高額利潤(rùn)”的一個(gè)1 000字左右的新聞,抽取式抽取的標(biāo)題為“周四公布的強(qiáng)勁財(cái)報(bào)有望讓亞馬遜超過(guò)蘋(píng)果,成為首家市值突破1萬(wàn)億美元的公司”。用Textrank等抽取算法對(duì)相關(guān)作者的語(yǔ)料庫(kù)進(jìn)行抽取綜合,輸入通過(guò)作者姓名在數(shù)據(jù)庫(kù)得到的作者相關(guān)信息,輸出作者關(guān)鍵詞對(duì)應(yīng)的描述文本。流程圖如圖4所示。
Table 3 Sentence and phrase level template表3 句子、短語(yǔ)層面模板
Fig.4 Abstract text generation model圖4 抽取式文本生成模型
實(shí)驗(yàn)分析了512名豆瓣用戶,其中包括77 801條用戶信息,平均每人152條書(shū)籍評(píng)論信息。收集到的評(píng)論數(shù)據(jù)中包括京東141 000條,豆瓣44 310條書(shū)籍評(píng)論信息。
在數(shù)據(jù)采集階段,采集到用戶所有讀過(guò)的書(shū)的信息,但是直接對(duì)用戶所有讀過(guò)的書(shū)進(jìn)行統(tǒng)計(jì)用戶畫(huà)像并不準(zhǔn)確,因?yàn)橛脩魰?huì)給讀過(guò)的書(shū)打分為2分、3分或者4分,這些分?jǐn)?shù)對(duì)應(yīng)的評(píng)論如表4所示。
Table 4 User reviews with star ratings表4 用戶評(píng)論與星級(jí)
可以看出,三星的評(píng)論已經(jīng)明顯顯示出用戶的不滿意,四星的圖書(shū)評(píng)語(yǔ)也展示了用戶對(duì)圖書(shū)的部分建議。對(duì)單個(gè)用戶書(shū)評(píng)星級(jí)五星占比進(jìn)行分析,得到圖5。
Fig.5 Five stars ratio of user book reviews圖5 用戶書(shū)評(píng)星級(jí)五星占比
可以得到,所有512名用戶中,有390人對(duì)已讀書(shū)的五星級(jí)評(píng)分?jǐn)?shù)占總評(píng)分?jǐn)?shù)的40%到50%。說(shuō)明用戶的書(shū)評(píng)中有50%左右的書(shū)籍評(píng)分為5星以下。因此對(duì)用戶的書(shū)評(píng)進(jìn)行預(yù)處理,取出評(píng)論為五星的書(shū)評(píng),對(duì)應(yīng)的書(shū)籍是用戶喜歡的。
對(duì)豆瓣數(shù)據(jù)去掉冗余后可以統(tǒng)計(jì)出豆瓣某用戶User_x的標(biāo)簽頻數(shù)統(tǒng)計(jì),表5展示了User_x統(tǒng)計(jì)頻數(shù),可以發(fā)現(xiàn)用戶User_x對(duì)小說(shuō)、中國(guó)等標(biāo)簽的書(shū)籍更感興趣。
Table 5 Douban label statistical frequency of User_x表5 用戶User_x 豆瓣標(biāo)簽統(tǒng)計(jì)頻數(shù)
由以上信息,表6展示了得到的用戶User_x的標(biāo)簽,該用戶喜歡古龍作者,偏好推理、武俠等題材的書(shū)籍。
對(duì)用戶信息整理得到的結(jié)果如圖6所示,可看出,豆瓣讀書(shū)喜歡小說(shuō)的用戶占大多數(shù),喜歡中國(guó)文學(xué)和外國(guó)文學(xué)的比重相近。但是前五的標(biāo)簽過(guò)于籠統(tǒng),統(tǒng)計(jì)出更加確切的書(shū)籍題材的占比如圖7所示??梢钥吹?,科幻、愛(ài)情、武俠等主題是用戶感興趣的主題。因此實(shí)驗(yàn)主要針對(duì)科幻主題。
Table 6 Labels of User_x表6 用戶User_x 的標(biāo)簽
Fig.6 Statistical graph of user preferences圖6 用戶偏好統(tǒng)計(jì)圖
Fig.7 Statistical graph of user preferences on topics圖7 用戶書(shū)籍題材偏好統(tǒng)計(jì)圖
對(duì)用戶的書(shū)籍裝幀進(jìn)行統(tǒng)計(jì),得到圖8,在512名用戶中有162名用戶讀過(guò)的書(shū)中超過(guò)50%的比例為精裝書(shū)籍,有31名用戶的喜好圖書(shū)中超過(guò)70%為精裝。說(shuō)明用戶對(duì)書(shū)籍的裝幀有不同的偏好,說(shuō)明書(shū)籍的個(gè)性化商品描述文本中考慮書(shū)籍裝幀特征是合理的。
Fig.8 User hardcover books ratio圖8 用戶精裝書(shū)籍占比
5.2.1 裝幀和題材內(nèi)容生成實(shí)驗(yàn)結(jié)果
在Encoder-Decoder結(jié)構(gòu)中,采用LSTM單元進(jìn)行模型的構(gòu)建。encoder使用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行屬性編碼,decoder使用兩層循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行解碼,每層神經(jīng)網(wǎng)絡(luò)賦值50個(gè)LSTM單元。模型在訓(xùn)練時(shí)輸入關(guān)鍵詞,目標(biāo)文本為關(guān)鍵詞對(duì)應(yīng)的語(yǔ)料庫(kù)。
(1)書(shū)籍題材描述文本生成實(shí)驗(yàn)中,將所有數(shù)據(jù)進(jìn)行預(yù)處理操作后得到的科幻題材對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)如表7??梢钥闯觯}材關(guān)鍵詞的語(yǔ)料庫(kù)中含有關(guān)于劉慈欣對(duì)中國(guó)科幻貢獻(xiàn)、書(shū)籍想象豐富等方面積極的評(píng)論?!跋胂罅M分”“細(xì)節(jié)豐富”等詞語(yǔ)很適合于廣告,題材關(guān)鍵詞的商品描述文本生成式生成結(jié)果如表8所示,對(duì)比實(shí)驗(yàn)為不加Attention機(jī)制的生成式文本生成模型。得到的文本多為主題切合科幻和劉慈欣的積極性文本,文本短小流暢,適合于商品描述文本。
Table 7 Science fiction corpus表7 科幻題材語(yǔ)料
(2)書(shū)籍裝幀描述文本生成實(shí)驗(yàn)中,文本生成式生成結(jié)果如表9所示,生成的文本主題都切合裝幀,并且情緒積極,適合于有關(guān)裝幀的商品描述文本。
Table 8 Comparison of experimental results of book topics表8 書(shū)籍題材實(shí)驗(yàn)結(jié)果對(duì)比
Table 9 Comparison of experimental results of book binding表9 書(shū)籍裝幀實(shí)驗(yàn)結(jié)果對(duì)比
BLEU(bilingual evaluation understudy)是一種機(jī)器翻譯的評(píng)價(jià)指標(biāo),用于分析機(jī)器翻譯的結(jié)果譯文和目標(biāo)譯文中n元組共同出現(xiàn)的程度,由IBM于2002年提出[21]。ROUGE(recall-oriented understudy for gisting evaluation)在2003年由Lin等人[22]提出,ROUGE采用召回率作為結(jié)果文本和目標(biāo)文本的相似度指標(biāo)。本文使用BLEU指標(biāo)和ROUGE指標(biāo)評(píng)估內(nèi)容的準(zhǔn)確度和流暢度,將不加Attention的Encoder-Decoder機(jī)制作為baseline,與加Attention機(jī)制的生成式文本生成結(jié)果對(duì)比如表10。
Table 10 Comparison of experimental results of various indicators表10 各項(xiàng)指標(biāo)實(shí)驗(yàn)結(jié)果對(duì)比
可以看到基礎(chǔ)的Seq2Seq模型和加入Attention的Seq2Seq模型對(duì)于裝幀關(guān)鍵詞的描述文本效果優(yōu)于科幻關(guān)鍵詞描述文本,因?yàn)檠b幀關(guān)鍵詞對(duì)應(yīng)的語(yǔ)料庫(kù)是從京東評(píng)論中提取,主題一致都是關(guān)于裝幀,并且結(jié)構(gòu)單一,文本較短,故學(xué)習(xí)效果好。科幻關(guān)鍵詞對(duì)應(yīng)的語(yǔ)料庫(kù)是從豆瓣評(píng)論中提取,文本較長(zhǎng)并且詞匯較為豐富,故學(xué)習(xí)效果略差。而從科幻關(guān)鍵詞的兩個(gè)模型對(duì)比中可以看出,加入Attention的模型效果更好,生成的文本更加流暢。并且從表8可以看出,基礎(chǔ)Seq2Seq模型生成的文本主題不一定關(guān)于科幻,加入Attention機(jī)制后,可以更好地學(xué)習(xí)與科幻有關(guān)的內(nèi)容。
5.2.2 模板生成實(shí)驗(yàn)結(jié)果
運(yùn)用混合模板生成的穩(wěn)定性很高,得到出版社文本結(jié)果如表11所示,可以直接生成出版社描述文本。
Table 11 Experimental results of book publishing house表11 書(shū)籍出版社實(shí)驗(yàn)結(jié)果
圖9展示了用戶點(diǎn)擊《三體》圖書(shū)個(gè)性化商品描述文本整體流程。
在用戶點(diǎn)擊圖書(shū)之前,通過(guò)用戶畫(huà)像得到用戶標(biāo)簽“裝幀,精裝;出版社,人民文學(xué)出版社;書(shū)籍題材,科幻、武俠、愛(ài)情;作者,劉慈欣、金庸、老舍”。商品畫(huà)像得到《三體》書(shū)籍產(chǎn)品標(biāo)簽“裝幀,精裝;出版社,三聯(lián)文學(xué)出版社;書(shū)籍題材,科幻;作者,劉慈欣”。
用戶點(diǎn)擊商品后,通過(guò)用戶標(biāo)簽與產(chǎn)品標(biāo)簽匹配可以得到個(gè)性化用戶偏好標(biāo)簽,通過(guò)對(duì)應(yīng)商品屬性生成最終商品描述“雨果獎(jiǎng)最佳長(zhǎng)篇小說(shuō)獎(jiǎng)劉慈欣;書(shū)裝幀簡(jiǎn)約,美觀大方;劉慈欣的科幻作品總是超越它的風(fēng)格;中國(guó)科幻的巔峰”。
CrowdDepict可針對(duì)不同的用戶特點(diǎn),自適應(yīng)地匹配商品賣(mài)點(diǎn)與用戶屬性,生成個(gè)性化商品描述,提升用戶的購(gòu)買(mǎi)率,降低撰寫(xiě)商品描述的人工成本。但個(gè)性化廣告數(shù)據(jù)集的缺失,妨礙了此類(lèi)任務(wù)的進(jìn)一步發(fā)展。
本文主要探索了生成式文本生成、抽取式文本生成以及模板-規(guī)則文本生成,通過(guò)多元數(shù)據(jù)融合,替代個(gè)性化廣告數(shù)據(jù)集。通過(guò)不同網(wǎng)站的評(píng)論數(shù)據(jù)可學(xué)到商品不同側(cè)面的描述文本,本文將書(shū)籍畫(huà)像分為出版社、作者、裝幀、圖書(shū)題材四個(gè)側(cè)面,并進(jìn)行商品描述內(nèi)容的生成。
實(shí)驗(yàn)結(jié)果表明,在沒(méi)有個(gè)性化數(shù)據(jù)集的情況下,CrowdDepict依然產(chǎn)生了符合用戶偏好的商品描述,且語(yǔ)言流暢連貫,具有較強(qiáng)的商品主題結(jié)合度。本文仍存在以下問(wèn)題:一是生成式文本生成模型結(jié)構(gòu)較為簡(jiǎn)單,對(duì)屬性融合直接采用了編碼形式,可能導(dǎo)致屬性信息的損失;二是直接將用戶評(píng)論作為商品描述文本的目標(biāo)文本,導(dǎo)致神經(jīng)網(wǎng)絡(luò)生成描述較為口語(yǔ)化,使得商品描述表達(dá)方式不夠客觀。
在未來(lái)的研究過(guò)程中,需要考慮屬性融合的其他方法,加入更新的預(yù)訓(xùn)練模型如Bert、GPT(generative pre-training)等,增加從商品評(píng)論中學(xué)習(xí)有關(guān)屬性的內(nèi)容,減少學(xué)習(xí)用戶的口語(yǔ)化表達(dá)部分,使得生成的文本更加客觀,或使用語(yǔ)言風(fēng)格遷移的方式,增強(qiáng)語(yǔ)言的說(shuō)明性風(fēng)格,以及使用更大的商品描述數(shù)據(jù)集。
Fig.9 Personalized book product description圖9 個(gè)性化圖書(shū)商品描述展示