李禎其,孫曉燕*,胡 堯,紀(jì)南巡
(1. 中國(guó)礦業(yè)大學(xué)信息與控制工程學(xué)院,江蘇 徐州 221116;2. 香港城市大學(xué)工程學(xué)院,香港 999077)
用戶提供的文本評(píng)價(jià),尤其是電子商務(wù)領(lǐng)域中各電商平臺(tái)的用戶評(píng)論,作為用戶生成內(nèi)容(User Generated Content,UGC)[1]重要組成部分,是用戶根據(jù)個(gè)人喜好和使用感受從不同角度對(duì)所購(gòu)買(mǎi)產(chǎn)品或服務(wù)給出的描述。充分挖掘和利用用戶評(píng)論隱含的偏好和需求信息,將會(huì)有效提高電商平臺(tái)個(gè)性化搜索的準(zhǔn)確率和個(gè)性化服務(wù)水平,并改善用戶的搜索體驗(yàn)。由于電商平臺(tái)的用戶評(píng)價(jià)數(shù)據(jù)通常以短文本形式存在,且評(píng)論內(nèi)容具有局部性、知識(shí)粒度和精度差異大等特點(diǎn),融合多用戶多角度評(píng)價(jià)文本數(shù)據(jù)則可望獲取關(guān)于評(píng)價(jià)對(duì)象的全局知識(shí)。此外,用戶一般通過(guò)向系統(tǒng)輸入簡(jiǎn)短查詢文本確定搜索對(duì)象,且更關(guān)注與其查詢對(duì)象相關(guān)的評(píng)價(jià),因此,以用戶搜索對(duì)象為參考對(duì)商品評(píng)論進(jìn)行個(gè)性化融合,則有望進(jìn)一步精準(zhǔn)定位到用戶感興趣的物品集合。圖1給出一實(shí)例,對(duì)于產(chǎn)品帽子,若可將其評(píng)價(jià)進(jìn)行向量化表示,然后進(jìn)行融合,將所有融合了多源文本(即多個(gè)用戶的歷史評(píng)價(jià))的數(shù)據(jù)模型作為搜索或者推薦對(duì)象,則該對(duì)象包含了除搜索對(duì)象自身特征之外的更豐富的社會(huì)評(píng)價(jià)信息。
圖1 融合用戶生成多源文本的物品向量化表示
鑒于此,本文利用Doc2Vec模型實(shí)現(xiàn)多源文本的向量化表示,并提出基于歐氏距離和余弦相似度的加權(quán)文本融合策略,以獲取與客戶端查詢對(duì)象相關(guān)的多源文本融合的精準(zhǔn)向量化表示。所提算法的貢獻(xiàn)主要包括如下3點(diǎn):1)在個(gè)性化搜索中,基于用戶生成內(nèi)容的圖像、視頻數(shù)據(jù)處理研究成果較多,而本文是研究基于客戶端簡(jiǎn)短輸入文本的多源評(píng)價(jià)文本融合的搜索物品向量化表示,出發(fā)點(diǎn)與已有研究不同;2)研究方法上,分析了在文本高維向量空間中歐氏距離和余弦相似度的差異互補(bǔ)特點(diǎn),提出基于雙相似度加權(quán)的用戶生成多源文本融合策略;3)給出了基于多物品向量化表示的分類評(píng)價(jià)準(zhǔn)則,以衡量多源文本融合及向量化表示的有效性。
在文本融合方面,Macedo等[2]針對(duì)社交活動(dòng)推薦中的冷啟動(dòng)特性,將社交信息、位置信息以及時(shí)間信息進(jìn)行融合,將融合后的信息看作推薦方法的輸入特征。Xie等[3]將用戶在搜索中的情感信息與基于情感所產(chǎn)生的用戶信息融合起來(lái),并提出基于情感相似性度量的情感排序準(zhǔn)則以獲取更為精準(zhǔn)的推薦排名。琚春華等[4]考慮地域文化背景、領(lǐng)域主題情景和主題特征等信息,提出了一種基于情境和主題特征融合的多維度個(gè)性化推薦模型,克服了數(shù)據(jù)稀疏性等問(wèn)題。Ding[5]提出NRPMT深度學(xué)習(xí)框架,在該框架中,多標(biāo)準(zhǔn)評(píng)級(jí)和用戶評(píng)論可以相互補(bǔ)充,以提高推薦的準(zhǔn)確性。上述研究成果表明融合多種信息之后的對(duì)象包含了更為豐富的內(nèi)容,更有利于實(shí)現(xiàn)個(gè)性化的推薦與搜索。不難看出,當(dāng)前已有關(guān)于UGC數(shù)據(jù)挖掘的研究尚未考慮用戶生成多源文本對(duì)于個(gè)性化搜索對(duì)象精準(zhǔn)向量化表示的價(jià)值。本文出發(fā)點(diǎn)是多源文本信息的融合向量化表示,因此,下面進(jìn)一步說(shuō)明文本向量化表示方面的相關(guān)工作。
關(guān)于文本的向量化表示,隨著深度學(xué)習(xí)的發(fā)展,谷歌公司提出Word2vec[6]和Doc2vec[7]算法框架,基于充足的語(yǔ)料庫(kù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),以充分獲取詞與詞之間的相關(guān)性,實(shí)現(xiàn)對(duì)詞和文本的向量化表示,并進(jìn)行相似性度量。進(jìn)一步,Mikolov等[8]利用Word2vec算法將一個(gè)向量空間向另一個(gè)向量空間轉(zhuǎn)換,實(shí)現(xiàn)了詞粒度上的機(jī)器翻譯。已有文本向量化工作主要關(guān)注了自然語(yǔ)言處理時(shí)的語(yǔ)義理解和生成,而文本向量化表示過(guò)程并未涉及多源文本向量化融合。
在進(jìn)行多源文本向量化融合時(shí),需要依據(jù)相似度進(jìn)行度量。朱命冬等[9]針對(duì)TF-IDF信息的余弦距離不屬于度量空間且難以構(gòu)建索引的問(wèn)題,面向不確定文本數(shù)據(jù)研究了基于余弦相似度的相似性查詢方法。陳小輝等[10]在歐氏距離計(jì)算的基礎(chǔ)上引入歸一化處理和Jaccard相似系數(shù),以緩解推薦系統(tǒng)中用戶對(duì)項(xiàng)目的評(píng)價(jià)數(shù)據(jù)的多樣性和稀疏性。Ayeldeen等人[11]提出在模糊歐氏距離聚類算法基礎(chǔ)上考慮文本關(guān)鍵字權(quán)重,實(shí)驗(yàn)結(jié)果表明所提方法有助于提升聚類效果。上述成果表明,融合不同的相似度評(píng)價(jià)方法可以提升相似度計(jì)算的準(zhǔn)確性,但目前在多源文本融合以及向量化表示方面的相關(guān)研究較少。
綜上所述,本文結(jié)合電商平臺(tái)中用戶的搜索方式及特點(diǎn),以用戶提供的個(gè)性化查詢文本為參考,研究多源文本融合的物品向量化表示,提出一種基于歐氏距離和余弦相似度的加權(quán)文本向量化融合策略,以期為個(gè)性化搜索對(duì)象的表示提供更多更精準(zhǔn)信息,從而更好的服務(wù)于個(gè)性化搜索。
本文所提算法框架如圖2所示,主要包括3部分,一是面向用戶生成多源文本的Doc2vec訓(xùn)練;二是文本向量化表示的相似度計(jì)算;三是基于雙相似度的多源文本向量化融合及其向量化輸出。
圖2 所提算法框架
文本相似性度量已有較多研究,傳統(tǒng)的方法如基于詞頻統(tǒng)計(jì)的字面匹配、語(yǔ)義匹配等;此外,基于文本向量化表示的相似性計(jì)算主要有歐氏距離、曼哈頓距離、切比雪夫距離、海明距離,以及最常用的余弦距離等。在本文所研究的用戶生成評(píng)價(jià)文本問(wèn)題中,由于這些評(píng)價(jià)文本可同時(shí)反映用戶的認(rèn)知和偏好,所以不同用戶對(duì)同一物品的評(píng)價(jià)具有一定的差異性。而本文目的是基于客戶端當(dāng)前用戶所輸入查詢文本信息,將同一物品的多源文本按照其與查詢文本的相似認(rèn)知(即討論的對(duì)象和情感)和偏好程度(即對(duì)象的細(xì)節(jié)部分,如價(jià)格、材質(zhì)、用途等)進(jìn)行精準(zhǔn)向量化融合,融合向量用以表征該物品,從而更加準(zhǔn)確、主動(dòng)的識(shí)別出用戶決策需求,為用戶提供高效的決策支持服務(wù)。
由于余弦距離對(duì)絕對(duì)數(shù)值不敏感,更加體現(xiàn)在文檔基于詞典的不同方向上的差異,而歐氏距離主要體現(xiàn)的是文檔相似度的具體數(shù)值差異[12]。因此,本文采用Doc2vec提取文本特征,對(duì)多源文本進(jìn)行向量化表示,并考慮基于歐氏距離和余弦距離的相似性度量。具體來(lái)說(shuō),當(dāng)兩用戶對(duì)某物品具有相近認(rèn)知時(shí),則對(duì)應(yīng)向量方向越一致,可采用余弦相似度衡量;而當(dāng)兩用戶評(píng)價(jià)偏好相近時(shí),其空間距離應(yīng)較小,可采用歐氏距離衡量[13]。如圖3所示,假定用戶查詢文本的向量為xu,用戶A提供的評(píng)價(jià)文本向量為xA,B的評(píng)價(jià)文本向量為xB,C的評(píng)價(jià)文本向量為xC,其中,用戶u查詢文本與用戶A和B評(píng)價(jià)文本的歐氏距離相同,余弦距離不同;用戶u查詢文本與用戶B和C評(píng)價(jià)文本的余弦距離相同,歐氏距離不同。此時(shí),若僅采用單一的歐氏距離或者余弦距離,則不能全面評(píng)價(jià)用戶查詢文本和評(píng)價(jià)文本的相似性,進(jìn)而影響基于該相似性的文本融合。因此,本文采用雙相似度衡量文本評(píng)價(jià)的相似性,進(jìn)而提出基于歐氏距離和余弦距離的加權(quán)相似文本向量化融合策略。
圖3 余弦相似度與歐氏距離關(guān)系
這里考慮用戶輸入的搜索文本Tu與各相關(guān)商品的其他用戶提供的評(píng)價(jià)文本Tk={T(k,1),T(k,2),…,T(k,mk)}的相似性。對(duì)于物品k,分別計(jì)算xu和Xk=[xk(1),xk(2),…,xk(mk)]T各文本向量的歐氏距離和余弦距離。對(duì)于物品k的第i條評(píng)價(jià)文本,其與用戶輸入文本向量間的歐氏距離和余弦距離分別如式(1)和式(2)所示
k=1,2…n,i=1,2,…,mk
(1)
(2)
圖4 雙相似度加權(quán)融合策略
基于客戶端查詢文本,往往有較多關(guān)聯(lián)物品,而每個(gè)物品可能存在較多評(píng)價(jià)文本,對(duì)向量化后的文本進(jìn)行融合時(shí),除了需要考慮認(rèn)知和偏好相似度外,還需同時(shí)考慮融合文本的貢獻(xiàn)率和融合后向量的空間一致性,即使得融合向量在認(rèn)知和偏好上與當(dāng)前用戶保持一致,才能有利于輔助用戶精準(zhǔn)找到滿足其需求的物品。為此,本文提出基于雙相似度貢獻(xiàn)率的一致性融合策略。進(jìn)行貢獻(xiàn)率融合時(shí),應(yīng)使得與當(dāng)前用戶查詢文本認(rèn)知和偏好越相似的文本整體貢獻(xiàn)率增強(qiáng),反之,則削弱。為此,作者對(duì)歐氏距離的權(quán)值計(jì)算進(jìn)行改進(jìn),提出如式(3)所示的歐氏距離加權(quán)策略
11.2.4 去勢(shì)(間苗):從靈芝現(xiàn)蕾開(kāi)始,要不間斷地、多次進(jìn)行間苗(去勢(shì)),可采用切割法、燙烙法等。同一菌木只留一個(gè)生長(zhǎng)在近中部、健壯、無(wú)畸形的菌蕾,去勢(shì)時(shí)不要觸摸菌蕾。
(3)
式中,min和max分別代表第k個(gè)物品中,其歷史用戶生成的多源文本與客戶端查詢文本的歐式距離最小值和最大值。
由式(3)知,dωk(i)越大,則用戶u的查詢文本與當(dāng)前物品k的第i條評(píng)價(jià)文本的偏好相似度越大,則該文本在多源文本融合中所占權(quán)重亦越大。與之類似,進(jìn)一步計(jì)算基于余弦相似度的評(píng)價(jià)文本重要性權(quán)重,因?yàn)橛嘞蚁嗨贫热≈捣秶鸀閇-1,1],為保證權(quán)值計(jì)算的合理性,需將其變換為[0,1]?;诖耍嘞蚁嗨贫鹊闹匾詸?quán)重如式(4)所示
(4)
針對(duì)客戶端當(dāng)前查詢文本,將與之對(duì)應(yīng)的第k個(gè)物品的所有多源文本進(jìn)行向量化融合,以獲得對(duì)當(dāng)前物品含歷史用戶多角度評(píng)價(jià)的向量表示,融合策略如圖4所示。其中,作者提出如式(5)基于歐氏距離和余弦相似度的用戶當(dāng)前查詢文本與評(píng)價(jià)文本相似度重要性的權(quán)重融合算法,以及式(6)基于重要性權(quán)重的文本融合后第k個(gè)物品的向量表示
(5)
(6)
為了驗(yàn)證本文所提算法性能,將其應(yīng)用于亞馬遜含有用戶評(píng)價(jià)的5類不同數(shù)據(jù)集[14],即數(shù)字音樂(lè)類、工業(yè)科學(xué)類、軟件類、電子游戲類和戶外運(yùn)動(dòng)類,對(duì)該數(shù)據(jù)集中所有物品的用戶評(píng)價(jià)進(jìn)行融合,將融合后的向量作為各物品的數(shù)字化表示,然后基于該向量表示,對(duì)5類物品進(jìn)行分類,若分類準(zhǔn)確率較高,則說(shuō)明融合后的向量可精準(zhǔn)表示各類別中的物品,進(jìn)而可表明本文所提多源文本融合向量化表示的有效性。
由于本文選擇的亞馬遜產(chǎn)品數(shù)據(jù)庫(kù)中的用戶評(píng)價(jià)存在數(shù)據(jù)缺失和重復(fù)評(píng)價(jià)等問(wèn)題,因此,首先對(duì)其進(jìn)行清洗處理;此外,當(dāng)某物品評(píng)價(jià)數(shù)量極少時(shí),融合文本條數(shù)的不平衡將導(dǎo)致融合精度不準(zhǔn)確,因此,實(shí)驗(yàn)中將評(píng)價(jià)數(shù)量少于10條的物品視為無(wú)效商品,并從中刪除;最后,由于本文所提融合策略的可行性是基于多分類來(lái)評(píng)判,為了盡可能減少干擾信息,因此需要保持類別間的數(shù)據(jù)平衡性,即對(duì)每一類的樣本數(shù)據(jù)隨機(jī)篩選50000條評(píng)論,并確保評(píng)論對(duì)應(yīng)的產(chǎn)品數(shù)量能相差不大。表1給出了經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)集中所包含的有效物品及相應(yīng)評(píng)價(jià)數(shù)量等基本信息。
表1 亞馬遜數(shù)據(jù)基本信息統(tǒng)計(jì)
實(shí)驗(yàn)環(huán)境采用基于Python的Anaconda平臺(tái)以及相應(yīng)的gensim3.7.1、nltk3.4庫(kù)。對(duì)于Doc2vec模型,根據(jù)經(jīng)驗(yàn)和文獻(xiàn)[8]本文使用PV-DM模型,訓(xùn)練參數(shù)設(shè)置如下:文本滑動(dòng)窗口為15,字典截?cái)嚅撝禐?,高頻詞匯的隨機(jī)降采樣的配置閾值為1e-5,用于控制訓(xùn)練的并行數(shù)為1,使用負(fù)采樣,噪聲詞設(shè)置為5,初始學(xué)習(xí)率設(shè)為0.01并隨迭代次數(shù)線性減少,使其在迭代訓(xùn)練結(jié)束時(shí)值為0。
為了說(shuō)明本文所提方法的有效性,共設(shè)計(jì)3組實(shí)驗(yàn):1)面向用戶評(píng)價(jià)短文本向量化表示的Doc2vec關(guān)鍵參數(shù)確定,即研究向量維度和訓(xùn)練迭代次數(shù)對(duì)融合和向量化表示的影響;2)比較5種不同相似度設(shè)置下,不同數(shù)量的文本融合后與用戶查詢文本間的歐氏和余弦相似度,以說(shuō)明不同相似度和融合文本數(shù)量對(duì)表示精準(zhǔn)性的影響;3)衡量融合算法的整體性能,比較各物品評(píng)價(jià)文本的向量化表示在不進(jìn)行融合處理與使用本文所提融合算法時(shí)的分類精度,說(shuō)明融合的必要性和有效性。
為了盡可能獲得評(píng)價(jià)文本的精準(zhǔn)向量化表示,需通過(guò)實(shí)驗(yàn)先確定Doc2vec模型的關(guān)鍵參數(shù)。影響Doc2vec性能的關(guān)鍵參數(shù)主要是語(yǔ)料庫(kù)大小、輸出層向量維度,以及模型迭代訓(xùn)練次數(shù)[7]。這里語(yǔ)料庫(kù)大小為各物品真實(shí)的用戶評(píng)價(jià)數(shù)量,而輸出層向量維度和模型迭代訓(xùn)練次數(shù)則需要通過(guò)反復(fù)實(shí)驗(yàn)確定。為此,本文考慮6種向量維度和6種迭代次數(shù)的匹配關(guān)系,通過(guò)對(duì)本文所用5類數(shù)據(jù)的平均分類準(zhǔn)確率確定合適的向量維度和迭代次數(shù)。首先,針對(duì)各數(shù)據(jù)集,分別隨機(jī)選擇90%作為訓(xùn)練樣本訓(xùn)練Doc2vec,然后,將剩余10%樣本的文本進(jìn)行向量化表示后作為測(cè)試樣本,采用邏輯回歸分類器對(duì)其進(jìn)行分類測(cè)試(未對(duì)文本進(jìn)行融合,即一條評(píng)價(jià)文本為一個(gè)分類樣本),比較分類精度和所需時(shí)間的變化,選擇分類精度相對(duì)較高且計(jì)算復(fù)雜度相對(duì)較小的參數(shù)設(shè)置。實(shí)驗(yàn)結(jié)果如表2所示。
從表2可以看出,1) 輸出向量維度:在固定的訓(xùn)練迭代次數(shù)下,隨著輸出向量維度的增加,基于文本評(píng)價(jià)向量化表示的物品分類精度逐漸增加,如迭代次數(shù)為5時(shí),分類精度從50維時(shí)的65.99%提升到維度為300時(shí)的70.12%,提升了近5%;不難看出,在維度從50變化到500時(shí),分類準(zhǔn)確率提升相對(duì)明顯,而從500增加到900時(shí),精度提升幅度相對(duì)減小,表明對(duì)于本文所考慮的用戶評(píng)價(jià)短文本,Doc2vec輸出向量維度并非越高越好,300維至500維即可;2) 訓(xùn)練迭代次數(shù):在固定維度下,如300維時(shí),隨著迭代次數(shù)從1、5、10增加到20,分類精度逐漸提高,從61.27%提升到80.37%,提升了20%,說(shuō)明迭代次數(shù)增加對(duì)于Doc2vec輸出表示影響較大;但是,當(dāng)?shù)螖?shù)進(jìn)一步從20變化到50和100時(shí),基于文本向量化表示的分類精度則開(kāi)始減小,說(shuō)明迭代次數(shù)過(guò)大反而導(dǎo)致模型局部收斂,影響了輸出向量化的精準(zhǔn)性和泛化性,因此,本文選擇迭代次數(shù)為20;3) 綜合比較輸出向量維度、迭代次數(shù)以及算法運(yùn)行時(shí)間,可進(jìn)一步看出隨著維度和迭代次數(shù)增加,算法運(yùn)行時(shí)間大幅度增加,為此,為兼顧向量精準(zhǔn)化和計(jì)算復(fù)雜度,本文設(shè)定Doc2vec輸出向量維度為300,模型訓(xùn)練迭代次數(shù)為20。
表2 不同向量維度和訓(xùn)練次數(shù)對(duì)向量化精度的影響
根據(jù)4.1和4.2節(jié)參數(shù)設(shè)置,本部分實(shí)驗(yàn)進(jìn)一步研究不同融合策略以及參與融合文本數(shù)量對(duì)用戶生成評(píng)價(jià)文本向量化表示的影響。關(guān)于融合策略的有效性,這里考慮5種文本融合方法,分別記為:1#:無(wú)向量融合;2#:多源文本向量直接相加融合,取其均值作為融合向量;3#:直接采用式(3)歐氏距離作為權(quán)重,對(duì)多源文本向量進(jìn)行加權(quán)融合;4#:僅利用式(4)余弦距離作為權(quán)重,對(duì)多源文本向量進(jìn)行加權(quán)融合;5#:采用本文所提雙相似度方法,即式(5)對(duì)評(píng)價(jià)文本進(jìn)行加權(quán)融合。通過(guò)對(duì)比不同融合文本數(shù)目設(shè)定下,上述5種方法所得物品多源文本融合向量與用戶查詢文本向量之間的歐氏距離和余弦相似度指標(biāo)(1#取相似度均值),以說(shuō)明本文所提融合策略的有效性。
表3 隨機(jī)選擇的搜索物品和用戶評(píng)價(jià)信息
從各類各物品中隨機(jī)選擇參與融合的多源文本,數(shù)量分別取為2條、8條、14條、20條、26條、32條、38條、41條和50條。針對(duì)5類數(shù)據(jù)集,隨機(jī)選擇其中的一條用戶評(píng)價(jià)作為用戶查詢輸入,并將其從數(shù)據(jù)集中刪除,重復(fù)實(shí)驗(yàn)10次,計(jì)算所得相似性指標(biāo)的平均值;由于文章篇幅限制,本文分別從5類數(shù)據(jù)集中隨機(jī)選擇一個(gè)物品作為說(shuō)明對(duì)象,所選物品信息和用戶評(píng)價(jià)對(duì)應(yīng)的物品編號(hào)信息如表3所示,相應(yīng)實(shí)驗(yàn)結(jié)果如圖5~9所示。
圖5 數(shù)字音樂(lè)數(shù)據(jù)集
圖6 工業(yè)科學(xué)數(shù)據(jù)集
圖7 軟件數(shù)據(jù)集
圖8 電子游戲數(shù)據(jù)集
圖9 戶外運(yùn)動(dòng)數(shù)據(jù)集
圖10 歐氏、余弦和融合權(quán)重
由圖5~9可知:1) 所比較的5種用戶評(píng)價(jià)方法中,本文所提基于雙相似度的加權(quán)融合策略即5#效果最好;本文所給式(3)基于歐氏距離的加權(quán)融合方法3#略差于雙準(zhǔn)則融合機(jī)制。2) 進(jìn)行多源文本融合后的物品向量化表示與用戶期望物品向量相似度都明顯優(yōu)于1#方法,說(shuō)明進(jìn)行多源文本融合可有效增加對(duì)物品描述的全面性,從而真實(shí)表達(dá)出更符合用戶搜索需求的物品信息;3) 評(píng)價(jià)文本融合條數(shù)從2條到8條時(shí),融合后物品描述文本和搜索文本的歐氏距離急速減小,余弦相似度明顯增大,說(shuō)明隨著融合條數(shù)的增加,融合后向量包含的物品特征逐漸豐富,可以更加細(xì)致的描述物品特性。4) 而隨著融合文本數(shù)量進(jìn)一步增加,向量特征逐漸飽和,即對(duì)該物品的描述已趨于全面,則樣本融合后性能開(kāi)始趨于穩(wěn)定;當(dāng)融合文本數(shù)量超過(guò)一定數(shù)值,如本實(shí)驗(yàn)中,文本數(shù)量超過(guò)30條后,融合信息和期望查詢文本間的相似性反而呈現(xiàn)下降趨勢(shì),原因在于當(dāng)融合信息已較完善時(shí),再有其它信息加入時(shí)可能造成信息冗余甚至引入噪聲,從而影響了物品描述的真實(shí)特征分布??紤]資源利用與時(shí)間效率,對(duì)于短文本評(píng)價(jià)最優(yōu)融合條數(shù)可不高于30。5) 隨著融合文本數(shù)量的增加,本文所提融合策略5#與基于歐氏距離的加權(quán)融合策略3#所得融合向量相似度逐漸增加,其原因正是由于余弦相似度反映用戶的認(rèn)知一致性,而歐氏距離反映不同用戶的評(píng)價(jià)偏好,顯然,對(duì)于同一物品,不同用戶的認(rèn)知差異會(huì)隨著融合信息增加逐漸減小,因此余弦相似度在文本數(shù)量增加時(shí),其作用逐漸減??;而用戶偏好往往具有較大差異,隨著越來(lái)越多用戶參與,融合向量與期望向量的差異將主要由歐氏距離決定,從而使得此情況下本文方法與歐氏距離加權(quán)所得物品用戶評(píng)價(jià)向量更接近。
為了直觀理解本文所提融合策略的有效性,本文進(jìn)一步以數(shù)字音樂(lè)數(shù)據(jù)集融合評(píng)論文本條數(shù)為50時(shí)為例,隨機(jī)選取一次實(shí)驗(yàn)中多源文本和查詢文本的歐氏距離權(quán)重、余弦相似度權(quán)重,以及融合權(quán)重的變化曲線進(jìn)行可視化,結(jié)果如圖10所示。其中,搜索文本內(nèi)容為 “The anthemic title track begins quot; The Memory of Trees…”,融合的評(píng)價(jià)文本主要是用戶對(duì)歌手恩雅第四張CD某些歌曲的評(píng)價(jià)。
從圖10可以看出:1) 本文所定義余弦相似度、歐氏距離,以及融合權(quán)重的取值變化范圍在0.01~0.035,具有同等量級(jí)大?。?) 由于Doc2vec獲得的文本向量為300維,較小的取值范圍不會(huì)導(dǎo)致向量波動(dòng)過(guò)大,有助于抑制噪聲;3) 余弦相似度和歐氏距離兩者權(quán)重值的波動(dòng)趨勢(shì)大致相同,當(dāng)融合文本為第15條,即 “quot; Wouldn’t It Be Nice quot;-lyrics are sophomoric,but it’s still a good one! quot…” 三個(gè)權(quán)重值都比較高,這是因?yàn)榈?5條評(píng)價(jià)的歌曲與用戶查詢歌曲相同,同時(shí)評(píng)價(jià)情感方向都是對(duì)歌曲的贊美。而對(duì)于第21條文本,即 “At the time of this writing Amazon lists 365 reviews of PET SOUNDS under one or another CD release (and I won′t be offended if you choose to read some of them…” 歐氏距離權(quán)重相較于余弦相似度出現(xiàn)明顯的波動(dòng),這是因?yàn)榈?1條評(píng)論是關(guān)于寵物音樂(lè)創(chuàng)作的由來(lái)以及對(duì)其中幾首有名歌曲的賞析評(píng)價(jià),雖然相較于搜索文本都是對(duì)歌曲的賞析評(píng)價(jià),但其特征內(nèi)容出現(xiàn)明顯差別,因此歐氏距離權(quán)重值較低。4) 融合權(quán)重波動(dòng)性更大,主要是基于雙相似度的加權(quán)處理,進(jìn)一步區(qū)分了用戶認(rèn)知和偏好的差異度,從而使得評(píng)價(jià)越相似,在融合中的作用越強(qiáng),反之,具有較低相似度的評(píng)價(jià)文本信息則被削弱,可使得融合后的物品信息更符合用戶的查詢需求。
為了進(jìn)一步說(shuō)明融合后向量的可信性,這里針對(duì)表1所列5類亞馬遜數(shù)據(jù)集中所有物品的用戶生成多源評(píng)價(jià)文本進(jìn)行融合,然后利用相同的分類器對(duì)向量化表示的物品進(jìn)行分類,比較融合效果較優(yōu)的3#、4#和本文所提融合策略5#得到的融合文本向量所表示物品的分類準(zhǔn)確率,分類準(zhǔn)確率越高,說(shuō)明融合向量對(duì)物品描述越準(zhǔn)確。這里,實(shí)驗(yàn)中每個(gè)物品融合條數(shù)設(shè)定為4、6、8、10,并采用邏輯回歸分類器對(duì)所得融合向量進(jìn)行分類,實(shí)驗(yàn)結(jié)果如表4所示,其中最后一列為未進(jìn)行文本融合情況下的分類結(jié)果。
表4 分類精度對(duì)比(%)
由表4可以看出:1) 不對(duì)用戶評(píng)價(jià)進(jìn)行任何融合,只對(duì)用戶評(píng)價(jià)向量化的分類準(zhǔn)確率為80.37%,而采用本文所提融合策略,隨著融合數(shù)量的增加,分類準(zhǔn)確率不斷增加,即使僅融合4條用戶評(píng)價(jià),本文所提融合策略所得向量的分類準(zhǔn)確率也能提升11.16%,而當(dāng)融合8條時(shí),分類準(zhǔn)確率提升了13.37%。2) 當(dāng)多源文本的融合樣本數(shù)大于8條時(shí),模型分類精度增長(zhǎng)變得緩慢,原因在于此時(shí)融合向量已包含了物品較豐富信息,其向量表達(dá)隨著融合文本數(shù)量增加變化不大,結(jié)合4.3小節(jié)實(shí)驗(yàn)結(jié)果,再次表明樣本融合樣本數(shù)為8條時(shí)融合效果較好。3) 比較四種融合策略,可以看出,本文所提融合策略相較于其它三種融合策略能取得較好的分類效果,而5#與3#分類精度差距較小,隨著融合文本條數(shù)增加,四種融合方法的分類精度差距逐漸減小,當(dāng)融合條數(shù)為10條時(shí),5#和3#幾乎能達(dá)到相同的分類效果,這是因?yàn)楫?dāng)融合樣本數(shù)量較少時(shí),四種融合方法關(guān)注的特征向量會(huì)有較大差別,而隨著融合樣本數(shù)量增加,導(dǎo)致特征向量增加,從而使得被加權(quán)的特征向量之間差異性逐漸減小。
為了更直觀的說(shuō)明本文所提基于個(gè)性化查詢和雙相似度的用戶生成多源文本融合算法的有效性,本文進(jìn)一步探究了對(duì)物品多源文本不進(jìn)行融合,以及采用本文所提融合策略5#對(duì)物品描述向量化后的K-means聚類實(shí)驗(yàn),對(duì)二者進(jìn)行PCA降維至二維空間后的可視化結(jié)果如圖11和12所示。
圖11 無(wú)融合的評(píng)價(jià)向量化物品聚類圖12 多源文本融合向量化物品聚類(融合條數(shù)為8)
比較圖11和圖12可以看出,對(duì)多源文本進(jìn)行向量融合后不同物品具有更加明顯的類別特性,融合策略5#與無(wú)融合策略1#相比,聚類后的輪廓系數(shù)提高了約0.14,進(jìn)一步表明本文所提融合策略的有效性;此外,融合前向量空間中樣本總數(shù)為249996個(gè)樣本向量,融合后向量空間中樣本總數(shù)為6709個(gè)向量點(diǎn),說(shuō)明對(duì)多源文本進(jìn)行融合有效集成了同一物品的多源特性,使得對(duì)物品描述更準(zhǔn)確更全面,減少了冗余信息的噪聲干擾,從而可使得基于用戶評(píng)價(jià)的物品向量化描述更精準(zhǔn),可為用戶個(gè)性化搜索提供更加精準(zhǔn)的信息。
此外,針對(duì)融合前后評(píng)價(jià)文本向量與客戶端搜索內(nèi)容的匹配程度也能進(jìn)一步表明本文所提融合策略5#的有效性。實(shí)驗(yàn)中,以數(shù)字音樂(lè)為例,隨機(jī)選取兩條用戶評(píng)價(jià)文本“This is the absolute peak of Petra’s rock career. This CD defines John Schlit’s highest level of achievement as the band’s lead singer. Jekyl and Hyde is a harder rockin CD,but ON FIRE! sets the pace.”、“This is Alison Krauss at her best. This CD is full of killer songs played wonderfully by great musicians. Her voice soars! The music is more bluegrass than her recent CDs that are filled with ballads. But this still has a great mix of fast & slow songs.”作為客戶端搜索查詢內(nèi)容,并將這兩條文本數(shù)據(jù)從數(shù)據(jù)庫(kù)中刪除,其所對(duì)應(yīng)的產(chǎn)品編號(hào)分別為′7901622466′、′B0000002JR′。同時(shí),隨機(jī)選取數(shù)字音樂(lè)數(shù)據(jù)集中的12個(gè)產(chǎn)品,其所對(duì)應(yīng)的產(chǎn)品圖片描述信息如圖13所示,圖中所展示的物品從左到右的產(chǎn)品編號(hào)依次是′5555991584′,′7901622466′,′B0000000ZW′,′B00000016T′,′B00000016W′,′B00000017R′,′B0000001BA′,′B0000001P4′,′B0000001VZ′,′B0000002HZ′,′B0000002J9′,′B0000002JR′。計(jì)算這12個(gè)產(chǎn)品各自的評(píng)價(jià)文本融合前后與客戶端搜索文本的余弦相似度,從而找出根據(jù)搜索內(nèi)容模型給出的推薦產(chǎn)品,實(shí)驗(yàn)結(jié)果如圖14所示。
圖13 數(shù)字音樂(lè)數(shù)據(jù)集中12個(gè)產(chǎn)品的圖片信息
圖14 融合前1#與融合后5#查詢出的文本信息
對(duì)于搜索文本“This is the absolute peak of Petra’s rock career. This CD defines John Schlit’s highest level of achievement as the band’s lead singer. Jekyl and Hyde is a harder rockin CD,but ON FIRE! sets the pace.”融合前后查詢出來(lái)的文本信息如圖14(a)所示,可以看到融合前后模型最優(yōu)查詢產(chǎn)品都是′7901622466′,而次優(yōu)推薦的產(chǎn)品卻不相同,1#模型查詢的結(jié)果是′5555991584′,5#模型查詢的結(jié)果是′B00000016T′。雖然次優(yōu)查詢結(jié)果都是關(guān)于搖滾音樂(lè),但是′5555991584′歷史評(píng)價(jià)更多描述的是“New Age”、“Meditation”等詞,而產(chǎn)品′ B00000016T ′ 的評(píng)價(jià)文本較多是“Alternative Rock”、“New Wave & Post-Punk”、“Album-Oriented Rock (AOR)”等詞,更偏向于硬搖滾的風(fēng)格。
對(duì)于搜索文本“This is Alison Krauss at her best. This CD is full of killer songs played wonderfully by great musicians. Her voice soars! The music is more bluegrass than her recent CDs that are filled with ballads. But this still has a great mix of fast & slow songs.”融合前后查詢出來(lái)的文本信息如圖14(b)所示,可以看到5#的最優(yōu)推薦是′B0000002JR′,與搜索文本所對(duì)應(yīng)的產(chǎn)品編號(hào)是一致的。而1#的最優(yōu)推薦是產(chǎn)品′B0000002J9′和′B0000002JR′,這是因?yàn)椤銪0000002JR′和′B0000002J9′都是Alison Krauss創(chuàng)作的歌曲,且屬于bluegrass系列。而′B0000002JR′專輯的音樂(lè)更注重樂(lè)調(diào)和聲音的變化、如歷史評(píng)價(jià)“…and her voice still has most of that thin,reedy quality that you associate with bluegrass. But if you listen,it’s just beginning to warm up some and lose that young-girl quality…”、“…that have made her famous with her angelically emotive voice…”、“…It’s amazing how strong her voice was at such a young age…”等,這與搜索文本中所出現(xiàn)的關(guān)鍵詞“voice soars”、“mix of fast & slow songs”所對(duì)應(yīng),′B0000002J9′評(píng)價(jià)文本則更多的強(qiáng)調(diào)的是“fiddle”、“band”、“Jeff White”、“young”等信息,與搜索文本有所差別。
從上面的融合前后查詢例子中可以分析,本文所提基于雙相似度加權(quán)的用戶生成多源文本融合策略能夠更明確的捕捉到客戶端查詢內(nèi)容和產(chǎn)品數(shù)據(jù)庫(kù)的實(shí)際關(guān)聯(lián)程度,經(jīng)過(guò)加權(quán)融合處理的評(píng)價(jià)文本向量化表示能更加全方位的展示產(chǎn)品真實(shí)信息,這為后期的個(gè)性化搜索推薦系統(tǒng)的精準(zhǔn)性奠定了基礎(chǔ)。
用戶生成內(nèi)容已成為當(dāng)前面向用戶個(gè)性化服務(wù)的重要數(shù)據(jù)組成,對(duì)其價(jià)值的充分挖掘和應(yīng)用正逐漸成為當(dāng)前大數(shù)據(jù)領(lǐng)域研究的熱點(diǎn)之一。本文針對(duì)用戶生成的歷史文本評(píng)價(jià)信息,考慮基于用戶查詢內(nèi)容的文本融合表示,提出了面向用戶認(rèn)知和偏好雙相似度的多源文本融合策略。算法首先利用Doc2vec將與用戶查詢文本相關(guān)物品的多源文本向量化,然后計(jì)算各評(píng)價(jià)文本和查詢文本的余弦相似度和歐氏距離,進(jìn)而給出基于上述相似準(zhǔn)則的相似度權(quán)重,以及權(quán)重融合策略。所提算法在亞馬遜數(shù)據(jù)集的應(yīng)用表明了其融合的精準(zhǔn)性和可靠性。如何充分利用融合后的物品文本向量化表示將是未來(lái)工作所需進(jìn)一步考慮的問(wèn)題。