陳俊虹 劉詠梅
摘 要:商務(wù)女裝是女性的日常著裝之一,很多女性在網(wǎng)購商務(wù)女裝時常常花了很長的搜索時間卻找不到令人滿意的服裝。本文將根據(jù)用戶在搜索過程中常用的關(guān)鍵詞類別進行調(diào)研,得到用戶在網(wǎng)購時常用的關(guān)鍵詞排序后,再根據(jù)關(guān)鍵詞的內(nèi)容進行細分,構(gòu)建標簽體系。根據(jù)TF-IDF和余弦相似算法構(gòu)建基于標簽的推薦系統(tǒng),從而提高用戶在購買商務(wù)女裝時的精確度。
關(guān)鍵詞:標簽推薦算法;用戶興趣;商務(wù)女裝;個性化推薦系統(tǒng)
中圖分類號:TS941.26 文獻標識碼:B 文章編號: 1674-2346(2017)04-0068-05
1 引言
隨著互聯(lián)網(wǎng)的發(fā)展,各大電商平臺不斷壯大,網(wǎng)購人群也呈現(xiàn)上升的趨勢。很多事業(yè)型的女性在兼顧家庭和實業(yè)之余,往往選擇在網(wǎng)絡(luò)上進行購物。淘寶、天貓等電商平臺,均能夠找到各種各樣與商務(wù)女性相關(guān)的服裝。然而也發(fā)現(xiàn)一些問題,例如通過關(guān)鍵詞的搜索,卻找不到自己喜歡的服裝,或者要花費很長的時間才找到目標服裝。為了節(jié)約消費者購物時間和精力,提高用戶的決策效率,因此很多電商平臺推出了個性化推薦系統(tǒng)。
在這個信息過剩的時代里,一方面,消費者要從大量信息中篩選出自己感興趣的信息是一件較為困難的事;而生產(chǎn)者和經(jīng)營者要讓廣大消費者對自己產(chǎn)品的信息引起足夠的注意,也不是一件易事。推薦系統(tǒng)就是解決這類矛盾的重要工具之一。推薦系統(tǒng)通過發(fā)掘用戶的行為,找到用戶的個性化需求,從而將長尾商品準確地推薦給需要他的用戶,幫助用戶發(fā)現(xiàn)那些他們感興趣但很難發(fā)現(xiàn)的商品。[1]
傳統(tǒng)的推薦系統(tǒng)包含三大基本要素:用戶、資源以及用戶對項目的評分。根據(jù)用戶評分,產(chǎn)生相關(guān)的用戶模型或項目模型,然后再根據(jù)相關(guān)模型特征產(chǎn)生用戶感興趣的服裝,并推薦給用戶,或者產(chǎn)生與已知服裝相似的服裝推薦給用戶。目前推薦系統(tǒng)被廣泛地運用于各大電商平臺的各個領(lǐng)域,在促進服裝銷售方面起到了極大的作用。
2 推薦技術(shù)類型
根據(jù)國內(nèi)外研究成果,推薦算法主要分為: 基于內(nèi)容的推薦算法 ( Content - based,簡稱 CB) 、協(xié)同過濾推薦算法 ( Collaborative Filtering,簡稱 CF) 和混合推薦算法。[2]
2.1 基于內(nèi)容的推薦算法
基于內(nèi)容的推薦是建立在項目的內(nèi)容信息上作出的推薦,不需要根據(jù)用戶對項目的評價?;趦?nèi)容的推薦系統(tǒng)通過特征屬性來定義對象,當用戶對對象進行評價后,系統(tǒng)再通過學習用戶的興趣來判斷用戶的資料和待預(yù)測項目之間的吻合程度。[3]
基于內(nèi)容的推薦有優(yōu)點,如:沒有冷啟動問題和稀疏問題。但也有缺點,要求內(nèi)容能比較容易地抽取,并形成有意義的特征,且內(nèi)容具有良好的結(jié)構(gòu)。
2.2 協(xié)同過濾推薦算法
協(xié)同過濾推薦算法一般分為2種類型:一是基于用戶的協(xié)同過濾推薦算法,二是基于項目的協(xié)同過濾推薦算法。
基于用戶的協(xié)同過濾算法是推薦系統(tǒng)中較為古老的推薦算法。通常協(xié)同過濾推薦算法包含2個步驟,首先要找到用戶集,該用戶集要和目標的用戶興趣相似,然后再找到該集合中用戶所喜歡的集合,并且是目標用戶還沒有看過的物品。
基于項目的協(xié)同過濾推薦算法(簡稱Item CF)是根據(jù)用戶的行為記錄來計算物品與物品之間的相似程度;而目標用戶對未評分項目的喜好度,則是通過他在歷史項目中的相似項目的評分來加權(quán)擬合,從而產(chǎn)生推薦。
2.3 混合推薦算法
因為協(xié)同過濾、基于內(nèi)容和基于圖結(jié)構(gòu)等推薦算法各自存在問題,因而提出混合推薦算法,來達到“相互取長補短”的目的。[4]混合推薦可以獨立運用協(xié)同過濾、基于內(nèi)容和基于圖結(jié)構(gòu)的推薦算法,將多種算法進行融合,再將融合后的結(jié)果推薦給用戶。在現(xiàn)實生活中,通常會采用組合推薦的形式,其中內(nèi)容推薦和協(xié)同過濾推薦的組合運用最多。
3 商務(wù)女裝標簽體系
3.1 標簽簡介
標簽是一種內(nèi)容組織方式,是相關(guān)性很強的關(guān)鍵詞,能方便地幫助我們找到合適的內(nèi)容及內(nèi)容分類。標簽體系的設(shè)計有2個較為常見的要求:一是便于檢索,二是效果顯著。在不同的場景下,對這兩點的要求重點是不同的。
一般而言,標簽體系可分為3類:結(jié)構(gòu)化標簽體系、半結(jié)構(gòu)化標簽體系以及非結(jié)構(gòu)化標簽體系。
3.2 商務(wù)女裝標簽體系構(gòu)建
在商務(wù)女裝平臺上,用戶對服裝打的標簽依據(jù)的是系統(tǒng)已有的服裝標簽體系,屬于結(jié)構(gòu)化的標簽體系。用戶根據(jù)自己的喜好進行標簽選擇。而系統(tǒng)內(nèi)的標簽依據(jù)的是用戶對服裝的搜索習慣。
為了獲得用戶的搜索習慣,本研究展開了問卷調(diào)研:1)采用第三方問卷調(diào)查,利用專業(yè)在線調(diào)查網(wǎng)站問卷星進行調(diào)研。2)分別通過手機端和PC端向調(diào)研用戶發(fā)放,在線填寫問卷。3)結(jié)果得到樣本總量為223份,有效問卷206份,無效問卷17份,問卷有效率92%,回收率100%。調(diào)查結(jié)果見表1。
根據(jù)調(diào)查,將用戶對商務(wù)女裝的搜索關(guān)鍵詞前5項進行排名,排序的結(jié)果是評價的綜合得分。具體的計算方法是:選項平均綜合得分=( 頻數(shù)茲ㄖ擔?本題填寫人次(權(quán)值由選項被排列的位置決定)。結(jié)果顯示前7個最常用的搜索關(guān)鍵詞是款式、風格、品牌、類目(如大衣,襯衫,褲裝等)、面料、穿著場合、色彩?;诖耍覀儗ι虅?wù)女裝的款式、風格、品類、面料、穿著場合、色彩分別進行分類,每一標簽之間權(quán)重相等,例如“穿著場合”下的標簽分為4大類:日常辦公、接待會談、宴請活動、慶典活動。除了系統(tǒng)設(shè)置的標簽內(nèi)容供用戶選擇,還設(shè)置了用戶自由輸入標簽的窗口,目的是防止用戶找不到自己的目標標簽以及系統(tǒng)設(shè)置的標簽和服裝本身不吻合。
本研究還對商務(wù)女裝不同品類的服裝維度進行了調(diào)研,如表2、表3所示,除褲裝外,被調(diào)研者首要關(guān)注的是風格。從下裝來看,被調(diào)研者最關(guān)注半身裙的風格、廓形、長度,褲裝的褲腿型、風格、長度,而對于圖案,大家則較少關(guān)注。從上裝來看,被調(diào)研者最關(guān)注的還是風格,最不關(guān)注的是袖長。對于連衣裙,被調(diào)研者第二關(guān)注的是裙長,其次是腰型。在襯衫這一品類下,用戶最關(guān)注的服裝維度是風格,第二關(guān)注的是領(lǐng)型,其次是廓形。而對于外套,被調(diào)研者首要關(guān)注的是風格,其次是廓形,第三是衣長。
根據(jù)每個品類下用戶最關(guān)注的服裝維度進行標簽推薦,從而促進服裝標簽系統(tǒng)的改進和完善,也滿足了用戶的喜好,最終達到推薦的目的。
4 推薦模型構(gòu)建
4.1 構(gòu)建用戶興趣模型
本研究根據(jù)商務(wù)女裝的商品特征以及推薦算法的分析,提出基于商務(wù)女裝相關(guān)標簽的推薦模型。根據(jù)商務(wù)女裝的分類以及用戶在選購服裝時考慮的要素,提取與商務(wù)女裝相關(guān)的標簽,提出基于標簽的推薦算法,構(gòu)成了用戶-標簽、標簽-服裝2個二維關(guān)系。[5]通過用戶、服裝這2個方面同時挖掘用戶的興趣,構(gòu)建用戶的興趣模型,再利用服裝的標簽內(nèi)容進行相似度計算,最后根據(jù)用戶對服裝的興趣度進行排序,從而形成推薦。具體的推薦過程描述如下:
1)根據(jù)用戶-標簽-服裝的三維關(guān)系分解為用戶-標簽、標簽-服裝的2個二維關(guān)系,根據(jù)TF-IDF計算出用戶對服裝的興趣度。
2)根據(jù)服裝的標簽內(nèi)容,用相似度計算尋找與用戶感興趣服裝標簽內(nèi)容最相似的n個服裝。
3)將最相似的服裝按照從大到小排序,然后取出排名n的作為最終的 Top-N 推薦集。
4.1.1 用戶與標簽的關(guān)聯(lián)度
首先定義用戶集U={U1,U2,U3……Un},用戶總數(shù)為D,服裝集R=大{R1,R2,R3……Rn},用戶標注形成的標簽集T={T1,T2,T3……Tn},服裝總數(shù)為Q。
TF-IDF[6](term frequency-inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF在推薦系統(tǒng)中的意思是用戶u對資源使用標簽t進行標注的頻率,等于用戶ui對資源標注標簽tj的次數(shù)除以用戶u標注的總次數(shù),計算公式如下:
IDF表示標簽t關(guān)于用戶的逆向文件頻率,等于用戶總數(shù)D除以1加上標注過標簽 ti的用戶總數(shù)j,再對得到的商取對數(shù)(加1是為了防止對數(shù)為0),計算公式如下:
4.1.2 服裝與標簽的關(guān)聯(lián)度
服裝與標簽的關(guān)聯(lián)度是指服裝被該標簽標記的可能性,計算公式如(4)、(5)、(6)所示:
TF的意思是標簽t被標注在服裝r上的頻率,等于標簽ti被標注在服裝r上的次數(shù)除以標注在服裝r上的標簽總數(shù),計算公式(4)所示:
IDF表示標簽t關(guān)于服裝的逆向文件頻率,等于服裝總數(shù)Q除以1加上服裝中被標簽ti標注的總數(shù)l,再對得到的商取對數(shù)(加1是為了防止對數(shù)為0),計算公式(5)所示:
4.2 服裝相似度量
相似度量采用基于向量夾角余弦的相似度算法。把用戶對服裝標注的標簽看做是n維空間上的向量,如果用戶對服裝沒有打相應(yīng)的標簽,則用戶對該服裝的向量記為零向量。服裝與服裝之間的相似性通過向量之間的余弦夾角度量。
用戶-服裝的標簽矩陣T的第i個列向量表示一個項i,則設(shè)項i和項j在n維用戶空間上的評分分別表示為向量 和 ,則向量 和 之間的相似性Sim(x,y)為:
(8)
4.3 預(yù)測排序
根據(jù)公式(8)中找到與用戶感興趣的服裝最相似的服裝進行排序,按照相似度從大到小排序。取出排序靠前的n個服裝作為推薦。
5 小結(jié)
服裝推薦算法是目前各大電商平臺與企業(yè)都在進行的課題。本研究通過用戶調(diào)研建立商務(wù)女裝的標簽體系,并根據(jù)用戶的標簽和商務(wù)女裝的標簽構(gòu)建基于標簽的推薦模型,目的在于改善標簽的構(gòu)成以及提高用戶搜索內(nèi)容的準確性。
參考文獻
[1]項亮.推薦系統(tǒng)實踐[M].北京:人民郵電出版社,2012,73-77.
[2]楊博,趙鵬.推薦算法綜述[J].山西大學學報:自然科學版,2011 (3):337-350
[3]何克勤. 基于標簽的推薦系統(tǒng)模型及算法研究[D].上海:華東師范大學,2010.
[4]王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應(yīng)用,2012,48(7):71.
[9]劉健,張琨,陳旋.基于標簽和協(xié)同過濾的個性化推薦算法[J].計算機與現(xiàn)代化,2016 (246):62-71.
[10]王石,曹存根,裴亞軍,等.一種基于搭配的中文詞匯語義相似度計算方法[J].中文信息學報,2013,27( 1):7-14.
Research on Tag-Based Business Dress Recommendation Model
CHEN Jun-hong LIU Yong-mei
(College of Fashion and Art Design,Donghua University,Shanghai,200051,China)
Abstract: Business dress is one of womens daily wear.However,many women shopping online spend long time searching but cant find satisfying dress.Based on the keywords categories used most often in searching, a research has been carried out.Having got the keywords sorting which is subdivided according to the content of the keywords,a tag system is established.According to TF-IDF and cosine similarity algorithm,a tag-based recommendation system is built to improve the accuracy of users buying business womens wear.
Key words: tag recommendation algorithm;user interest;women's business dress;personalized recommendation system