王晗璐,夏 斌
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
?
基于機(jī)器學(xué)習(xí)的B2B電子商務(wù)平臺(tái)產(chǎn)品排名研究
王晗璐,夏斌
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)已經(jīng)成為一種新的商業(yè)活動(dòng)模式。商品在電子商務(wù)平臺(tái)的排名,直接決定了產(chǎn)品的銷量。如何優(yōu)化產(chǎn)品的排名,是所有電子商務(wù)公司關(guān)注的問題。從商品的文本信息角度出發(fā),利用機(jī)器學(xué)習(xí)方法來研究文本信息與產(chǎn)品排名之間的關(guān)系。從特征提取方法和分類算法兩個(gè)角度進(jìn)行了比較研究。首先比較了TFIDF和詞頻法(WF)兩種特征提取方法,進(jìn)一步又比較了樸素貝葉斯、支持向量機(jī)(SVM)以及隨機(jī)森林(RF)三個(gè)分類算法。研究結(jié)果表明,在該文的數(shù)據(jù)集上進(jìn)行文本分類排名分析,詞頻法結(jié)合隨機(jī)森林取得了最好的分類效果。
產(chǎn)品排名; 詞頻法; 隨機(jī)森林; 文本分類
引用格式:王晗璐,夏斌. 基于機(jī)器學(xué)習(xí)的B2B電子商務(wù)平臺(tái)產(chǎn)品排名研究[J].微型機(jī)與應(yīng)用,2016,35(11):45-47.
電子商務(wù)的概念起源于1995年,阿里巴巴國(guó)際站(簡(jiǎn)稱:阿里國(guó)際站)是一個(gè)主要的電商平臺(tái)[1],它為小型商家的國(guó)際貿(mào)易提供良好的平臺(tái)。商家們通過在平臺(tái)上展示商品,從而獲得商機(jī)[2-3]。為了獲得更多的商機(jī),改善產(chǎn)品在阿里平臺(tái)上的排名十分重要。平臺(tái)中產(chǎn)品展示的信息包括產(chǎn)品標(biāo)題、屬性、圖片等,還有一些無法看到的信息,如產(chǎn)品關(guān)鍵詞。當(dāng)用戶輸入關(guān)鍵詞后,阿里平臺(tái)會(huì)根據(jù)相關(guān)產(chǎn)品的信息進(jìn)行打分,然后生成一個(gè)產(chǎn)品列表,得分越高的產(chǎn)品排名越靠前,被用戶瀏覽到的可能性越大,反之,產(chǎn)品分?jǐn)?shù)越低,排名越靠后,產(chǎn)品銷量越小。
如今,有很多人討論如何做好阿里平臺(tái)產(chǎn)品的信息優(yōu)化,從而改善產(chǎn)品排名,但大多是更換產(chǎn)品關(guān)鍵詞、更新標(biāo)題、增加屬性、多使用熱搜詞、展示更清晰精美的圖片等。這些都需要大量的手動(dòng)工作,而且效果也不盡人意,可行性較低。
根據(jù)阿里國(guó)際站的官方白皮書介紹,商品的標(biāo)題及相關(guān)的商品屬性描述,是影響商品排名的重要因素。在本文中,考慮利用商品的標(biāo)題和屬性特征進(jìn)行分析,研究這類文本信息與商品排名之間的關(guān)系。假設(shè)產(chǎn)品標(biāo)題及屬性的組合,在排名靠前的商品中有一些共同的特性。為了分析這樣的共性,結(jié)合自然語言處理技術(shù)和機(jī)器學(xué)習(xí)方法,擬利用文本分類的方法來研究,如果排名相近的產(chǎn)品在標(biāo)題和屬性的組合上存在一些共性,則它們應(yīng)該會(huì)被分到同一類別中。
1.1特征提取
本文中,使用的產(chǎn)品標(biāo)題和屬性屬于文本數(shù)據(jù),首先要對(duì)其進(jìn)行特征提取,轉(zhuǎn)化為數(shù)字樣本。本文應(yīng)用了兩種自然語言處理中常用的特征提取方法[4]。
(1)TFIDF
假如一個(gè)詞語在一篇文檔中頻繁出現(xiàn),但在其他文檔中極少出現(xiàn),則可用這個(gè)詞語去區(qū)分這篇文檔。其中TF和IDF分別計(jì)算如下:
(1)
(2)
式(1)中,nij表示第i個(gè)詞在文檔dj中出現(xiàn)的次數(shù),分母表示文檔dj中包括詞語的總數(shù)。式(2)中,|D|表示數(shù)據(jù)集中的文檔總數(shù),|{j:ti∈dj}|表示包含詞ti的文檔數(shù)。于是TF-IDF計(jì)算如下:
TFIDFi,j=TFi,j*IDFi
(3)
(2)WF
對(duì)文檔中出現(xiàn)的詞語進(jìn)行計(jì)數(shù)。如果單詞在文檔中出現(xiàn),計(jì)數(shù)加1,本文還應(yīng)用了2-gram方法,即每?jī)蓚€(gè)相鄰的詞語,也記為一項(xiàng)。
1.2分類器
(1)樸素貝葉斯
在短文本分類問題中,x=(x1,x2,…,xn)表示一篇文檔,每篇文檔均表示為一個(gè)類似于x的向量,樣本集合記作X。對(duì)應(yīng)地,類別集合記作C={c1,c2,…,cm}。樸素貝葉斯分類器的原理是:假設(shè)每個(gè)特征之間是相互獨(dú)立的,通過比較后驗(yàn)概率值的大小,把該樣本判別為后驗(yàn)概率值最大的那一類。后驗(yàn)概率的計(jì)算公式為:
(4)
(2)支持向量機(jī)
SVM是基于間隔最大化的一種分類算法[5-6]。對(duì)于線性數(shù)據(jù)而言,它希望空間中的樣本點(diǎn)盡可能地遠(yuǎn)離分類超平面。對(duì)于非線性輸入,SVM可以應(yīng)用核函數(shù),將其映射到高維空間轉(zhuǎn)換輸入為線性的。SVM具有良好的泛化能力,在各種文本分類問題中表現(xiàn)良好。
(3)隨機(jī)森林
隨機(jī)森林是BreimanLeo和AdeleCutler于2001年提出的, 它是一種基于決策樹的機(jī)器學(xué)習(xí)算法[7]。其訓(xùn)練模型的方法是訓(xùn)練多棵決策樹,并綜合每棵樹的分類結(jié)果進(jìn)行最終的決策。在該算法中,需要考慮的參數(shù)有兩個(gè),一個(gè)是決策樹的數(shù)量,另一個(gè)是分裂節(jié)點(diǎn)輸入的特征數(shù),通常設(shè)置為總特征數(shù)的開方,文本也是使用這種方法。
隨機(jī)森林的分類結(jié)果取決于每個(gè)決策樹的分類結(jié)果[8]。本文應(yīng)用對(duì)每棵樹判別為每個(gè)類別的概率取平均值,將概率最大的那類判別為樣本的類別。
2.1實(shí)驗(yàn)數(shù)據(jù)
本文使用10個(gè)類別(包括:服裝、運(yùn)輸、電子產(chǎn)品、工藝品、玩具、箱包、食品、鞋子、家具和照明)的100個(gè)詞,在阿里國(guó)際站平臺(tái)抓取產(chǎn)品信息。每個(gè)類別選取了10個(gè)詞,每個(gè)詞選擇前三頁和后三頁的產(chǎn)品信息作為數(shù)據(jù)集。移除了首頁前5個(gè)付費(fèi)(P4P)產(chǎn)品。綜上,共有100個(gè)關(guān)鍵詞,每個(gè)有6頁產(chǎn)品信息,每頁有38個(gè)產(chǎn)品。因此,數(shù)據(jù)集中共有22 800個(gè)樣本。其中前三頁的產(chǎn)品被記為正類樣本,后三頁記為負(fù)類樣本。整個(gè)數(shù)據(jù)集按照7 ∶3劃分為訓(xùn)練樣本集和測(cè)試樣本集,并以5次實(shí)驗(yàn)得到的分類準(zhǔn)確率的平均值作為最終的結(jié)果。
2.2實(shí)驗(yàn)結(jié)果
(1)特征提取方法比較結(jié)果
為了尋找適合表示產(chǎn)品信息的方法,本文采用了WF和TFIDF兩種文本特征提取方法。應(yīng)用這兩種方法對(duì)文本信息進(jìn)行特征提取后,應(yīng)用RF分類算法進(jìn)行分類模型的訓(xùn)練和驗(yàn)證。表1是測(cè)試準(zhǔn)確率的對(duì)比結(jié)果。結(jié)果很顯然,不論森林中決策樹的數(shù)量為多少,WF在分類準(zhǔn)確率方面始終優(yōu)于TFIDF。但是使用相同的分類器模型時(shí),TFIDF擁有較少的特征數(shù),所以計(jì)算時(shí)間要比WF短。
表1 不同特征提取方法的測(cè)試準(zhǔn)確率對(duì)比
表2 使用WF特征提取,三種分類器的測(cè)試準(zhǔn)確率對(duì)比
表3 使用TFIDF特征提取,三種分類器的測(cè)試準(zhǔn)確率對(duì)比
(2)分類器比較結(jié)果
為了找到適合本課題的分類算法,分別采用了樸素貝葉斯、SVM以及RF三種分類算法。應(yīng)用WF和TFIDF進(jìn)行特征提取,并輸入到上述三種分類器中,測(cè)試準(zhǔn)確率結(jié)果對(duì)比分別如表2和表3。結(jié)果很顯然,在三種分類器的分類效果對(duì)比中,RF表現(xiàn)最好。
2.3實(shí)驗(yàn)分析
首先,采用RF作為分類器,分別應(yīng)用WF和TFIDF,結(jié)果顯示W(wǎng)F的分類效果始終優(yōu)于TFIDF。這應(yīng)該是由阿里國(guó)際站中產(chǎn)品的信息結(jié)構(gòu)決定的,因?yàn)楫a(chǎn)品標(biāo)題主要由產(chǎn)品核心詞以及部分屬性構(gòu)成。因此同類產(chǎn)品中出現(xiàn)近似詞匯的可能性極大,這樣TFIDF算法中的IDF將無法發(fā)揮出有效區(qū)分文檔的作用。而WF方法很好地表現(xiàn)了產(chǎn)品標(biāo)題和屬性包含哪些詞。因此WF是更適合對(duì)產(chǎn)品標(biāo)題進(jìn)行特征提取的方法。
其次,可以看到RF表現(xiàn)最好,準(zhǔn)確率達(dá)到了86.88%。因?yàn)镾VM的缺點(diǎn)是不適合大數(shù)據(jù)集。樸素貝葉斯的缺點(diǎn)是,當(dāng)特征維數(shù)較高時(shí)表現(xiàn)較差。
本文利用機(jī)器學(xué)習(xí)方法研究了商品文本信息對(duì)排名的影響。研究結(jié)果表明,排名相近的商品在文本屬性上也有相似性,在分類問題中表現(xiàn)為可以被分到同一類中。根據(jù)本文的比較分析,針對(duì)本文應(yīng)用的數(shù)據(jù)集,WF與RF結(jié)合的方法在分類性能上表現(xiàn)最佳,也有最好的計(jì)算效率。
[1] Hu Yongquan, Zhao Shukun. A case study of online retail innovation system on alibaba Taobao[C]. E-Business and E-Government(ICEE), 2010: 224-227.
[2] Bai Ou. Governance of innovation network in services: The case of alibaba[C]. International Symposium on Management of Technology (ISMOT), 2012: 81-86.
[3] Guo Jingzhi, LAM J H, LEI J, et al. Alibaba international: building a global electronic marketplace[C].IEEE International Conference on e-Business engineering (ICEBE), 2006:545-548.
[4] Li Shengdong, Lv Xueqiang, Zhou Qiang, et al. Study on key technology of topic tracking based on VSM[C]. IEEE International Conference on Information and Automation (ICIA), 2010: 2419-2423.
[5] Thorsten Joachims. Text Categorization with support vector machines: learning with many relevant feature[C]. Proceedings of ECML-98, 10th European Conference on Machine Learning, Chemnitz,Germany, 1998.
[6] Li Tianbing. On KNN and SVM text classification technology in knowledge management[J]. Electronic and Mechanical Engineering and Information Technology (EMEIT), 2011, 36(3):3923-3926.
[7] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[8] BERNARD S, ADAM S, HEUTTE L. Using random forests for handwritten digit recognition[J]. Document Analysis and Recognition, 2007, 12(10):1043-1047.
Research on the ranking of products of B2B e-commerce platform based on machine learning
Wang Hanlu,Xia Bin
(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)
With the development of the Internet, e-commerce has become a new business model. The ranking of products in the electronic commerce platform directly determines the products’ sales. How to optimize the ranking of products is the problem which is concerned by electronic business company. In this paper, from the perspective of the text information of products, we use machine learning methods to study the relationship between text information and product ranking. We make a comparative study from the point of feature extraction methods and classification algorithms. Firstly, we compared two feature extraction methods, which are TFIDF and word frequency(WF). Further more we compared three classification algorithms, which are Naive Bayes, Support Vector Machine(SVM) and Random Forest(RF). The research results show that the method of text classification and ranking analysis which is carried on the data set in this paper, WF combined with RF obtained the best classification results.
ranking of products; word frequency; random forest; text classification
TP391.9
A
10.19358/j.issn.1674- 7720.2016.11.015
2016-03-11)
王晗璐(1992-),女,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)與智能信息處理。
夏斌(1975-),通信作者,男,博士,副教授,碩士生導(dǎo)師,主要研究方向:腦-機(jī)接口,云計(jì)算及人工智能。E-mail:xawen267@gmail.com。