摘要:本文詳細(xì)探討了Web數(shù)據(jù)挖掘技術(shù)在淘寶網(wǎng)玩具市場的應(yīng)用。通過爬取淘寶網(wǎng)玩具市場的網(wǎng)頁數(shù)據(jù)信息,并應(yīng)用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進(jìn)行分析、挖掘,發(fā)現(xiàn)了一些對賣家決策有指導(dǎo)意義的知識。
關(guān)鍵詞:Web數(shù)據(jù)挖掘;淘寶網(wǎng);網(wǎng)絡(luò)爬蟲
中圖分類號:F274.6 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 22-0000-02
1 概述
Web數(shù)據(jù)挖掘是從Web的超鏈接結(jié)構(gòu)、網(wǎng)頁內(nèi)容和使用日志中挖掘有用的信息。根據(jù)在挖掘過程中使用的Web數(shù)據(jù)類型,Web數(shù)據(jù)挖掘可以被劃分為三種主要類型:Web結(jié)構(gòu)挖掘(Web Structure Mining)、Web內(nèi)容挖掘(Web Content Mining)和Web使用挖掘(Web Usage Mining)[1]。
本文將探討在淘寶網(wǎng)玩具市場中Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用,整個Web數(shù)據(jù)挖掘的流程是利用網(wǎng)絡(luò)爬蟲程序采集淘寶網(wǎng)玩具市場上的大量數(shù)據(jù),并對數(shù)據(jù)進(jìn)行預(yù)處理,然后運用數(shù)據(jù)分析和數(shù)據(jù)挖掘的各種技術(shù)發(fā)現(xiàn)知識、模式,最后將數(shù)據(jù)分析和數(shù)據(jù)挖掘的結(jié)果展現(xiàn)出來,幫助淘寶網(wǎng)賣家做出正確的決策。
2 數(shù)據(jù)收集和預(yù)處理
雖然說數(shù)據(jù)作為可挖掘知識的金庫,理應(yīng)是多多益善。然而考慮到淘寶網(wǎng)電子商務(wù)平臺上的數(shù)據(jù)量極為龐大,因此本課題將選定淘寶網(wǎng)玩具市場的前20名大賣家(按季度總交易金額降序排名)的相關(guān)數(shù)據(jù)信息作為數(shù)據(jù)準(zhǔn)備模塊的爬取對象。這些數(shù)據(jù)信息主要有:賣家店鋪信息、賣家商品信息、商品歷史成交記錄信息、歷史賣家詳細(xì)信息。
爬取到的數(shù)據(jù)存在兩個問題:1、包含噪音和異常情況,需要經(jīng)過過濾。2、數(shù)據(jù)量非常大,其中包含了很多不相關(guān)的數(shù)據(jù)信息。因此,需要按照數(shù)據(jù)分析和數(shù)據(jù)挖掘的具體需要,通過選擇特定屬性相關(guān)的數(shù)據(jù)進(jìn)行抽取,并清理掉噪音數(shù)據(jù)[3]。
將數(shù)據(jù)收集部分爬取到的網(wǎng)頁資源作為Web數(shù)據(jù)挖掘的源頭,通過數(shù)據(jù)預(yù)處理模塊對這些網(wǎng)頁資源中的數(shù)據(jù)進(jìn)行抽取、清理、轉(zhuǎn)換和匯總,最終加載到筆者自己搭建的小型數(shù)據(jù)倉庫的數(shù)據(jù)庫中,為后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘工作提供數(shù)據(jù)支持。
3 數(shù)據(jù)挖掘和結(jié)果可視化
淘寶網(wǎng)買家信用級別會隨著買家網(wǎng)購次數(shù)的增多而逐漸升高,它代表了淘寶買家的網(wǎng)齡。平均每次交易金額這一參數(shù)代表了淘寶買家的單次網(wǎng)購消費能力。是否買家網(wǎng)購次數(shù)越多,越傾向于接受價格偏高的商品呢?帶著這個疑問,本章將以買家信用級別和買家的平均每次交易金額為研究參數(shù),來探討買家的單次消費能力是否和買家的網(wǎng)齡之間的關(guān)系。研究結(jié)果將指導(dǎo)淘寶賣家制定網(wǎng)店經(jīng)營策略。
用聚類方法分析買家信用級別和平均每次交易金額的關(guān)系,從而確定出每個買家信用級別所對應(yīng)的網(wǎng)購消費能力,以區(qū)別出高消費網(wǎng)購人群和低消費網(wǎng)購人群。本文采用TwoStep算法進(jìn)行聚類分析,必要的時候采用K-Means聚類算法做為補充進(jìn)行驗證,以得到最佳的研究結(jié)論。
經(jīng)過TwoStep(兩步)算法和K-Means算法的聚類分析,得到聚類分析結(jié)果,將分析結(jié)果用可視化技術(shù)導(dǎo)出的分布圖如圖1所示:
將每個聚類的主要買家信用級別和平均每次交易金額均值匯總,按買家信用級別升序排列,如表1所示:
通過表1,可以得出以下3點結(jié)論:
3.1 在淘寶網(wǎng)市場中,中低檔(單價100元以內(nèi))依然是主打,購買人數(shù)最多。因此,建議淘寶賣家選擇中低價格的進(jìn)貨售賣,單價最好控制在100元以內(nèi)。
3.2 買家的信用級別代表了該買家的網(wǎng)購次數(shù)、網(wǎng)齡,但是隨著買家的網(wǎng)購次數(shù)、網(wǎng)齡的增加,買家在購買時的單筆消費能力并不會隨著提升。相反,反而有略微下降。這種略微下降可能是因為網(wǎng)齡大的買家網(wǎng)購經(jīng)驗豐富,在網(wǎng)購時可以找到更合理價格的進(jìn)行購買。淘寶賣家在對網(wǎng)齡較大的買家進(jìn)行網(wǎng)絡(luò)營銷時,應(yīng)考慮到這類買家網(wǎng)購經(jīng)驗豐富,在價格選擇上會更加理性這一點,應(yīng)重點突出自身價格優(yōu)勢,做到真正的價廉物美,而不是單純利用信息不對稱而標(biāo)注虛高價格。
3.3 11-40(淘寶兩顆心買家)和41-90(淘寶三顆心買家)的交易數(shù)最多,且具有較高的平均每次交易金額。淘寶玩具產(chǎn)品賣家應(yīng)重點把握這部分買家,加強對這兩類買家的網(wǎng)絡(luò)營銷活動,如優(yōu)先向其發(fā)送新品上架通知等,增加促銷活動等。以及特別提升對于這兩類買家的整體服務(wù),保證以較合理的交易價促成這類買家更多的交易。
4 結(jié)論與展望
本文詳細(xì)探討了Web數(shù)據(jù)挖掘技術(shù)在淘寶網(wǎng)玩具市場的應(yīng)用。通過爬取淘寶網(wǎng)玩具市場的網(wǎng)頁數(shù)據(jù)信息,并應(yīng)用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進(jìn)行分析、挖掘,發(fā)現(xiàn)了一些對賣家決策有指導(dǎo)意義的知識。
本文的研究雖然取得了初步的成功,但尚存在一些地方有待進(jìn)一步的深入研究,這里擇其要者簡要討論如下:
4.1 數(shù)據(jù)收集部分的爬蟲算法優(yōu)化
數(shù)據(jù)收集部分的淘寶網(wǎng)爬蟲程序中的爬取算法在并發(fā)處理方面尚存在一些缺陷,有待進(jìn)一步的算法改進(jìn)。
4.2 結(jié)果可視化部分完善
結(jié)果可視化部分,是以直觀的,易被用戶理解的方式展現(xiàn)給淘寶網(wǎng)上的商品類賣家,幫助賣家在店鋪運營過程中正確把握買家需求,做出正確的運營決策。在后續(xù)的研究工作中,該模塊的部分功能將進(jìn)一步的完善。
參考文獻(xiàn):
[1]俞勇,薛貴榮.Web數(shù)據(jù)挖掘.北京:清華大學(xué)出版社,2009.6-7
[2]徐禾芳.基于數(shù)據(jù)挖掘的數(shù)據(jù)庫營銷的實現(xiàn).中國管理信息化,2010,Vol.13(10):100-101
[3]沈鈞毅,宋擒豹.Web數(shù)據(jù)挖掘:將客戶數(shù)據(jù)轉(zhuǎn)化為客戶價值.北京:電子工業(yè)出版社,2004:14