陽黎明,蘇理云
(重慶理工大學 理學院,重慶 400054)
基于Nutch爬蟲的電商交易價格統(tǒng)計研究
陽黎明,蘇理云
(重慶理工大學 理學院,重慶 400054)
將電商交易數(shù)據(jù)納入價格指數(shù)架構是目前統(tǒng)計工作關注的焦點。應用大數(shù)據(jù)技術,將Nutch爬蟲搭建在分布式集群上,構建分布式網(wǎng)絡數(shù)據(jù)抓取系統(tǒng),同時結合最新的AP聚類算法對數(shù)據(jù)進行預處理,然后對網(wǎng)上數(shù)據(jù)進行價格指數(shù)建模,進行價格指數(shù)試算。試算結果表明:基于分布式集群下的Nutch網(wǎng)絡爬蟲技術較好地完成了網(wǎng)絡交易數(shù)據(jù)抓取任務。因此,計算的網(wǎng)上交易數(shù)據(jù)價格指數(shù)可較好地反映市場價格變化趨勢。
電商交易數(shù)據(jù);分布式集群;Nutch;價格指數(shù)
隨著電子商務發(fā)展的不斷深入,政府統(tǒng)計部門和行業(yè)統(tǒng)計者對電商行業(yè)發(fā)展的關注度隨之提高,大數(shù)據(jù)理論的快速發(fā)展對電子商務的影響日益顯著[1-3],電商交易大數(shù)據(jù)對政府統(tǒng)計工作的改革創(chuàng)新也產(chǎn)生了積極的作用[2]。 本文開展了基于大數(shù)據(jù)理論指導的電商價格指數(shù)研究,對了解大數(shù)據(jù)在網(wǎng)上交易的應用具有現(xiàn)實意義。
開展電商交易價格的統(tǒng)計研究,重點是研究將電商交易大數(shù)據(jù)納入計算價格指數(shù)的數(shù)據(jù)框架。電商數(shù)據(jù)的融入對價格指數(shù)構建將是重要補充,對增強價格指數(shù)的可靠性和探索開發(fā)以網(wǎng)絡交易數(shù)據(jù)為基礎的其他經(jīng)濟指標提供了經(jīng)驗支撐,對開展大數(shù)據(jù)的網(wǎng)絡應用提供了實踐依據(jù)。
網(wǎng)絡交易作為時下熱門的消費方式,關乎企業(yè)和每個消費者。通過研究電商交易的價格指數(shù)對于掌握電商交易行業(yè)發(fā)展具有重要作用。相比于利用傳統(tǒng)數(shù)據(jù)計算價格指數(shù)而言,根據(jù)網(wǎng)上交易數(shù)據(jù)計算的網(wǎng)絡價格指數(shù)對了解行業(yè)發(fā)展更加真實可信。
1.1 網(wǎng)絡零售價格指數(shù)(iSPI)
2012年,阿里巴巴的網(wǎng)絡零售額突破1萬億。依托自身龐大的電商交易數(shù)據(jù),在國家統(tǒng)計局的指導下,阿里巴巴推出了一個網(wǎng)絡零售價格指數(shù)(iSPI),其權重由淘寶網(wǎng)支付寶的交易金額的比重而定,分為11個大類,每年調(diào)整一次。由于我國網(wǎng)絡銷售中含有團購、批發(fā)銷售等業(yè)務,所以該指數(shù)并不是真正意義上的網(wǎng)絡零售物價指數(shù),而是一個結合了生產(chǎn)、批發(fā)、零售和消費等多種市場行為的綜合類價格指數(shù)。通過此理論得出指數(shù)比官方CPI波動更大,同時存在抽樣不平衡、未綜合利用不同網(wǎng)絡交易價格等缺陷。
1.2 消費者信心指數(shù)(CCI)
百度與中科院合作也開發(fā)了一套基于網(wǎng)上搜索數(shù)據(jù)編制的消費者信心指數(shù)(CCI)、通貨膨脹指數(shù)。運行效果顯示,網(wǎng)民搜索所指示的消費者對物價的感受與國家統(tǒng)計局的官方數(shù)據(jù)之間有一定的先行指示作用。 但與實際情況仍然存在一定差距。
1.3 中農(nóng)網(wǎng)指數(shù)
中農(nóng)網(wǎng)公司發(fā)布的農(nóng)產(chǎn)品批發(fā)價格指數(shù)以深圳市農(nóng)產(chǎn)品股份有限公司控股的30家批發(fā)市場和農(nóng)網(wǎng)承建信息系統(tǒng)的80家批發(fā)市場為信息采集源,以電子交易模式為對象,通過對交易數(shù)據(jù)的實時監(jiān)控,利用數(shù)據(jù)挖掘手段獲取有效的電子交易數(shù)據(jù),從而中農(nóng)網(wǎng)農(nóng)產(chǎn)品批發(fā)價格指數(shù)。該指數(shù)采用定基期,以全國農(nóng)產(chǎn)品實際批發(fā)成交量為權重。對全國農(nóng)產(chǎn)品批發(fā)市場具有風向標的作用,反映了農(nóng)產(chǎn)品的市場流動。
1.4 網(wǎng)上價格指數(shù)(BPP)
美國麻省理工學院通過網(wǎng)絡爬蟲技術構建了網(wǎng)上價格指數(shù),即 BPP 項目[4]。具體過程:定時抓取不同國家電商的商品價格信息,每次至少抓取50萬條商品交易信息,再依此電商交易數(shù)據(jù)計算出20多個國家的每日網(wǎng)上價格指數(shù)。該指數(shù)的應用已得到政府及其相關領域的認可。對此網(wǎng)絡數(shù)據(jù)的抓取,由于諸多原因其具體過程不詳細介紹。
通過對比我國傳統(tǒng)CPI指數(shù)和基于網(wǎng)上交易數(shù)據(jù)的價格指數(shù)的數(shù)據(jù)來源、權重分配,發(fā)現(xiàn)基于大數(shù)據(jù)技術的網(wǎng)上交易價格指數(shù),對分析電商交易市場的價格變動和市場發(fā)展趨勢作用明顯,且具有較高的可行性和認可度。為此本文將重點考慮基于大數(shù)據(jù)技術的網(wǎng)上交易價格的統(tǒng)計研究。各類指數(shù)對比見表1。
表1 各類指數(shù)的對比Table 1 Comparison of various indices
2 分布式Nutch爬蟲技術原理與實踐分析
2.1 分布式集群下 Nutch爬蟲的技術原理
Nutch 是一個開源Java 實現(xiàn)的網(wǎng)絡搜索引擎框架,它涵蓋了我們知道的搜索引擎所需的全部工具,比如全文搜索和Web爬蟲[5-6]。Nutch爬蟲系統(tǒng)的工作流程及原理以及Nutch爬蟲的基本結構如圖1所示。
圖1 Nutch系統(tǒng)結構Fig.1 Nutch system structure
1) 生產(chǎn)列表:根據(jù)網(wǎng)頁數(shù)據(jù)庫生成一個待抓取網(wǎng)頁的鏈接(URL)列表。
2) 下載線程Fetcher類:在根據(jù)確定的待抓取URL列表進行網(wǎng)頁抓取時,需要注意的是如果有多個下載線程,就必須對應生成多個待抓取URL列表,也就是1個Fetcher類的線程對應1個待抓取列表。
3) 更新網(wǎng)頁數(shù)據(jù)庫:Nutch在前一次爬蟲結束以后會自動更新網(wǎng)頁數(shù)據(jù)庫,根據(jù)更新后的網(wǎng)頁數(shù)據(jù)庫生成新的待抓取URL列表。
4) 重復上述步驟進行下一輪抓取任務。
這個循環(huán)進行的過程可以描述為“產(chǎn)生—抓取—更新”循環(huán)。
上述過程是Nutch爬蟲框架的基本工作流程及其基本原理。在Nucth爬蟲實現(xiàn)數(shù)據(jù)抓取的基本系統(tǒng)中,主要就是完成對待抓取 URL 列表的抓取和更新。Nutch數(shù)據(jù)采集過程如圖2所示。
在完成網(wǎng)上交易數(shù)據(jù)的抓取過程中,雖然大數(shù)據(jù)框架下的分布式網(wǎng)絡爬蟲技術具有技術領先性,但仍存在一些問題:解析網(wǎng)頁鏈接較復雜;平臺布局頻繁更替導致分布式架構運行不易;電商數(shù)據(jù)的多樣性導致有效數(shù)據(jù)難以捕捉。
圖2 Nutch數(shù)據(jù)采集過程Fig.2 Nutch data acquisition process
2.2 電商數(shù)據(jù)的特征
立足分布式的網(wǎng)上交易數(shù)據(jù)抓取平臺,本文設定從早上9:00—下午6:00完成對淘寶網(wǎng)站下的手機類交易數(shù)據(jù)的抓取。通過對電商交易數(shù)據(jù)分析發(fā)現(xiàn),電商數(shù)據(jù)具有區(qū)別于傳統(tǒng)數(shù)據(jù)的顯著特點,主要有以下兩方面:
1) 交易數(shù)據(jù)波動大。電商交易操作方便,交易時間短,交易平臺的工作人員可以根據(jù)市場需求和頻繁的打折促銷等營銷手段對商品交易價格做出實時調(diào)整。但打折促銷、團購降價等消費手段都會引起抓取數(shù)據(jù)的異常。
2) 商品種類豐富。電商數(shù)據(jù)具有明顯的大數(shù)據(jù)特征。實證應用中,網(wǎng)頁平臺上同種商品的數(shù)量、型號等都在變化,每天在電商交易平臺中手機種類平均接近4 800種,在特殊時間段手機種類還會有較大變動。
3) 數(shù)據(jù)時效性強。隨著網(wǎng)頁制作的不斷升級,網(wǎng)站擁有者可以輕松地根據(jù)需要在電腦界面上放入不同的信息,因此電商網(wǎng)頁交易的價格數(shù)據(jù)也在時刻變化。
4) 商品缺貨問題突出。電商交易平臺經(jīng)常出現(xiàn)短期缺貨情況。例如在抓取的手機交易數(shù)據(jù)中, 在同一天 手機種類的數(shù)量就可能不同。電商交易中常常采取預售或訂購等營銷模式,商品還沒有真實上架,貨物已在銷售,最終導致抓取的價格數(shù)據(jù)不全或是錯誤的。
數(shù)據(jù)的預處理是統(tǒng)計研究的基礎,針對不同的形式和不同需要的數(shù)據(jù),處理的方法會存在不同程度的差異。常見的聚類算法無法對數(shù)量龐大、結構復雜、種類繁多、價值密度低的電商交易大數(shù)據(jù)進行有效的分類處理,而AP聚類算法恰好可以對電商交易數(shù)據(jù)進行有效的處理。
AP算法是在2007年被首次提出[7]。該算法不需要事先指定聚類數(shù)目,相反它將所有的數(shù)據(jù)點都作為潛在的聚類中心,稱之為exemplar。以S矩陣的對角線上的數(shù)值S(k,k)作為k點能否成為聚類中心的評判標準,這意味著該值越大,這個點成為聚類中心的可能性也就越大,這個值又稱作參考度p。同時為提高聚類的效率,采用R軟件實現(xiàn)相關編程操作。
根據(jù)最優(yōu)的聚類數(shù)完成數(shù)據(jù)的聚類處理,然后得到新的數(shù)據(jù)集。在完成上述步驟之后,所得到的新數(shù)據(jù)就相對規(guī)則,不存在明顯異常的數(shù)據(jù),計算價格指數(shù)時不會存在明顯的干擾。
4.1 規(guī)格品的選擇
目前我國CPI的編制把居民消費支出分為食品、衣著、醫(yī)療保健、個人用品、交通及通訊、娛樂教育文化用品及服務、居住、雜項商品與服務等8類[8-9]。但隨著網(wǎng)絡交易規(guī)模的不斷擴大。價格指數(shù)的構建已經(jīng)無法將網(wǎng)絡交易數(shù)據(jù)排除在外,缺失網(wǎng)絡交易數(shù)據(jù)的價格指數(shù)將是不全面的。如果將網(wǎng)絡交易數(shù)據(jù)納入價格指數(shù)的構建中,對于傳統(tǒng)數(shù)據(jù)信息是一個重要的補充,可為探索和開發(fā)以網(wǎng)絡交易數(shù)據(jù)為基礎的其他經(jīng)濟指標提供基礎與經(jīng)驗支持。
對于網(wǎng)上交易數(shù)據(jù),應該具備以下認識:首先網(wǎng)絡零售商品并不完全等同于居民消費品,網(wǎng)絡零售中存在部分過度產(chǎn)品;其次網(wǎng)絡零售商品的存在形式與線下零售區(qū)別很大。相較于傳統(tǒng)零售商品,網(wǎng)絡零售對電子產(chǎn)品的分類相當精細,需要由單獨分類來反映。由此,將居民消費支出分類設定為以下基本分類:食品、衣著、家庭設備用品及服務、醫(yī)療保健護理、交通和通訊、教育文化娛樂服務、居住、商用設備、數(shù)碼產(chǎn)品和服務、雜項商品和服務[9-10]。這樣劃分的主要特點:由于網(wǎng)絡銷售與傳統(tǒng)銷售渠道存在不同特點,電商貨物與構建物價指數(shù)而選取的代表品有所不同。例如,網(wǎng)絡零售的食品類主體是易儲存、包裝和運輸?shù)募庸な称?,以零食居多,所以網(wǎng)絡銷售將 “煙酒及用品”類歸于食品類。醫(yī)療類主體是醫(yī)療器材、保健品與美容護膚等個人護理用品。而由于許可限制,大類下西藥非常少,醫(yī)療服務則幾乎沒有,交通和通訊類等服務類都非常少。
根據(jù)網(wǎng)絡零售商品的交易特征,其市場交易主要是以零售交易為主。本文考慮除去網(wǎng)上交易存在的團購、促銷、季節(jié)性影響等因數(shù),設定網(wǎng)絡零售商品的日度價格指數(shù),以零售商品為最細類選擇商品。 以基本分類商品的日度價格指數(shù)(電商網(wǎng)頁中的零售商品)為例,首先計算不同規(guī)格手機的日度價格指數(shù)。然后利用無加權的幾何平均計算同種商品的價格指數(shù),最后匯總月度價格指數(shù)。這也是編制CPI指數(shù)的常用做法[11],具有較好的參照性。
4.2 電商交易價格指數(shù)
4.2.1 手機銷售的日度環(huán)比價格指數(shù)
首先計算同一品牌手機的在某天的平均價格,數(shù)據(jù)來源主要是利用爬出技術在某個網(wǎng)站實現(xiàn)實時的手機銷售價格抓取,此時的平均價為
(1)
(2)
由此,再對日度價格指數(shù)進行無加權幾何平均得到日度環(huán)比價格指數(shù),再重點分析指數(shù)計算的模型,根據(jù)爬出技術平臺抓取的數(shù)據(jù)進行指數(shù)試算,得到日度環(huán)比價格指數(shù):
(3)
4.2.2 定基價格指數(shù)
在厘清日度環(huán)比價格指數(shù)之后則可以進一步得到月平均定基價格指數(shù)。
定基價格指數(shù)Lt,0=Lt-1,0×Rt,t-1,為計算方便將前一天的價格指數(shù)設為100,當L0,0=100 時,Lt,0和Lt-1,0分別是第t和t-1天的定基價格指數(shù),進而得出月度平均定基價格指數(shù):
(4)
4.3 實證分析
本文利用分布式集群下的Nutch爬蟲平臺實現(xiàn)對手機數(shù)據(jù)的抓取,完成了手機數(shù)據(jù)的分析處理,排除了異常數(shù)據(jù)的影響。根據(jù)制定的價格指數(shù)計算模型進行指數(shù)試算。定基價格指數(shù)見表2,手機日度環(huán)比價格指數(shù)見表3。通過表2、表3可以反映出手交易價格在過去3個月的基本情況(假定前1天的指數(shù)為100)。
表2 2016年月度平均定基價格指數(shù)Table 2 Monthly average fixed base price index
表3 日度環(huán)比價格指數(shù)Table 3 Daily chain price index
注:上述日度環(huán)比價格指數(shù)是從2016年3月30到5月29日的價格指數(shù)。
電商交易數(shù)據(jù)價格指數(shù)試算結果表明:基于分布式爬蟲系統(tǒng)下的電商交易價格統(tǒng)計研究具有較好的實用性,它不僅豐富了CPI指數(shù)計算的數(shù)據(jù)來源,還增強了價格指數(shù)的可靠性和靈敏度,實現(xiàn)了對價格指數(shù)的重要補充,同時對于探索和開發(fā)以網(wǎng)絡交易數(shù)據(jù)為基礎的其他經(jīng)濟指標提供了經(jīng)驗支撐,對了解電商交易市場的發(fā)展具有深遠的現(xiàn)實意義。
本文分析了現(xiàn)有網(wǎng)絡價格指數(shù)及其網(wǎng)絡價格指數(shù)的數(shù)據(jù)來源特征,力爭從互聯(lián)網(wǎng)技術角度出發(fā),研究大數(shù)據(jù)挖據(jù)技術在電商交易價格方面的應用。以基于分布式的Nutch爬蟲技術實現(xiàn)對電商交易數(shù)據(jù)的抓取,進而實現(xiàn)基于大數(shù)據(jù)的電商交易價格統(tǒng)計研究。
實證研究結果表明:該數(shù)據(jù)抓取平臺對實時數(shù)據(jù)的抓取效果良好,對了解網(wǎng)絡交易市場發(fā)展具有較好的指導作用。
對于在數(shù)據(jù)抓取過程中出現(xiàn)的異常數(shù)據(jù),本文考慮用AP聚類算法進行處理,在一定程度上實現(xiàn)了對異常值等數(shù)據(jù)干擾的排除。但電商交易具有獨特的運營模式,決定了電商數(shù)據(jù)的獨特性,因此在指數(shù)計算中對于規(guī)格品的分類值得進一步研究。
隨著研究的深入,今后將著重考慮對異常數(shù)據(jù)的處理,例如能否把基于X-12-ARIMA模型的環(huán)比價格指數(shù)的季節(jié)調(diào)整運用到網(wǎng)絡數(shù)據(jù)中來。
[1] 李金昌.大數(shù)據(jù)與統(tǒng)計新思維[J].統(tǒng)計研究,2014(1):10-17.
LI Jinchang.Major Data and Statistical New Thinking[J].Statistical Research,2014(1):10-17.
[2] 劉光金.大數(shù)據(jù)處理對電子商務的影響分析[J].計算機光盤軟件與應用,2014(17):25-26.
LIU Guangjin.Effects of Large Data Processing on E-commerce[J].Journal of Computer Software and Applications,2014(17):25-26.
[3] 高波.電子數(shù)據(jù)證據(jù)的挑戰(zhàn)與機遇[J].重慶大學學報,2014(3):111-119.
GAO Bo.The Challenge and Opportunity of Electronic Data Evidence[J].Journal of Chongqing University,2014(3):111-119.
[4] 孫易冰,趙子東,劉洪波.一種基于網(wǎng)絡爬蟲技術的價格指數(shù)計算模型[J].統(tǒng)計研究,2014(10):74-80.
SUN Yibing,ZHAO Zidong,LIU Hongbo.Price price index calculation model based on Web crawler technology[J].Statistical Research,2014(10):74-80.
[5] 錢建學.一種基于Hadoop的分布式網(wǎng)絡爬蟲的研究與設計[D].北京:北京郵電大學,2014.
QIAN Jianxue.Research and Design of Distributed Web Crawler Based on Hadoop[D].Beijing:Beijing University of Posts and Telecommunications,2014.
[6] 詹恒飛,楊岳湘,方宏.Nutch分布式網(wǎng)絡爬蟲研究與優(yōu)化[J].計算機科學與探索,2011(1):68-74.
ZHAN Hengfei,YANG Yuexiang.Researchand Optimization of Nutch Distributed Network Crawler[J].Computer Science and Tropical Media,2011(1):68-74.
[7] 楊善林,李永森,胡笑旋,等.K-means 算法中的k值優(yōu)化問題研究[J].系統(tǒng)工程理論與實踐,2006(2):97-101.
YANG Shanlin,LI Yongsen,HU Xiaoxuan,et al.Research onk-value Optimization Problem in K-means Algorithm[J].Systems Engineering -Theory & Practice,2006 (2):97-101.
[8] 李紹泰,劉建平.基于掃描數(shù)據(jù)的CPI基本分類指數(shù)編制方法研究[J].統(tǒng)計研究,2015(3):3-11.
LI Shaotai,LIU jianping.Study on CPI Basic Classification Index Compilation Method Based on Scan Data[J].Statistical Research,2015(3):3-11.
[9] 劉偉江,李映橋.基于網(wǎng)絡關鍵詞搜索量的商品零售價格指數(shù)預測研究[J].制度經(jīng)濟學研究,2014(4):153-169.
LIU Weijiang,LI Yingiao.Study on the Retail Price Indices of Commodities Based on the Search Volume of Network Keyword[J].Institutional Economics Research,2014(4):153-169.
[10]趙子東.關于人工采集網(wǎng)絡價格的可行性研究[J].調(diào)研世界,2014(9):3-6.
ZHAO Zidong.Research on the Feasibility of Artificial Collection Network Price[J].Research World,2014(9):3-6.
[11]沈利生.同比價格指數(shù)與環(huán)比價格指數(shù)辨析[J].統(tǒng)計研究,2008(1):21-24.
SHEN Lisheng.Analysis of Price Index and Annular Price Index of the Year-on-year[J].Statistical Research,2008(1):21-24.
(責任編輯 楊黎麗)
A Statistical Study of Electric Business Price Based on Nutch
YANG Li-ming, SU Li-yun
(College of Science, Chongqing University of Technology, Chongqing 400054, China)
The integration of electric business transaction data into the price index structure is the focus of statistical work. In this paper, we focus on large data technology, build Nutch reptile on distributed cluster to build distributed network data capture system, and combine the latest AP clustering algorithm to preprocess the data; then we will carry out price index construction of online data, and conduct the price index trial. The results show that the Nutch web crawler based on the distributed cluster can complete the task of network transaction data fetching, and the price index of the online transaction data calculated by the data can reflect the market price trend.
electric business transaction data; distributed cluster; Nutch; price index
2016-09-25
重慶市教委資助項目(15SKG136);重慶理工大學研究生創(chuàng)新基金資助項目(YCX2015228);全國統(tǒng)計科學研究資助項目(2014LY069); 重慶理工大學高等教育教學改革研究項目(2014ZD03)
陽黎明(1990—),男,重慶奉節(jié)人,碩士研究生,主要從事金融統(tǒng)計與數(shù)據(jù)挖掘研究;蘇理云(1977—),男,四川廣安人,副教授,主要從事大數(shù)據(jù)分析與經(jīng)濟統(tǒng)計研究,E-mail:1093464745@qq.com。
陽黎明,蘇理云.基于Nutch爬蟲的電商交易價格統(tǒng)計研究[J].重慶理工大學學報(自然科學),2017(1):152-157.
format:YANG Li-ming, SU Li-yun.A Statistical Study of Electric Business Price Based on Nutch[J].Journal of Chongqing University of Technology(Natural Science),2017(1):152-157.
10.3969/j.issn.1674-8425(z).2017.01.023
TP39;O21
A
1674-8425(2017)01-0152-06