雷 兵,梁凱凱
(河南工業(yè)大學(xué) 管理學(xué)院 商務(wù)智能與知識(shí)工程實(shí)驗(yàn)室,河南 鄭州 450001)
糧油價(jià)格指數(shù)是反映各個(gè)時(shí)期糧油商品價(jià)格走勢(shì)的變化方向和程度的經(jīng)濟(jì)指標(biāo)。代表性高的糧油價(jià)格指數(shù)可以將更多的數(shù)據(jù)融入其中便于糧油市場(chǎng)供需雙方及經(jīng)濟(jì)學(xué)家更好的觀察和分析。近年來(lái),隨著網(wǎng)絡(luò)零售市場(chǎng)的迅速發(fā)展,網(wǎng)絡(luò)購(gòu)物成為除傳統(tǒng)購(gòu)物市場(chǎng)外的另一種購(gòu)物方案,與此同時(shí)隨著新冠肺炎疫情的大面積不間斷流行,居民購(gòu)買糧油的習(xí)慣和渠道均發(fā)生了重大變化,網(wǎng)絡(luò)糧油零售市場(chǎng)成了居民的新消費(fèi)領(lǐng)域。數(shù)據(jù)顯示,2022年上半年我國(guó)網(wǎng)絡(luò)零售市場(chǎng)交易額達(dá)6.3萬(wàn)億元,糧油食品網(wǎng)絡(luò)零售額同比增長(zhǎng)21.9%。糧油網(wǎng)絡(luò)交易的迅速發(fā)展,使得糧油網(wǎng)絡(luò)零售價(jià)格的變化成為當(dāng)前消費(fèi)者和商家關(guān)注的熱點(diǎn)。
糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)是從消費(fèi)者價(jià)格指數(shù)中提煉出來(lái)的一種更精細(xì)的價(jià)格指數(shù),目前鮮有專注于研究糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)的構(gòu)建,而在網(wǎng)購(gòu)份額逐步增高的環(huán)境下,若仍采用線下數(shù)據(jù)構(gòu)建糧油價(jià)格指數(shù)可能會(huì)出現(xiàn)偏差,而基于爬蟲數(shù)據(jù)可以更及時(shí)地構(gòu)建出糧油價(jià)格指數(shù)以給市場(chǎng)供需雙方提供參考,因此,基于電商平臺(tái)的爬蟲數(shù)據(jù)對(duì)糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)的構(gòu)建展開研究。
網(wǎng)絡(luò)零售市場(chǎng)每天都產(chǎn)生價(jià)格、銷量等數(shù)據(jù),這些數(shù)據(jù)為價(jià)格指數(shù)構(gòu)建提供了新的數(shù)據(jù)源,因此隨著網(wǎng)絡(luò)零售額的增長(zhǎng),越來(lái)越需要將這些數(shù)據(jù)用于消費(fèi)者價(jià)格指數(shù)的構(gòu)建中,目前已有學(xué)者開始利用這些數(shù)據(jù)對(duì)網(wǎng)絡(luò)價(jià)格指數(shù)展開研究。
CAVALLO等指出數(shù)據(jù)收集技術(shù)有改善經(jīng)濟(jì)學(xué)中統(tǒng)計(jì)和實(shí)證研究的潛力,以2008年MIT發(fā)布的十億元價(jià)格項(xiàng)目驗(yàn)證了如何使用在線價(jià)格大數(shù)據(jù)構(gòu)建多個(gè)國(guó)家的每日價(jià)格指數(shù)[1]。2011年我國(guó)阿里網(wǎng)購(gòu)價(jià)格指數(shù)(aSPI)發(fā)布,其構(gòu)建初期數(shù)據(jù)來(lái)自淘寶網(wǎng)的4 886個(gè)四級(jí)類目中的389個(gè)類目作為成分類目,并以拉氏方法構(gòu)建,陳立雙指出其雖有優(yōu)化基礎(chǔ)數(shù)據(jù)質(zhì)量、提高籃子代表性等優(yōu)點(diǎn)但還存在大數(shù)據(jù)技術(shù)運(yùn)用和數(shù)據(jù)處理不規(guī)范等問(wèn)題,提出要加強(qiáng)創(chuàng)新型特色價(jià)格指數(shù)構(gòu)建的實(shí)踐探索[2]。米子川等對(duì)aSPI和CPI進(jìn)行了對(duì)比研究,提出了aSPI優(yōu)于CPI的一些基本特征,并指出大數(shù)據(jù)指數(shù)對(duì)傳統(tǒng)統(tǒng)計(jì)調(diào)查的佐證將成為一種新趨勢(shì)[3]。劉濤雄等人研究在數(shù)字經(jīng)濟(jì)時(shí)代如何使用在線大數(shù)據(jù)構(gòu)建實(shí)時(shí)高頻物價(jià)指數(shù),從天貓、京東等B2C平臺(tái)抓取代表性大數(shù)據(jù)后基于拉氏指數(shù)以居民消費(fèi)為權(quán)數(shù)構(gòu)建了中國(guó)第一套基于互聯(lián)網(wǎng)大數(shù)據(jù)的居民消費(fèi)價(jià)格指數(shù)(iCPI),并發(fā)現(xiàn)iCPI不但能反映CPI與現(xiàn)有主要宏觀經(jīng)濟(jì)變量的關(guān)系還能捕捉一些CPI無(wú)法反映的信息[4]。URIARTE等基于網(wǎng)絡(luò)抓取數(shù)據(jù)的價(jià)格指數(shù)構(gòu)建案例,發(fā)現(xiàn)與傳統(tǒng)數(shù)據(jù)收集方法相比,基于該數(shù)據(jù)構(gòu)建的價(jià)格指數(shù)可與官方統(tǒng)計(jì)數(shù)據(jù)相媲美且成本更低,還可構(gòu)建出服務(wù)于特定群體的價(jià)格指數(shù)[5]。JUSZCZAK使用網(wǎng)絡(luò)抓取數(shù)據(jù)編制了價(jià)格指數(shù)對(duì)鞋類的價(jià)格動(dòng)態(tài)進(jìn)行了研究[6]。BENEDETTI等基于時(shí)間交互-區(qū)域產(chǎn)品模型,使用網(wǎng)絡(luò)爬蟲數(shù)據(jù)構(gòu)建了蘋果、面包等商品的高頻城市空間價(jià)格指數(shù)[7]。HILLEN指出可通過(guò)爬蟲技術(shù)實(shí)時(shí)收集網(wǎng)絡(luò)食品價(jià)格數(shù)據(jù)展開食品價(jià)格研究,克服目前食品價(jià)格數(shù)據(jù)來(lái)源的部分局限性[8]。JAWORSKI在COVID-19期間提出一個(gè)自動(dòng)收集和分析波蘭在線食品價(jià)格的框架,來(lái)實(shí)時(shí)追蹤波蘭的食品價(jià)格通脹水平[9]。
現(xiàn)有學(xué)者基于網(wǎng)絡(luò)零售大數(shù)據(jù)的研究主要側(cè)重于構(gòu)建綜合性指數(shù)即消費(fèi)者價(jià)格指數(shù),而關(guān)于服務(wù)于特定人群的價(jià)格指數(shù)研究較少,并且他們的研究主要集中于基于爬蟲技術(shù)抓取在線食品價(jià)格數(shù)據(jù)進(jìn)而研究食品的價(jià)格通脹,卻鮮有關(guān)于糧油價(jià)格指數(shù)的研究,因此本研究的重點(diǎn)則是結(jié)合糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)構(gòu)建目標(biāo)設(shè)計(jì)一種基于電商平臺(tái)爬蟲數(shù)據(jù)的數(shù)據(jù)處理流程,進(jìn)而提出一種新的糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)構(gòu)建方案。
糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)構(gòu)建的數(shù)據(jù)如何獲取非常重要,網(wǎng)絡(luò)零售大數(shù)據(jù)來(lái)源于網(wǎng)絡(luò)零售市場(chǎng),目前國(guó)內(nèi)網(wǎng)絡(luò)零售市場(chǎng)主要有淘寶、京東等平臺(tái),這些平臺(tái)每天都在產(chǎn)生著大量的網(wǎng)絡(luò)零售數(shù)據(jù),由于各個(gè)網(wǎng)絡(luò)零售市場(chǎng)的數(shù)據(jù)類別都相差無(wú)幾,所以以淘寶平臺(tái)為例對(duì)網(wǎng)絡(luò)零售數(shù)據(jù)進(jìn)行介紹。淘寶網(wǎng)絡(luò)零售數(shù)據(jù)主要分為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要有價(jià)格、銷量、累計(jì)評(píng)價(jià)等;非結(jié)構(gòu)化數(shù)據(jù)主要有商品介紹信息、店鋪信息、店鋪活動(dòng)等。所使用的主要信息為結(jié)構(gòu)化數(shù)據(jù)中的價(jià)格和銷量,其他的則為輔助信息。本研究的目標(biāo)是構(gòu)建糧油網(wǎng)絡(luò)零售價(jià)格指數(shù),因此從2022年5月1日開始每周日基于八爪魚爬蟲工具抓取淘寶平臺(tái)糧油類目的商品零售信息,共抓取12次,將其定義為{1,2,3,4,5,6,7,8,9,10,11,12}期,具體抓取過(guò)程如下。
第一,分析目標(biāo)網(wǎng)站,了解數(shù)據(jù)結(jié)構(gòu)分布,確定所需數(shù)據(jù)的位置。通過(guò)分析淘寶平臺(tái)的網(wǎng)頁(yè)結(jié)構(gòu)可知,在搜索某品類商品后,頁(yè)面僅顯示價(jià)格、銷量/評(píng)價(jià)及店鋪等信息,而商品ID、商品介紹信息等更詳細(xì)的信息,則需進(jìn)入每個(gè)商品的詳情頁(yè)才可獲取。
第二,基于“糧油”關(guān)鍵詞初步抓取。在淘寶平臺(tái)的檢索框內(nèi)輸入“糧油”關(guān)鍵詞進(jìn)行首次檢索,可獲取的檢索頁(yè)面為100頁(yè),每頁(yè)44條,在獲取檢索頁(yè)面后,將頁(yè)面按銷量降序排列,以商品頁(yè)面最大值為準(zhǔn)逐頁(yè)進(jìn)入每個(gè)商品的詳情頁(yè)抓取所需的商品銷售信息。
第三,細(xì)化糧油類目的抓取范圍,進(jìn)行二次抓取。為保證對(duì)淘寶平臺(tái)糧油類目下所有在售商品的最大覆蓋,通過(guò)對(duì)糧油類目商品的初步抓取結(jié)果進(jìn)行分析,發(fā)現(xiàn)糧油類目下有更精細(xì)的二級(jí)類目即食用油、大米、雜糧與面粉,因此在淘寶平臺(tái)的檢索框內(nèi)分別輸入糧油類目下的小類目關(guān)鍵詞進(jìn)行二次檢索,并對(duì)檢索頁(yè)面實(shí)施上一步的抓取過(guò)程。
第四,將抓取的每條商品數(shù)據(jù)存儲(chǔ)至事先設(shè)定的csv文件中,存儲(chǔ)的字段主要包括SKU鏈接、商品ID、標(biāo)題、店鋪名稱、店鋪活動(dòng)、價(jià)格、銷量、累計(jì)評(píng)價(jià)、商品介紹信息,淘寶平臺(tái)的各期糧油網(wǎng)絡(luò)零售爬蟲數(shù)據(jù)量分別為 15 359、13 058、12 743、13 676、14 456、14 284、12520、10 985、13 733、12618、13 975、15675。
2.2.1 數(shù)據(jù)清洗
糧油網(wǎng)絡(luò)零售數(shù)據(jù)爬取后,需對(duì)其進(jìn)行數(shù)據(jù)清洗即無(wú)效值與異常值處理。在無(wú)效值方面,由于網(wǎng)絡(luò)零售商品數(shù)據(jù)在抓取時(shí)可能會(huì)遇到網(wǎng)絡(luò)等問(wèn)題,導(dǎo)致部分商品存在重復(fù)抓取的情況,因此需以商品ID為基準(zhǔn)刪除重復(fù)值;還需去除銷量為零的商品,其并不會(huì)影響價(jià)格指數(shù)構(gòu)建精度。在異常值方面,由于商家在網(wǎng)絡(luò)零售市場(chǎng)中上下架商品時(shí)并不會(huì)有額外成本,同時(shí)為了引流和提高店鋪檔次,部分商家會(huì)上架一些價(jià)格極低與極高的商品,而這些商品中多數(shù)與主流商品的價(jià)格走勢(shì)并不相同,因此為了防止這些商品對(duì)糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)的構(gòu)建精度造成影響,將爬取的商品數(shù)據(jù)按價(jià)格升序排列后,剔除前后3%范圍內(nèi)的商品。
2.2.2 商品類別識(shí)別
由于抓取到的商品中含有非糧油類目的商品,如檢索“小米”時(shí)可能搜到“小米手機(jī)”而不是糧油類的小米等,因此需進(jìn)行商品類別識(shí)別以剔除無(wú)關(guān)商品;同時(shí),為保證糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)的構(gòu)建精度,還需對(duì)依據(jù)“糧油”關(guān)鍵詞抓取的商品進(jìn)行類別細(xì)分。對(duì)爬蟲數(shù)據(jù)進(jìn)行商品類別識(shí)別的處理步驟如下:①無(wú)關(guān)商品剔除。建立干擾詞典列表,如“手機(jī),大米收納盒,米箱,米缸,米桶等”,通過(guò)Python語(yǔ)言中的re函數(shù)編寫正則匹配規(guī)則對(duì)爬取的商品進(jìn)行遍歷,剔除商品標(biāo)題中含有干擾詞典中詞語(yǔ)的商品。②識(shí)別基于“糧油”關(guān)鍵詞抓取的商品類別。目前主要用機(jī)器學(xué)習(xí)方面的方法對(duì)文本進(jìn)行分類,其中常用的方法有決策樹、樸素貝葉斯算法等,其中樸素貝葉斯算法是一種有較好分類效果的算法,因此采用樸素貝葉斯算法進(jìn)行訓(xùn)練,得到網(wǎng)絡(luò)糧油商品分類模型,然后基于其對(duì)未標(biāo)志的網(wǎng)絡(luò)糧油商品進(jìn)行分類,分類步驟如下:①文本預(yù)處理。首先,網(wǎng)絡(luò)糧油商品標(biāo)題中含有與商品類別無(wú)關(guān)的詞語(yǔ),如“5kg”“斤”“包郵”等,因此需基于Python語(yǔ)言中的re函數(shù)編寫匹配規(guī)則,將商品標(biāo)題中的無(wú)關(guān)詞語(yǔ)剔除。其次,借助Python語(yǔ)言中的jieba分詞函數(shù)對(duì)商品標(biāo)題進(jìn)行分詞處理,但jieba分詞函數(shù)中所含的語(yǔ)料庫(kù)并不能包含所有與網(wǎng)絡(luò)糧油類別相關(guān)的詞語(yǔ),因此在分詞處理前需先建立網(wǎng)絡(luò)糧油類別語(yǔ)料庫(kù),其含有五常大米、蛋糕粉、橄欖油等詞語(yǔ)。最后,基于文本向量化方法對(duì)分詞結(jié)果進(jìn)行向量化。常用的文本向量化方法有詞袋模型、TF-IDF和Word2vec等,考慮到依據(jù)商品標(biāo)題進(jìn)行商品分類是一種短文本分類,而且網(wǎng)絡(luò)商家對(duì)商品標(biāo)題主要是以關(guān)鍵詞進(jìn)行撰寫,上下文間的聯(lián)系較少,而文本向量化方法中的詞袋模型能較好地處理短文本中關(guān)鍵詞的詞頻問(wèn)題,因此選用詞袋模型將分詞結(jié)果進(jìn)行向量化,步驟為:先基于分詞結(jié)果選出前400個(gè)高頻詞語(yǔ),然后依據(jù)每一條商品數(shù)據(jù)對(duì)照400個(gè)高頻詞語(yǔ)進(jìn)行向量化。②基于樸素貝葉斯算法的網(wǎng)絡(luò)糧油商品分類模型訓(xùn)練。將基于食用油、大米、雜糧與面粉為關(guān)鍵詞檢索的爬蟲數(shù)據(jù)作為模型的訓(xùn)練集。設(shè)訓(xùn)練集S={s1,s2…,sn},對(duì)應(yīng)的商品特征屬性集 X={x1,x2…,xm},商品類別集 C={c1,c2…,c4}。
基于訓(xùn)練集數(shù)據(jù)可得,各個(gè)商品類別的先驗(yàn)概率P(cb)與每個(gè)商品特征在各個(gè)類別下的條件概率P(X|C=cb)如下:P(cb)=Ncb/N,其中Ncb為訓(xùn)練集中商品類別為cb的商品數(shù)量,N為訓(xùn)練集中的商品數(shù)量;;隨后基于P(cb)、P(X|C=cb)可得商品Xi屬于某一商品類別cb的后驗(yàn)概率為,其中P(Xi)為事件Xi發(fā)生的概率。
后驗(yàn)概率最大的商品類別即為預(yù)測(cè)類別,據(jù)基于樸素貝葉斯算法的網(wǎng)絡(luò)糧油商品分類模型預(yù)測(cè)商品屬于商品類別集中的某類,當(dāng)且僅當(dāng)滿足以下公式:
基于樸素貝葉斯算法的網(wǎng)絡(luò)糧油商品分類模型建立好后,還需引入機(jī)器學(xué)習(xí)中常用的分類效果評(píng)價(jià)標(biāo)準(zhǔn)即精確率p、召回率R和測(cè)度,將需預(yù)測(cè)的商品類別標(biāo)簽當(dāng)作正類,其他商品類別當(dāng)為負(fù)類,構(gòu)建混淆矩陣,則p、R和的計(jì)算式如下:
其中,TP為預(yù)測(cè)為正,實(shí)際為正,F(xiàn)P為預(yù)測(cè)為正,實(shí)際為負(fù),F(xiàn)N為預(yù)測(cè)為負(fù),實(shí)際為正。
依據(jù)Python語(yǔ)言實(shí)現(xiàn)基于樸素貝葉斯算法的網(wǎng)絡(luò)糧油商品分類模型。訓(xùn)練集中食用油、大米、雜糧與面粉下的爬蟲數(shù)據(jù)量分別為4 630、4 247、5 243、2 851,將其按7∶3的比例劃分出30%的數(shù)據(jù)用于驗(yàn)證模型的預(yù)測(cè)效果,據(jù)式(2)可得預(yù)測(cè)結(jié)果為p=0.974 2、R=0.976 6、F1=0.975 2,其證明基于樸素貝葉斯算法的網(wǎng)絡(luò)糧油商品分類模型的分類效果較好,可將該模型用于網(wǎng)絡(luò)糧油商品分類。
(3)基于樸素貝葉斯算法的網(wǎng)絡(luò)糧油商品分類模型實(shí)踐。根據(jù)訓(xùn)練好的模型對(duì)基于“糧油”關(guān)鍵詞抓取的數(shù)據(jù)進(jìn)行分類標(biāo)記,并進(jìn)一步驗(yàn)證分類模型的分類效果,如某商品標(biāo)題為“廠家直銷老娘舅香稻江南鮮大米優(yōu)質(zhì)粳米香軟糯”,預(yù)測(cè)商品類別為“大米”,而其真實(shí)商品類別也為“大米”,表明基于樸素貝葉斯算法構(gòu)建的網(wǎng)絡(luò)糧油商品分類模型能夠較好地依據(jù)商品標(biāo)題對(duì)商品進(jìn)行精準(zhǔn)分類,有助于商品識(shí)別,進(jìn)而可快速且精確的構(gòu)建出糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)。
以淘寶平臺(tái)中糧油類目為例主要構(gòu)建的是類指數(shù),類指數(shù)的構(gòu)建需要從個(gè)體開始然后加權(quán)到類,而構(gòu)建的目的是反映不同個(gè)體及類逐期的變動(dòng)趨勢(shì)和程度,因此,主要構(gòu)建環(huán)比價(jià)格指數(shù),因?yàn)槠鋵?duì)逐期變動(dòng)趨勢(shì)和程度較敏感,能準(zhǔn)確、迅速地反映短期價(jià)格變化情況,便于商家及時(shí)了解價(jià)格變動(dòng)趨勢(shì),并分析其原因。
從構(gòu)建糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)的實(shí)際意義來(lái)看,網(wǎng)絡(luò)零售市場(chǎng)雙方較關(guān)心的是在報(bào)告期成交量條件下商品零售價(jià)格的變動(dòng)趨勢(shì),并希望通過(guò)它從側(cè)面對(duì)經(jīng)濟(jì)活動(dòng)進(jìn)行觀察和分析。結(jié)合價(jià)格指數(shù)的構(gòu)建意義,選擇的價(jià)格指數(shù)構(gòu)建方法為帕氏,公式為,而為了價(jià)格指數(shù)構(gòu)建更加簡(jiǎn)便,對(duì)帕氏公式進(jìn)行變形[10]如:
其中,pti為第i個(gè)商品第t期的價(jià)格,qit為第i個(gè)商品第t期的成交量,pi0為第i個(gè)商品的基期價(jià)格,為第 i個(gè)商品第t期的價(jià)格變化,為第i個(gè)商品第t期的權(quán)重。這種公式變形不僅可反映居民網(wǎng)絡(luò)消費(fèi)商品價(jià)格的變化狀況,也能反映因價(jià)格變化而引起的報(bào)告期居民網(wǎng)絡(luò)消費(fèi)費(fèi)用的實(shí)際變化情況。
將淘寶平臺(tái)中糧油類目的4個(gè)子類,分別記為D1,…,D4,依照aSPI以各子類的銷售額占比為各子類的權(quán)重,將其分別定義為W1,…,W4。以D1子類為例,假設(shè)其共有n個(gè)規(guī)格品G1,…,Gn,第t-1期的價(jià)格分別為,第t期的價(jià)格為,權(quán)重分別為。
糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)構(gòu)建思路:第一步,計(jì)算子類商品中規(guī)格品第t-1期與第t-1期的價(jià)格比。第二步,計(jì)算子類商品第t期與第t-1期的環(huán)比價(jià)格指數(shù)。第三步,計(jì)算糧油類的第t期與第t-1期的環(huán)比價(jià)格指數(shù)。具體構(gòu)建過(guò)程如下:第一,計(jì)算規(guī)格品價(jià)格變化,D1子類下第t期規(guī)格品a的環(huán)比價(jià)格變化與權(quán)重分別為,,a=1,2,…,n;第二,“不同規(guī)格品→子類價(jià)格變化”采用帕氏指數(shù),則第t期D1子類的環(huán)比價(jià)格變化為;第三,“不同子類→大類指數(shù)”采用加權(quán)平均法,則第t期中總指數(shù)的環(huán)比價(jià)格變化為。
根據(jù)糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)構(gòu)建思路與步驟可得,淘寶平臺(tái)的糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)見表1。
表1 淘寶平臺(tái)的糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)
由表1可知,糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)和大米、雜糧、面粉及食用油網(wǎng)絡(luò)零售價(jià)格指數(shù)在每一期的價(jià)格走勢(shì)方向并不相同,因此在對(duì)淘寶平臺(tái)的糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)進(jìn)行研究時(shí),不能僅看綜合性價(jià)格指數(shù),還需對(duì)綜合性價(jià)格指數(shù)下的細(xì)分價(jià)格指數(shù)進(jìn)行研究。為進(jìn)一步探究大米、雜糧、面粉及食用油和糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)之間的關(guān)系,引入Pearson相關(guān)系數(shù),通過(guò)計(jì)算可得它們之間的Pearson相關(guān)系數(shù)分別為0.561、0.149、-0.042、0.476,由相關(guān)系數(shù)可知雜糧、面粉類目的商品與糧油整體價(jià)格走勢(shì)之間的差距最大,而大米、食用油類目商品次之,進(jìn)一步證明若網(wǎng)絡(luò)零售商家想要更加精細(xì)地了解網(wǎng)絡(luò)糧油商品的價(jià)格走勢(shì),則需要對(duì)網(wǎng)絡(luò)糧油類目下的二級(jí)類目商品獨(dú)立研究。
采用淘寶平臺(tái)的糧油零售數(shù)據(jù),從數(shù)據(jù)抓取與清洗、商品分類、價(jià)格指數(shù)構(gòu)建方法確定等方面提出了糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)構(gòu)建方案,該方案可為糧油網(wǎng)絡(luò)零售市場(chǎng)的供需雙方及相關(guān)人員研究糧油網(wǎng)絡(luò)零售價(jià)格的走勢(shì)提供一種新途徑。通過(guò)數(shù)據(jù)抓取技術(shù)提供了一個(gè)爬蟲流程,用于收集淘寶平臺(tái)的糧油零售數(shù)據(jù),并基于樸素貝葉斯算法構(gòu)建了一個(gè)網(wǎng)絡(luò)糧油商品分類模型,提高了糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)的構(gòu)建精度和時(shí)效。最后通過(guò)對(duì)淘寶平臺(tái)的糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)的構(gòu)建結(jié)果分析可得,若電商平臺(tái)的供需雙方想要更加精細(xì)地了解網(wǎng)絡(luò)糧油商品的價(jià)格走勢(shì),則需對(duì)網(wǎng)絡(luò)糧油類目下的二級(jí)類目商品獨(dú)立研究。
本研究的糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)是基于淘寶平臺(tái)的零售數(shù)據(jù)構(gòu)建的,提出的糧油網(wǎng)絡(luò)零售價(jià)格指數(shù)構(gòu)建方案,可為其他電商平臺(tái)的不同類商品的零售數(shù)據(jù)抓取、價(jià)格指數(shù)構(gòu)建和監(jiān)控提供應(yīng)用基礎(chǔ),同時(shí)也可根據(jù)網(wǎng)絡(luò)零售數(shù)據(jù)的爬取頻次構(gòu)建出實(shí)時(shí)的日頻、周頻等價(jià)格指數(shù)。