• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      服裝消費(fèi)數(shù)據(jù)的分析與可視化平臺(tái)研究

      2021-12-17 00:56:20趙娟劉國華史倩趙士源

      趙娟,劉國華,史倩,趙士源

      (東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201600)

      0 引言

      隨著各大電商平臺(tái)不斷興起,為人們購物需求提供了極大便利,越來越多的人依賴于網(wǎng)絡(luò)購物。因此,在網(wǎng)絡(luò)各大購物平臺(tái)中積累了大量的服裝消費(fèi)數(shù)據(jù)。這些數(shù)據(jù)不僅包括服裝消費(fèi)的數(shù)值型統(tǒng)計(jì)數(shù)據(jù),而且包含服裝評(píng)價(jià)、服裝潮流新聞的文本數(shù)據(jù)等。將這些海量的數(shù)據(jù)進(jìn)行有效的再利用,對(duì)服裝的消費(fèi)數(shù)據(jù)進(jìn)行分析和可視化,能夠幫助企業(yè)從海量消費(fèi)數(shù)據(jù)中挖掘出有意義的知識(shí),幫助服裝生產(chǎn)企業(yè)的決策者做出正確決策,從而指導(dǎo)企業(yè)進(jìn)行目標(biāo)明確的生產(chǎn)、銷售等一系列服務(wù),這對(duì)于促進(jìn)服裝企業(yè)甚至整個(gè)服裝行業(yè)的數(shù)字化轉(zhuǎn)型升級(jí)有著極其重要的意義。

      目前關(guān)于服裝消費(fèi)數(shù)據(jù)的分析和可視化研究主要分為以下幾類:

      (1)運(yùn)用典型的深度學(xué)習(xí)方法進(jìn)行文本分類,包括RNN、CNN等方法[1-2]。在此基礎(chǔ)上運(yùn)用LSTM+CNN 的思想將文本數(shù)據(jù)進(jìn)行分類并為其添加主題標(biāo)簽[3-5]。

      (2)運(yùn)用深度學(xué)習(xí)及LDA 主題模型,實(shí)現(xiàn)了基于服裝評(píng)價(jià)信息的情感分析和可視化[6-7]。

      (3)運(yùn)用python 和ECharts 工具,對(duì)服裝的型號(hào)、款式、性能等進(jìn)行分析,并以詞云、旭日?qǐng)D等簡(jiǎn)單易懂的方式進(jìn)行可視化[8-11]。

      這些研究在一定程度上可以為消費(fèi)者、服裝生產(chǎn)廠家及服裝銷售商提供數(shù)據(jù)分析和可視化的參考方式,為其提供有針對(duì)性的指導(dǎo)。但是,在現(xiàn)有研究及可視化平臺(tái)中,還沒有綜合多種服裝消費(fèi)數(shù)據(jù)進(jìn)行統(tǒng)一的分析和可視化,而且對(duì)服裝評(píng)價(jià)文本也僅是基于情感主題進(jìn)行分析,不能滿足服裝消費(fèi)者、服裝銷售商、服裝生產(chǎn)商了解服裝不同主題的需求。

      針對(duì)上述問題,本文以服裝行業(yè)統(tǒng)計(jì)數(shù)據(jù)、服裝評(píng)價(jià)、服裝潮流新聞為研究對(duì)象,搭建了服裝消費(fèi)數(shù)據(jù)的分析與可視化平臺(tái)。平臺(tái)中采用分詞、去停用詞、詞性標(biāo)注等方法對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理后,針對(duì)服裝評(píng)價(jià)數(shù)據(jù)采用基于歐氏距離、詞向量的kmeans 思想和基于tf-idf 的k-means 思想相結(jié)合的方式,對(duì)其進(jìn)行基于不同主題的分類;針對(duì)服裝潮流新聞采用tf-idf 方式進(jìn)行關(guān)鍵詞的提取;采用ECharts 圖表、詞云、交互式可視化等方法將3 類數(shù)據(jù)進(jìn)行可視化,并將各種可視化結(jié)果集成到平臺(tái)中。本文所實(shí)現(xiàn)的服裝消費(fèi)數(shù)據(jù)的分析與可視化平臺(tái)充分考慮到了不同角色人群的需求和不同數(shù)據(jù)的具體特點(diǎn),讓數(shù)據(jù)分析和可視化更加人性化,彌補(bǔ)了基于情感主題分析以及可視化數(shù)據(jù)類型單一的不足。

      1 平臺(tái)體系結(jié)構(gòu)

      服裝消費(fèi)數(shù)據(jù)分析與可視化平臺(tái)的體系結(jié)構(gòu)如圖1 所示。結(jié)構(gòu)中的關(guān)鍵模塊包括:文本預(yù)處理、文本數(shù)據(jù)分析、數(shù)據(jù)可視化等。

      圖1 服裝消費(fèi)數(shù)據(jù)分析與可視化平臺(tái)體系結(jié)構(gòu)Fig.1 Architecture of analysis and visualization platform for clothing consumption data

      (1)文本預(yù)處理模塊:對(duì)文本類型數(shù)據(jù)運(yùn)用自然語言處理技術(shù)進(jìn)行處理。處理步驟依次為分詞、去停用詞、詞性標(biāo)注及過濾。

      (2)文本分析模塊:在該模塊中對(duì)2 種文本數(shù)據(jù)分別進(jìn)行了分析。對(duì)于評(píng)價(jià)數(shù)據(jù)采用將基于歐氏距離和詞向量的k-means 思想與基于tf-idf 的kmeans 思想相結(jié)合的方式進(jìn)行分類與分析;對(duì)于服裝潮流新聞數(shù)據(jù)采用tf-idf 進(jìn)行關(guān)鍵詞提取及分析。

      (3)數(shù)據(jù)可視化模塊:針對(duì)服裝消費(fèi)的3 類數(shù)據(jù),分別采用不同的方式進(jìn)行可視化。針對(duì)服裝評(píng)價(jià),通過詞云顯示單件衣服評(píng)價(jià)關(guān)鍵詞,采用交互式可視化方式展示單件衣服不同部位的評(píng)價(jià)信息,另外使用ECharts 圖表對(duì)評(píng)價(jià)中的搭配推薦和除衣服部位的其它服裝主題進(jìn)行可視化;針對(duì)服裝潮流新聞數(shù)據(jù),采用詞云對(duì)行業(yè)熱點(diǎn)詞進(jìn)行可視化,并且采用列舉的方式來顯示服裝搭配關(guān)鍵詞;對(duì)于行業(yè)統(tǒng)計(jì)數(shù)據(jù),采用ECharts 中的圖表對(duì)其進(jìn)行可視化。

      最后按照平臺(tái)布局,將各數(shù)據(jù)模塊統(tǒng)一集成到服裝消費(fèi)數(shù)據(jù)的分析與可視化平臺(tái)中。

      2 文本預(yù)處理及分析

      本文搭建的服裝消費(fèi)數(shù)據(jù)的分析與可視化平臺(tái),采用的數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)形式多樣、數(shù)據(jù)可靠且有價(jià)值的特點(diǎn)。

      2.1 數(shù)據(jù)預(yù)處理

      為了保證最終結(jié)果的準(zhǔn)確性和可信度,需要對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理操作,預(yù)處理階段主要包括分詞、去停用詞、詞性標(biāo)注與過濾。

      (1)分詞。本文運(yùn)用python 的第三方中文分詞庫-jieba,實(shí)現(xiàn)將文本劃分為詞語的集合。如將“時(shí)髦與保暖兼顧搭配法:內(nèi)厚外薄,舒適又百搭!”進(jìn)行分詞。結(jié)果為:“時(shí)髦”、“與”、“保暖”、“兼顧”、“搭配”、“法”、“:”、“內(nèi)厚”、“外薄”、“,”、“舒適”、“又”、“百搭”、“!”。

      (2)去停用詞。根據(jù)自定義的停用詞詞典,將以上分詞結(jié)果中的“與”、“又”等沒有實(shí)際意義的詞去除,以保證分析及可視化結(jié)果的有效性。

      (3)詞性標(biāo)注與過濾。由于文本信息的分析是基于關(guān)鍵詞而進(jìn)行的,而且關(guān)于消費(fèi)的重要信息多體現(xiàn)在名詞、形容詞類的關(guān)鍵詞中。因此,本文對(duì)去停用詞之后的結(jié)果進(jìn)行了詞性標(biāo)注,并且篩選過濾掉其它詞性的詞語,如“兼顧”、“保暖”等。

      2.2 基于主題的服裝評(píng)價(jià)分類與分析

      基于預(yù)處理后的結(jié)果,對(duì)評(píng)價(jià)數(shù)據(jù)進(jìn)行分類。在此環(huán)節(jié),主要采用基于歐氏距離和詞向量的kmeans 思想與基于tf-idf 的k-means 思想相結(jié)合的方式,對(duì)服裝評(píng)價(jià)進(jìn)行基于主題的分類與分析后,將2 種分類的結(jié)果進(jìn)行合并確定最終的分類結(jié)果

      k 均值聚類算法是一種無監(jiān)督的聚類算法。其基本思想為:對(duì)于給定的數(shù)據(jù)集,預(yù)定將其分為k個(gè)類別,并從數(shù)據(jù)中選取k個(gè)對(duì)象作為聚類的中心,然后計(jì)算其它數(shù)據(jù)對(duì)象與各個(gè)聚類中心點(diǎn)之間的距離,之后計(jì)算每個(gè)中心點(diǎn)中距離的均值,將均值做為新的中心點(diǎn),通過這種方式進(jìn)行多次迭代,將各個(gè)對(duì)象劃分到效果較好的聚類中心點(diǎn)范圍,以此來達(dá)到分類的效果。

      2.2.1 基于歐氏距離和詞向量的k-means 聚類步驟

      (1)運(yùn)用word2vec 工具,根據(jù)給定的語料庫訓(xùn)練模型,以此來計(jì)算每條文本數(shù)據(jù)的詞向量,將其作為各文本,用于計(jì)算距離的值。

      (2)隨機(jī)選取k個(gè)詞向量值作為k-means 聚類的中心點(diǎn)。

      (3)計(jì)算其它數(shù)據(jù)對(duì)象與中心點(diǎn)的距離,該距離通過兩點(diǎn)之間的歐氏距離來確定。按照距離中心點(diǎn)的距離最小化原則,將所有數(shù)據(jù)對(duì)象都分配到各個(gè)中心點(diǎn)中。歐式距離是指兩點(diǎn)之間的實(shí)際距離,由公式(1)確定。

      其中,ρ為點(diǎn)(x2,y2)與點(diǎn)(x1,y1)之間的歐氏距離。

      (4)計(jì)算每個(gè)中心點(diǎn)中的數(shù)據(jù)對(duì)象與中心點(diǎn)間歐氏距離的均值,將均值作為下一次迭代的中心點(diǎn)。

      (5)迭代執(zhí)行(3)、(4)步,直到中心點(diǎn)不再改變或者達(dá)到設(shè)置的迭代最大次數(shù)。將最后一次迭代的結(jié)果作為最終的分類結(jié)果。

      2.2.2 基于tf-idf 的k-means 聚類步驟

      (1)計(jì)算每條文本中所有關(guān)鍵詞的tf-idf值,生成一個(gè)m ×n的矩陣。m表示文本的數(shù)量,n表示所有文本包含的不重復(fù)關(guān)鍵詞的總和,如公式(2)所示。在矩陣中,一行代表一個(gè)文本,矩陣中的每個(gè)值表示每個(gè)關(guān)鍵詞的tf-idf值。如A11表示第一條文本中是否出現(xiàn)了第一個(gè)關(guān)鍵詞,如果沒有出現(xiàn),則該處值為0,反之該處的值為tf-idf11。其中,tf-idf代表詞頻-逆文檔頻度,用于衡量一個(gè)詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的一份文件的重要程度;tf表示詞頻,用以衡量一個(gè)詞語在其所在文件中的重要程度;idf表示逆文本頻率指數(shù),用以衡量一個(gè)詞語的普遍重要性。如果一個(gè)詞語在一篇文章或者一個(gè)文件中出現(xiàn)的頻率較大,而在其它文件中很少出現(xiàn),則可以認(rèn)為這個(gè)詞語具有一定的類別區(qū)分能力。因此可以用于進(jìn)行基于主題的服裝評(píng)價(jià)分類,具體計(jì)算過程如公式(3)-(5)所示。(式中各字符的定義見表1)

      表1 公式中字符的定義Tab.1 Definition of characters in formula

      (2)從中隨機(jī)選取非連續(xù)的k行作為k-means的中心點(diǎn)。

      (3)計(jì)算其它文本對(duì)象與中心點(diǎn)的距離。該距離由兩個(gè)點(diǎn)的矩陣作差之后的二范數(shù)確定,之后按照與中心點(diǎn)的距離最小化原則,將所有數(shù)據(jù)對(duì)象都分配到各個(gè)中心點(diǎn)中。

      (4)計(jì)算每個(gè)中心點(diǎn)中的數(shù)據(jù)對(duì)象與中心點(diǎn)間距離的均值,將均值作為下一次迭代的中心點(diǎn)。

      (5)迭代執(zhí)行(3)、(4)步,直到中心點(diǎn)不再改變或者達(dá)到設(shè)置的迭代最大次數(shù)。將最后一次迭代的結(jié)果作為最終的分類結(jié)果。

      最后,基于兩種思想分別得到的分類結(jié)果,按照求并集的思想求得最終的服裝評(píng)價(jià)分類結(jié)果。

      2.3 服裝潮流新聞的關(guān)鍵詞提取

      本文將爬取到的服裝潮流新聞進(jìn)行預(yù)處理,消除不相關(guān)詞的干擾,并將服裝潮流新聞中包含的所有關(guān)鍵詞整合到一起,作為運(yùn)用tf-idf 算法提取關(guān)鍵詞的語料庫;采用基于tf-idf 思想,對(duì)每條新聞進(jìn)行關(guān)鍵詞的提取,并對(duì)提取的結(jié)果采用關(guān)鍵詞匹配方式,分別提取行業(yè)熱點(diǎn)詞和服裝搭配關(guān)鍵詞。

      2.4 數(shù)據(jù)可視化

      在平臺(tái)各數(shù)據(jù)的可視化中,對(duì)3 類數(shù)據(jù)分別采用多種不同方法進(jìn)行可視化。

      2.4.1 服裝消費(fèi)統(tǒng)計(jì)數(shù)據(jù)

      該平臺(tái)對(duì)服裝消費(fèi)的統(tǒng)計(jì)類數(shù)據(jù)直接采用ECharts 中的柱狀圖、折線圖、餅狀圖、散點(diǎn)圖等方法進(jìn)行可視化。其中關(guān)于服裝的部分產(chǎn)銷率指標(biāo)的可視化結(jié)果如圖2 所示,以柱狀圖的形式顯示更易了解其變化趨勢(shì)。

      圖2 產(chǎn)銷率指標(biāo)Fig.2 Production and marketing rate index

      2.4.2 服裝評(píng)價(jià)數(shù)據(jù)可視化

      按照基于詞向量和歐氏距離的k-means 思想進(jìn)行評(píng)價(jià)分類時(shí),k取值為6;采用基于tf-idf 的kmeans 思想進(jìn)行分類時(shí),k值取8。最后將分類結(jié)果使用translate 工具進(jìn)行翻譯得出最終顯示的內(nèi)容。

      評(píng)價(jià)數(shù)據(jù)主題分為3 類,分別為衣服部位主題、搭配推薦主題、其它主題。平臺(tái)中對(duì)于服裝評(píng)價(jià)各類主題的展示效果如下:

      (1)關(guān)于服裝部位的主題采用交互式方法進(jìn)行可視化。在平臺(tái)中用戶可以通過滑動(dòng)鼠標(biāo)選擇不同部位來查看其對(duì)應(yīng)的評(píng)價(jià)信息。如圖3 所示,當(dāng)鼠標(biāo)滑動(dòng)到腰部位置時(shí),會(huì)顯示對(duì)于腰部的評(píng)論信息。

      圖3 服裝評(píng)價(jià)主題-衣服部位Fig.3 Clothing evaluation theme-clothing parts

      (2)對(duì)于單件衣服評(píng)價(jià)中的搭配推薦。在平臺(tái)中以ECharts 的條形圖進(jìn)行了可視化,如圖4 中所示,顯示了對(duì)于各種搭配推薦的支持用戶數(shù)量。

      圖4 服裝評(píng)價(jià)主題-搭配推薦Fig.4 Clothing evaluation theme-collocation recommendation

      (3)對(duì)于除服裝部位的其它主題,采用ECharts的餅狀圖進(jìn)行可視化。如圖5 中,當(dāng)用戶點(diǎn)擊“大小”這一主題時(shí),即可在平臺(tái)中看到相應(yīng)的評(píng)價(jià),以及各方面不同評(píng)價(jià)占該主題所有評(píng)價(jià)的比例。

      圖5 服裝評(píng)價(jià)主題-服裝屬性Fig.5 Clothing evaluation theme-clothing attributes

      另外,對(duì)于單件衣服的所有評(píng)價(jià),在平臺(tái)中對(duì)其預(yù)處理之后,按照各關(guān)鍵詞出現(xiàn)的頻率,以詞云方式進(jìn)行了可視化,其結(jié)果如圖6 所示。在圖中可以明顯看出“顏色好看”比“長(zhǎng)度適中”更顯眼,表明對(duì)于該件衣服,關(guān)于“顏色好看”的評(píng)論信息較多。

      圖6 服裝評(píng)價(jià)詞云Fig.6 The wordcloud of clothing evaluation

      2.4.3 服裝潮流新聞

      在平臺(tái)中對(duì)服裝潮流新聞按照平臺(tái)提供的預(yù)處理和關(guān)鍵詞提取模塊進(jìn)行關(guān)鍵詞提取之后,對(duì)近三年的行業(yè)熱點(diǎn)詞采用詞云的方式進(jìn)行了可視化,如圖7 所示。

      圖7 行業(yè)熱點(diǎn)詞詞云Fig.7 The wordcloud of industry hot words

      另外,平臺(tái)也對(duì)新聞中的潮流穿搭關(guān)鍵詞采用歸類列舉的方式進(jìn)行了可視化,如圖8 所示。如流行的“男裝女穿”穿搭,包括工裝連體褲搭配短靴、帶帽衛(wèi)衣等。

      圖8 潮流穿搭Fig.8 Fashion wear

      3 平臺(tái)搭建與分析

      3.1 數(shù)據(jù)集

      該平臺(tái)中所涉及的數(shù)據(jù)集包括服裝消費(fèi)統(tǒng)計(jì)數(shù)據(jù)、服裝評(píng)價(jià)數(shù)據(jù)、服裝潮流新聞。

      (1)服裝消費(fèi)統(tǒng)計(jì)數(shù)據(jù)。服裝消費(fèi)統(tǒng)計(jì)數(shù)據(jù)從國家統(tǒng)計(jì)局網(wǎng)站獲取,用于分析服裝行業(yè)整體發(fā)展趨勢(shì),包括近幾年批發(fā)及零售的相關(guān)指數(shù)、居民服裝消費(fèi)指數(shù)等。

      (2)服裝評(píng)價(jià)數(shù)據(jù)。服裝評(píng)價(jià)數(shù)據(jù)是關(guān)于女裝的評(píng)論數(shù)據(jù)集,用于對(duì)服裝評(píng)價(jià)進(jìn)行分析和可視化。

      (3)新聞數(shù)據(jù)。中國服裝協(xié)會(huì)網(wǎng)提供了國內(nèi)及國際上關(guān)于服裝行業(yè)的新聞數(shù)據(jù),本文采用爬蟲方式獲取了部分服裝潮流新聞數(shù)據(jù)。

      3.2 平臺(tái)環(huán)境及工具

      實(shí)現(xiàn)該平臺(tái)所使用的環(huán)境及各模塊所用工具見表2。

      表2 實(shí)驗(yàn)環(huán)境及工具Tab.2 Experimental environment and tools

      3.3 平臺(tái)效果展示

      以與服裝消費(fèi)相關(guān)的服裝行業(yè)統(tǒng)計(jì)數(shù)據(jù)、服裝評(píng)價(jià)、服裝類新聞3 類數(shù)據(jù)為對(duì)象,分別對(duì)其進(jìn)行分析及可視化,然后將各可視化結(jié)果通過Vue 組件進(jìn)行整合,統(tǒng)一集成到平臺(tái)主頁中。服裝消費(fèi)數(shù)據(jù)的分析與可視化平臺(tái)整體效果如圖9 所示。

      圖9 服裝消費(fèi)數(shù)據(jù)分析與可視化平臺(tái)界面Fig.9 The interface of the analysis and visualization platform for clothing consumption data

      4 結(jié)束語

      本文以服裝行業(yè)統(tǒng)計(jì)數(shù)據(jù)、服裝評(píng)價(jià)、服裝類新聞3 類與服裝消費(fèi)相關(guān)的數(shù)據(jù)為對(duì)象,分別對(duì)其進(jìn)行了分析和可視化,并根據(jù)服裝消費(fèi)數(shù)據(jù)的特點(diǎn)設(shè)計(jì)了服裝消費(fèi)數(shù)據(jù)的分析與可視化平臺(tái)體系結(jié)構(gòu)。不僅采用基于詞向量和歐氏距離的k-means 與基于tf-idf 的k-means 聚類相結(jié)合的方式實(shí)現(xiàn)了評(píng)價(jià)數(shù)據(jù)基于主題的分類分析、采用tf-idf 算法對(duì)服裝類新聞進(jìn)行了關(guān)鍵詞提取、采用多種不同的可視化方式對(duì)服裝消費(fèi)數(shù)據(jù)進(jìn)行了可視化,而且設(shè)計(jì)并實(shí)現(xiàn)了服裝消費(fèi)數(shù)據(jù)的分析與可視化平臺(tái)。

      本文中的消費(fèi)數(shù)據(jù)種類和及消費(fèi)數(shù)據(jù)的分析方法有待進(jìn)一步研究,以完善服裝消費(fèi)數(shù)據(jù)的分析與可視化,并實(shí)現(xiàn)更高效更深入的信息挖掘。

      乐安县| 宁晋县| 精河县| 顺义区| 云南省| 静海县| 德州市| 庆阳市| 九寨沟县| 佛教| 高清| 铁岭市| 称多县| 肥乡县| 宜都市| 云林县| 马鞍山市| 武山县| 绥化市| 团风县| 逊克县| 连江县| 伊金霍洛旗| 前郭尔| 咸丰县| 宁国市| 武强县| 平邑县| 桐乡市| 克拉玛依市| 霍城县| 武隆县| 金门县| 沙河市| 平湖市| 桓仁| 栖霞市| 互助| 保康县| 枣强县| 阿荣旗|