• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘技術(shù)的紅酒評(píng)分預(yù)測(cè)模型的設(shè)計(jì)與分析

      2019-03-21 00:23:34王柏
      現(xiàn)代商貿(mào)工業(yè) 2019年7期
      關(guān)鍵詞:機(jī)器學(xué)習(xí)紅酒數(shù)據(jù)挖掘

      王柏

      摘要:隨著現(xiàn)代社會(huì)的快速發(fā)展,紅酒行業(yè)已慢慢走向全球化與大眾化,更多的紅酒品牌和品種也逐漸被世人所知。然而,紅酒品質(zhì)也分三六九等,如何判斷一款紅酒是優(yōu)是劣?利用SPSS,Excel等軟件,使用回歸、決策樹、聚類等經(jīng)典機(jī)器學(xué)習(xí)算法,對(duì)紅酒的價(jià)格、評(píng)分、產(chǎn)地等因素進(jìn)行統(tǒng)計(jì)與分析。最終得出紅酒的原產(chǎn)國,省份以及品種基本可以決定紅酒的優(yōu)劣。

      關(guān)鍵詞:紅酒;數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí)

      中圖分類號(hào):TB文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2019.07.100

      1前言

      紅酒,是一種有著漫長歷史的飲品。早在公元前1000年,紅酒就在地中海沿岸大部分地區(qū)繁衍傳播,并逐漸發(fā)展成為高檔飲品。在全世界的基督教信徒的眼中,紅酒被視為耶穌的血液,這一點(diǎn)也促進(jìn)了紅酒的平民化。紅酒不僅僅給人以高雅和浪漫的感覺,在很多女性心中還有美容駐顏的功效,隨著時(shí)間的推移,社會(huì)也在快速發(fā)展,人們生活水平逐步提升,紅酒市場目前擁有著巨大的發(fā)展?jié)摿土己玫陌l(fā)展前景,紅酒也將逐漸走向全球化與大眾化,讓越來越多的人有機(jī)會(huì)去品嘗。

      近年來,越來越多的人更加講究紅酒的品質(zhì),傳統(tǒng)紅酒的品鑒,要考慮紅酒的香氣、口感、結(jié)構(gòu)、釀造工藝、風(fēng)土和價(jià)格等綜合因素。但這些復(fù)雜的品鑒技術(shù)需要積年累月的品酒經(jīng)驗(yàn),對(duì)于大多數(shù)普通人來說,學(xué)習(xí)這門技術(shù)并不容易。因此,人們對(duì)于紅酒的品質(zhì)界定十分地模糊,并不清楚哪些紅酒檔次較高,而哪些紅酒檔次相對(duì)較低。為了幫助人們通過更簡單直接的方法去了解紅酒的品質(zhì),本文根據(jù)Kaggle網(wǎng)站上Wine Reviews專題提供的129970組數(shù)據(jù),使用決策樹,聚類等經(jīng)典機(jī)器學(xué)習(xí)算法,分析數(shù)據(jù)規(guī)律,建立了根據(jù)紅酒產(chǎn)地、品種、制造商等因素預(yù)測(cè)紅酒品質(zhì)的模型;并探索了影響紅酒檔次的最主要因素。該模型可以為喜歡紅酒的人們提供參考,從而使他們對(duì)于紅酒品質(zhì)有著更加清晰的認(rèn)識(shí)。

      2數(shù)據(jù)介紹和預(yù)處理

      本文使用的Wine Reviews數(shù)據(jù)集的原始出處是WineEnthusiast網(wǎng)站上不同國家用戶對(duì)眾多紅酒的評(píng)論。本數(shù)據(jù)集主要包含了129970款紅酒的產(chǎn)地國(Country)、省份(Province)、城市(Region)、評(píng)分(Points)、描述(Description)、制造商(Winery)、品種(Variety)、價(jià)格(Price)等重要因素。

      數(shù)據(jù)集中,評(píng)分和價(jià)格都是數(shù)值型屬性,為了構(gòu)建決策樹模型,在預(yù)處理過程中,要對(duì)這兩個(gè)屬性進(jìn)行離散化處理。本文根據(jù)分?jǐn)?shù)的高低初步劃分這些紅酒的檔次,大于等于90分的為高等(High),大于等于85分,小于90分的為中等(Medium),小于85分的則為低等(Low)。同時(shí),本文對(duì)價(jià)格進(jìn)行排序,將紅酒的價(jià)格劃分為三個(gè)檔次:大于等于500美元的為貴(Expensive),大于等于100美元,小于500美元的為普通(Normal),小于100美元的為便宜(Cheap)。

      同時(shí)在這129970組數(shù)據(jù)當(dāng)中,缺失部分?jǐn)?shù)據(jù)的紅酒樣本會(huì)對(duì)計(jì)算產(chǎn)生影響,為消除這部分影響,本文刪除了部分?jǐn)?shù)值或資料缺失的樣本,保證紅酒數(shù)據(jù)的完整性,為后文中的預(yù)測(cè)模型的準(zhǔn)確性提供更加科學(xué)的依據(jù)。

      3單因素?cái)?shù)據(jù)分析

      3.1原產(chǎn)國、價(jià)格與評(píng)分

      首先,本文將對(duì)129970款紅酒按照國家(country)分類,分別求出不同國家紅酒的平均價(jià)格和平均評(píng)分。使用了Excel的“分類匯總”功能,將國家作為“分類字段”,將“價(jià)格”和“評(píng)分”作為“匯總方式”,使用“平均值”作為匯總項(xiàng)。得到分類匯總的結(jié)果后,本文使用“定位”功能,將匯總結(jié)果單獨(dú)取出,使用EXCEL圖表中的“組合圖”,分別用柱形圖表示“評(píng)分”,用折線圖表示“價(jià)格”,得到結(jié)果如圖1所示。

      通過比較每個(gè)國家紅酒的平均價(jià)格與平均評(píng)分,我們可以判斷哪些國家的紅酒更加物美價(jià)廉。根據(jù)圖1我們分析得出,法國、匈牙利、盧森堡、德國、意大利等這些我們熟知的紅酒發(fā)展歷史悠久的歐洲國家的紅酒性價(jià)比反而比較低。反而,如印度、摩洛哥、阿爾巴尼亞、塞爾維亞、智利、土耳其等國家,其紅酒擁有不俗的品質(zhì),但是價(jià)格并不高,他們出產(chǎn)的紅酒往往是性價(jià)比高的選擇。

      其次,我們重點(diǎn)觀察了高品質(zhì)紅酒的原產(chǎn)地。紅酒平均得分最高的五個(gè)國家均在歐洲,分別是英國、奧地利、法國、德國和意大利。在亞洲國家中,評(píng)分最高的三個(gè)國家是土耳其、印度和以色列。韓國、中國、黑山共和國的紅酒的平均評(píng)分是最差的。

      由此可見,原產(chǎn)國對(duì)于紅酒的評(píng)分與價(jià)格或多或少產(chǎn)生了一定的影響,本文會(huì)將在多因素分析中進(jìn)一步解釋與說明。

      3.2省份、價(jià)格與評(píng)分

      本文使用同3.1相似的辦法,對(duì)各個(gè)原產(chǎn)國中不同省區(qū)(province)的性價(jià)比進(jìn)行了計(jì)算,發(fā)現(xiàn)每個(gè)原產(chǎn)國都會(huì)有至少一個(gè)較大的紅酒產(chǎn)區(qū)。這些較大的紅酒產(chǎn)區(qū)出產(chǎn)的紅酒評(píng)分都相對(duì)較高,同時(shí)價(jià)格也相對(duì)較昂貴。例如,我們熟知的法國波爾多紅酒產(chǎn)區(qū),其紅酒的平均得分在所有的省份中并不算很高,但紅酒的平均價(jià)格高達(dá)57.3美元(約合372.45元人民幣)。

      由此可見,出自著名產(chǎn)區(qū)的紅酒并不一定都是性價(jià)比可行的紅酒。同樣,本文將會(huì)在多因素分析中運(yùn)用決策樹算法進(jìn)一步研究省份對(duì)于價(jià)格與評(píng)分的影響。

      3.3描述、價(jià)格與評(píng)分

      如何預(yù)測(cè)一款紅酒的價(jià)格與評(píng)分,評(píng)價(jià)者們對(duì)紅酒的描述(description)也成為了一個(gè)不可或缺的因素。我們使用python NLTK package對(duì)描述中詞進(jìn)行解析統(tǒng)計(jì)。其中,出現(xiàn)頻率最高的Top10名詞是:wine,flavor,fruit,acid,cherri,aroma,tannin,palat,spice,間接說明了描述的內(nèi)容主要是以紅酒的氣味、口味為主,“果味”、“香料”、“酸甜度”都是評(píng)價(jià)一款紅酒很重要的因素。

      為了簡單分析紅酒描述對(duì)于價(jià)格和評(píng)分的影響,本文主要提取了6個(gè)不同方面的關(guān)鍵詞:絲滑(Smooth),純正(Pure),余味(Aftertaste),百分百(100%),顏色(Color)和新鮮(Fresh),并計(jì)算出含有這些高頻詞匯的紅酒平均價(jià)格與平均評(píng)分的關(guān)系。在性價(jià)比方面含有“新鮮”關(guān)鍵詞的紅酒性價(jià)最低,含有“百分百”關(guān)鍵詞的紅酒性價(jià)比最高。在評(píng)分方面,平均得分最高的是描述中含有“純正”關(guān)鍵詞的紅酒,為9041;但這些紅酒價(jià)格不菲,平均價(jià)格為51.12美元。同時(shí)我們發(fā)現(xiàn),性價(jià)比相對(duì)較低的紅酒組平均得分也不是很高。

      由于描述眾多,不便于統(tǒng)計(jì),并且經(jīng)過初步分析,描述對(duì)于紅酒的性價(jià)比影響并不是很大,因此在下面的多因素分析中將暫時(shí)不作為自變量進(jìn)行分析。

      3.4品種、價(jià)格與評(píng)分

      如何更加全面準(zhǔn)確地預(yù)測(cè)紅酒的評(píng)分,紅酒的品種也是一個(gè)不可或缺的重要因素。本文運(yùn)用Excel當(dāng)中的“分類匯總”功能,將紅酒的性價(jià)比根據(jù)紅酒的種類進(jìn)行分類匯總并進(jìn)行比較。其中Nebbiolo的性價(jià)比最高,為0.68;最低的是Rosé,為0.20。而Nebbiolo品種的紅酒得分普遍較高,為90.22分,但價(jià)格也較為昂貴,平均價(jià)格為61.70美元(約合401.05人民幣),總體來看,評(píng)分較高的紅酒品種價(jià)格都相對(duì)較高,評(píng)分較低的紅酒品種也相對(duì)較便宜,因此紅酒的品種對(duì)于紅酒評(píng)分的預(yù)測(cè)基本呈正相關(guān),即越高檔的品種,預(yù)測(cè)的評(píng)分也會(huì)越高。

      3.5綜述

      在單因素?cái)?shù)據(jù)分析中,本文主要通過比較平均價(jià)格與平均得分的比值,初步對(duì)各個(gè)影響因素進(jìn)行初步的分析。本文初步認(rèn)為,原產(chǎn)國有可能會(huì)成為預(yù)測(cè)紅酒得分、價(jià)格模型中一個(gè)較為重要的評(píng)分標(biāo)準(zhǔn);描述也會(huì)有所影響,但是由于描述眾多,暫不作為預(yù)測(cè)紅酒評(píng)分的標(biāo)準(zhǔn)之一。本文將會(huì)在下一章中,運(yùn)用決策樹等經(jīng)典機(jī)器學(xué)習(xí)算法,進(jìn)一步分析各個(gè)因素對(duì)于紅酒品質(zhì)的影響,構(gòu)建評(píng)分預(yù)測(cè)模型。

      4多因素?cái)?shù)據(jù)分析

      為使該模型更加簡潔,本文通過計(jì)數(shù)的方式將48個(gè)國家分為US,F(xiàn)rance,Italy,Spain,Chile,Argentina,Portugal,Australia和Others九大類,其中前八類占總數(shù)據(jù)的90.75%;將446個(gè)省區(qū)分為California,Washington,Tuscany,Northern Spain,Mendoza Province,Oregon,Burgundy,Veneto,South Australia,Piedmont,Bordeaux,New York,Sicily & Sardinia和Others十四類,其中前十三類占總數(shù)據(jù)的68.14%;將620個(gè)紅酒品種分為Chardonnay,White Blend等和Others共二十類,其中除Others以外的其他類別占總數(shù)據(jù)的7316%。這樣的提取基本可以為下面紅酒評(píng)分預(yù)測(cè)系統(tǒng)的測(cè)試提供可靠的規(guī)律。

      進(jìn)行該處理后,本文在每條數(shù)據(jù)后添加隨機(jī)數(shù)函數(shù) RAND,生成一個(gè)所在行的隨機(jī)數(shù),根據(jù)隨機(jī)數(shù)的大小對(duì)樣本進(jìn)行重新排序,并選取其中最先出現(xiàn)的20000款紅酒的數(shù)據(jù),作為我們的隨機(jī)樣本數(shù)據(jù),建立決策樹模型進(jìn)行分類和預(yù)測(cè)。在該決策樹模型中,本文以得分作為因變量,原產(chǎn)國,省區(qū)和品種作為自變量,價(jià)格為影響變量。選取這20000款中70%作為訓(xùn)練樣本,剩余的30%作為測(cè)試樣本。訓(xùn)練樣本的決策樹模型如圖2所示。

      根據(jù)計(jì)算結(jié)果分析,該決策樹模型的正確率約為87.8%,樹的深度為6,共有43個(gè)節(jié)點(diǎn)。其中,來自Tuscany,Burgundy,Bordeaux, Piedmont和South Australia的Merlot, Syrah和Bordeaux-Style White Blend品種紅酒的預(yù)測(cè)得分最高,為93.602;來自Chile, Argentina, Spain和Portugal的Zinfandel, Sauvignon Blanc,White Blend, Rosé, Merlot, Nebbiolo和Shiraz品種的紅酒預(yù)測(cè)得分最低,為85.100.大多數(shù)紅酒的分?jǐn)?shù)都在87分至92分之間。據(jù)此,該模型基本可以準(zhǔn)確根據(jù)紅酒的原產(chǎn)國,省區(qū)和紅酒的品種對(duì)紅酒的評(píng)分進(jìn)行預(yù)測(cè)。

      5總結(jié)

      本文首先單因素分析了原產(chǎn)國,產(chǎn)地和品種對(duì)紅酒的價(jià)格與評(píng)分進(jìn)行了簡單的分析,之后以此為基礎(chǔ),運(yùn)用決策樹算法,建立了較為簡單的紅酒評(píng)分預(yù)測(cè)系統(tǒng)的模型。從實(shí)驗(yàn)結(jié)果來看,該系統(tǒng)的準(zhǔn)確率較高,因此基本可以說明紅酒的原產(chǎn)國,省份以及品種大致決定了紅酒的評(píng)分。

      但是,該紅酒評(píng)分預(yù)測(cè)系統(tǒng)也有一定的局限性。首先,隨機(jī)選取的樣本當(dāng)中不排除平均數(shù)值較實(shí)際數(shù)值偏低或偏高的情況,因此不一定能夠準(zhǔn)確地反映一款紅酒的整體水平;其次,該紅酒評(píng)分預(yù)測(cè)模型也只是通過分析紅酒的原產(chǎn)國、省份和品種而建立的,忽略了酒廠,描述以及品牌對(duì)于預(yù)測(cè)紅酒評(píng)分的影響,因此有可能會(huì)錯(cuò)誤地預(yù)測(cè)紅酒的評(píng)分。

      雖然有一定的局限性,但是該紅酒評(píng)分預(yù)測(cè)系統(tǒng)提供的數(shù)據(jù)依然有值得參考的價(jià)值,人們可以通過這個(gè)系統(tǒng)初步了解一款紅酒的得分,從而了解這款紅酒處于什么樣的檔次。同時(shí)隨著服務(wù)業(yè)的快速發(fā)展,該紅酒評(píng)分預(yù)測(cè)系統(tǒng)也將具有根據(jù)人們的需求為人們推薦評(píng)分較高或性價(jià)比較高的紅酒的功能,同時(shí)也會(huì)根據(jù)用戶對(duì)于這款紅酒的評(píng)論不斷更新紅酒的評(píng)分,使該紅酒評(píng)分預(yù)測(cè)系統(tǒng)更加完善。

      然而,無論該紅酒評(píng)分預(yù)測(cè)系統(tǒng)有多么地完善,真正評(píng)分高的紅酒,依然需要專業(yè)的品酒師進(jìn)行品鑒,提供更可靠,更科學(xué)的結(jié)論。

      參考文獻(xiàn)

      [1]尚朝軒.基于類決策樹分類的特征層融合識(shí)別算法[J].控制與決策,2016,31(6):1009-1014.

      [2]Wang size.The Study on Evaluation System of Wine Based on Data Mining[J].Advances in Applied Mathematics,2015,4(4):376.

      [3]Li,Weishu,et al.Improved Wine Quality Recognition Based on Particle Swarm Optimization Neural Network[Z].2018.

      猜你喜歡
      機(jī)器學(xué)習(xí)紅酒數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      菠菜紅酒防痔瘡
      特別健康(2018年9期)2018-07-17 15:29:08
      紅酒中毒案
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      買紅酒
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      沧州市| 聂荣县| 天门市| 五指山市| 桓台县| 朝阳市| 前郭尔| 汝州市| 宁南县| 海门市| 阿坝| 谷城县| 琼海市| 金沙县| 定兴县| 凌源市| 三江| 吕梁市| 长丰县| 涿州市| 兴化市| 巨鹿县| 莆田市| 古丈县| 鄂尔多斯市| 大理市| 巴东县| 万山特区| 稷山县| 武定县| 舟山市| 浠水县| 乐山市| 江北区| 三都| 桃园市| 阿拉尔市| 益阳市| 仲巴县| 瓮安县| 玉田县|