• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Matplotlib的大數(shù)據(jù)可視化應(yīng)用研究

      2019-08-10 06:36:17馬佳琪滕國(guó)文
      電腦知識(shí)與技術(shù) 2019年17期
      關(guān)鍵詞:數(shù)據(jù)可視化

      馬佳琪 滕國(guó)文

      摘要:現(xiàn)如今的信息化社會(huì),我們無(wú)時(shí)無(wú)刻不產(chǎn)生大量的數(shù)據(jù)。人類視覺(jué)具有迄今為止最大的處理帶寬,使用表格,圖片等元素可以幫助分析人員快速掌握數(shù)據(jù)集的特性。數(shù)據(jù)可視化(Data Visualization)就是一種將抽象概念形象化,抽象語(yǔ)言具象化的一個(gè)過(guò)程。本文主要基于Matplotlib繪圖庫(kù)的基礎(chǔ)上,結(jié)合Python 3.6、Pandas、Seaborn、Sklearn,設(shè)計(jì)并實(shí)現(xiàn)根據(jù)不同切工等級(jí)、成色等級(jí)和純凈度鉆石的分布繪制不同的可視化圖像。

      關(guān)鍵詞:數(shù)據(jù)可視化;Matplotlib;Seaborn

      中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2019)17-0018-02

      開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      在人人都談及人工智能的今天,我們正在使用自動(dòng)化取代人類的判斷(例如自動(dòng)駕駛)。但是,仍然有一個(gè)環(huán)節(jié)機(jī)器是無(wú)法取代人類的,那就是可視化。從計(jì)算機(jī)科學(xué)的角度來(lái)看,數(shù)據(jù)可視化是一種借助計(jì)算機(jī)技術(shù)和數(shù)字圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖表展示并進(jìn)行交互處理的方法和技術(shù)。在數(shù)據(jù)可視化方面有著名的3個(gè)Python繪圖第三方包:Matplotlib,Seaborn以及gplot。本文使用的Matplotlib和Seaborn具有以下幾個(gè)優(yōu)點(diǎn):Matplotlib是Python的拓展庫(kù),所以繼承了Python語(yǔ)法的優(yōu)點(diǎn),面向?qū)ο蟆⒁鬃x、易維護(hù)、代碼簡(jiǎn)潔優(yōu)美。Seaborn是一個(gè)基于Matplotlib的高級(jí)可視化效果庫(kù),偏向于統(tǒng)計(jì)作圖。因此,針對(duì)的點(diǎn)主要是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的變量特征選取。相比Matplotlib,它語(yǔ)法相對(duì)簡(jiǎn)化些,繪制出來(lái)的圖不需要花很多功夫去修飾。

      1 數(shù)據(jù)可視化

      可視化分析[1]作為大數(shù)據(jù)分析領(lǐng)域的一個(gè)重要分支一直以來(lái)被廣泛應(yīng)用于科學(xué)計(jì)算研究以及商業(yè)智能領(lǐng)域。因此,大數(shù)據(jù)可視分析是大數(shù)據(jù)分析不可或缺的重要手段和工具??梢暦治觯╒isual analytics)是科學(xué)可視化、信息可視化、人機(jī)交互、認(rèn)知科學(xué)、數(shù)據(jù)挖掘、信息論、決策理論等研究領(lǐng)域的交叉融合所產(chǎn)生的新興研究方向[2],是一種通過(guò)交互式可視化界面來(lái)輔助用戶對(duì)大規(guī)模復(fù)雜數(shù)據(jù)集進(jìn)行分析推理的科學(xué)與技術(shù)。分析過(guò)程在數(shù)據(jù)與知識(shí)的轉(zhuǎn)化過(guò)程中不斷循環(huán)。它將大數(shù)據(jù)分析挖掘方法與可視化信息處理過(guò)程相結(jié)合,綜合計(jì)算機(jī)的處理能力和人的認(rèn)知能力,最終挖掘出大規(guī)模、高維度的數(shù)據(jù)集中蘊(yùn)含的值。

      過(guò)去的十幾年中,數(shù)據(jù)儲(chǔ)存容器的容量已經(jīng)發(fā)生了翻天覆地的變化,這讓我們可以存儲(chǔ)海量數(shù)據(jù)。然而,我們所儲(chǔ)存的大部分?jǐn)?shù)據(jù)都是原始數(shù)據(jù),這些數(shù)據(jù)是毫無(wú)價(jià)值的。只有當(dāng)從中提取信息后,才能發(fā)現(xiàn)其中的價(jià)值。人類處理視覺(jué)信息是十分迅速的,我們可以立刻捕獲隱藏在數(shù)字中的關(guān)鍵信息。因此,數(shù)據(jù)可視化成為提取關(guān)鍵信息的最佳途徑。

      2 Matplotlib圖形庫(kù)

      Matplotlib[3]是一個(gè)用 Python[4]語(yǔ)言編寫的二維圖形庫(kù), 它充分利用了Python數(shù)值計(jì)算軟件包的快速精確的矩陣運(yùn)算能力,具有良好的作圖性能。Matplotlib是一個(gè)Python的2D繪圖庫(kù),它以各種硬拷貝格式和跨平臺(tái)的交互式環(huán)境生成出版質(zhì)量級(jí)別的圖形[5]。

      2.1 Python中Pandas的應(yīng)用

      在進(jìn)行數(shù)據(jù)分析時(shí),繪圖是必不可少的模式探索方式。用Python進(jìn)行數(shù)據(jù)分析時(shí),Matplotlib和Pandas是最常用到的兩個(gè)庫(kù)。Pandas是Python的一個(gè)數(shù)據(jù)分析包[5],是基于Numpy的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。Pandas納入了大量庫(kù)和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具和大量能快速便捷地處理數(shù)據(jù)的函數(shù)和方法。

      3 Matplotlib應(yīng)用

      Matplotlib是Python中最常用的可視化工具之一, 可以非常方便地創(chuàng)建高質(zhì)量的不同類型的2D圖表和一些基本的3D圖表[6]。借助于Python語(yǔ)言的強(qiáng)大功能, 它不僅具有不亞于Matlab的作圖能力,又具有勝于Matlab的編程能力。本文借助Matplotlib利用Seaborn,pandas和sklearn等工具進(jìn)行數(shù)據(jù)探索和處理,以及建立預(yù)測(cè)模型,對(duì)鉆石價(jià)格進(jìn)行預(yù)測(cè)。

      3.1設(shè)置特征參數(shù)

      選擇合適的鉆石需要知道鉆石的切工、成色、凈度和克拉重量四個(gè)特性,它們是選購(gòu)鉆石時(shí)最值得留意的要點(diǎn)。當(dāng)鉆石以適當(dāng)比例切工時(shí),最大部分的光線從鉆石的頂部反射出去。成色是指鉆石的無(wú)色程度,越接近無(wú)色狀態(tài),級(jí)別越高。大多數(shù)鉆石都有細(xì)小的、稱為包含物的瑕疵。包含物越少,越不可見,凈度級(jí)別越高??死侵搞@石的重量。一般而言,隨著克拉重量的增長(zhǎng),鉆石價(jià)格將呈指數(shù)增長(zhǎng),因?yàn)榭死酱?,鉆石越罕見。

      本文分析一個(gè)鉆石數(shù)據(jù)集該數(shù)據(jù)集一共包含53940顆鉆石樣本。每一顆鉆石記錄了切割、成色、凈度、克拉重量和價(jià)格等10個(gè)特征。

      數(shù)據(jù)集中包含53940個(gè)樣本,10個(gè)特征。我們進(jìn)一步發(fā)現(xiàn),切工,成色和凈度三個(gè)特征為字符串類型表示的等級(jí)型離散型特征。其余特征為連續(xù)型特征。借助DataFrame提供的describe方法,我們可以統(tǒng)計(jì)每一個(gè)特征的取值分布。

      對(duì)于連續(xù)型特征,直接使用默認(rèn)參數(shù),計(jì)算每一個(gè)特征非空值數(shù)量、最大值、最小值、平均值和分位數(shù)等統(tǒng)計(jì)量。

      觀察該數(shù)據(jù)發(fā)現(xiàn),取值與樣本數(shù)量一致,說(shuō)明上述特征均不存在缺失值。觀察第一列克拉重量特征,發(fā)現(xiàn)在五萬(wàn)多鉆石樣本中,最小的鉆石重量為0.2克拉,最大的鉆石重量為5.01克拉。鉆石的平均重量為0.8克拉。觀察price列,對(duì)于鉆石價(jià)格,最便宜的為326美元,最貴的為18823美元,鉆石的平均價(jià)格為3923.8美元。

      對(duì)于離散型特征,首先感興趣每一個(gè)特征唯一取值數(shù)量以及最頻繁的取值及其數(shù)量。在Pandas中,依然可以使用DataFrame提供的describe()函數(shù)成。

      4 價(jià)格預(yù)測(cè)模型

      由于價(jià)格屬于連續(xù)型特征,為了嘗試找到鉆石價(jià)格與其他特征之間的關(guān)系而使用回歸模型。最簡(jiǎn)單的模型為線性回歸。為了更好地評(píng)估預(yù)測(cè)效果。需要先將數(shù)據(jù)進(jìn)行劃分為訓(xùn)練集和測(cè)試集兩部分。

      4.1 線性模型

      最簡(jiǎn)單的線性回歸模型,通過(guò)以下三行代碼建立線性回歸模型。

      由此可得預(yù)測(cè)鉆石價(jià)格的線性回歸模型為:

      在訓(xùn)練集中繪制殘差圖展示模型的擬合效果。

      4.2 非線性模型

      為了探究鉆石的價(jià)格與其他特征之間是否存在某種非線性關(guān)系,通過(guò)隨機(jī)森林訓(xùn)練一個(gè)鉆石價(jià)格預(yù)測(cè)模型。

      訓(xùn)練集上的均方誤差和決定系數(shù)分別為: 61045.1346019 0.996134371615

      測(cè)試集上的均方誤差和決定系數(shù)分別為: 330990.263428 0.978793607326

      從均方誤差和決定系數(shù)來(lái)看,隨機(jī)森林提升了預(yù)測(cè)性能。決定系數(shù)超過(guò)了97%。

      5研究結(jié)果

      近年來(lái)可視分析技術(shù)越來(lái)越成熟,分析者可以直觀地從圖像中分離出自己想要的信息。從本案例的研究結(jié)果可見,分析者可以使用Python語(yǔ)言,并利用Python相關(guān)的各種科學(xué)計(jì)算和可視化庫(kù),從復(fù)雜繁多的數(shù)據(jù)中提取出有用的數(shù)據(jù),用形象的圖形、圖像來(lái)表達(dá),這是語(yǔ)言所遠(yuǎn)遠(yuǎn)不能達(dá)到的。

      本文主要基于Matplotlib圖形庫(kù)結(jié)合Seaborn和sklearn的Linear Regression和Random Forest Regressor分別訓(xùn)練線性和非線性回歸模型。實(shí)現(xiàn)了根據(jù)不同的參數(shù)預(yù)測(cè)鉆石價(jià)格。

      參考文獻(xiàn):

      [1] 洪文學(xué),王金甲.可視化和可視化分析學(xué)[J].燕山大學(xué)學(xué)報(bào),2010,34(2):95-99.

      [2] Ware C.Information visualization:perception for design[M].Elsevier,2012.

      [3]Matplotlib.sourceforge.net. Using Matplotlib. http://matplotlib.sourceforge.net/tutorial.html,2005-11.

      [4] M陳革, 馮大輝譯.ark Lutz & David Ascber. Python 語(yǔ)言入門[M]. 北京: 中國(guó)電力出版社, 2001.

      [5] 肖明魁.Python在數(shù)據(jù)可視化中的應(yīng)用.電腦知識(shí)與技術(shù),2018(11).

      [6] Python plotting Matplotlib 2.0.2 documentation[EB/OL]. http://matplotlib.org/, 2017-05-11/2017/09-15.

      [7] 段書勇.Python數(shù)據(jù)可視化(-)Seaborn介紹. https://www.jianshu.com/p/5ff47c7d0cc9.

      【通聯(lián)編輯:光文玲】

      猜你喜歡
      數(shù)據(jù)可視化
      移動(dòng)可視化架構(gòu)與關(guān)鍵技術(shù)綜述
      大數(shù)據(jù)時(shí)代背景下本科教學(xué)質(zhì)量動(dòng)態(tài)監(jiān)控系統(tǒng)的構(gòu)建
      可視化:新媒體語(yǔ)境下的數(shù)據(jù)、敘事與設(shè)計(jì)研究
      我國(guó)數(shù)據(jù)新聞的發(fā)展困境與策略研究
      科技傳播(2016年19期)2016-12-27 14:53:29
      基于R語(yǔ)言的大數(shù)據(jù)審計(jì)方法研究
      數(shù)據(jù)可視化概念研究
      大數(shù)據(jù)背景下數(shù)據(jù)可視化方法研究
      基于B/S結(jié)構(gòu)的考試成績(jī)分析系統(tǒng)
      基于Hadoop的商業(yè)數(shù)據(jù)可視化分析模型的研究
      用戶數(shù)據(jù)統(tǒng)計(jì)挖掘與展示
      光山县| 个旧市| 泗水县| 乡宁县| 徐州市| 南皮县| 闸北区| 平山县| 延吉市| 尤溪县| 赤壁市| 巴楚县| 佛山市| 玛纳斯县| 高阳县| 托克托县| 乡宁县| 黎平县| 新津县| 虞城县| 驻马店市| 宾阳县| 五华县| 云安县| 惠东县| 鄢陵县| 英山县| 广西| 荥阳市| 福州市| 高邑县| 横峰县| 昔阳县| 屏东市| 鄢陵县| 潜江市| 左贡县| 锦州市| 孝感市| 三门县| 年辖:市辖区|