• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Python 的政府開放數(shù)據(jù)可視化應用研究

      2021-12-14 08:05:56侯瑾菲梁藝多
      科學技術(shù)創(chuàng)新 2021年34期
      關(guān)鍵詞:廣州市可視化數(shù)量

      侯瑾菲 梁藝多

      (大連外國語大學軟件學院,遼寧大連 116044)

      1 概述

      自美國政府于2009 年掀起開放政府數(shù)據(jù)運動后,世界各國競相跟進,這一理念也逐漸成為全球關(guān)注焦點。我國的上海市于2012 年6 月首次上線了“上海市政府數(shù)據(jù)服務網(wǎng)”,隨后北京、廣東、武漢等地也陸續(xù)展開行動。截至2020 年底,我國已有140 多個省級、副省級和地級政府上線了數(shù)據(jù)開放平臺。隨著各地開放數(shù)據(jù)集的不斷增多,“如何高效利用政府開放數(shù)據(jù)”的問題也逐漸引起業(yè)界學者的廣泛思考。陳美強調(diào)“政府數(shù)據(jù)開放利用能夠推動信息內(nèi)容產(chǎn)業(yè)和信息服務業(yè)發(fā)展”[1]。范佳佳對全球53 個國家的政府開放數(shù)據(jù)利用效率進行評估并給出排名[2]。周文泓等基于對應用開發(fā)的調(diào)查討論了我國地方政府開放數(shù)據(jù)利用進展并提出優(yōu)化策略[3]。宋卿清等對國內(nèi)外政府數(shù)據(jù)開發(fā)利用的進展情況進行總結(jié)并提出對我國的政策建議[4]。呂富生討論了政府數(shù)據(jù)再利用的“限制型”模式和“開放型”模式并給出可行路徑[5]??梢?,現(xiàn)有研究都是從宏觀角度分析與討論政府數(shù)據(jù)開放利用的整體情況、實施路徑和政策建議等,并未從微觀角度即數(shù)據(jù)本身出發(fā)研究政府開放數(shù)據(jù)的具體應用工具、方法、過程和效果等。近年來,隨著人工智能的發(fā)展,Python 語言獲得了學術(shù)界和產(chǎn)業(yè)界的極大關(guān)注,被廣泛應用于網(wǎng)絡爬蟲、數(shù)據(jù)分析、機器學習、自然語言處理等領(lǐng)域。因此,本文將采用Python 網(wǎng)絡爬蟲和數(shù)據(jù)分析技術(shù),以政府數(shù)據(jù)開放平臺中的幼兒教育數(shù)據(jù)為例,從數(shù)據(jù)利用的微觀視角開展數(shù)據(jù)的獲取及可視化分析,并針對分析結(jié)果提出一定啟示,為開放政府數(shù)據(jù)應用問題的研究提供一個全新的思路和參考。

      2 實驗方案設計

      2.1 數(shù)據(jù)來源

      本文選取廣州市政府數(shù)據(jù)開放平臺作為調(diào)研的目標平臺。該平臺于2016 年10 月起試運行,截至目前,共有63 個政府部門參與數(shù)據(jù)開放,為大眾提供有關(guān)經(jīng)濟發(fā)展、教育科技和資源環(huán)境等16 個主題分類的數(shù)據(jù),數(shù)據(jù)集總數(shù)為1520 個,數(shù)據(jù)總量共計1.44 億條。其中,教育類主題數(shù)據(jù)集為97 個。本文以幼兒教育數(shù)據(jù)為例,采集包括廣州市白云區(qū)、花都區(qū)和從化區(qū)等11個區(qū)在內(nèi)的幼兒園數(shù)據(jù),將其作為可視化分析的目標對象。

      2.2 步驟設計

      應用Python 工具采集開放政府數(shù)據(jù)的過程為:首先,爬蟲程序借助Requests 庫對目標數(shù)據(jù)集中以HTML 格式保存的介紹頁面和以JSON 格式保存的表格數(shù)據(jù)分別進行爬取。其次,使用Beautiful Soup 庫提取介紹頁面HTML 文件中有關(guān)數(shù)據(jù)表格的標題、表頭以及數(shù)據(jù)總數(shù)等信息,并將其寫入CSV 文件。再次,使用JSON 庫提取以JSON 格式保存的表格數(shù)據(jù)記錄,并將其寫入CSV 文件。最后,使用Matplotlib 庫對數(shù)據(jù)結(jié)果可視化。實驗的整體步驟如圖1 所示。

      圖1 實驗的整體步驟

      3 采集過程實現(xiàn)

      3.1 獲取JSON 格式數(shù)據(jù)

      在從“廣州市政府數(shù)據(jù)統(tǒng)一開放平臺”網(wǎng)站爬取“廣州市各區(qū)幼兒園一覽表”數(shù)據(jù)時,首先需要定義Headers 等初始數(shù)據(jù),并使用Requests 獲取JSON 格式的表格數(shù)據(jù)。相關(guān)代碼如下:

      3.2 從JSON 中提取信息

      從JSON 格式的廣州市各區(qū)幼兒園一覽表中提取列信息,包括:年份、行政區(qū)域、幼兒園名稱、地址、聯(lián)系電話、以及辦園性質(zhì)等。相關(guān)代碼如下:

      3.3 把信息存入CSV 文件

      把提取的“廣州市各區(qū)幼兒園一覽表”的各列數(shù)據(jù)存入到CSV 文件中。相關(guān)代碼如下:

      3.4 程序整體框架及采集結(jié)果

      將上述功能進行組合進而形成程序整體框架。相關(guān)代碼如下:

      過以上方法,本次共采集到廣州市各個區(qū)的幼兒園數(shù)據(jù)1741 條,所有數(shù)據(jù)均保存在CSV 文件,且該文件將作為下一步數(shù)據(jù)可視化分析應用的數(shù)據(jù)來源和處理對象。

      4 可視化應用實現(xiàn)

      4.1 詞云圖的繪制

      此模塊將使用詞云圖來生成重要關(guān)鍵詞。首先,使用Python的Jieba 分詞做分詞處理。之后,使用Python 的wordcloud 庫生成詞云圖,在此步中將會創(chuàng)建一個詞云對象,并輸入所生成云圖的長、寬、背景顏色以及中文詞庫等。最后,使用Python 的matplotlib 庫進行可視化繪圖。相關(guān)代碼如下:

      生成的詞云如圖2 所示。

      圖2 詞云圖

      4.2 人口數(shù)與幼兒園數(shù)量的可視化分析

      據(jù)調(diào)查,廣州市的常住人口為1490.44 萬人。其中,白云區(qū)人口最多,為271.44 萬人,番禺區(qū)為177.7 萬人,海珠區(qū)為169.36 萬人,天河區(qū)為174.66 萬人,增城區(qū)為121.85 萬人,越秀區(qū)為117.89 萬人,荔灣區(qū)為97 萬人,花都區(qū)為78.24 萬人,南沙區(qū)為49.93 萬人,黃埔區(qū)為52.76 萬人,從化區(qū)為63.49 萬人。從平臺上爬取的各區(qū)幼兒園數(shù)量為:白云區(qū)322 個,番禺區(qū)為307個,海珠區(qū)為190 個,天河區(qū)186 個,增城區(qū)為155 個,越秀區(qū)為116 個,荔灣區(qū)為103 個,花都區(qū)為98 個,南沙區(qū)為244 個,黃埔區(qū)為229 個,從化區(qū)為73 個。將各區(qū)人口數(shù)與幼兒園數(shù)量的整體趨勢進行對比,結(jié)果見圖3。

      圖3 各區(qū)人口數(shù)與幼兒園數(shù)量的趨勢對比

      可見,廣州市各區(qū)人口數(shù)與幼兒園數(shù)量基本呈現(xiàn)正相關(guān)。說明廣州市在設立幼兒園時,充分考慮了所在區(qū)的人口數(shù)量因素。人口數(shù)越多,對學前教育的需求越大,相應地需要設置更多的幼兒園以充分保障學前兒童的教育機會,整體上促進了教育資源的公平、均衡配置。

      4.3 幼兒園數(shù)量與優(yōu)質(zhì)園數(shù)量的可視化分析

      對爬取到的廣州市各區(qū)幼兒園數(shù)量與所含一級幼兒園數(shù)量的整體趨勢進行對比分析,結(jié)果見圖4。

      圖4 各區(qū)幼兒園數(shù)量與優(yōu)質(zhì)園數(shù)量的趨勢對比

      可見,各區(qū)幼兒園數(shù)量與一級幼兒園數(shù)量呈正相關(guān)性。說明各區(qū)幼兒園的數(shù)量越多,就容易引起同行業(yè)間的激烈競爭。為了爭取更多、更高質(zhì)量的生源,各幼兒園普遍注重在軟、硬件方面的投入,不論是園區(qū)場館的擴建、器材設備的購置,還是幼師的引進與培養(yǎng)、學前教育理念的更新等,都積極對標一級幼兒園的認定標準,并竭力促進各項指標達標,無形中孵化出更多的優(yōu)質(zhì)幼兒園,促進了本區(qū)內(nèi)學前教育水平的整體提升。

      5 研究啟示

      當前,人類正處于信息爆炸的社會,大數(shù)據(jù)已成為時代的主旋律。政府數(shù)據(jù)開放是順應大數(shù)據(jù)發(fā)展趨勢的重要舉措,大量高質(zhì)量、高價值數(shù)據(jù)因公開而得以共享和使用。本文立足于政府開放數(shù)據(jù)的應用視角,從數(shù)據(jù)集自身出發(fā),基于Python 技術(shù)對其開展網(wǎng)絡采集及可視化分析,得到如下研究啟示:

      第一,數(shù)據(jù)驅(qū)動研究范式下需要更加注重數(shù)據(jù)自身的分析與挖掘。大數(shù)據(jù)的產(chǎn)生在一定程度上引起了科學研究范式朝向數(shù)據(jù)驅(qū)動型的創(chuàng)新轉(zhuǎn)變,政府開放數(shù)據(jù)使得人們可通過互聯(lián)網(wǎng)獲取更多、更海量的數(shù)據(jù)。為了實現(xiàn)數(shù)據(jù)資產(chǎn)價值最大化,可采用一定的數(shù)據(jù)分析方法(如數(shù)據(jù)的采集、清洗及可視化技術(shù),機器學習算法等)對數(shù)據(jù)內(nèi)蘊含的因果關(guān)系、關(guān)聯(lián)關(guān)系等進行深入分析與挖掘,必將更大程度地提升政府開放數(shù)據(jù)的利用效果。

      第二,開放政府數(shù)據(jù)的數(shù)據(jù)集樣本應確保無偏性、多變量的特性。通過爬蟲等數(shù)據(jù)采集技術(shù)獲取的數(shù)據(jù)記錄數(shù)量往往較多,但數(shù)據(jù)樣本是否具有典型性并不明確,由此導致采用此類樣本數(shù)據(jù)的分析結(jié)果可能并不具備普遍性和適用性。此外,如果采集的樣本數(shù)據(jù)所具有的變量個數(shù)較少,就意味著對數(shù)據(jù)自身特性的描述并不全面,也難以開展更深入、更客觀的數(shù)據(jù)分析。因此,政府部門在開放數(shù)據(jù)時,有必要從源頭嚴控數(shù)據(jù)質(zhì)量,確保所開放數(shù)據(jù)樣本具有更廣泛的代表性,同時盡可能提供有關(guān)數(shù)據(jù)樣本更多表征其不同屬性的變量描述。

      第三,開放政府數(shù)據(jù)應建立常態(tài)化的數(shù)據(jù)更新機制,以確保數(shù)據(jù)的及時性和持續(xù)性。大數(shù)據(jù)時代下,數(shù)據(jù)的日生產(chǎn)量數(shù)以億計,其中蘊含的決策導向以及價值取向也瞬息萬變。數(shù)據(jù)驅(qū)動的研究過程除了要以巨大的數(shù)據(jù)量為支撐深入挖掘其內(nèi)部存在的規(guī)律與模式外,也應注重對即時數(shù)據(jù)的及時捕捉以及對目標數(shù)據(jù)定時定期、規(guī)律性的跟蹤。因此,政府開放數(shù)據(jù)應確保其自身是最新發(fā)布的,具備較高的時效性,同時對已發(fā)布的數(shù)據(jù)應按照日、周、月等頻率開展定期的更新與維護。

      第四,開發(fā)和設計更多、更強大、更穩(wěn)定的算法以實現(xiàn)開放數(shù)據(jù)的智能化應用。數(shù)據(jù)可視化分析雖然能實現(xiàn)對數(shù)據(jù)的應用,但其本質(zhì)上還是基于可視化展示結(jié)果輔助人類更好地進行問題決策,屬于淺層的智能應用。如果基于現(xiàn)有算法進行改進和優(yōu)化,使之可以基于輸入的原始開放數(shù)據(jù)通過算法的智能計算與分析直接代替人進行科學決策,算法輸出的結(jié)果已經(jīng)是非常明確的行動指示,即實現(xiàn)了更高級的智能應用,這將成為未來政府開放數(shù)據(jù)利用的一個重要發(fā)展方向。

      猜你喜歡
      廣州市可視化數(shù)量
      基于CiteSpace的足三里穴研究可視化分析
      麓湖春天觀景
      廣東園林(2022年2期)2022-05-15 12:18:09
      廣州市嶺南耐火材料有限公司
      玻璃纖維(2022年1期)2022-03-11 05:36:04
      基于Power BI的油田注水運行動態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      廣州市一元文化有限公司
      汽車維修與保養(yǎng)(2020年4期)2020-07-18 02:33:02
      基于CGAL和OpenGL的海底地形三維可視化
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      統(tǒng)一數(shù)量再比較
      頭發(fā)的數(shù)量
      建湖县| 景德镇市| 朔州市| 无为县| 东兰县| 隆回县| 万山特区| 清新县| 嘉荫县| 荣成市| 小金县| 镇巴县| 当雄县| 延川县| 夏河县| 荆门市| 扬州市| 宁城县| 微博| 台北市| 仲巴县| 常宁市| 团风县| 南陵县| 河间市| 新河县| 格尔木市| 昭平县| 嘉义县| 禹城市| 城市| 凤冈县| 嵊州市| 湟源县| 沈阳市| 宁明县| 淮安市| 永登县| 扶余县| 南澳县| 邮箱|