• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)研究與實踐

      2022-06-02 08:36:50瑾丁尚宇孟慶莊
      西部經(jīng)濟管理論壇 2022年3期
      關(guān)鍵詞:數(shù)據(jù)源畫像標(biāo)簽

      劉 瑾丁尚宇孟慶莊

      (1. 中央民族大學(xué)經(jīng)濟學(xué)院 北京 100081;2. 中國宏觀經(jīng)濟研究院經(jīng)濟所 北京 100032)

      一、研究背景與研究意義

      2017 年,黨的十九大報告提出要實施鄉(xiāng)村振興戰(zhàn)略,并提出“產(chǎn)業(yè)興旺、生態(tài)宜居、鄉(xiāng)風(fēng)文明、治理有效、生活富裕”的總要求。2018 年,中共中央、國務(wù)院印發(fā)《鄉(xiāng)村振興戰(zhàn)略規(guī)劃(2018—2022 年)》,從加快農(nóng)業(yè)現(xiàn)代化步伐、發(fā)展壯大鄉(xiāng)村產(chǎn)業(yè)、建設(shè)生態(tài)宜居美麗鄉(xiāng)村等角度對我國鄉(xiāng)村振興事業(yè)進行部署。2021 年1 月,中央一號文件《關(guān)于全面推進鄉(xiāng)村振興加快農(nóng)業(yè)農(nóng)村現(xiàn)代化的意見》印發(fā),明確提出在新發(fā)展格局下,推進鄉(xiāng)村振興將成為“十四五”期間我國的重點工作之一。2021 年4 月,第十三屆全國人大常委會第二十八次會議通過《中華人民共和國鄉(xiāng)村振興促進法》,將推進鄉(xiāng)村振興以法律的形式確定下來。在提出鄉(xiāng)村振興戰(zhàn)略的五年時間中,中央出臺了諸多政策和法律法規(guī)對實現(xiàn)鄉(xiāng)村振興進行頂層設(shè)計與規(guī)劃,鄉(xiāng)村振興戰(zhàn)略已成為實現(xiàn)我國農(nóng)業(yè)農(nóng)村現(xiàn)代化的巨大推動力。

      在明確鄉(xiāng)村振興戰(zhàn)略的地位后,如何實現(xiàn)鄉(xiāng)村振興成為政府部門面臨的重大挑戰(zhàn)。在實施鄉(xiāng)村振興戰(zhàn)略的過程中,第一步就是要了解鄉(xiāng)村發(fā)展全貌,掌握與農(nóng)業(yè)農(nóng)村發(fā)展相關(guān)的各類信息和數(shù)據(jù)。對于不同主體來說,了解鄉(xiāng)村發(fā)展的現(xiàn)狀都是實施下一步計劃和采取實際行動的前提。對于政府部門來說,了解現(xiàn)狀可以發(fā)現(xiàn)農(nóng)業(yè)農(nóng)村發(fā)展的短板,為因地制宜、因鄉(xiāng)施策打好基礎(chǔ),同時也使通過借鑒其他地區(qū)的先進經(jīng)驗以實現(xiàn)跨越式發(fā)展成為可能。對于研究機構(gòu)來說,了解現(xiàn)狀是進行相關(guān)數(shù)據(jù)分析和提出政策建議的前提。對于經(jīng)濟組織來說,了解現(xiàn)狀是制定企業(yè)發(fā)展戰(zhàn)略和投資策略的關(guān)鍵??傊?,了解鄉(xiāng)村發(fā)展現(xiàn)狀是實施鄉(xiāng)村振興戰(zhàn)略需要解決的首要問題。

      當(dāng)前,了解鄉(xiāng)村發(fā)展現(xiàn)狀過程中主要存在兩個問題。第一,從數(shù)據(jù)的共享角度來看,鄉(xiāng)村數(shù)據(jù)的分散化嚴(yán)重影響各類機構(gòu)了解鄉(xiāng)村發(fā)展現(xiàn)狀。在政府內(nèi)部,與鄉(xiāng)村發(fā)展相關(guān)的農(nóng)業(yè)部門、人社部門、財政部門、環(huán)保部門等各自為政,各部門之間數(shù)據(jù)資源沒有實現(xiàn)互聯(lián)互通,存在“數(shù)據(jù)孤島”“數(shù)據(jù)煙囪”的現(xiàn)象。在政府之外,銀行、征信機構(gòu)、農(nóng)業(yè)企業(yè)等也掌握著大量與農(nóng)民、農(nóng)業(yè)、農(nóng)村相關(guān)的數(shù)據(jù)資源,但這些數(shù)據(jù)資源沒有實現(xiàn)共享,也沒有同政府?dāng)?shù)據(jù)進行對接。第二,從數(shù)據(jù)的使用角度來看,即使各部門、各機構(gòu)掌握的鄉(xiāng)村數(shù)據(jù)實現(xiàn)了在同一平臺的匯集,政府部門也很難對數(shù)據(jù)進行分析和有效利用。一方面,不同部門和機構(gòu)掌握的數(shù)據(jù)內(nèi)容、格式和類型存在巨大差異,例如,政府部門掌握的鄉(xiāng)村數(shù)據(jù)更偏向于農(nóng)業(yè)領(lǐng)域,且數(shù)據(jù)頻率多為季度和年度,而銀行掌握的數(shù)據(jù)更多是和農(nóng)民個體或新型經(jīng)營主體相關(guān),數(shù)據(jù)的敏感度和頻率更高。此外,不同機構(gòu)的數(shù)據(jù)格式也不同,要實現(xiàn)不同類型、不同頻率的數(shù)據(jù)拼接難度較大。另一方面,政府部門的技術(shù)水平有限,在使用大數(shù)據(jù)、人工智能等新技術(shù)方面的經(jīng)驗不足,很難對數(shù)據(jù)背后隱藏的信息進行充分挖掘。在此背景下,建設(shè)鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)勢在必行,通過融合政府、研究機構(gòu)和經(jīng)濟組織的數(shù)據(jù)源,借助研究機構(gòu)和經(jīng)濟組織的技術(shù)優(yōu)勢,政府部門可以更好地了解鄉(xiāng)村發(fā)展現(xiàn)狀,助力鄉(xiāng)村振興。

      二、鄉(xiāng)村大數(shù)據(jù)畫像相關(guān)研究現(xiàn)狀

      在鄉(xiāng)村大數(shù)據(jù)畫像系統(tǒng)的研究和實踐過程中,鄉(xiāng)村大數(shù)據(jù)源是研究和實踐的基礎(chǔ),因此至關(guān)重要,同時,必須利用大數(shù)據(jù)畫像技術(shù)對數(shù)據(jù)展開分析,才能最終形成鄉(xiāng)村畫像。因此,本文重點參考了和鄉(xiāng)村大數(shù)據(jù)源以及大數(shù)據(jù)畫像技術(shù)相關(guān)的兩類研究文獻。

      (一) 鄉(xiāng)村大數(shù)據(jù)源研究

      已有學(xué)者對鄉(xiāng)村大數(shù)據(jù)源進行了研究。王東杰等提到,2014 年我國已經(jīng)搭建了國家農(nóng)業(yè)數(shù)據(jù)中心和國家農(nóng)業(yè)科技數(shù)據(jù)中心,同時,農(nóng)業(yè)部、商務(wù)部、國家統(tǒng)計局、發(fā)改委等開始建立各種信息統(tǒng)計渠道,加強對農(nóng)業(yè)生產(chǎn)、農(nóng)產(chǎn)品價格等方面的監(jiān)測[1]。趙瑞雪等對國內(nèi)外農(nóng)業(yè)科學(xué)數(shù)據(jù)的建設(shè)情況進行梳理,發(fā)現(xiàn)共計42 個數(shù)據(jù)源,如NCBI 數(shù)據(jù)庫、國家農(nóng)作物種質(zhì)資源平臺、中國生態(tài)農(nóng)業(yè)信息數(shù)據(jù)庫等;同時,文章還對各農(nóng)業(yè)數(shù)據(jù)庫包含的數(shù)據(jù)內(nèi)容進行了對比分析[2]。姜侯等將農(nóng)業(yè)大數(shù)據(jù)源的獲取途徑分為農(nóng)業(yè)物聯(lián)網(wǎng)數(shù)據(jù)、農(nóng)業(yè)遙感數(shù)據(jù)、農(nóng)業(yè)網(wǎng)絡(luò)數(shù)據(jù)、科研及農(nóng)戶生產(chǎn)經(jīng)營數(shù)據(jù)等四大類[3]。許哲平等將國內(nèi)外農(nóng)業(yè)大數(shù)據(jù)平臺分為基礎(chǔ)數(shù)據(jù)平臺、作物數(shù)據(jù)平臺、林業(yè)數(shù)據(jù)平臺、漁業(yè)數(shù)據(jù)平臺等類型[4]。劉瑾對政府?dāng)?shù)據(jù)開放平臺上的農(nóng)業(yè)農(nóng)村數(shù)據(jù)源進行梳理,并以8 個平臺為例對農(nóng)業(yè)農(nóng)村相關(guān)數(shù)據(jù)的開放數(shù)量和質(zhì)量進行評估[5]。劉瑾和張仲對鄉(xiāng)村自然地理條件數(shù)據(jù)源、統(tǒng)計年鑒數(shù)據(jù)源、農(nóng)業(yè)普查數(shù)據(jù)源、政府部門公開數(shù)據(jù)源、政策稱號數(shù)據(jù)源、農(nóng)業(yè)企業(yè)數(shù)據(jù)源、農(nóng)業(yè)專利數(shù)據(jù)源以及農(nóng)村電子商務(wù)數(shù)據(jù)源等8 類鄉(xiāng)村數(shù)據(jù)源進行了歸納總結(jié)[6]。

      對已有文獻進行分析可以發(fā)現(xiàn),當(dāng)前對鄉(xiāng)村大數(shù)據(jù)源進行研究的主要關(guān)注點在農(nóng)業(yè)大數(shù)據(jù)源上,這主要是由于相比農(nóng)村和農(nóng)民數(shù)據(jù)來說,農(nóng)業(yè)數(shù)據(jù)的獲取途徑更多、數(shù)據(jù)總量更多。僅有少量文獻涉及與農(nóng)村和農(nóng)民相關(guān)的大數(shù)據(jù)源,如姜侯等[3]提到的農(nóng)戶生產(chǎn)經(jīng)營數(shù)據(jù)、劉瑾和張仲[6]提到的政策稱號數(shù)據(jù)以及農(nóng)村電子商務(wù)數(shù)據(jù)等。但對于鄉(xiāng)村整體發(fā)展而言,農(nóng)業(yè)、農(nóng)村和農(nóng)民三者都十分重要,農(nóng)民更是鄉(xiāng)村經(jīng)濟系統(tǒng)的核心,同時,數(shù)據(jù)源的多樣和完整是進行后續(xù)分析的基本條件,因此,任何一方數(shù)據(jù)的短缺都會導(dǎo)致政府無法客觀、綜合地對鄉(xiāng)村總體情況進行分析與評價。

      當(dāng)前,數(shù)字鄉(xiāng)村戰(zhàn)略的推進加速了鄉(xiāng)村大數(shù)據(jù)的積累。早在2015 年,農(nóng)業(yè)部印發(fā)的《關(guān)于推進農(nóng)業(yè)農(nóng)村大數(shù)據(jù)發(fā)展的實施意見》中就要求在2020 年底前實現(xiàn)各級農(nóng)業(yè)主管部門數(shù)據(jù)集向全社會開放,實現(xiàn)數(shù)據(jù)采集的自動化和數(shù)據(jù)使用的智能化,同時,發(fā)展農(nóng)業(yè)領(lǐng)域的物聯(lián)網(wǎng),加強對農(nóng)業(yè)農(nóng)村領(lǐng)域各項數(shù)據(jù)的實時監(jiān)測。2019 年,中共中央辦公廳、國務(wù)院辦公廳印發(fā)《數(shù)字鄉(xiāng)村發(fā)展戰(zhàn)略綱要》,提出加快鄉(xiāng)村信息基礎(chǔ)設(shè)施建設(shè)、建設(shè)智慧綠色鄉(xiāng)村、深化信息惠民服務(wù)等多項舉措。2020 年,《數(shù)字農(nóng)業(yè)農(nóng)村發(fā)展規(guī)劃(2019—2025 年)》印發(fā),進一步指明了發(fā)展數(shù)字鄉(xiāng)村的路徑,包括構(gòu)建基礎(chǔ)數(shù)據(jù)資源體系、加快生產(chǎn)經(jīng)營數(shù)字化改造、強化關(guān)鍵技術(shù)裝備創(chuàng)新等。數(shù)字鄉(xiāng)村戰(zhàn)略的實施有助于進一步解放和發(fā)展數(shù)字生產(chǎn)力,構(gòu)建層級更高、結(jié)構(gòu)更優(yōu)的現(xiàn)代化鄉(xiāng)村經(jīng)濟體系,推動鄉(xiāng)村振興的實現(xiàn)。從構(gòu)建鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)的角度來看,數(shù)字鄉(xiāng)村戰(zhàn)略有助于鄉(xiāng)村大數(shù)據(jù)源的拓展,使各類數(shù)據(jù)充分融合,為后續(xù)畫像技術(shù)的應(yīng)用奠定數(shù)據(jù)基礎(chǔ)。

      (二) 大數(shù)據(jù)畫像技術(shù)研究

      大數(shù)據(jù)畫像技術(shù)是構(gòu)建鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)的核心技術(shù)。大數(shù)據(jù)畫像的概念來自于用戶畫像,其英文名稱為“User Persona”,最早由交互設(shè)計之父艾倫·庫珀提出,他將用戶畫像定義為“基于用戶真實數(shù)據(jù)的虛擬代表”[7]。用戶畫像是基于用戶的基本屬性、社會屬性、行為習(xí)慣等信息來提取個性化標(biāo)簽,了解用戶的過程[8]。大數(shù)據(jù)畫像技術(shù)是用戶畫像在大數(shù)據(jù)背景下的創(chuàng)新發(fā)展,是基于靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)、傳統(tǒng)數(shù)據(jù)和非傳統(tǒng)數(shù)據(jù)、宏觀數(shù)據(jù)和微觀數(shù)據(jù),結(jié)合大數(shù)據(jù)、人工智能等新技術(shù),來挖掘數(shù)據(jù)、提取特征、構(gòu)建模型并進行可視化展示的一種新型畫像技術(shù)。

      從畫像的研究對象來看,已有文獻的研究對象以“用戶”為主,如Semeraro 等[9]、單曉紅等[10]、吳樹芳等[11]和閆泓序等[12],分別對數(shù)字圖書館用戶、攜程酒店用戶、微博用戶以及我國工業(yè)電力用戶進行畫像,利用畫像技術(shù)分析不同行業(yè)的用戶特征,為挖掘用戶價值提供支撐。此外,還有部分文獻以企業(yè)或者產(chǎn)品為對象進行研究[13-15],但這類文獻數(shù)量較少,且研究思路和使用技術(shù)與用戶畫像類似。本文在對知網(wǎng)進行檢索后發(fā)現(xiàn),國內(nèi)僅有李望月等學(xué)者的一篇文獻對鄉(xiāng)村領(lǐng)域的畫像技術(shù)應(yīng)用進行了初步探索,但該文獻尚未給出構(gòu)建鄉(xiāng)村領(lǐng)域大數(shù)據(jù)畫像系統(tǒng)的方法[16]。而國外尚未有文獻使用畫像技術(shù)對鄉(xiāng)村面貌進行刻畫,僅有部分文獻對大數(shù)據(jù)技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用進行了研究[17-18]。

      從畫像的應(yīng)用場景來看,在現(xiàn)實生活中,畫像技術(shù)多用于金融領(lǐng)域和互聯(lián)網(wǎng)領(lǐng)域,具體而言,主要用在相關(guān)內(nèi)容推送、廣告精準(zhǔn)投放、客戶征信、個性化服務(wù)等方面。以往,由于農(nóng)業(yè)農(nóng)村領(lǐng)域的數(shù)據(jù)存在量少、頻率低、結(jié)構(gòu)各異等問題,畫像技術(shù)落地和應(yīng)用的難度較大,在客觀上阻礙了畫像技術(shù)在鄉(xiāng)村領(lǐng)域的使用和推廣。

      從畫像的技術(shù)基礎(chǔ)來看,特征提取是畫像技術(shù)的關(guān)鍵。特征提取的方法可以分為兩大類。一類是人工提取,即通過調(diào)研、走訪、文獻查閱、專家咨詢等方法來提取用戶的特征,構(gòu)建用戶畫像,這類方法適用于數(shù)據(jù)結(jié)構(gòu)清晰、數(shù)據(jù)內(nèi)涵明確、數(shù)據(jù)量較小、前人經(jīng)驗豐富的場景[19]。另一類是數(shù)據(jù)挖掘,即使用大數(shù)據(jù)技術(shù)對數(shù)據(jù)進行深度分析,提取隱藏的特征,具體方法包括K 均值聚類、樸素貝葉斯、決策樹、隨機森林等,這類方法適用于數(shù)據(jù)量大、數(shù)據(jù)類型多樣的場景[20-21]。

      總體來看,當(dāng)前對于大數(shù)據(jù)畫像技術(shù)應(yīng)用于鄉(xiāng)村領(lǐng)域的研究極少,這一方面是由于相比工業(yè)和商業(yè)領(lǐng)域,農(nóng)業(yè)領(lǐng)域的信息化推進較慢,信息技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用也更少,另一方面是由于畫像技術(shù)更多聚焦于個體人,關(guān)注“客戶”能夠創(chuàng)造的商業(yè)價值,研究主體尚未拓展到“鄉(xiāng)村”。在鄉(xiāng)村大數(shù)據(jù)源逐漸豐富的背景下,畫像技術(shù)也有了在鄉(xiāng)村應(yīng)用的基礎(chǔ),同時,隨著鄉(xiāng)村經(jīng)濟系統(tǒng)的復(fù)雜化,傳統(tǒng)的治理手段無法滿足需求,將大數(shù)據(jù)技術(shù)應(yīng)用于鄉(xiāng)村治理是實現(xiàn)農(nóng)業(yè)農(nóng)村現(xiàn)代化的必然要求[22]。

      三、鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)的功能和架構(gòu)

      (一) 鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)的定義、特征及功能

      1. 定義

      鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)是匯聚各類與農(nóng)業(yè)、農(nóng)村、農(nóng)民相關(guān)的大數(shù)據(jù)源,使用大數(shù)據(jù)技術(shù)對鄉(xiāng)村數(shù)據(jù)進行挖掘,提取多種數(shù)據(jù)特征,并使用可視化技術(shù)對鄉(xiāng)村數(shù)據(jù)進行展示的畫像系統(tǒng)。

      2. 特征

      鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)具有四個特征。

      一是綜合化。鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)將匯集涉及鄉(xiāng)村發(fā)展的各類數(shù)據(jù),多維度、多層次、多方面刻畫鄉(xiāng)村發(fā)展面貌,突破傳統(tǒng)數(shù)據(jù)平臺主要提供農(nóng)業(yè)數(shù)據(jù)的限制。用戶通過平臺能夠全面了解鄉(xiāng)村發(fā)展的各個方面。

      二是動態(tài)化。隨著底層數(shù)據(jù)的更新,數(shù)據(jù)分析結(jié)果及可視化展示也會變動。未來,隨著海量數(shù)據(jù)的匯聚和數(shù)據(jù)更新頻率的提高,鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)將達到實時變動。平臺動態(tài)化的特征將極大提高平臺的使用效率,幫助政府等用戶及時更新信息,進而做出決策。

      三是智能化。不同于簡單的數(shù)據(jù)庫或數(shù)據(jù)平臺,鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)在大數(shù)據(jù)、人工智能等技術(shù)的助力下,將實現(xiàn)對數(shù)據(jù)的深度分析,同時可根據(jù)不同主體的需求提供不同的數(shù)據(jù)分析方案。

      四是可視化??梢暬夹g(shù)可以對大量復(fù)雜數(shù)據(jù)進行提取并分析,借助圖形、表格、圖標(biāo)等直觀的、便于理解的形式,將結(jié)果呈現(xiàn)出來,從而幫助系統(tǒng)使用主體在短時間內(nèi)獲取更多信息。3. 功能

      鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)可以為政府部門、學(xué)術(shù)機構(gòu)、經(jīng)濟組織等各類主體使用,為解決鄉(xiāng)村領(lǐng)域的難點問題提供數(shù)據(jù)支撐。具體而言,鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)主要有三大功能。

      一是了解全貌。傳統(tǒng)的鄉(xiāng)村發(fā)展評價一般采用年鑒數(shù)據(jù)、普查數(shù)據(jù)和調(diào)查數(shù)據(jù)等,這些數(shù)據(jù)存在時間滯后、更新頻率低、農(nóng)業(yè)數(shù)據(jù)多而農(nóng)村和農(nóng)民數(shù)據(jù)少等問題,同時,使用相似數(shù)據(jù)源進行分析可能會導(dǎo)致評價結(jié)果的趨同化。鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)涵蓋了海量的鄉(xiāng)村數(shù)據(jù)資源,能夠極大地拓展分析維度,幫助系統(tǒng)使用主體全方位、立體化地了解鄉(xiāng)村發(fā)展實際情況,進而有針對性地采取具體措施。

      二是差異尋因。從政府角度而言,在了解鄉(xiāng)村發(fā)展的現(xiàn)狀后,需要更進一步地了解短板為何為短板,以及如何去突破短板。鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)可以幫助政府部門對比當(dāng)?shù)嘏c位置鄰近地區(qū)、經(jīng)濟結(jié)構(gòu)相似地區(qū)、自然資源相似地區(qū)之間鄉(xiāng)村發(fā)展的差異,從而發(fā)現(xiàn)該地區(qū)的優(yōu)勢和劣勢,并提供其他地區(qū)的發(fā)展經(jīng)驗供其參考。

      三是監(jiān)測預(yù)警。鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)也可作為監(jiān)測預(yù)警系統(tǒng)使用。一方面,系統(tǒng)可用于評估鄉(xiāng)村振興政策的實施情況,通過對多年數(shù)據(jù)進行對比,向政府部門清晰提示指標(biāo)的變動情況尤其是下降指標(biāo)的實際表現(xiàn),幫助政府采取相關(guān)政策進行適當(dāng)調(diào)整。另一方面,系統(tǒng)可用于對鄉(xiāng)村發(fā)展情況進行實時監(jiān)測并發(fā)出預(yù)警。例如,系統(tǒng)可以對農(nóng)產(chǎn)品價格進行實時監(jiān)測,當(dāng)指標(biāo)值出現(xiàn)異常波動或下降趨勢時發(fā)出預(yù)警信號,幫助政府部門作出及時應(yīng)對。

      (二) 鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)的架構(gòu)

      如圖1 所示,本文構(gòu)建的鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)主要包括六大板塊:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、特征工程、數(shù)據(jù)挖掘、鄉(xiāng)村畫像。用戶畫像的過程包括搜集用戶數(shù)據(jù)、分析用戶相關(guān)業(yè)務(wù)特色以及可視化分析等[23-24],這六大板塊的設(shè)計參考了用戶畫像的構(gòu)建過程。設(shè)計同時參考了計算機領(lǐng)域搭建大數(shù)據(jù)類平臺的相關(guān)流程,即從數(shù)據(jù)的獲取,到數(shù)據(jù)簡單處理和存儲,再到對數(shù)據(jù)進行深層次挖掘和分析,最后形成關(guān)于一個主體的大數(shù)據(jù)畫像,這是一個構(gòu)建大數(shù)據(jù)平臺通用的流程。流程核心是對粗糙的數(shù)據(jù)進行深度加工,將與主體相關(guān)的各類事物聯(lián)系在一起,構(gòu)建一個關(guān)于主體的信息網(wǎng)絡(luò),而畫像的本質(zhì),就是信息的有效集合。

      1. 數(shù)據(jù)采集

      鄉(xiāng)村數(shù)據(jù)源十分豐富,包括年鑒數(shù)據(jù)、普查數(shù)據(jù)、調(diào)研數(shù)據(jù)、征信數(shù)據(jù)、消費數(shù)據(jù)、支付數(shù)據(jù)、手機信令數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)和互聯(lián)網(wǎng)爬取數(shù)據(jù)等等。從數(shù)據(jù)結(jié)構(gòu)來看,畫像系統(tǒng)既包括結(jié)構(gòu)化數(shù)據(jù),又包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。從數(shù)據(jù)層次來看,畫像系統(tǒng)既包括省級層面、市級層面的宏觀經(jīng)濟數(shù)據(jù),又包括涉及農(nóng)戶個體的微觀數(shù)據(jù)。從數(shù)據(jù)類型來看,畫像系統(tǒng)既包括數(shù)值型數(shù)據(jù),又包括文本型數(shù)據(jù)。本文在構(gòu)建鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)時,對三類鄉(xiāng)村大數(shù)據(jù)源進行了重點關(guān)注。

      一是政府?dāng)?shù)據(jù)開放平臺上的鄉(xiāng)村數(shù)據(jù)。政府掌握著大量高價值的數(shù)據(jù)資源。據(jù)《中國地方政府?dāng)?shù)據(jù)開放報告(2021 年上半年)》統(tǒng)計,截至2021 年4 月底,我國已有174 個省級和城市的地方政府上線了數(shù)據(jù)開放平臺,其中省級平臺18 個(含省和自治區(qū),不包括直轄市和港澳臺),城市平臺156 個(含直轄市、副省級與地級行政區(qū))。這些平臺匯聚了發(fā)改、民政、財政、住建、自然資源、生態(tài)環(huán)境、水利、文化和旅游、統(tǒng)計等多個政府部門的數(shù)據(jù),從主題或領(lǐng)域來看,涉及鄉(xiāng)村數(shù)據(jù)的主題包括農(nóng)業(yè)農(nóng)村、文旅休閑、氣象服務(wù)、衛(wèi)生健康等。政府促進鄉(xiāng)村數(shù)據(jù)開放可以推動歷史數(shù)據(jù)的數(shù)字化、電子化,這些數(shù)據(jù)不僅可以為政府部門所用,為其決策提供支撐,同時也可以為其他主體進行應(yīng)用開發(fā)提供基礎(chǔ)資源,進一步促進數(shù)據(jù)要素價值的釋放。

      二是物聯(lián)網(wǎng)產(chǎn)生的鄉(xiāng)村數(shù)據(jù)。例如,農(nóng)村居民可以借助物聯(lián)網(wǎng)傳感器搭建精細(xì)化種養(yǎng)環(huán)境,在種養(yǎng)殖生產(chǎn)環(huán)節(jié)通過物聯(lián)網(wǎng)設(shè)備采集環(huán)境信息。再如,農(nóng)村地區(qū)還可以通過在垃圾監(jiān)測點部署傳感器設(shè)備,結(jié)合無人機定期拍攝、互聯(lián)網(wǎng)群眾監(jiān)督等手段,獲取農(nóng)村人居環(huán)境數(shù)據(jù)。

      三是與農(nóng)戶相關(guān)的微觀數(shù)據(jù)?;ヂ?lián)網(wǎng)金融的發(fā)展使得“長尾效應(yīng)”得到充分發(fā)揮,農(nóng)村居民也能以較低成本購買金融產(chǎn)品和服務(wù),在此背景下,互聯(lián)網(wǎng)金融平臺將積攢大量關(guān)于居民個人的消費、支付、購買保險等行為的數(shù)據(jù),這些數(shù)據(jù)與傳統(tǒng)銀行等金融機構(gòu)的數(shù)據(jù)結(jié)合,可以進一步完善我國農(nóng)村居民包括征信情況在內(nèi)的各種信息。

      未來,隨著政府?dāng)?shù)據(jù)開放工作的推進、智慧農(nóng)業(yè)的發(fā)展和數(shù)字金融的進一步推廣,這三類鄉(xiāng)村大數(shù)據(jù)源將獲得極大拓展。同時,其他鄉(xiāng)村數(shù)據(jù)源也將更加豐富,使鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)能夠保持動態(tài)更新。

      2. 數(shù)據(jù)預(yù)處理

      由于不同來源的數(shù)據(jù)類型不一、頻率不一、時間段不一,因此在使用之前需要對數(shù)據(jù)進行處理。一是數(shù)據(jù)清洗,如去除異常值、處理缺失值。二是數(shù)據(jù)轉(zhuǎn)換,如將文本型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù),以及不同尺度數(shù)據(jù)的歸一化處理等。三是數(shù)據(jù)規(guī)約。以屬性規(guī)約為例,屬性規(guī)約是通過合并屬性來創(chuàng)建新的屬性,或者通過刪除不相關(guān)屬性來減少數(shù)據(jù)維數(shù),從而提高后續(xù)的數(shù)據(jù)挖掘效率,降低計算成本。四是數(shù)據(jù)集成,即把不同來源、不同格式的數(shù)據(jù)在邏輯上或者在物理上進行集中。

      3. 數(shù)據(jù)存儲

      數(shù)據(jù)存儲板塊應(yīng)充分考慮數(shù)據(jù)使用的規(guī)范性和便捷性。本文初步設(shè)想可以根據(jù)鄉(xiāng)村數(shù)據(jù)的內(nèi)涵對各個數(shù)據(jù)源的數(shù)據(jù)進行細(xì)分,然后集中到相應(yīng)的數(shù)據(jù)庫中,如自然環(huán)境數(shù)據(jù)庫、鄉(xiāng)村人口數(shù)據(jù)庫、農(nóng)業(yè)生產(chǎn)數(shù)據(jù)庫、鄉(xiāng)村治理數(shù)據(jù)庫、鄉(xiāng)村經(jīng)濟數(shù)據(jù)庫等。此外,數(shù)據(jù)存儲還應(yīng)關(guān)注數(shù)據(jù)的安全性,防止數(shù)據(jù)篡改和泄露。

      4. 特征工程

      如前所述,特征提取是構(gòu)建大數(shù)據(jù)畫像系統(tǒng)最為關(guān)鍵的一步,人工提取和數(shù)據(jù)挖掘這兩種特征提取方法既可以分開使用,也可以結(jié)合使用。提取出來的特征通過標(biāo)簽進行展示和存儲,標(biāo)簽可以分為以下三類。

      一是事實標(biāo)簽。這類標(biāo)簽是根據(jù)鄉(xiāng)村的基本信息提取的,是對事實的描述,無需對原始信息進行太多處理,如“屬于西部地區(qū)”“屬于溫帶季風(fēng)氣候”等。

      二是模型標(biāo)簽。這類標(biāo)簽是對鄉(xiāng)村數(shù)據(jù)進行求和、求平均、求比率、求增速等得到的,是基于一定的畫像模型產(chǎn)生的,如“本年度小麥產(chǎn)量比去年增加3%”“平均每村的醫(yī)療人員數(shù)量為4 人”等。

      三是預(yù)測標(biāo)簽。這類標(biāo)簽是在對鄉(xiāng)村未來發(fā)展情況進行預(yù)測時使用的,需要構(gòu)建更加復(fù)雜的模型、進行更為復(fù)雜的運算才能得出,如“水稻產(chǎn)量可能出現(xiàn)下降”“人口有增加趨勢”等。預(yù)測方法既可以使用傳統(tǒng)經(jīng)濟學(xué)中的各種趨勢預(yù)測法,也可以使用機器學(xué)習(xí)等統(tǒng)計方法。

      在構(gòu)建鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)時,要建立標(biāo)簽篩選機制。標(biāo)簽篩選指的是對事實標(biāo)簽、模型標(biāo)簽和預(yù)測標(biāo)簽等各類標(biāo)簽進行有選擇性地呈現(xiàn)的過程。隨著鄉(xiāng)村大數(shù)據(jù)類型和數(shù)量的增加,標(biāo)簽的數(shù)量也將不斷增加,如果不建立篩選機制,將所有標(biāo)簽直接可視化,就會導(dǎo)致大量標(biāo)簽集中于同一張圖的情況,出現(xiàn)“信息過量”或“信息泛濫”的現(xiàn)象。未來可通過構(gòu)建標(biāo)簽篩選機制,根據(jù)不同主體的實際需求來選擇可視化的側(cè)重點,有針對性地展示部分重要標(biāo)簽。

      5. 數(shù)據(jù)挖掘

      對特征工程環(huán)節(jié)提取到的特征和標(biāo)簽,我們繼續(xù)使用數(shù)據(jù)挖掘技術(shù)對其進行具體而深入的分析。實際操作中有多種方法可供選擇,以機器學(xué)習(xí)方法為例,既可以采用有監(jiān)督的學(xué)習(xí)(如分類分析),也可以采用無監(jiān)督的學(xué)習(xí)(如聚類分析),具體使用哪種方法需要根據(jù)數(shù)據(jù)情況和研究目的而定。在進行數(shù)據(jù)挖掘時,要特別關(guān)注數(shù)據(jù)的稀疏性問題。以“全國民主法治示范村”這一政策稱號為例,到目前為止,該稱號一共發(fā)布過7 個批次的名單,共計3035 個村落,對于我國六十多萬個村來說,擁有“全國民主法治示范村”稱號的村落數(shù)量是很少的,大量未獲得稱號的村落在該項數(shù)據(jù)表現(xiàn)上值為零,這就導(dǎo)致了數(shù)據(jù)稀疏性問題。通俗來說,數(shù)據(jù)稀疏是指數(shù)據(jù)相對于整體而言具有較低的覆蓋度,傳統(tǒng)方法很難獲取有用信息從而生產(chǎn)有效的標(biāo)簽。因此,在構(gòu)建鄉(xiāng)村振興大數(shù)據(jù)畫像時,對這些數(shù)據(jù)進行合適的處理對于后續(xù)的計算至關(guān)重要。

      6. 鄉(xiāng)村畫像

      經(jīng)過以上五個步驟,鄉(xiāng)村振興大數(shù)據(jù)畫像形成,按照不同的用途和功能運用于多個領(lǐng)域。以政府部門為例,政府可以借助鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)開展農(nóng)業(yè)普查;也可以利用系統(tǒng)的數(shù)據(jù)分析結(jié)果因鄉(xiāng)施策,為鄉(xiāng)村補全短板、發(fā)揮優(yōu)勢提供助力;還可以測度和評估政策效果,為下一步調(diào)整政策提供數(shù)據(jù)支持等。

      四、鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)實踐

      依據(jù)鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)的架構(gòu)和設(shè)計思路,本文對該系統(tǒng)進行了開發(fā)和實踐,設(shè)計了四大類畫像體系,分別為中長期畫像、振興指數(shù)畫像、特征鄉(xiāng)村畫像和試點示范畫像。

      (一) 中長期畫像

      中長期畫像體系的底層數(shù)據(jù)主要來自年鑒、農(nóng)業(yè)普查資料等,重點在于對我國鄉(xiāng)村發(fā)展5 至10 年內(nèi)的情況進行宏觀層面的分析,具體可以分為兩部分。第一部分為農(nóng)業(yè)普查數(shù)據(jù)分析。以北京市為例,本文利用大數(shù)據(jù)技術(shù)對上百個標(biāo)簽進行梳理,并使用詞云圖進行可視化展示,畫像結(jié)果如圖2(a)所示。從圖中可以直觀看出1996 年、2006 年和2016 年北京市鄉(xiāng)村發(fā)展比較好的方面,并能夠看出北京市鄉(xiāng)村隨時間的變化情況,如2016 年的“電子商務(wù)配送站點”標(biāo)簽可以充分體現(xiàn)農(nóng)村電子商務(wù)行業(yè)的快速發(fā)展。圖2(b)給出了三個時點排名前十位的具體指標(biāo)。第二部分為五年規(guī)劃時段分析,以年鑒數(shù)據(jù)為基礎(chǔ)。以黑龍江省農(nóng)林牧漁總產(chǎn)值指標(biāo)為例,從圖3 可以看出,“十一五”“十二五”“十三五”期間,黑龍江省農(nóng)林牧漁業(yè)總產(chǎn)值在全國的排名分別上升2 位、上升4 位、下降1 位,“十二五”期間的增長速度最快。

      (二) 鄉(xiāng)村振興指數(shù)畫像

      鄉(xiāng)村振興指數(shù)畫像使用的是年鑒數(shù)據(jù),通過構(gòu)建指標(biāo)體系來對我國31 個?。ㄗ灾螀^(qū)、直轄市)的鄉(xiāng)村振興發(fā)展水平進行測度,如圖4(a)所示,鄉(xiāng)村振興指數(shù)按照從高到低進行排序,拉動柱狀圖下方的橫條,可以看到全部省份的鄉(xiāng)村振興指數(shù)情況。點擊圖上某個省份的柱狀圖,可以進入詳情頁,如圖4(b)所示,以河北省為例,可以看到河北省2018 年鄉(xiāng)村振興指數(shù)值及其排名,并可以看到五個一級指標(biāo)值。

      (三) 特征鄉(xiāng)村畫像

      特征鄉(xiāng)村畫像又分為集聚提升類鄉(xiāng)村畫像、城郊融合類鄉(xiāng)村畫像、特色保護類鄉(xiāng)村畫像和搬遷撤并類鄉(xiāng)村畫像,其中,第一類和第三類畫像主要使用《中國縣域統(tǒng)計年鑒(鄉(xiāng)鎮(zhèn)卷)》數(shù)據(jù),第二類和第四類畫像主要使用從民政部網(wǎng)站公告中爬取的數(shù)據(jù)。以集聚提升類鄉(xiāng)村畫像為例,千強鄉(xiāng)鎮(zhèn)是統(tǒng)計年鑒中提供的一種稱號,其數(shù)量也是體現(xiàn)鄉(xiāng)村集聚提升的重要信號,圖5 給出了分地區(qū)的我國各省份千強鄉(xiāng)鎮(zhèn)數(shù)量情況。其余部分暫不做展示。

      (四) 試點示范鄉(xiāng)村畫像

      試點示范鄉(xiāng)村畫像的數(shù)據(jù)來自于互聯(lián)網(wǎng),本文對農(nóng)業(yè)農(nóng)村部、財政部、人社部等十余個國家級政府部門網(wǎng)站進行爬取,獲得了與鄉(xiāng)村有關(guān)的60 多個稱號,這些稱號通常被稱為“試點”“示范”等,如“全國一村一品示范村鎮(zhèn)”“全國鄉(xiāng)村振興示范村”“結(jié)合新型城鎮(zhèn)化開展支持農(nóng)民工等人員返鄉(xiāng)創(chuàng)業(yè)試點”等。稱號數(shù)據(jù)屬于非傳統(tǒng)、非結(jié)構(gòu)化的文本型數(shù)據(jù),需要使用文本分析工具對文字進行解析。本文共獲得5 萬多個行政村名稱,圖6 給出了這些稱號的總體情況以及分區(qū)域的情況。此外,本研究還對各省份稱號數(shù)據(jù)進行了分析,在此暫不做展示。

      當(dāng)前,本系統(tǒng)已經(jīng)獲取的數(shù)據(jù)可以分為三類。一是三次農(nóng)業(yè)普查數(shù)據(jù)。二是與鄉(xiāng)村有關(guān)的年鑒數(shù)據(jù),包括《中國統(tǒng)計年鑒》《中國人口和就業(yè)統(tǒng)計年鑒》等綜合類年鑒中的相關(guān)數(shù)據(jù)、《中國農(nóng)村統(tǒng)計年鑒》《中國農(nóng)墾統(tǒng)計年鑒》等鄉(xiāng)村類年鑒的全部數(shù)據(jù)、《廣東農(nóng)村統(tǒng)計年鑒》等地方性鄉(xiāng)村類年鑒數(shù)據(jù)。三是互聯(lián)網(wǎng)爬取數(shù)據(jù),主要是對各個政府部門網(wǎng)站進行爬取。本系統(tǒng)的數(shù)據(jù)后臺已經(jīng)按照行政主體、時間等關(guān)鍵指標(biāo)對各個來源的數(shù)據(jù)進行拼接,并提供了數(shù)據(jù)查詢、數(shù)據(jù)篩選等功能。由于征信數(shù)據(jù)、支付數(shù)據(jù)等數(shù)據(jù)的私密性較高,這部分?jǐn)?shù)據(jù)目前尚未獲取。未來,隨著數(shù)據(jù)源的拓展,大數(shù)據(jù)系統(tǒng)的底層數(shù)據(jù)基礎(chǔ)將更加堅實。從數(shù)據(jù)分析方法來看,本系統(tǒng)既使用了傳統(tǒng)的統(tǒng)計方法,又使用了標(biāo)簽技術(shù),并提供了大量的可視化圖表,下一步,本系統(tǒng)將更多使用機器學(xué)習(xí)、深度學(xué)習(xí)等對底層數(shù)據(jù)進行挖掘。

      五、總結(jié)

      鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)是基于廣泛的鄉(xiāng)村大數(shù)據(jù)源,使用大數(shù)據(jù)技術(shù)和畫像技術(shù)進行數(shù)據(jù)分析的可視化系統(tǒng),具有綜合化、動態(tài)化、智能化、可視化四大特征及了解全貌、差異尋因、監(jiān)測預(yù)警三大功能。本文給出了鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)的具體架構(gòu),包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、特征工程、數(shù)據(jù)挖掘、鄉(xiāng)村畫像六大板塊?;谠摷軜?gòu),本文進行了具體實踐,將系統(tǒng)分為中長期畫像、振興指數(shù)畫像、特征鄉(xiāng)村畫像和試點示范畫像四類畫像,并對四類畫像的主要內(nèi)容進行了展示。

      鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)是在鄉(xiāng)村振興和數(shù)字鄉(xiāng)村兩大戰(zhàn)略實施的背景下進行設(shè)計和搭建的,數(shù)字鄉(xiāng)村是鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)建設(shè)的基礎(chǔ),鄉(xiāng)村振興是系統(tǒng)建設(shè)的目標(biāo)。數(shù)字鄉(xiāng)村不僅是指數(shù)字技術(shù)在鄉(xiāng)村領(lǐng)域的簡單應(yīng)用,還指根據(jù)數(shù)字經(jīng)濟的發(fā)展理念,依托于信息基礎(chǔ)設(shè)施和大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等數(shù)字技術(shù),驅(qū)動農(nóng)業(yè)農(nóng)村高質(zhì)量發(fā)展,推動鄉(xiāng)村智能化、綠色化、精準(zhǔn)化。數(shù)字鄉(xiāng)村的發(fā)展為鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)提供了基礎(chǔ)數(shù)據(jù),同時也積累了技術(shù)經(jīng)驗。反過來,鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)也為數(shù)字鄉(xiāng)村和鄉(xiāng)村振興戰(zhàn)略的推進提供了更加可靠的數(shù)據(jù)支持,為鄉(xiāng)村發(fā)展指明了方向。未來,隨著鄉(xiāng)村數(shù)據(jù)資源的開放拓展和信息技術(shù)的進步,鄉(xiāng)村振興大數(shù)據(jù)畫像系統(tǒng)的各項功能將更加完善,數(shù)據(jù)分析結(jié)果將更加準(zhǔn)確,系統(tǒng)的應(yīng)用范圍也將進一步擴大。

      猜你喜歡
      數(shù)據(jù)源畫像標(biāo)簽
      威猛的畫像
      “00后”畫像
      畫像
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
      標(biāo)簽化傷害了誰
      基于多進制查詢樹的多標(biāo)簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
      高唐县| 麻城市| 黄冈市| 巫溪县| 巴青县| 邵武市| 石台县| 大方县| 阜南县| 聂拉木县| 开鲁县| 合水县| 新化县| 鹿泉市| 舟山市| 连南| 白水县| 宁武县| 赣州市| 元阳县| 江华| 桓台县| 南部县| 叶城县| 紫云| 伊通| 长兴县| 洪江市| 平武县| 荣昌县| 什邡市| 大渡口区| 米易县| 信宜市| 万年县| 定远县| 德钦县| 麻城市| 自贡市| 屏东县| 泸州市|