沈 儉(上海市民政局 信息研究中心,上海 200093)
數(shù)據(jù)挖掘技術(shù)在民生領(lǐng)域中的應(yīng)用
沈 儉
(上海市民政局 信息研究中心,上海 200093)
近年來,科學(xué)研究、電子商務(wù)、民生保障等諸多互聯(lián)網(wǎng)應(yīng)用領(lǐng)域飛速發(fā)展,數(shù)據(jù)規(guī)模、數(shù)據(jù)種類正在以極快的速度增長(zhǎng),大數(shù)據(jù)時(shí)代已悄然來臨。如何管理好、利用好、分析好這些海量數(shù)據(jù)來促進(jìn)相關(guān)領(lǐng)域的發(fā)展,是我們當(dāng)下需要亟待思索的問題。但由于行業(yè)壁壘的局限性、數(shù)據(jù)挖掘不夠、數(shù)據(jù)“孤島”、數(shù)據(jù)鴻溝等制約著大數(shù)據(jù)支撐解決民生領(lǐng)域問題能力的提升。因此,需要我們打破行業(yè)壁壘、突破數(shù)據(jù)“孤島”現(xiàn)象、不斷的探索新的數(shù)據(jù)挖掘技術(shù),從而提高大數(shù)據(jù)支撐解決民生領(lǐng)域問題的能力。概述了數(shù)據(jù)挖掘技術(shù)發(fā)展現(xiàn)狀,介紹了數(shù)據(jù)挖掘的一般過程及方法論,結(jié)合實(shí)際,以數(shù)據(jù)挖掘在養(yǎng)老服務(wù)領(lǐng)域中的應(yīng)用為例,對(duì)數(shù)據(jù)挖掘應(yīng)用解決扶貧幫困、救助保障、養(yǎng)老服務(wù)、基層治理等民生問題進(jìn)行簡(jiǎn)要闡述。
民生保障; 大數(shù)據(jù); 數(shù)據(jù)挖掘
隨著物聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)的飛速發(fā)展,許多行業(yè)如商業(yè)、企業(yè)、科研機(jī)構(gòu)和政府部門等都積累了海量的、不同形式存儲(chǔ)的數(shù)據(jù)資料。單獨(dú)依靠數(shù)據(jù)庫(kù)進(jìn)行相關(guān)查詢難以對(duì)海量數(shù)據(jù)進(jìn)行分析及統(tǒng)計(jì),為了探尋信息間隱藏的更深層次的關(guān)系,大數(shù)據(jù)分析應(yīng)運(yùn)而生。大數(shù)據(jù)指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)[1]。目前,由于各行業(yè)、各部門之間的數(shù)據(jù)壁壘,導(dǎo)致數(shù)據(jù)“孤島”現(xiàn)象的頻現(xiàn)、數(shù)據(jù)利用效率低下、數(shù)據(jù)分析和數(shù)據(jù)挖掘的廣度和深度不夠;同時(shí),由于人們對(duì)大數(shù)據(jù)的理解還不夠全面、對(duì)數(shù)據(jù)挖掘技術(shù)的了解和運(yùn)用還不夠深入、數(shù)據(jù)分析模型的不夠科學(xué),使得大數(shù)據(jù)支撐解決民生領(lǐng)域問題能力難以得到提升。
數(shù)據(jù)分析可以分為廣義數(shù)據(jù)分析和狹義數(shù)據(jù)分析。目前,我們?cè)趯?duì)數(shù)據(jù)處理上往往都停留在狹義的數(shù)據(jù)分析上,在實(shí)現(xiàn)方式上只是對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的查詢統(tǒng)計(jì)和匯總。然而,這種方式在大數(shù)據(jù)時(shí)代很難發(fā)揮數(shù)據(jù)的價(jià)值,以及促進(jìn)相關(guān)應(yīng)用領(lǐng)域的發(fā)展[2]。
數(shù)據(jù)分析是指用統(tǒng)計(jì)分析方法及工具,對(duì)收集來的數(shù)據(jù)進(jìn)行處理與分析,對(duì)數(shù)據(jù)有目的性的進(jìn)行現(xiàn)狀、原因、預(yù)測(cè)等定量分析提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用[3]。數(shù)據(jù)分析先做假設(shè),然后通過數(shù)據(jù)回歸分析、對(duì)比分析等常用分析方法來驗(yàn)證假設(shè)是否正確,從而得到相應(yīng)的結(jié)論。所謂結(jié)論一般是一個(gè)統(tǒng)計(jì)結(jié)果,這些指標(biāo)對(duì)應(yīng)相應(yīng)的業(yè)務(wù)中進(jìn)行分析,發(fā)揮其價(jià)值。
數(shù)據(jù)挖掘是指使用統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法從海量數(shù)據(jù)中挖掘出未知的、且有價(jià)值的信息和知識(shí)的過程[4]。數(shù)據(jù)挖掘通過神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、決策樹、聚類分析等方法對(duì)數(shù)據(jù)進(jìn)行分類、聚類、關(guān)聯(lián)和預(yù)測(cè),得到如流失概率值、相似度等模型得分或如高中低價(jià)值用戶、信用等標(biāo)簽,以此挖掘未知的模式與規(guī)律[5]。
綜上,數(shù)據(jù)分析與數(shù)據(jù)挖掘的本質(zhì)都是從數(shù)據(jù)里面挖掘、分析有價(jià)值的信息,從而更好的在生產(chǎn)運(yùn)營(yíng)中進(jìn)行改進(jìn)。
1、海量的數(shù)據(jù)積累,尤其是超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn)更加速數(shù)據(jù)的自動(dòng)積累。但質(zhì)量有待提高,數(shù)據(jù)規(guī)模有待進(jìn)一步擴(kuò)大,尤其是跨行業(yè)、跨部門之間的數(shù)據(jù)共享,促進(jìn)數(shù)據(jù)挖掘的力度不斷深入,這個(gè)需要突破相關(guān)行業(yè)和相關(guān)部門之間的數(shù)據(jù)壁壘,打破傳統(tǒng)的本位主義思想,多層次采集數(shù)據(jù),多維度分析數(shù)據(jù)。
2、隨著計(jì)算機(jī)技術(shù)的發(fā)展,硬件軟件都有日新月異的提高,但人類的需求不斷增多,計(jì)算機(jī)技術(shù)只有跟上其發(fā)展才能持續(xù)為人類服務(wù),融入社會(huì)發(fā)展的大環(huán)境。人類需求與計(jì)算機(jī)技術(shù)發(fā)展不離不棄,相互共存。所以,作為政府部門在硬件的基礎(chǔ)上也完全可以實(shí)現(xiàn)。
3、政府部門不具備數(shù)據(jù)挖掘高端技術(shù)和精深的統(tǒng)計(jì)方法計(jì)算能力。政府業(yè)務(wù)人員不具備數(shù)據(jù)挖掘包含的集統(tǒng)計(jì)學(xué)、神經(jīng)元學(xué)等學(xué)科技術(shù)。因此業(yè)務(wù)人員應(yīng)積極學(xué)習(xí)專業(yè)的數(shù)據(jù)挖掘相關(guān)理論,為更好的掌控?cái)?shù)據(jù)挖掘技術(shù)、更好的服務(wù)民眾做鋪墊[6]。
數(shù)據(jù)挖掘的層級(jí)主要包括:數(shù)據(jù)清洗、數(shù)據(jù)報(bào)表、臨時(shí)數(shù)據(jù)需求、數(shù)據(jù)挖掘、數(shù)據(jù)產(chǎn)品。其中,數(shù)據(jù)清洗、數(shù)據(jù)報(bào)表和臨時(shí)數(shù)據(jù)需求是基礎(chǔ)環(huán)節(jié),也是最重要的環(huán)節(jié),一般占整個(gè)數(shù)據(jù)挖掘過程的80%左右的工作量[7]。如圖1所示。
圖1 視頻信號(hào)與傳輸頻率范圍關(guān)系圖
數(shù)據(jù)挖掘方法論是各行業(yè)低成本、高質(zhì)量地開展數(shù)據(jù)挖掘應(yīng)用的行動(dòng)指南。數(shù)據(jù)挖掘方法論主要包括跨行業(yè)數(shù)據(jù)標(biāo)準(zhǔn)CRISP-DM及SEMMA數(shù)據(jù)挖掘標(biāo)準(zhǔn)等不同版本。即使對(duì)數(shù)據(jù)挖掘的定義不統(tǒng)一,但數(shù)據(jù)挖掘的其核心觀點(diǎn)是一致的,即數(shù)據(jù)挖掘是一個(gè)過程,是一個(gè)以數(shù)據(jù)為中心的循序漸進(jìn)的螺旋式數(shù)據(jù)探索過程。具體過程,如圖2所示。
圖2 螺旋式數(shù)據(jù)探索過程
1、商業(yè)理解
商業(yè)理解是數(shù)據(jù)挖掘的初始階段,主要目的是:明確本次數(shù)據(jù)挖掘要解決什么問題,評(píng)估是否具備數(shù)據(jù)挖掘的主觀和客觀條件。數(shù)據(jù)挖掘是服務(wù)于應(yīng)用的,脫離現(xiàn)實(shí)問題的數(shù)據(jù)挖掘是沒有意義的,不具備行業(yè)知識(shí)的數(shù)據(jù)挖掘是不可能成功的。
2、數(shù)據(jù)理解
數(shù)據(jù)理解的目的是:在業(yè)務(wù)(商業(yè))理解的基礎(chǔ)上,圍繞業(yè)務(wù)(商業(yè))問題收集原始數(shù)據(jù),明確數(shù)據(jù)含義,明晰數(shù)據(jù)的各種差異,并通過技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)的一致化和集成化。數(shù)據(jù)集成看似簡(jiǎn)單,但實(shí)現(xiàn)難度卻極高,通常要借助現(xiàn)成的計(jì)算機(jī)軟件或自行編寫程序。另外,數(shù)據(jù)理解還包括數(shù)據(jù)質(zhì)量的評(píng)估和調(diào)整、數(shù)據(jù)的多維度匯總瀏覽等。其目的是把握數(shù)據(jù)的總體質(zhì)量,了解變量取值的大致范圍[8]。
3、數(shù)據(jù)準(zhǔn)備
在充分理解數(shù)據(jù)后,利用計(jì)算機(jī)和統(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)準(zhǔn)備步驟不可或缺,數(shù)據(jù)準(zhǔn)備工作為后續(xù)的數(shù)據(jù)挖掘建模奠定數(shù)據(jù)基礎(chǔ)。
4、建立模型
為得到合理的,適合于目標(biāo)的數(shù)據(jù)模型、數(shù)據(jù)預(yù)測(cè)模型、評(píng)價(jià)指標(biāo)及評(píng)價(jià)函數(shù),利用各種數(shù)據(jù)分析方法對(duì)數(shù)據(jù)進(jìn)行探索性分析。
5、模型評(píng)估
在模型評(píng)估過程中,確定數(shù)據(jù)挖掘的最終分析模型至關(guān)重要。總結(jié)并回顧模型評(píng)估全過程,從數(shù)據(jù)模型的合理性、實(shí)際應(yīng)用的角度,而非模型理論評(píng)價(jià)的角度,對(duì)所得數(shù)據(jù)模型的實(shí)用性進(jìn)行評(píng)價(jià)。
6、方案實(shí)施
數(shù)據(jù)挖掘的最后一個(gè)環(huán)節(jié)是方案實(shí)施,通過制定實(shí)施和監(jiān)管計(jì)劃確保數(shù)據(jù)挖掘結(jié)論的合理運(yùn)用范圍。數(shù)據(jù)挖掘在經(jīng)驗(yàn)學(xué)習(xí)的過程不斷積累循環(huán)往復(fù),每一次挖掘都會(huì)受益于上一次的挖掘,每一次挖掘都將給下一次挖掘提供寶貴的經(jīng)驗(yàn)。一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)系統(tǒng),如圖3所示。
圖3 一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)系統(tǒng)
目前數(shù)據(jù)挖掘技術(shù)已成為解決民生問題的重要技術(shù)支撐,被應(yīng)用于支撐解決扶貧幫困、救助保障、養(yǎng)老服務(wù)、基層治理等民生問題。下面就以數(shù)據(jù)挖掘在養(yǎng)老服務(wù)領(lǐng)域中的應(yīng)用為例進(jìn)行簡(jiǎn)要闡述。
據(jù)上海市民政部門統(tǒng)計(jì),截至2015年12月31日,全市60歲及以上老年人口435.95萬人,占戶籍總?cè)丝诘?0.2%,占比增加了1.4個(gè)百分點(diǎn)。100歲及以上老人1 751人,增長(zhǎng)7.4%,上海老年人口的高齡化趨勢(shì)同樣明顯。據(jù)預(yù)測(cè),上海人口老齡化在“十三五”期間將進(jìn)一步深化[9]。到2018年上海戶籍60歲及以上老年人口總數(shù)突破500萬,2020年總數(shù)將超過540萬人,且隨著時(shí)間推移規(guī)模將持續(xù)擴(kuò)大。與之相對(duì)應(yīng),據(jù)上海民政部門統(tǒng)計(jì):全市養(yǎng)老機(jī)構(gòu)共計(jì)699家,床位數(shù)共計(jì)12.6萬張;全市老年人日間服務(wù)機(jī)構(gòu)共計(jì)442家,服務(wù)人數(shù)共計(jì)1.5萬人;居家養(yǎng)老服務(wù)中心共計(jì)163家,社區(qū)助老服務(wù)社共計(jì)202家,服務(wù)人數(shù)共計(jì)30.55萬人[10]。
現(xiàn)有的養(yǎng)老服務(wù)設(shè)施已經(jīng)無法滿足不斷增長(zhǎng)的老年人口養(yǎng)老服務(wù)的需求。如何才能隨著老年人口的增長(zhǎng),提前布局和規(guī)劃相應(yīng)的養(yǎng)老服務(wù)設(shè)施,減少社會(huì)矛盾的產(chǎn)生、提升政府和社會(huì)的養(yǎng)老服務(wù)能力,值得我們認(rèn)真思考和亟待解決的首要問題。現(xiàn)利用數(shù)據(jù)挖掘的方法論來討論這一問題的解決。主要是根據(jù)目前已經(jīng)選擇養(yǎng)老服務(wù)老年人的數(shù)據(jù)情況進(jìn)行規(guī)律性研判,通過IBM SPSS Modeler建模工具來進(jìn)行建模分析,從而分析出隨著老年人口的增長(zhǎng)需要新增養(yǎng)老服務(wù)或養(yǎng)老設(shè)施的數(shù)量。為了使選取的樣本數(shù)據(jù)更加科學(xué)、合理,根據(jù)區(qū)域分布的不同(內(nèi)環(huán)內(nèi)、內(nèi)中環(huán)之間、外環(huán)外)選擇六個(gè)區(qū)(黃浦、徐匯、長(zhǎng)寧、寶山、金山、奉賢)的60周歲以上老年人口數(shù)據(jù),養(yǎng)老服務(wù)設(shè)施數(shù)據(jù),養(yǎng)老服務(wù)人員數(shù)據(jù)以及目前存量老年人選擇養(yǎng)老服務(wù)類別的數(shù)據(jù)信息作為樣本分析數(shù)據(jù)。
根據(jù)現(xiàn)有6個(gè)區(qū)2005年至2015年的老年人口數(shù)量,以及目前存量老年人的基本信息和所選擇養(yǎng)老服務(wù)類別的信息來提前預(yù)判來五年老年人口增長(zhǎng)情況,以及隨著老年人口的增長(zhǎng)需要新增的養(yǎng)老機(jī)構(gòu)床位數(shù);根據(jù)老人的基本情況預(yù)判老人會(huì)選擇哪類養(yǎng)老服務(wù)。
目前現(xiàn)有的數(shù)據(jù)主要是6個(gè)區(qū)十年來的老年人口總數(shù)(2005年至2015年),當(dāng)前在享受相應(yīng)養(yǎng)老服務(wù)老年人的年齡、工資(收入)水平、文化程度、婚姻狀況、身體狀況、子女情況、居住情況(獨(dú)居、與子女居住等)、分布區(qū)域、選擇的養(yǎng)老服務(wù)類別等。
對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)化、合并等操作,剔除不合規(guī)的垃圾數(shù)據(jù)和不完整的數(shù)據(jù),使其符合建模需求。主要涉及的數(shù)據(jù)信息:當(dāng)前在享受相應(yīng)養(yǎng)老服務(wù)的60周歲以上老年人基本情況表;抽樣老年人選擇的養(yǎng)老服務(wù)情況表;歷年的老年人口數(shù)據(jù)表。
根據(jù)民政部門統(tǒng)計(jì),6個(gè)區(qū)2005年至2015年期間的老年人口數(shù)量,如表1所示(單位:萬人)。
表1 2005年至2015年期間六區(qū)老年人口數(shù)量
對(duì)現(xiàn)有60周歲以上老年人基本情況和存量老年人選擇的養(yǎng)老服務(wù)情況進(jìn)行分析。本次樣本數(shù)據(jù)量為4216個(gè),涉及養(yǎng)老服務(wù)主要有:養(yǎng)老機(jī)構(gòu)、居家養(yǎng)老、高齡醫(yī)療護(hù)理、護(hù)理院。主要分析的指標(biāo):未來5年老年人口增長(zhǎng)情況,以及隨著老年人口的增長(zhǎng)需要新增的養(yǎng)老機(jī)構(gòu)床位數(shù);根據(jù)老人的基本情況預(yù)判老人會(huì)選擇哪類養(yǎng)老服務(wù)。2016年度6個(gè)區(qū)中的存量老年人的基本信息和選擇養(yǎng)老服務(wù)設(shè)施的情況,如表2所示。
4.1 模型建立
統(tǒng)計(jì)未來5年老年人口增長(zhǎng)情況,以及隨著老年人口的增長(zhǎng)需要新增的養(yǎng)老機(jī)構(gòu)床位數(shù)。
1、數(shù)據(jù)源選擇,選擇2006年至2015年歷史老年人口數(shù)據(jù)文件,如圖4所示。
表2 2016六區(qū)存量老年人基本信息及選擇養(yǎng)老服務(wù)設(shè)施的情況
2、時(shí)間區(qū)間設(shè)定,起始年份:2006年,預(yù)估未來5年的老年人口數(shù)據(jù),如圖5所示。
圖4 數(shù)據(jù)源選擇
圖5 時(shí)間區(qū)間設(shè)定
3、添加“類型”字段選項(xiàng),讀取值并設(shè)置輸入、輸出字段。本示例中,將黃浦、徐匯、長(zhǎng)寧、寶山、金山、奉賢既作為歷史數(shù)據(jù)的輸入又作為未來預(yù)測(cè)數(shù)據(jù)的輸出,如圖6所示。
圖6 添加“類型”字段選項(xiàng)
4、在模型中選擇“時(shí)間序列建模器”模型進(jìn)行預(yù)判,如圖7所示。
5、預(yù)測(cè)數(shù)據(jù)的生成。根據(jù)時(shí)間序列預(yù)測(cè)模型,預(yù)測(cè)出了6個(gè)區(qū)未來5年的老年人口數(shù)據(jù)(單位:萬人),如圖8所示。
圖7 選擇“時(shí)間序列建模器”模型進(jìn)行預(yù)判
圖8 生成預(yù)測(cè)數(shù)據(jù)
6、根據(jù)上海市“9073”養(yǎng)老服務(wù)格局,養(yǎng)老機(jī)構(gòu)的床位數(shù)在老年人口中的占比為3%,因此,未來五年這六個(gè)區(qū)需要新增的老年床位數(shù),如圖9所示。
圖9 未來五年六區(qū)需要新增的老年床位數(shù)
7、最終建立的時(shí)間序列SPSS Modeler模型流,如圖10所示。
圖10 SPSS Modeler模型流
接著,根據(jù)老人的基本情況預(yù)判老人會(huì)選擇哪類養(yǎng)老服務(wù)。
1、數(shù)據(jù)源選擇。導(dǎo)入選取的已經(jīng)享受某類養(yǎng)老服務(wù)老年人的基本情況數(shù)據(jù)(樣本數(shù)據(jù)4216條),包含老年人的姓名、身份證、性別、年齡、工資、文化程度、婚姻狀況、子女情況、居住情況等字段信息,如圖11所示。
圖11 數(shù)據(jù)源選擇
2、添加“類型”字段選項(xiàng),讀取值并設(shè)置輸入和目標(biāo)字段。將老年人的文化程度、婚姻狀況等字段信息作為輸入,預(yù)測(cè)的服務(wù)類別作為目標(biāo)。也就是,根據(jù)老年人的基本信息預(yù)測(cè)出某類老年人會(huì)選擇哪類養(yǎng)老服務(wù),如圖12所示。
圖12 添加“類型”字段
3、模型選擇。上述預(yù)測(cè)目標(biāo)主要是預(yù)測(cè)某類老年人會(huì)選擇哪類養(yǎng)老服務(wù),所以應(yīng)該采用分類預(yù)測(cè)模型,但由于分類預(yù)測(cè)模型眾多,目前無法確定本次樣本數(shù)據(jù)采用哪種模型更加合理。因此,我們可以先使用自動(dòng)分類器來幫助我們對(duì)模型進(jìn)行選擇。選擇:建?!?自動(dòng)——>自動(dòng)分類器,如圖13所示。
圖13 生成預(yù)測(cè)數(shù)據(jù)
4、執(zhí)行自動(dòng)分類后,可以看到系統(tǒng)自動(dòng)篩選出三個(gè)準(zhǔn)確性較高的分類預(yù)測(cè)模型。它們分別是:C5,準(zhǔn)確率72.53%;貝葉斯網(wǎng)絡(luò),準(zhǔn)確率66.72%;Logistic回歸,準(zhǔn)確率60.1。因此,選取準(zhǔn)確率最高的C5來作為下一步分類預(yù)測(cè)的預(yù)測(cè)模型,如圖14所示。
圖14 分類預(yù)測(cè)模型
5、添加C5分類預(yù)測(cè)模型。勾選“使用分區(qū)數(shù)據(jù)”、“為每個(gè)分割構(gòu)建模型”,輸出類型選擇“決策樹”,模式選擇“簡(jiǎn)單”,如圖15所示。
圖15 添加C5分類預(yù)測(cè)模型
6、執(zhí)行C5分類預(yù)測(cè)模型。如圖所示,系統(tǒng)生成了決策樹,并且預(yù)測(cè)出了老年人基本信息中各個(gè)信息字段的重要性。不難看出,在樣本數(shù)據(jù)中對(duì)老年人選擇相應(yīng)養(yǎng)老服務(wù)類別起到關(guān)鍵作用的信息字段主要有:年齡、所在區(qū)、性別、居住情況等,如圖16所示。
圖16 執(zhí)行C5分類預(yù)測(cè)模型
當(dāng)然,這只是目前樣本數(shù)據(jù)的一個(gè)預(yù)測(cè)情況。一個(gè)好的大數(shù)據(jù)分析模型不是一蹴而就的,而是一個(gè)不斷學(xué)習(xí)、不斷完善的過程。如果選取的樣本數(shù)據(jù)盡可能多,涵蓋的基本信息字段盡可能全面,那么生成的預(yù)測(cè)模型準(zhǔn)確性就會(huì)更加高。
7、最終建立的分類預(yù)測(cè)SPSS Modeler模型流,如圖17所示。
圖17 分類預(yù)測(cè)SPSS Modeler模型流
根據(jù)上述模型預(yù)測(cè)的結(jié)果如下圖所示,在最后兩列列出了預(yù)測(cè)的服務(wù)類別以及某類老年人會(huì)選擇這類服務(wù)類別的概率,如圖18所示。
圖18 模型預(yù)測(cè)結(jié)果
4.2 模型評(píng)估
模型的好壞在于模型預(yù)測(cè)的準(zhǔn)確性,因此在模型建立好后,通過一定的方法來評(píng)判或者驗(yàn)證這個(gè)模型的預(yù)測(cè)準(zhǔn)確性。使用“輸出”中的“分析”工具,來生成預(yù)測(cè)模型精準(zhǔn)度的報(bào)告。經(jīng)過運(yùn)行后,得出如下圖所示的分析報(bào)告,該模型的準(zhǔn)確度為:72.53%,如圖19所示。
圖19 服務(wù)類別分析結(jié)果
4.3 政府大數(shù)據(jù)應(yīng)用的發(fā)展策略
數(shù)據(jù)挖掘在民生領(lǐng)域的應(yīng)用中,將以整體性、透明性、服務(wù)性為主要發(fā)展策略。為了避免因政府內(nèi)部矛盾而造成的沖突及矛盾,政府應(yīng)實(shí)現(xiàn)各個(gè)部門機(jī)構(gòu)、專業(yè)、領(lǐng)導(dǎo)層級(jí)之間的整合,這樣不僅可以使業(yè)務(wù)辦理更高效,同時(shí)可以更好地解決公眾需求。透明化一直是政府竭力突破實(shí)現(xiàn)的目標(biāo),大數(shù)據(jù)應(yīng)用以政府開房數(shù)據(jù)為基礎(chǔ),海量數(shù)據(jù)為前提,通過數(shù)據(jù)分析、數(shù)據(jù)挖掘,電子政務(wù)的效率和結(jié)果可以逐步被提升,進(jìn)而實(shí)現(xiàn)政府日常工作的全面透明化。政府的監(jiān)管方式也隨著大數(shù)據(jù)的推進(jìn)而不斷創(chuàng)新,更加透明。公共服務(wù)是政府重要的工作之一,大數(shù)據(jù)的加入,可以使政府公共服務(wù)水平提升,也可以讓民眾更好的監(jiān)督、融入政府工作,時(shí)刻關(guān)注政府信息,與政府共同決策相關(guān)政策。
4.4 政府大數(shù)據(jù)應(yīng)用的誤區(qū)
誤區(qū)一,將大數(shù)據(jù)等同于開放數(shù)據(jù)。由于目前沒有世界公認(rèn)的“大數(shù)據(jù)”的定義,一些包括政府部門在內(nèi)的民眾對(duì)大數(shù)據(jù)的認(rèn)識(shí)有不同的理解方式,簡(jiǎn)單的將大數(shù)據(jù)錯(cuò)誤的理解為開放數(shù)據(jù);同時(shí)開放式的數(shù)據(jù)集格式具有多樣性的特點(diǎn),因此難以單方向性的操作。
誤區(qū)二,將大數(shù)據(jù)等同于共享數(shù)據(jù)。大數(shù)據(jù)平臺(tái)不是簡(jiǎn)單的共享數(shù)據(jù)平臺(tái),目前很多地方政府在建設(shè)的大數(shù)據(jù)平臺(tái)的過程中,還在僅僅翻新共享平臺(tái)而不是建設(shè)多樣化的大數(shù)據(jù)應(yīng)用。政府大數(shù)據(jù)不僅僅是政府自身的業(yè)務(wù)數(shù)據(jù),應(yīng)逐步整合政府外部數(shù)據(jù)資源,形成更加完善的治理決策支持體系,以在數(shù)據(jù)整合的基礎(chǔ)上實(shí)現(xiàn)服務(wù)整合。
誤區(qū)三,將大數(shù)據(jù)等同于海量數(shù)據(jù)。目前政府的大數(shù)據(jù)中心建設(shè),更多地還停留在“建機(jī)房、上設(shè)備、堆數(shù)據(jù)”的階段,忽視了大數(shù)據(jù)強(qiáng)調(diào)的是對(duì)數(shù)據(jù)的分析和應(yīng)用,要有精通數(shù)據(jù)挖掘和業(yè)務(wù)建模的專業(yè)人才隊(duì)伍,從政務(wù)應(yīng)用需求出發(fā),做好潛在數(shù)據(jù)價(jià)值的挖掘和應(yīng)用。
4.5 政府大數(shù)據(jù)應(yīng)用的潛在問題
警惕數(shù)據(jù)權(quán)的惡意使用或過度濫用。涉及到政府大數(shù)據(jù),難免會(huì)引發(fā)一些敏感的權(quán)利、政治利益紛爭(zhēng),數(shù)據(jù)所有權(quán)即權(quán)利源泉,哪一方掌握數(shù)據(jù)所有權(quán)即掌握了主動(dòng)權(quán),而掌握主動(dòng)權(quán)的一方應(yīng)時(shí)刻保持客觀性,不能產(chǎn)生具有偏向性的決策意見。因此應(yīng)時(shí)刻警惕圍繞原始數(shù)據(jù)的占有權(quán)和發(fā)布權(quán)而產(chǎn)生的的斗爭(zhēng),并在決策過程中保持客觀公正的態(tài)度。
警惕大數(shù)據(jù)帶來的信息歧視。大數(shù)據(jù)技術(shù)具有預(yù)測(cè)未來事件發(fā)展趨勢(shì)的特點(diǎn),在數(shù)據(jù)挖掘的過程中,可能遇到比如公民隱私相關(guān)的公平性、隱私性問題。因此在信息處理過程中,應(yīng)時(shí)刻保障數(shù)據(jù)的保密性,使信息不被竊取、盜取、亂用,對(duì)公民權(quán)益造成侵害。
警惕互聯(lián)網(wǎng)公司侵害國(guó)家數(shù)據(jù)主權(quán)。中國(guó)數(shù)據(jù)產(chǎn)權(quán)的立法滯后,相關(guān)數(shù)據(jù)資源缺乏統(tǒng)一采集規(guī)劃,因此要警惕大型互聯(lián)網(wǎng)企業(yè)對(duì)政府大數(shù)據(jù)的掌控及決策影響。
隨著互聯(lián)網(wǎng)日新月異更新迭代,數(shù)據(jù)規(guī)模、數(shù)據(jù)種類在科學(xué)研究、電子商務(wù)、民生保障等諸多應(yīng)用領(lǐng)域飛速發(fā)展,大數(shù)據(jù)時(shí)代已悄然來臨。如何管理好、利用好、分析好這些海量數(shù)據(jù)來促進(jìn)相關(guān)領(lǐng)域的發(fā)展,是我們當(dāng)下需要亟待思索的問題。但由于行業(yè)壁壘的局限性、數(shù)據(jù)挖掘不夠、數(shù)據(jù)“孤島”、數(shù)據(jù)鴻溝等制約著大數(shù)據(jù)支撐解決民生領(lǐng)域問題能力的提升。因此,需要我們打破行業(yè)壁壘、突破數(shù)據(jù)“孤島”現(xiàn)象、不斷的探索新的數(shù)據(jù)挖掘技術(shù),從而提高大數(shù)據(jù)支撐解決民生領(lǐng)域問題的能力。本文介紹了數(shù)據(jù)挖掘的一般過程及方法論,結(jié)合實(shí)際,以數(shù)據(jù)挖掘在養(yǎng)老服務(wù)領(lǐng)域中的應(yīng)用為例,對(duì)數(shù)據(jù)挖掘應(yīng)用解決扶貧幫困、救助保障、養(yǎng)老服務(wù)、基層治理等民生問題進(jìn)行簡(jiǎn)要闡述。
[1] 程學(xué)旗, 靳小龍, 王元卓,等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào), 2014(9):1889-1908.
[2] 郭理橋. 數(shù)據(jù)挖掘在政府信息系統(tǒng)設(shè)計(jì)中的應(yīng)用研究[J]. 中國(guó)建設(shè)信息, 2010(4):6-11.
[3] 盛宇, 劉俊熙. 數(shù)據(jù)挖掘在政府電子化公共服務(wù)中的應(yīng)用[J]. 情報(bào)雜志, 2007, 26(7):88-90.
[4] 楊越. 數(shù)據(jù)挖掘在政府部門決策管理系統(tǒng)中的數(shù)據(jù)與應(yīng)用[D]. 北京:解放軍信息工程大學(xué), 2012.
[5] 徐棟. 數(shù)據(jù)挖掘在政府部門決策管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 成都:電子科技大學(xué), 2012.
[6] 趙慧. 淺析數(shù)據(jù)挖掘在政府統(tǒng)計(jì)中的應(yīng)用[J]. 教育:文摘版, 2016(8):97-98.
[7] 丁偉, 李政, 于昕. 數(shù)據(jù)挖掘在政府采購(gòu)中的應(yīng)用研究[J]. 中國(guó)政府采購(gòu), 2014(7):72-73.
[8] Cohen E, Datar M, Fujiwara S, et al. Finding interesting associations without support pruning[J]. IEEE Transactions on Knowledge & Data Engineering, 2001, 13(1):64-78.
[9] Han J, Chee S, Chiang J Y. Issues for On-Line Analytical Mining of Data Warehouses[C]// Sigmod'98 Workshop on Research Issues on Data Mining and Knowledge Discovery. 1998.
[10] Goil S, Choudhary A. High Performance OLAP and Data Mining on Parallel Computers[J]. Data Mining and Knowledge Discovery, 1997, 1(4):391-417.
TheBigDataApplicationforLivelihoodAreas
Shen Jian
(Information Research Center, Shanghai Municipal Bureau of Civil Affairs, Shanghai 200093)
In recent years, the application of the Internet technology develops rapidly in scientific research, e-commerce, livelihood security and many other fields. Data size, data types are growing with a rapid rate, big data era has quietly come. How to manage and make good use of these massive data to promote the development of related fields, is the problem we need to think about now. However, due to the limitations of industry barriers, data mining is not enough, the data island, data gap and other constraints do not support large data to solve the problem of improving the people's livelihood. Therefore, we need to break the barriers, break the data island phenomenon, and constantly explore new data mining technology, so as to improve the ability of solving the problem of people's livelihood by uzing big data. This paper summarizes the current situation of data mining technoloies, introduces the general process and methodology of data mining. According to actual application of data mining in the pension service, the author discusses the application of data mining to solve the poverty relief, rescue protection, pension services, grassroots governance and other livelihood issues.
Livelihood security; Big data; Date mining
TP311
A
2017.07.11)
沈 儉(1979-),男,本科,工程師,研究方向:數(shù)據(jù)挖掘。
1007-757X(2017)10-0071-07