張超 朱波
摘要:隨著信息時代的到來,大數(shù)據成為了人們日常生活中不可分割的一個組成部分,大數(shù)據的增長幅度也呈現(xiàn)出了指數(shù)型的態(tài)勢,不確定數(shù)據不斷產生。但是從目前的實際情況來看,對于大數(shù)據應用來說,無論是從深度上還是從廣度上來說,還存在著應用不到位的情況,而這也給傳統(tǒng)政府統(tǒng)計平臺建設以及統(tǒng)計思路帶來了比較大的挑戰(zhàn)。本文在研究的過程中就在充分分析大數(shù)據可用性理論的基礎上,結合實際情況提出了大數(shù)據統(tǒng)計平臺建設要求,并針對性的給出了實施路徑以及建設的策略,希望今后政府統(tǒng)計工作的順利進行能夠起到良好的幫助作用。
關鍵詞:大數(shù)據;可用性;政府統(tǒng)計
引言
從最近幾年的實際情況來看,大數(shù)據呈現(xiàn)出了爆發(fā)性的增長態(tài)勢,而同時不確定數(shù)據也在不斷增加,例如殘缺數(shù)據、粗粒度數(shù)據、錯誤數(shù)據等等。根據國際相關部門的統(tǒng)計資料顯示,在世界500強的企業(yè)當中,大約超過四分之一的企業(yè)在信息系統(tǒng)方面存在著數(shù)據不正確或者不準確的情況。不可否認的一點就是,在對這些不確定數(shù)據進行處理的過程中將會浪費企業(yè)大量的時間,同時還可能會增加企業(yè)的成本。對于政府部門來說,隨著互聯(lián)網以及物聯(lián)網的不斷發(fā)展,政府獲取數(shù)據的途徑也在不斷增多,也造成了不確定數(shù)據的使用比例不斷增加。從目前政府目前所使用的傳統(tǒng)統(tǒng)計平臺上來看,絕大多數(shù)都比較側重于在不確定的環(huán)境下,對數(shù)據進行挖掘,但是,從傳統(tǒng)平臺向大數(shù)據統(tǒng)計平臺轉變的過程上來看,在數(shù)據可用性方面仍然存在著比較多的問題。本文在研究的過程中首先分析了大數(shù)據可用性所存在的突出問題,并針對性的提出了有效提高大數(shù)據可用性的實施路徑以及提高政府數(shù)據統(tǒng)計能力的策略。
一、統(tǒng)計過程中大數(shù)據可用性的突出問題
在日常對數(shù)據進行統(tǒng)計分析的過程中保證大數(shù)據自身具有良好的可靠性是一項十分艱難的任務。隨著用戶的需求朝著精細化的方向不斷發(fā)展,大數(shù)據自身所應當具有的燕歌行、精確性、時效性以及完整性對整個統(tǒng)計系統(tǒng)都提出了比較大的挑戰(zhàn),主要可以概括為以下幾個方面:
(一)大量化、多樣化、快速化
從最近幾年的實際情況來看,電子商務、社交網絡以及多種多樣的網絡設備每天都會產生大量的數(shù)據,而這些數(shù)據的一個最為顯著的特征就是有著十分強的時效性、不完整性以及分割性。另外,結構化數(shù)據、半結構化數(shù)據的種類也在不斷增多,使得數(shù)據類型也朝著復雜性的方向不斷發(fā)展,而也正是因為這個方面的原因,導致了如果不對其加以有效處理的話,其自身的利用率將會不斷降低。
(二)缺乏大數(shù)據檢測與自動修復機制
為了能夠在最大程度上減少不確定數(shù)據所可能造成的影響,對于大數(shù)據分析平臺來說,應當盡可能的保證數(shù)據的完整性和準確性,而此時大數(shù)據檢測以及自動修復就顯得十分重要了,但是目前在已有的平臺當中還普遍缺少可靠的大數(shù)據檢測自己修復復雜度理論模型,使得最終的修復效果不是十分理想。
(三)缺乏大數(shù)據近似計算與數(shù)據挖掘算法
當大數(shù)據損害程度比較嚴重而無法被徹底進行修復的時候,這類數(shù)據就被人們稱之為是弱可用數(shù)據。目前,絕大多數(shù)大數(shù)據平臺還普遍缺乏以最小時間和空間復雜性作為自身的目標,也缺少針對多種海量弱用信息分析與挖掘的近似計算的算法,例如不嚴格不精確海量信息近似計算的算法等等。
(四)安全與保密性較差
雖然從政府的角度上來說,自身是一個整體,但是其中各個部門也結合自身的實際情況建立了大數(shù)據平臺,因此,仍然處于各自為戰(zhàn)的態(tài)勢當中,很多數(shù)據都被各個部門所共享使用,因此往往很難能能夠預設用戶的角色、管理權限以及訪問控制權限等等。一般情況下,普通用戶或者非本部門用戶獲得的是粗粒度,經過轉化之后可用性也比較低的數(shù)據,因此,這種情況是不利于工作的順利開展的,也導致了大數(shù)據的可用性以及可信性有所降低。
(五)知識學習的不確定性
知識學習是存在一個過程的,從得到最原始的數(shù)據開始,之后轉化成為簡單語句,再到最后的負責語義,但是由于大數(shù)據自身的可用性比較低導師了在學習的過程中存在著比較大的不確定性,目前,大數(shù)據在研究社會網絡模型、用戶感知計算以及多目標結構等多個方面仍然處于起步階段。
二、可用性大數(shù)據平臺建設
在開展統(tǒng)計的過程中,數(shù)據采集、加工以及分析是一個十分重要的步驟,在這個過程中應當盡可能的滿足一個低數(shù)據不確定性和高數(shù)據可用性的充分要求。因此,目前繼續(xù)解決的一個問題就是充分建立基于大數(shù)據可用性理論的平臺原型建設工作,在建設的過程中應當注意以下幾個方面的問題:
(1)多源多模態(tài)海量數(shù)據高質量獲取與整合,應當將研究的重點集中在各類結構化管理信息系統(tǒng)中數(shù)據的高質量獲取與整合、本結構化以及非結構化數(shù)據的高質量獲取以及整合等等。
(2)大數(shù)據自動檢測與修復。其主要的作用就是將不同的數(shù)據類型以及存儲方式作為自身的重點,對不同種類的數(shù)據對象進行自動檢測,從而結合實際情況建立資源需求模型。同時還應當對特定數(shù)據以及綜合數(shù)據修復的模型以及優(yōu)化算法進行合理的研究,要最大程度上的發(fā)揮修復優(yōu)化之后信息模型的可信度。另外,還應當針對協(xié)同工作需求的不同,對香瓜你數(shù)據以及用戶的個性化修復方案進行合理的制定。
(3)另外,還需要重視的一個問題就是支持在正確數(shù)據和若可用數(shù)據上的數(shù)據挖掘、近似運算以及知識演化等等。使用合理的通用近似模型、多目標優(yōu)化求解,研究出不同弱可用數(shù)據條件下的可信計算,近似運算的結果平評估模型、知識學習以及演化、社會感知計算等等。
(4)要建立一個切實可行的能夠合理控制的數(shù)據范圍控制規(guī)則,研究細粒度的對非結構化的或者半結構化的數(shù)據子集進行合理保護的方案。對于授權用戶提供有效的細粒度數(shù)據保護措施,保證整個保護過程存在著一定的差異化。另外,還應當對業(yè)務、數(shù)據修復過程中所存在的一些不安全問題建立集中化的管理方式,保真該服務數(shù)據過程中的多參數(shù)高級認證工作順利實施。
從最近幾年的實際情況來看,大數(shù)據可用性性平臺目前正在處于初級階段,在政府目前所使用過的統(tǒng)計平臺當中,絕大多數(shù)情況下還都是以為結構化數(shù)據作為自身的重點,因此,建立一個實用性較高的可用性統(tǒng)計憑條必然是一個不斷積累的過程,需要經過單系統(tǒng)、用戶個性需求驅動階段,再到多模憑條、用戶通用需求階段,最后發(fā)展到多源多模平臺、用戶跨平臺協(xié)同需求階段。在突破大數(shù)據可用性的基本理論和技術后,將針對范圍更廣、數(shù)據類型更復雜的各類電子商務、社交平臺和物聯(lián)網系統(tǒng)。在該階段,完成多模平臺海量數(shù)據的獲取與融合理論和技術、用戶數(shù)據分析的通用需求與實現(xiàn)標準、數(shù)據可信性檢測與優(yōu)化技術等。在實現(xiàn)多模平臺數(shù)據獲取和用戶通用需求技術后,將針對多源多?;旌掀脚_、用戶協(xié)同需求提供更加復雜的服務,如知識的學習與演變、用戶需求發(fā)現(xiàn)機制、工作流程改進方案等,并在其過程中進一步完善數(shù)據采集、加工和訪問控制規(guī)則。
三、可用性大數(shù)據統(tǒng)計實施策略
從目前政府各個部門的實際情況來看,已經掌握了大量的信息資源,并且覆蓋面也比較廣泛例如在氣象、交通、海洋、地理以及經濟等等多個應用層面當中。因此,如果想要真正的不斷擴大大數(shù)據的應用范圍的話,首先需要做的一點就是政府在日常進行統(tǒng)計的過程中應當始終將數(shù)據可用性作為自身的中心,建立一個多平臺、多用戶協(xié)同管理的平臺。應當仍然以傳統(tǒng)結構化數(shù)據作為自身的重中之重,不斷的對工作流程進行改進。
(一)建立大數(shù)據管理中心,制定數(shù)據規(guī)范與接口標準
目前,很多政府都已經意識到了建設大數(shù)據管理中心的必要性,但是由傳統(tǒng)結構化數(shù)據中心向其轉型的過程中仍然存在著很多的問題,例如條塊分割的管理體制不僅導致了各個部門仍然是按照自身的需求建立數(shù)據中心,也在很大程度上使得不確定的數(shù)據不斷增多,而大數(shù)據自身所存在的低用性問題也導致了各個數(shù)據中心之間難以建立有效的聯(lián)系,技術路徑差異性也比較大,存在著十分嚴重的重復建設情況。
因此,從這個角度上來說,目前需要在短時間內建立切實可行的大數(shù)據管理中心,現(xiàn)在一些組織結構較小的部門當中制定比較同意的數(shù)據存儲標準以及規(guī)范,之后對數(shù)據進行合理的整合和統(tǒng)一。在建設的過程中要按照合理的步驟進行:例如對于初期建設的規(guī)則來說,主要應當包括標準化的數(shù)據中心軟硬件架構,對數(shù)據的來源、分類以及特點進行合理的確定。而在建設中期的過程中,則應當將重點集中在數(shù)據中心的修改以及完善方面,應當設定針對性的修改以及優(yōu)化規(guī)則,通過合理的技術路徑對評估標準進行不斷的優(yōu)化處理。而在后期對數(shù)據進行發(fā)布使用的過程中,規(guī)范數(shù)據加工分析環(huán)節(jié)所輸出的綜合數(shù)據和分析預測信息,應當建立一個合理的公共服務窗口。從以上的論述當中就能夠看出,應當將一個小范圍的數(shù)據平臺進行不斷的完善,之后再逐漸的擴大到包含所有的大數(shù)據平臺當中,保證整個建設體系圍繞相對來說比較統(tǒng)一的標準進行建設,降低不確定數(shù)據出現(xiàn)的可能性,降低對數(shù)據進行修復過程中所可能耗費的成本,最大程度上的額提高數(shù)據自身的可用性。
(二)制定大數(shù)據安全存儲規(guī)則,抽取通用需求,分階段推進
對于政府各個部門來說,由于自身的技術路徑存在差異,而且業(yè)務范圍也所有不同,因此想要實現(xiàn)信息共享、技術通用還是比較困難的。因此,應當充分利用目前已有的數(shù)據規(guī)范以及接口標準,例如規(guī)范不同資源調用主體獲取權限的方式、如何有效的對主體之間沖突進行協(xié)調,應當采取怎樣的方式對數(shù)據進行挖掘等等。由于一些部門的數(shù)據同質化程度比較高,在工作的過程中需求相對來說也比較類似,而且已經擁有了一個相對來說比較成熟的數(shù)據存儲中心,但是可能由于技術能力的限制無法對其進行深入的開發(fā)和利用。對于這種情況可以首先從這些部門當中將公共需求合理的提取出來,并制定比較統(tǒng)一的技術處理路徑,之后在小范圍內進行合理的試用。同時,為了能夠最大程度上滿足這些部門對數(shù)據可用性所存在的要求,大數(shù)據管理中心應當對信息使用范圍進行充分的明確,在保證數(shù)據保密性較好的基礎上,做好數(shù)據保密的相關工作,最大程度上的發(fā)揮各個資源主體對信息進行挖掘所能夠帶來的經濟效益以及社會效益。瞪大歐之后隨著時間的不斷發(fā)展,相關理論以及技術逐漸成熟之后,再將其逐漸的應用到各個部門之間。
(三)打造“智慧統(tǒng)計”,增強協(xié)同創(chuàng)新
“智慧統(tǒng)計”是一種比較先進的技術,其有效的利用了大數(shù)據云計算技術對統(tǒng)計數(shù)據生產、服務以及獲取的能力進行了合理的提升,從而保證統(tǒng)計工作朝著規(guī)范化和標準化的方向不斷發(fā)展,保證各級政府以及行政主管部門、各個企事業(yè)單位能夠更加便利而又安全的享受到統(tǒng)計相關的服務。但是目前絕大多數(shù)海量統(tǒng)計平臺也僅僅是作為了統(tǒng)計過程中的一個比較常用的信息基礎設施,雖然在信息不斷輸入的過程中會對其中的動態(tài)數(shù)據進行覆蓋,但是仍然無法充分滿足使用用戶的需求,對于一些具體部門來說,用戶對數(shù)據的需要與數(shù)據子集選擇和融合問題可能存在著一定的問題。
因此,在目前已有的規(guī)范數(shù)據標準、通用接口以及技術路徑的基礎上,可以將“智慧統(tǒng)計”平臺劃分成為兩個部分即公共資源數(shù)據中心平臺以及公共信息服務平臺。前者的主要作用是保證數(shù)據從產生一直到最后的存儲能夠達到智能化的目的,從而為政府、企業(yè)以及公眾科學的使用數(shù)據創(chuàng)造良好的條件。而后者的主要作用就是保證統(tǒng)計服務朝著智能化的方向不斷發(fā)展,通過信息共享以及交換為各個部門提供深層次的數(shù)據挖掘以及知識演化的相關服務,不斷的增強協(xié)同創(chuàng)新的能力,有效的提高大數(shù)據平臺的廣度以及深度。
總結
本文在調查研究的過程中從大數(shù)據可用性的角度出發(fā),通過對目前大數(shù)據使用過程中所存在的一些問題進行合理的分析,結合大數(shù)據可用性今后的研究方向、發(fā)展趨勢,針對性的分析了政府對大數(shù)據平臺進行改善的策略,但是從某種程度上來說,大數(shù)據在可用性理論、技術路徑、工作思路以及法律法規(guī)等多個方面仍然存在著很多的不足,需要在今后對其進行不斷的完善。
參考文獻:
[1]劉暢,劉璇.天津政府數(shù)據開放:現(xiàn)狀、問題與政策建議[J].圖書館學研究,2018(11):40-47.
[2]吳湛微,孫欣睿,蕭若薇.當開放數(shù)據遇到開源生態(tài):開放政府數(shù)據平臺建設模式比較研究[J].圖書館雜志,2018,37(05):82-90.
[3]司林波,劉暢.智慧政府治理:大數(shù)據時代政府治理變革之道[J].電子政務,2018(05):85-92.
[4]楊武,李升,馬光明.財政分權影響國際貿易嗎?——基于“一帶一路”沿線國家的實證檢驗[J].中央財經大學學報,2018(04):3-18.
[5]謝安.政府開放數(shù)據利于實施國家大數(shù)據戰(zhàn)略[J].中國統(tǒng)計,2018(03):28-30.
[6]許憲春,葉銀丹,余航.中國政府微觀數(shù)據開發(fā)應用:現(xiàn)狀、挑戰(zhàn)與建議[J].經濟學動態(tài),2018(02):88-98.
[7]陳文春.政府大數(shù)據應用中領導干部的信息化領導力及其提升路徑探析[J].領導科學,2018(05):4-7.
[8]丁輝俠.地方政府大數(shù)據治理:行動、挑戰(zhàn)與應對[J].鄭州大學學報(哲學社會科學版),2018,51(01):76-80.
[9]胡海波,高鵬.面向用戶服務的政府開放數(shù)據:一個概念性闡釋框架[J].情報理論與實踐,2018,41(06):45-51.
[10]周文泓.澳大利亞政府開放數(shù)據的構件分析及啟示[J].圖書館學研究,2018(01):53-59.