熊曙初 劉陽 胡文燦
摘要:研究智慧社保數(shù)據融合模式,對促進智慧社保一體化發(fā)展和提高公共服務能力有著重要的意義。采用Lambda架構,對智慧社保中非結構化、半結構化和結構化數(shù)據進行融合,最終應用于長沙市智慧社保案例中,取得了很好的結果。對比原有的社保大數(shù)據平臺模式,Lambda架構應用的智慧社保大數(shù)據平臺,不僅優(yōu)化和改善了當下智慧社保系統(tǒng)存在的諸多實際問題,還為其他社會應用平臺的發(fā)展提供了有效案例,具備實用和研究價值。
關鍵詞:智慧社保;數(shù)據融合;Lambda框架;平臺架構;模式研究
中圖分類號:TP316.4 ? ? ?文獻標識碼:A
文章編號:1009-3044(2022)31-0001-03
1 引言
近年來,智慧社保系統(tǒng)平臺建設以地方政府為主體,各地所采用的技術平臺、數(shù)據標準、管理模式等存在一定的差異,導致社保系統(tǒng)存在“數(shù)據孤島”問題,影響了數(shù)據統(tǒng)計的準確性、數(shù)據調用的完整性、數(shù)據計算的價值和分析決策的效率。為了推進社會保障管理智慧化、服務精準化、便捷高效化,急需研究社保數(shù)據融合新模式,為建設全國統(tǒng)一智慧社保系統(tǒng)提供支持。隨著大數(shù)據技術的快速發(fā)展,大數(shù)據技術已從集中處理單一類型數(shù)據發(fā)展到分布式集群處理多類型數(shù)據[1],重塑了數(shù)據的融合架構。數(shù)據融合的目的是對多種同構或異構信息或數(shù)據進行綜合性處理,從而獲取比單一數(shù)據更具準確性的信息或數(shù)據,并廣泛應用于新知識發(fā)現(xiàn)、知識推薦、智慧城市、知識圖譜等[2-3]。Lambda架構是一種針對海量傳感器數(shù)據的在線和批量數(shù)據處理的成本優(yōu)化架構,結合了批處理和實時處理功能[4]?;诖耍疚奶岢鲆环N基于Lambda的智慧社保數(shù)據融合模型。首先,數(shù)據層融合同種結構數(shù)據時,將同一結構的數(shù)據從存儲層傳入Lambda架構中批處理層的HDFS中,結合Hadoop等相關技術對其計算融合;其次,特征層融合不同結構數(shù)據時,將需要融合的數(shù)據傳入Lambda架構中流處理層的存儲器中,結合Storm或Spark對其計算融合;最后,將批處理層融合的結果和流處理層融合的結果傳入到服務層,實現(xiàn)決策層數(shù)據融合,再將數(shù)據傳入應用層。本研究目的是提升社保數(shù)據跨時空協(xié)同共享,實現(xiàn)社保服務“不打烊”、群眾事“家門口辦”,為智能社保精準施策提供決策參考。
2 相關研究
2.1 智慧社保相關研究
智慧社保概念由IBM于2013年首次提出,是基于互聯(lián)網、大數(shù)據、云計算、物聯(lián)網、移動技術和社交網絡等現(xiàn)代信息技術在社保領域的應用,即“互聯(lián)網+經辦服務”[5]。國外關于智慧社保的相關研究主要是以政府應用實踐為主,如比利時[6]構建社保數(shù)據交互溝通平臺。2016年9月我國人社部印發(fā)《關于印發(fā)“互聯(lián)網+人社”2020行動計劃的通知》,推動智慧社保建設[7]。如河源市、蘇州市、淄博市[8-10]等城市大力建設社保相關項目,實現(xiàn)便民惠民服務。蒲泓宇、馬捷等[11]針對智慧社保存在數(shù)據異構、管理分散、多系統(tǒng)受理等問題,提出政務數(shù)據協(xié)同共生演進分析框架。金波[12]認為社保數(shù)據急劇增加、海量匯聚導致數(shù)據管理分散化,給社保業(yè)務的高效輔助決策增添了難度,并提出搭建互動平臺,保障信息暢通。Zhang D、Pee L G等[13]認為人力資源和社會保障部產生的數(shù)據存在獨立分散現(xiàn)象,阻礙了部門之間的聯(lián)系,無法提供更好的公共服務。Huateng M、Zhaoli M等[14]認為在政府向數(shù)字政府轉型時,提出社??ńY合入學系統(tǒng)和就業(yè)系統(tǒng),可為學生和老師們提供決策。
綜上所述,盡管當前國內外智慧社保系統(tǒng)建設取得了初步成效,但仍存在數(shù)據激增、類型異構、協(xié)同共享等問題,無疑給數(shù)據融合增加了難度,急需研究新型數(shù)據融合模式,提高智慧社保系統(tǒng)數(shù)據的應用價值。
2.2 數(shù)據融合研究
數(shù)據融合概念的提出源自軍事領域[15],是一種利用計算機技術對按時序獲得的若干傳感器的觀測信息在一定準則下加以自動分析、綜合以完成所需的決策和估計任務而進行的信息處理過程[16]。隨著數(shù)據融合技術的發(fā)展,它已被廣泛應用于交通、醫(yī)療、經濟等[17-19]領域。唐長樂和王春迎[20]提出基于政務云數(shù)據中心的政府數(shù)據集成平臺,實現(xiàn)數(shù)據融合。吳善鵬、李萍等[21]人提出了政務大數(shù)據環(huán)境下的數(shù)據治理框架。馬廣惠和安小米[22]認為大數(shù)據治理應包括大數(shù)據的匯聚、融合和應用三個階段。Zhang、Yang等[23]使用大數(shù)據技術構建新的數(shù)據融合框架,實現(xiàn)了大數(shù)據表示、融合、高效計算和存儲等功能。Malchi、Kallam等[24]使用物聯(lián)網技術和基于信任的神經數(shù)據存儲算法實現(xiàn)數(shù)據融合。
綜上所述,雖然當前數(shù)據融合從智慧政務到智慧社保的數(shù)據融合有一些應用研究,并產生了一定的成果,但針對智慧社保數(shù)據平臺間的壁壘亟待深入研究。因此,本文針對目前社保及大數(shù)據的應用現(xiàn)狀,提出基于Lambda架構的智慧社保數(shù)據融合模式,構建政務服務一體化的大數(shù)據平臺框架,重構社保數(shù)據匯聚機制,實現(xiàn)從數(shù)據源到數(shù)據存儲、計算到共享應用的全開放式的智慧社保數(shù)據融合,破解智慧社保數(shù)據融合困境。
3 基于Lambda的智慧社保數(shù)據融合模式
現(xiàn)行社保數(shù)據融合在建設運營、價值釋放、數(shù)據挖掘等尚未形成統(tǒng)一的模式。如何整合各地所采用的技術平臺、數(shù)據標準、管理模式,解決社保系統(tǒng)存在的“數(shù)據孤島”問題,提高數(shù)據統(tǒng)計的準確性、數(shù)據調用的完整性、數(shù)據計算的價值和分析決策的效率,它是數(shù)字時代智慧社保急需解決的核心問題。為此,本文引入Lambda架構,匯聚社保信息源,建立基于本地分布式集群或公有云存儲等模式,降低或消解數(shù)據冗余,實現(xiàn)便捷存儲;對多源異構數(shù)據,建立統(tǒng)一規(guī)范的開源數(shù)據格式標準,進行數(shù)據計算融合;利用軟件應用、API、AI等不同方式進行數(shù)據應用。其目的是破解當前政府部門間的數(shù)據壁壘,消解(緩解)數(shù)據共享困境,實現(xiàn)社保智能化、數(shù)字化。
3.1 整體架構
本文針對現(xiàn)行社保系統(tǒng)數(shù)據的多源多維、流轉碎片等問題,以數(shù)據開放、共享、規(guī)范為基礎,以“數(shù)據多跑路,百姓少跑腿”為目標,構建基于Lambda架構的智慧社保數(shù)據融合模式架構。如圖1所示。
基于Lambda架構的智慧社保數(shù)據融合模式架構由社保數(shù)據中心、大數(shù)據平臺、應用組成。
社保數(shù)據中心從各區(qū)域各平臺收集基本養(yǎng)老保險、醫(yī)療保險、工傷保險等社保數(shù)據,通過智慧社保大數(shù)據平臺對跨區(qū)域數(shù)據進行數(shù)據融合,融合后的數(shù)據用于智慧社保系統(tǒng)里的社保審計、業(yè)務辦理、業(yè)務審核、社保繳納等業(yè)務服務,整個系統(tǒng)主要以國家大數(shù)據標準規(guī)范及管理制度體系、分析工具:深度學習等、計算工具:Hadoop和Spark等、存儲工具:Kimball等、采集工具:Sqoop等做支撐。
數(shù)據融合需要配置至少一個數(shù)據源信息和定時規(guī)則,并按照所配置的定時規(guī)則執(zhí)行數(shù)據接入作業(yè),數(shù)據接入作業(yè)為從所獲取的至少一個數(shù)據源中抽取數(shù)據、或互聯(lián)網數(shù)據采集、或轉換數(shù)據、或裝載數(shù)據至大數(shù)據平臺;對數(shù)據接入作業(yè)中所接入的數(shù)據按照所配置的定時規(guī)則進行數(shù)據融合作業(yè);對經數(shù)據融合作業(yè)后的數(shù)據進行分層分庫存儲形成存儲庫,并在所述存儲庫上構建二級索引庫;通過在所構建的大數(shù)據平臺中設置統(tǒng)一的數(shù)據交換接口進行數(shù)據共享,使社保數(shù)據跨系統(tǒng)共享交互,使社保智能一體化,最終實現(xiàn)社保服務“不打烊”、群眾事“家門口辦”。
3.2 數(shù)據融合
數(shù)據融合包括數(shù)據存儲層、數(shù)據計算層,由三個數(shù)據區(qū)構成。第一個是臨時數(shù)據區(qū),用于緩存當日源系統(tǒng)變化數(shù)據,支持后續(xù)ELT數(shù)據處理;第二個是貼源數(shù)據區(qū),按照源系統(tǒng)數(shù)據模型整合的明細歷史數(shù)據,作為基礎數(shù)據實現(xiàn)一次整合,多次使用;最后一個是匯總數(shù)據區(qū),根據應用需求,對貼源數(shù)據區(qū)明細數(shù)據進行預連接、預匯總處理的數(shù)據,實現(xiàn)了數(shù)據的一次計算、多次使用。
3.2.1 Lambda架構
Lambda架構解決了實時在任意大數(shù)據集上進行分層融合數(shù)據的問題,是集流處理和批處理功能為一體,促進社會保障部門實時快捷對接各類業(yè)務數(shù)據,建立統(tǒng)一數(shù)據倉庫的大數(shù)據架構,可以為社保部門提供各類數(shù)據報表,并提供趨勢預測和決策支持,整體架構圖如圖2所示。
Lambda架構包括Batch Layer(批處理層)、Speed Layer(實時處理層)和Serving Layer(服務層)。批處理層的功能是存儲數(shù)據集,并需要在數(shù)據集上預先計算查詢函數(shù)和融合同一結構數(shù)據,構建查詢所對應的View(視圖)。當新數(shù)據流傳入批處理層時,如果之前的作業(yè)沒有結束時,由下一個作業(yè)處理,所有數(shù)據在每次迭代中進行分析,產生新的結果視圖且覆蓋前視圖。實時處理層的功能是通過計算實時視圖來實時處理最近的數(shù)據,實現(xiàn)多變的多種數(shù)據特種層融合。當新數(shù)據流傳入實時處理層時,速度層使用增量模型,增加實時視圖。服務層的功能是將批處理層和實時處理層的處理結果融合,為批處理層視圖編制索引,以便能夠以低延遲和特別的方式查詢它們,為實時層保存所有實時計算結果,實現(xiàn)決策層數(shù)據融合。根據數(shù)據What特性即數(shù)據量本身較大時,在批處理層中使用Hadoop的HDFS之類的大數(shù)據存儲方案和MapReduce執(zhí)行批處理視圖的計算;若考慮數(shù)據的What特性即需要按照數(shù)據產生的時間先后順序存放數(shù)據時,使用InfluxDB之類的時間序列數(shù)據庫(TSDB) 存儲方案。服務層通常使用SploutSQL、Oracle、HBase、Cassandra等技術。實時處理層通常使用Storm、Spark或Storm與Spark結合等技術。
4 結束語
近年來,中央政府和各地方政府高度重視信息化工作,以社保信息化為主導,加強信息化推進力度。本文結合智慧社保以及信息化的現(xiàn)狀對智慧社保的建設進行思考和討論,圍繞社保數(shù)據的采集、存儲和單點服務,與之配套的各項基礎設備趨于完整。從社保數(shù)據的開放、共享、優(yōu)化、一體化服務的角度出發(fā),構建智慧社保數(shù)據整合平臺標準還處在起步階段,因此基于Lambda架構的智慧社保數(shù)據整合平臺無疑是實現(xiàn)這一目標的最佳途徑,而結合當前部分落地的實際應用情況,如何實現(xiàn)整個架構體系的落地將是下一步研究的重點。
參考文獻:
[1] 周宇,曹英楠,王永超.面向大數(shù)據的數(shù)據處理與分析算法綜述[J].南京航空航天大學學報,2021,53(5):664-676.
[2] Shan C X,Bi H Q,Watt D,et al.A new model for predicting the total tree height for stems cut-to-length by harvesters in Pinus radiata plantations[J].Journal of Forestry Research,2021,32(1):21-41.
[3] 呂華揆,洪亮,馬費成.金融股權知識圖譜構建與應用[J].數(shù)據分析與知識發(fā)現(xiàn),2020,4(5):27-37.
[4] Sakthivel B.Generic Framework For Handoff In Wireless Sensor Networks With Random Forest Classifier[J].Turkish Journal of Computer and Mathematics Education (TURCOMAT),2021,12(9):3117-3122.
[5] O'Sullivan P,Connolly A,Carroll N,et al.IBM's smarter care:challenges and strategies[C]//Proceedings of the 20th International Conference on Evaluation and Assessment in Software Engineering.Limerick,Ireland.New York:ACM,2016:1-2.
[6] Chen X.Security-preserving social data sharing methods in modern social big knowledge systems[J].Information Sciences,2020,515:404-416.
[7] 鄭秉文.商業(yè)保險參與多層次社會保障體系的方式、作用與評估——基于一個初步的分析框架[J].遼寧大學學報(哲學社會科學版),2019,47(6):1-21.
[8] 胡萍,李丹.城鄉(xiāng)社會養(yǎng)老保險一體化評價體系的構建及實證研究——以廣東省河源市為例[J].社會保障研究,2016(3):9-16.
[9] 羅興奇,茹婧.經濟新常態(tài)下養(yǎng)老保險的城鄉(xiāng)一體化研究——基于江蘇省蘇州市W區(qū)的實證分析[J].農村經濟,2017(7):96-102.
[10] 張欣煒,寧越敏.農業(yè)轉移人口市民化成本測算及分擔機制研究——以山東省淄博市為例[J].城市發(fā)展研究,2018,25(1):55-62.
[11] 蒲泓宇,馬捷,田園.共生理論視閾下政務數(shù)據協(xié)同的演進路徑分析[J].情報雜志,2021,40(10):148-156.
[12] 金波.大數(shù)據時代政府治理的“檔案參與”[J].求索,2021(3):135-143.
[13] Zhang D,Pee L G,Pan S L,et al.Big data analytics,resource orchestration,and digital sustainability:a case study of smart city development[J].Government Information Quarterly,2022,39(1):101626.
[14] Ma H T,Meng Z L,Yan D L,et al.How governments go about digital transformation[M]//The Chinese Digital Economy.Singapore:Springer Singapore,2021:203-216.
[15] 祝振媛,李廣建.“數(shù)據—信息—知識”整體視角下的知識融合初探——數(shù)據融合、信息融合、知識融合的關聯(lián)與比較[J].情報理論與實踐,2017,40(2):12-18.
[16] 陳為東,王萍,王益成,等.政府網站信息資源的多維語義知識融合結構體系及策略研究[J].情報理論與實踐,2017,40(6):111-116.
[17] Khan S,Nazir S,García-Magari?o I,et al.Deep learning-based urban big data fusion in smart cities:towards traffic monitoring and flow-preserving fusion[J].Computers & Electrical Engineering,2021,89:106906.
[18] Yang F,Wu Q L,Hu X P,et al.Internet-of-things-enabled data fusion method for sleep healthcare applications[J].IEEE Internet of Things Journal,2021,8(21):15892-15905.
(下轉第10頁)
(上接第3頁)
[19] 胡吉明,鄭翔.基于主題聚類的新媒體政務互動內容摘要生成研究[J/OL].數(shù)據分析與知識發(fā)現(xiàn),2021:1-13.(2021-11-24).https://kns.cnki.net/kcms/detail/10.1478.g2.20211123. 1541.004.html.
[20] 唐長樂,王春迎.基于政務云數(shù)據中心的政府數(shù)據開放共享服務集成平臺研究[J].情報資料工作,2017(5):13-19.
[21] 吳善鵬,李萍,張志飛.政務大數(shù)據環(huán)境下的數(shù)據治理框架設計[J].電子政務,2019(2):45-51.
[22] 馬廣惠,安小米.政府大數(shù)據共享交換情境下的大數(shù)據治理路徑研究[J].情報資料工作,2019,40(2):62-70.
[23] Zhang S L,Yang L T,F(xiàn)eng J,et al.A tensor-network-based big data fusion framework for Cyber-Physical-Social Systems (CPSS)[J].Information Fusion,2021,76:337-354.
[24] Malchi S K,Kallam S,Al-Turjman F,et al.A trust-based fuzzy neural network for smart data fusion in Internet of Things[J].Computers & Electrical Engineering,2021(89):106901.
【通聯(lián)編輯:王力】
收稿日期:2022-09-13
基金項目:湖南省教育廳重點項目“突發(fā)公共事件政府信息公開融合模式及對策研究”(項目編號:20A13) ;湖南省社科基金項目“智慧政務背景下公開信息融合與協(xié)同共享機制體系研究”(項目編號:18YBA257) ;基于知識圖譜的突發(fā)公共事件輿情預警分析研究(CX20211150)
作者簡介:熊曙初(1964—) ,男,湖南長沙人,教授,學士,主要研究方向為信息系統(tǒng)與管理、電子政務等;劉陽(1998—) ,女,湖南衡陽人,碩士研究生,主要研究方向為數(shù)據挖掘;胡文燦(1992—) ,男,江蘇鎮(zhèn)江人,碩士研究生,主要研究方向為數(shù)據挖掘。