朱孝軍
(長(zhǎng)三角信息智能創(chuàng)新研究院,安徽 蕪湖 241000)
黨的二十大報(bào)告中對(duì)社會(huì)治理領(lǐng)域進(jìn)一步提出要求:一是積極發(fā)展基層民主,完善基層直接民主制度體系和工作體系;二是完善社會(huì)治理體系,構(gòu)建網(wǎng)格化管理、精細(xì)化服務(wù)、信息化支撐的社會(huì)治理平臺(tái),及時(shí)把矛盾糾紛事件化解在基層、化解在萌芽狀態(tài)。
隨著社會(huì)經(jīng)濟(jì)的發(fā)展和城市的人口逐漸增多,社會(huì)成分復(fù)雜,社會(huì)多元化矛盾事件此起彼伏。由于社會(huì)變革的加劇,利益格局的調(diào)整,社會(huì)民情的復(fù)雜化導(dǎo)致矛盾糾紛有明顯增長(zhǎng)的趨勢(shì),呈現(xiàn)出復(fù)雜化、多元化、群體化、疑難化等特征。針對(duì)社會(huì)基礎(chǔ)信息來(lái)源復(fù)雜、格式不一、社會(huì)問(wèn)題矛盾糾紛事件處置遲緩的現(xiàn)狀,設(shè)計(jì)基于多源異構(gòu)數(shù)據(jù)融合的社會(huì)治理信息系統(tǒng),通過(guò)信息化手段賦能多元化矛盾化解,整合多源異構(gòu)數(shù)據(jù)資源,使社會(huì)管理人員及時(shí)掌握矛盾事件精準(zhǔn)數(shù)據(jù),構(gòu)建社會(huì)事件處置體系機(jī)制,將矛盾糾紛事件化解在萌芽階段,防止事件進(jìn)一步繼續(xù)擴(kuò)大,使事件得以及時(shí)、便捷、公正、妥善解決,對(duì)于社會(huì)穩(wěn)定、經(jīng)濟(jì)與社會(huì)的協(xié)調(diào)發(fā)展具有重大意義。
面對(duì)社會(huì)管理工作中存在的物業(yè)投訴居高不下、反饋渠道單一、信訪工作壓力較大、缺乏完整事件處置機(jī)制等諸多問(wèn)題,社會(huì)治理信息系統(tǒng)從社會(huì)治理現(xiàn)代化改革出發(fā),以“街鄉(xiāng)吹哨、部門(mén)報(bào)到、投訴即辦”社會(huì)管理機(jī)制為方向,圍繞多層級(jí)事件處置功能為核心,構(gòu)建信息化智能化的事件處置機(jī)制。
社會(huì)治理信息系統(tǒng)總體架構(gòu)主要分為三個(gè)層級(jí),分別是社會(huì)數(shù)據(jù)庫(kù)、多層級(jí)事件處置模塊和應(yīng)用層,如圖1所示。
圖1 總體架構(gòu)
社會(huì)數(shù)據(jù)庫(kù)獲取多來(lái)源于異構(gòu)數(shù)據(jù),如基層歷史數(shù)據(jù)、社會(huì)攝像數(shù)據(jù)、系統(tǒng)輿情數(shù)據(jù)和車(chē)房登記數(shù)據(jù),統(tǒng)一格式后分類(lèi)存儲(chǔ)到對(duì)應(yīng)的專(zhuān)題庫(kù)中,如社會(huì)人口專(zhuān)題庫(kù)、社會(huì)車(chē)房專(zhuān)題庫(kù)、社會(huì)事件專(zhuān)題庫(kù)。存儲(chǔ)的相關(guān)數(shù)據(jù)輸入上級(jí)模塊,在多層級(jí)事件處置模塊中實(shí)現(xiàn)事件對(duì)接、事件詳情、事件受理、事件分派、事件下發(fā)、事件處置、事件吹哨、結(jié)果反饋等功能,對(duì)事件實(shí)現(xiàn)及時(shí)合理處理。在應(yīng)用層管理人員能進(jìn)行人口數(shù)據(jù)管理、車(chē)房數(shù)據(jù)管理、多層級(jí)事件處置,居民則可以通過(guò)治理平臺(tái)或小程序進(jìn)行問(wèn)題上報(bào)、處置評(píng)價(jià)和個(gè)人中心信息的修改。
社會(huì)治理信息系統(tǒng)的數(shù)據(jù)架構(gòu)以數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)Starrocks為中心,實(shí)現(xiàn)和外部系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)服務(wù),如圖2所示。
圖2 數(shù)據(jù)架構(gòu)
數(shù)據(jù)庫(kù)中包含基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)過(guò)程記錄和對(duì)外交換的數(shù)據(jù)庫(kù),并統(tǒng)一備份存儲(chǔ)在Starrocks 數(shù)據(jù)倉(cāng)庫(kù)中。通過(guò)交換庫(kù)和政務(wù)數(shù)據(jù)共享交換平臺(tái)進(jìn)行數(shù)據(jù)共享交換,通過(guò)數(shù)據(jù)庫(kù)和社會(huì)服務(wù)業(yè)務(wù)切割進(jìn)行封裝業(yè)務(wù)服務(wù)。外部系統(tǒng)通過(guò)頁(yè)面集成實(shí)現(xiàn)系統(tǒng)集成,數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)服務(wù),并且外部業(yè)務(wù)庫(kù)的數(shù)據(jù)能夠回流到數(shù)據(jù)庫(kù)中,實(shí)現(xiàn)數(shù)據(jù)的增量和沉淀。
社會(huì)治理信息系統(tǒng)的部署架構(gòu)以社會(huì)治理平臺(tái)和社會(huì)治理小程序?yàn)楹诵模脩?hù)通過(guò)客戶(hù)端以API接口形式獲取信息,如圖3所示。
圖3 部署架構(gòu)
用戶(hù)通過(guò)手機(jī)移動(dòng)信號(hào)或電腦有線信號(hào),通過(guò)系統(tǒng)網(wǎng)關(guān)請(qǐng)求代理與轉(zhuǎn)發(fā)服務(wù),將請(qǐng)求的域名地址通過(guò)SSL加密數(shù)據(jù)交換轉(zhuǎn)發(fā)到服務(wù)器。應(yīng)用服務(wù)器部署數(shù)據(jù)接口服務(wù),數(shù)據(jù)接口服務(wù)與業(yè)務(wù)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)交換,把交換的數(shù)據(jù)通過(guò)API 接口形式提供給客戶(hù)端。Redis 服務(wù)器主要提供緩存服務(wù),減少數(shù)據(jù)庫(kù)交換次數(shù),從而降低數(shù)據(jù)庫(kù)的訪問(wèn)壓力。地圖服務(wù)器提供地圖服務(wù),為管理人員和居民提供實(shí)時(shí)地理信息。
社會(huì)治理信息系統(tǒng)的數(shù)據(jù)來(lái)源于基層社區(qū)歷史已有的規(guī)范標(biāo)準(zhǔn)信息,如人、房、企、事、物數(shù)據(jù);社會(huì)面攝像頭獲取的視頻和圖片數(shù)據(jù);政府系統(tǒng)和本地App 獲取的社會(huì)輿情數(shù)據(jù)以及車(chē)企和房企登記的車(chē)輛和建筑物數(shù)據(jù)等。這些多源異構(gòu)數(shù)據(jù)無(wú)法直接獲取及時(shí)有效的信息,需要通過(guò)數(shù)據(jù)ETL 清理、本體構(gòu)建和關(guān)聯(lián)分析來(lái)進(jìn)行數(shù)據(jù)的規(guī)整和融合。
后臺(tái)獲取不同來(lái)源的數(shù)據(jù)具有廣而雜的問(wèn)題,結(jié)構(gòu)化、半結(jié)構(gòu)化、無(wú)結(jié)構(gòu)化的數(shù)據(jù)之間存在異構(gòu)的問(wèn)題,難以直接從中獲取有效的信息。通過(guò)數(shù)據(jù)接口獲取源數(shù)據(jù)之后,首先對(duì)其進(jìn)行ETL 清理。ETL 是Extract-Transform-Load 的縮寫(xiě),表示將數(shù)據(jù)從源端經(jīng)過(guò)抽取、交互轉(zhuǎn)換、加載到目標(biāo)端的過(guò)程,ETL的流程如圖4所示。
圖4 ETL流程
李佳倩等人[1]設(shè)計(jì)了完善的ETL流程處理大規(guī)模的互聯(lián)網(wǎng)新聞?shì)浨閿?shù)據(jù),通過(guò)結(jié)合ETL工具和SQL語(yǔ)句,依據(jù)正確性、完整性、一致性、完備性、有效性、時(shí)效性和可獲取性的原則,通過(guò)空值處理、規(guī)范化數(shù)據(jù)格式、拆分?jǐn)?shù)據(jù)、驗(yàn)證數(shù)據(jù)正確性、數(shù)據(jù)替換等操作,處理重復(fù)數(shù)據(jù)、無(wú)效數(shù)據(jù)、空數(shù)據(jù)等之后,將不同來(lái)源、不同格式的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式加載到目標(biāo)數(shù)據(jù)庫(kù),作為后續(xù)數(shù)據(jù)融合和信息挖掘的基礎(chǔ)。
在獲取統(tǒng)一格式的數(shù)據(jù)之后,通過(guò)構(gòu)建本體來(lái)挖掘數(shù)據(jù)準(zhǔn)確有效的信息,為后續(xù)基層管理人員的決策提供依據(jù)。本體的構(gòu)建方法采取依靠專(zhuān)家手工構(gòu)建和機(jī)器學(xué)習(xí)算法進(jìn)行自動(dòng)構(gòu)建兩種,對(duì)社會(huì)治理領(lǐng)域普遍術(shù)語(yǔ),采取專(zhuān)家手工構(gòu)建部分本體進(jìn)行規(guī)范性描述,一般本體采用統(tǒng)計(jì)主導(dǎo)的方法挖掘獲取。
一般本體構(gòu)建采用TF-IDF(Term Frequency-Inverse Document Frequency)結(jié)合TextRank 算法從數(shù)據(jù)信息中抽取相關(guān)術(shù)語(yǔ)。黃春梅等人[2]研究基于詞袋模型和TF-IDF 進(jìn)行短文本分類(lèi)的流程,TF-IDF 算法中TF和IDF表示“詞頻”和“逆文檔頻率”的意思,是用于信息檢索和數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。
TF-IDF算法首先計(jì)算TF:
詞頻表示一個(gè)單詞在該文檔中出現(xiàn)的頻率,count(t)表示文檔di中包含詞t的個(gè)數(shù),count(di)表示文檔di的詞的總數(shù)。然后計(jì)算IDF:
逆文檔頻率表示單詞對(duì)文檔的區(qū)分能力,num(database)表示數(shù)據(jù)庫(kù)database中文檔的總數(shù),num(t)表示數(shù)據(jù)庫(kù)中包含詞t的文檔數(shù)目。將每個(gè)詞的TF 和IDF 相乘,得到每個(gè)詞的TF-IDF 值,然后根據(jù)每個(gè)詞的TF-IDF 值進(jìn)行降序排列,根據(jù)需求輸出指定個(gè)數(shù)的詞作為抽取的相關(guān)術(shù)語(yǔ)。
TF-IDF 單純從詞頻來(lái)衡量一個(gè)詞的重要性不夠全面,對(duì)于出現(xiàn)并不多但重要的術(shù)語(yǔ)無(wú)法識(shí)別挖掘,而且這種計(jì)算無(wú)法體現(xiàn)位置信息,因此結(jié)合Bordoloi Monali 等人[3]研究的利用TextRank算法提取關(guān)鍵詞技術(shù)來(lái)提高術(shù)語(yǔ)挖掘的性能。TextRank 算法是一種基于圖的用于關(guān)鍵字抽取和文檔摘要的排序方法,利用文檔內(nèi)部詞語(yǔ)間的共現(xiàn)信息來(lái)抽取關(guān)鍵詞,其將文檔看作一個(gè)詞的網(wǎng)絡(luò),網(wǎng)絡(luò)中的連接表示詞與詞之間的語(yǔ)義關(guān)系,其公式如下:
其中,WS(Vi)表示句子i的權(quán)重,右側(cè)求和表示每個(gè)相鄰句子對(duì)本句子的貢獻(xiàn)程度,ωji為權(quán)重項(xiàng),表示兩個(gè)句子的相似程度,WS(Vj)是上次迭代出的句子j的權(quán)重,d為阻尼系數(shù),一般取0.85,算法上采用Python中的TextRank4zh包進(jìn)行排序?qū)崿F(xiàn)。
術(shù)語(yǔ)抽取完成之后,使用基于同現(xiàn)的方法,用詞的語(yǔ)法同現(xiàn)統(tǒng)計(jì)方法來(lái)估計(jì)詞的語(yǔ)義相似性,然后以此為依據(jù),使用聚類(lèi)算法進(jìn)行概念聚類(lèi),使得相似的術(shù)語(yǔ)能夠聚類(lèi)形成一簇。聚類(lèi)算法采用陳小雪等人[4]提出的優(yōu)化加權(quán)K-means 算法,利用加權(quán)的歐式距離來(lái)度量術(shù)語(yǔ)之間相關(guān)性。
對(duì)歷史數(shù)據(jù)進(jìn)行聚類(lèi)訓(xùn)練后構(gòu)建模型,完成術(shù)語(yǔ)的相關(guān)性聚類(lèi),得到對(duì)應(yīng)的聚類(lèi)核心概念。
通過(guò)本體構(gòu)建抽取出相應(yīng)的術(shù)語(yǔ)和概念后,結(jié)合居民端上報(bào)的問(wèn)題數(shù)據(jù)或數(shù)據(jù)源中實(shí)時(shí)變化異常數(shù)據(jù),基于FP-growth 算法進(jìn)行關(guān)聯(lián)分析,及時(shí)對(duì)事件進(jìn)行分派和處置。
FP-growth 算法和Apriori 算法都是挖掘頻繁項(xiàng)集的算法,Apriori 算法需要多次掃描數(shù)據(jù)集,而無(wú)論多少數(shù)據(jù),F(xiàn)P-growth只需要掃描兩次數(shù)據(jù)集,算法效率上具有優(yōu)勢(shì)。其關(guān)聯(lián)規(guī)則基于支持度:Support(X →Y)=P(X ∩ Y)=P(XY)和置信度:Confidence(X → Y)=P(Y| X)的概念進(jìn)行構(gòu)建,參考楊彩等人[5]研究的基于FPgrowth算法的課程關(guān)聯(lián)性分析流程進(jìn)行頻繁項(xiàng)集的挖掘。FP-growth 算法步驟主要分為兩步:第一步構(gòu)造FP-tree,掃描數(shù)據(jù)庫(kù),計(jì)算數(shù)據(jù)庫(kù)中各個(gè)項(xiàng)的支持度,若大于給定閾值,作為頻繁項(xiàng)集保存,再次掃描數(shù)據(jù)庫(kù),依次讀取保存到FP-tree中,重復(fù)直到讀取所有數(shù)據(jù),完成FP-tree 的構(gòu)造;第二步在FP-tree 中根據(jù)創(chuàng)建的條件模式樹(shù)挖掘頻繁模式,從而挖掘出頻繁項(xiàng)集。其算法流程圖如圖5所示。
圖5 FP-growth算法流程
在挖掘出頻繁項(xiàng)集之間的關(guān)聯(lián)關(guān)系之后,面對(duì)實(shí)時(shí)產(chǎn)生的新問(wèn)題和新異常數(shù)據(jù),及時(shí)關(guān)聯(lián)到對(duì)應(yīng)術(shù)語(yǔ)和概念,例如模型已挖掘的“垃圾堆積”概念,當(dāng)實(shí)時(shí)產(chǎn)生居民上報(bào)的相關(guān)問(wèn)題或社會(huì)攝像數(shù)據(jù)中識(shí)別出的相關(guān)情況,系統(tǒng)就會(huì)向管理人員后端發(fā)送待處理的“垃圾堆積”事件,從而能夠進(jìn)行事件自動(dòng)分類(lèi)和事件分派,提高事件下發(fā)和事件處置的效率,達(dá)到以事件為基礎(chǔ),向城市管理的相關(guān)部門(mén)提供事件數(shù)據(jù)信息的“聚合、關(guān)聯(lián)、挖掘、增值、展現(xiàn)”等一站式服務(wù)的目的。
社會(huì)治理信息系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)的整合展示,在管理端能夠查看指定區(qū)域的人口、房屋、組織等模塊的整體信息和實(shí)時(shí)的更新,管理人員能夠進(jìn)行新增、編輯、完善等操作,如圖6所示。
圖6 社會(huì)整體信息
從圖6 中可以查看基層區(qū)域的全量人口、實(shí)有人口、戶(hù)籍人口等,并對(duì)疫情、特殊關(guān)懷、重點(diǎn)人群進(jìn)行分類(lèi)展示;房屋信息展示小區(qū)數(shù)、建筑物、住房單元等,并對(duì)租房、保障房等進(jìn)行分類(lèi)展示;組織信息展示黨組織、業(yè)主委員會(huì)、社會(huì)組織等,并對(duì)業(yè)主自治和群防群治進(jìn)行分類(lèi)展示。
在社會(huì)治理信息系統(tǒng)的事件處置任務(wù)模塊,整合融合多源異構(gòu)數(shù)據(jù)資源后,需要處置的事件任務(wù)信息,根據(jù)居民上報(bào)和模型挖掘后,會(huì)自動(dòng)在后臺(tái)分類(lèi)上傳到管理人員手中,如圖7所示。
圖7 多層級(jí)事件處置
從圖7中可以看出,事件有非機(jī)動(dòng)車(chē)亂停放、垃圾堆積、獨(dú)居老人用水異常報(bào)警等待處理任務(wù)信息提交,包括處置狀態(tài)、時(shí)間狀態(tài)、所屬轄區(qū)、發(fā)布時(shí)間等信息,管理人員能夠?qū)κ录蝿?wù)及時(shí)接收和處理,提高社會(huì)矛盾糾紛化解的效率。
本文針對(duì)社會(huì)數(shù)據(jù)多來(lái)源和數(shù)據(jù)異構(gòu)的特征,基于總體架構(gòu)、數(shù)據(jù)架構(gòu)和部署架構(gòu)建設(shè)了社會(huì)治理信息系統(tǒng),通過(guò)ETL 整合數(shù)據(jù)格式,本體構(gòu)建和關(guān)聯(lián)分析進(jìn)行數(shù)據(jù)融合,及時(shí)挖掘出基層矛盾糾紛等問(wèn)題事件,并實(shí)時(shí)推送展示給管理人員,使得矛盾糾紛化解在萌芽階段,防止糾紛進(jìn)一步繼續(xù)擴(kuò)大,是網(wǎng)格化管理、精細(xì)化服務(wù)、信息化支撐、開(kāi)放共享要求下的重要實(shí)現(xiàn)。