李志敏,梁柏超,賀文鋒,陳俊健
(1.中共佛山市委政法委員會(huì) 廣東 佛山 528000;2.廣東京奧信息科技有限公司 廣東 佛山528000;3.佛山科學(xué)技術(shù)學(xué)院 廣東 佛山528000)
基于異構(gòu)數(shù)據(jù)源的政法信息共享平臺(tái)數(shù)據(jù)預(yù)處理系統(tǒng)研究
李志敏1,梁柏超1,賀文鋒2,陳俊健3
(1.中共佛山市委政法委員會(huì) 廣東 佛山 528000;2.廣東京奧信息科技有限公司 廣東 佛山528000;3.佛山科學(xué)技術(shù)學(xué)院 廣東 佛山528000)
針對(duì)分散在公安、檢察院、法院、司法部門(mén)的沒(méi)有信息共享平臺(tái)的現(xiàn)狀,提出了一個(gè)基于異構(gòu)數(shù)據(jù)源的政法網(wǎng)平臺(tái)數(shù)據(jù)預(yù)處理系統(tǒng)。設(shè)計(jì)采用了在不改變政法系統(tǒng)架構(gòu)的基礎(chǔ)上搭建政法信息共享平臺(tái),以達(dá)到信息互通、資源共享。系統(tǒng)應(yīng)用的實(shí)驗(yàn)結(jié)果表明:基于規(guī)則庫(kù)的多級(jí)數(shù)據(jù)預(yù)處理算法通過(guò)連續(xù)的樣本訓(xùn)練建立越來(lái)越完善的規(guī)則庫(kù),不斷提高后續(xù)數(shù)據(jù)抽取質(zhì)量,并通過(guò)上述多級(jí)規(guī)則庫(kù)匹配預(yù)處理策略,將其分步嵌入到數(shù)據(jù)應(yīng)用系統(tǒng)中,除非常少的個(gè)別錯(cuò)誤數(shù)據(jù)要單獨(dú)匯總處理外,臟數(shù)據(jù)輸出較少,預(yù)處理速度也比較適中;基于規(guī)則庫(kù)的數(shù)據(jù)預(yù)處理算法達(dá)到了政法信息共享平臺(tái)的建設(shè)目標(biāo),使政法業(yè)務(wù)信息在各職能部門(mén)能相互共享,且為領(lǐng)導(dǎo)決策提供及時(shí)可靠的依據(jù)。
異構(gòu)數(shù)據(jù)源;信息共享;匹配預(yù)處理;預(yù)處理速度
Abstract:Based on scattered in public security, procuratorates, courts and judicial departments have no the present situation of the information sharing platform,proposed a network platform for data preprocessing of politics and law system based on heterogeneous data sources.Design adopted without changing of politics and law system framework built on the basis of the information sharing platform of political science and law,in order to achieve information exchange,resource sharing.System application of the experimental results show that the multilevel data pretreatment algorithm based on rule base through continuous sample training set up more and more perfect the rules of the library,and constantly improve the quality of the follow-up data extraction, and through the multi-stage rule base matching pretreatment strategy, the embedded in the data application system step by step,except the data on very few individual mistakes to separate aggregate processing, dirty data output is less, pretreatment are more moderate speed; Data pretreatment algorithm based on rule base is achieving the target of information sharing platform construction of politics and law,make the business information of politics and law in various functional departments can share each other,and provide timely and reliable basis for leadership decision-making.
Key words:heterogeneous data sources; information sharing; matching pretreatment; preprocessing speed
政法基礎(chǔ)信息共享平臺(tái)是從法院、檢察院、公安、司法等政法各個(gè)部門(mén)已有的信息管理系統(tǒng)中抽取、轉(zhuǎn)換和加載。經(jīng)融合國(guó)安、監(jiān)獄、勞教等數(shù)據(jù),涉案包括人、物、地、組織、機(jī)構(gòu)等多方面的信息,實(shí)現(xiàn)整個(gè)政法系統(tǒng)的基礎(chǔ)數(shù)據(jù)交換和共享[1-3]。但當(dāng)前政法各部門(mén)的業(yè)務(wù)信息孤立不互通,其中一個(gè)重要原因是公安信息具有一定的特殊性[4-5]。公安信息被保護(hù)在邊界接入平臺(tái)內(nèi),要求信息不主動(dòng)對(duì)外輸出。政法部門(mén)例如法院、檢察院、公安、司法等政法部門(mén)都已經(jīng)擁有本部門(mén)的信息系統(tǒng)辦公平臺(tái),各部門(mén)的信息資料得到了集中性的管理,并且信息的存儲(chǔ)量非常大,無(wú)法滿(mǎn)足部門(mén)與部門(mén)之間信息的迅速查詢(xún)需求[6-7]。在采集、整理政法業(yè)務(wù)數(shù)據(jù)時(shí),會(huì)發(fā)現(xiàn)政法業(yè)務(wù)的異構(gòu)源數(shù)據(jù)與其它部門(mén)或行業(yè)數(shù)據(jù)相比存在顯著特性,如周期性、地域性、時(shí)變性等,其收集或抽取的數(shù)據(jù)量較大、來(lái)自多個(gè)數(shù)據(jù)源[8-9]。綜合上述,現(xiàn)有系統(tǒng)應(yīng)用與開(kāi)發(fā)有待統(tǒng)籌規(guī)劃,信息集成和綜合利用的程度有待提高,在建設(shè)和開(kāi)發(fā)的過(guò)程中缺乏統(tǒng)一有效的標(biāo)準(zhǔn)化與規(guī)范化管理。為實(shí)現(xiàn)對(duì)政法網(wǎng)異構(gòu)信息14類(lèi)45項(xiàng)數(shù)據(jù)的整合,構(gòu)建一個(gè)基于異構(gòu)數(shù)據(jù)源的政法網(wǎng)平臺(tái)數(shù)據(jù)預(yù)處理系統(tǒng),重點(diǎn)就集中在對(duì)數(shù)據(jù)共享平臺(tái)的數(shù)據(jù)質(zhì)量的有效控制,而數(shù)據(jù)質(zhì)量可以從數(shù)據(jù)集成和數(shù)據(jù)預(yù)處理角度來(lái)討論[10-11]。
云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新興服務(wù)促使人類(lèi)社會(huì)的數(shù)據(jù)種類(lèi)和規(guī)模正以前所未有的速度增長(zhǎng),大數(shù)據(jù)時(shí)代正式到來(lái)。數(shù)據(jù)從簡(jiǎn)單的處理對(duì)象開(kāi)始轉(zhuǎn)變?yōu)橐环N基礎(chǔ)性資源[12-13]。國(guó)外針對(duì)大數(shù)據(jù)時(shí)代的數(shù)據(jù)預(yù)處理技術(shù)發(fā)展很快,產(chǎn)生了一批成熟的商業(yè)化產(chǎn)品。各大數(shù)據(jù)庫(kù)廠商在提出一整套用以建立和使用數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品的同時(shí),也提供了一些基本的數(shù)據(jù)預(yù)處理工具,其內(nèi)部實(shí)現(xiàn)為通過(guò)編寫(xiě)腳本或使用數(shù)據(jù)預(yù)處理算法,應(yīng)用預(yù)處理策略去修正錯(cuò)誤,消除數(shù)據(jù)的不一致性,使其轉(zhuǎn)化為符合聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘等所需要的數(shù)據(jù)。特殊領(lǐng)域預(yù)處理工具,如FirstLogic公司的IdCentric產(chǎn)品、Oracle公司的PureIntegrate產(chǎn)品、TrilMiumSoftware的UM產(chǎn)品。消除重復(fù)的一類(lèi)工具是根據(jù)匹配的要求探測(cè)和消除數(shù)據(jù)集中的重復(fù)記錄。如EDD公司的DataCleaner、HelpITSystems公司的Matchit。一般領(lǐng)域的預(yù)處理工具,數(shù)據(jù)壓型工具如Evoke Software公司的Migration Architect產(chǎn)品,數(shù)據(jù)挖掘工具如WizSoft公司的Wizrule,數(shù)據(jù)重建工具如Vality公司的Integrity[14-15]。近年國(guó)內(nèi)對(duì)于數(shù)據(jù)預(yù)處理技術(shù)的研究日漸成熟。董麗提出采用于稀疏數(shù)據(jù)集的協(xié)同過(guò)濾算法進(jìn)行數(shù)據(jù)的預(yù)處理。對(duì)于Web日志作為主要Web挖掘數(shù)據(jù)源的情況,劉立軍根據(jù)Web日志的特點(diǎn),對(duì)Web數(shù)據(jù)的一些特殊情況采用一種最大向前引用序列挖掘算法進(jìn)行數(shù)據(jù)的預(yù)處理。翟東升針對(duì)目前專(zhuān)利分析的數(shù)據(jù)存在來(lái)源單一、預(yù)處理操作不夠、可挖掘程度淺等問(wèn)題,設(shè)計(jì)并實(shí)現(xiàn)了一種異構(gòu)專(zhuān)利數(shù)據(jù)源集成方案。
政法業(yè)務(wù)數(shù)據(jù)主要來(lái)自于以下幾個(gè)政法部門(mén):公安局、檢察院、法院、司法局等。這些部門(mén)在信息數(shù)據(jù)交換中,可以選擇人工方式或者接口定制開(kāi)發(fā)。但很明顯,對(duì)交換共享出去的數(shù)據(jù)無(wú)法做到有效監(jiān)控和管理,這樣無(wú)疑是加大了工作的成本與時(shí)間,也無(wú)法實(shí)現(xiàn)部門(mén)與部門(mén)之間信息的迅速查詢(xún)需求,很難為上級(jí)領(lǐng)導(dǎo)決策提供及時(shí)可靠的依據(jù),更不能及時(shí)了解整個(gè)社會(huì)的治安情況。通過(guò)調(diào)研分析知道,政法業(yè)務(wù)數(shù)據(jù)與其他部門(mén)或行業(yè)數(shù)據(jù)相比存在以下顯著特性:
1)具有很強(qiáng)的地域性
各個(gè)片區(qū)的涉案人數(shù),案發(fā)地,作案特點(diǎn)等存在顯著差異。
2)影響因素眾多
社會(huì)生活的變動(dòng),季節(jié)、天氣的變換以及時(shí)段的不同等都會(huì)對(duì)案件數(shù)據(jù)產(chǎn)生影響。
3)數(shù)據(jù)量大
每年有約上萬(wàn)宗刑事案件,涉案數(shù)據(jù)(包括人、物、地、組織、機(jī)構(gòu))多達(dá)一千多萬(wàn)條,累積下來(lái)是個(gè)非常龐大的數(shù)字。
4)時(shí)變性
案件數(shù)據(jù)與時(shí)間緊密相關(guān),隨著時(shí)間經(jīng)常發(fā)生變化。不但每小時(shí)、每日變化,周、月、季、年也呈變化性,但是這個(gè)變化一般具有周期性。
5)周期性
除了受突發(fā)事件影響外,各個(gè)時(shí)段的案發(fā)曲線(xiàn)通常呈現(xiàn)相同的趨勢(shì),基本相互保持平行。
6)模糊性,臟數(shù)據(jù)多
有相當(dāng)部分基層案件數(shù)據(jù)采用人工的方式獲取,如當(dāng)場(chǎng)記錄文字、拍攝圖片等。而與另外一批人真正錄入系統(tǒng)的信息,存在一定的偏差,特別是一些突發(fā)事件、關(guān)鍵線(xiàn)索不能得到及時(shí)、準(zhǔn)確關(guān)聯(lián),會(huì)導(dǎo)致案件數(shù)據(jù)失去實(shí)際意義。
7)多媒體文件比較多
案件數(shù)據(jù)中單獨(dú)的圖片、視頻、音頻等媒體文件比較多,要專(zhuān)門(mén)進(jìn)行存儲(chǔ)。還有部分檔案是影印件,也是以圖片文件方式進(jìn)行保存。用戶(hù)操作不規(guī)范引起的錄入錯(cuò)誤或不完整、單位合并或變更等等,都會(huì)直接影響入庫(kù)的數(shù)據(jù)質(zhì)量。但大部分此類(lèi)數(shù)據(jù)的存在,由于并沒(méi)有影響到事務(wù)處理系統(tǒng)的正常運(yùn)行,使得它們并沒(méi)有引起太多的注意。
這就要求我們?cè)谡ㄐ畔①Y源整合的過(guò)程中,要對(duì)異構(gòu)數(shù)據(jù)源按照一定的規(guī)則條件進(jìn)行數(shù)據(jù)預(yù)處理。再對(duì)規(guī)范后的信息搭建數(shù)據(jù)共享平臺(tái),讓各個(gè)政法職能部門(mén)通過(guò)平臺(tái)提供的綜合查詢(xún)和請(qǐng)求接口服務(wù)來(lái)獲取政法共享信息。
政法信息共享平臺(tái)搭建在信息共享區(qū)內(nèi),信息流分別從政法網(wǎng)接入?yún)^(qū)通過(guò)政法專(zhuān)線(xiàn),穿越邊界保護(hù)區(qū),進(jìn)入信息共享區(qū)的數(shù)據(jù)共享層。圖1是政法信息共享平臺(tái)總體架構(gòu)圖。
圖1 政法信息共享平臺(tái)總體架構(gòu)圖
政法信息平臺(tái)數(shù)據(jù)預(yù)處理流程包括異構(gòu)數(shù)據(jù)源信息采集和數(shù)據(jù)預(yù)處理兩個(gè)部分。貫穿整個(gè)過(guò)程包括元數(shù)據(jù)管理、調(diào)度管理、日志管理、數(shù)據(jù)傳輸管理和數(shù)據(jù)監(jiān)控。
異構(gòu)數(shù)據(jù)源信息采集提供兩套數(shù)據(jù)抽取解決方案,即大數(shù)據(jù)量實(shí)時(shí)同步方案和普通定時(shí)同步方案。大數(shù)據(jù)量實(shí)時(shí)同步方案主要使用在數(shù)據(jù)源端數(shù)據(jù)量大,且數(shù)據(jù)實(shí)時(shí)性要求高的情況,抽取時(shí)需要源端數(shù)據(jù)庫(kù)開(kāi)放高級(jí)權(quán)限,提取日志文件并分析其變化實(shí)現(xiàn)數(shù)據(jù)同步的效果。普通定時(shí)同步方案主要是需要源端數(shù)據(jù)庫(kù)開(kāi)放權(quán)限并實(shí)現(xiàn)較高頻率的定時(shí)數(shù)據(jù)同步,如不能開(kāi)放權(quán)限的,使用較低頻率的數(shù)據(jù)視圖同步方案實(shí)現(xiàn)。
通過(guò)分析政法業(yè)務(wù)的數(shù)據(jù)收集,發(fā)現(xiàn)其收集或抽取的數(shù)據(jù)量較大且來(lái)自多個(gè)數(shù)據(jù)源。通過(guò)在數(shù)據(jù)預(yù)處理中增加規(guī)則庫(kù)策略,加強(qiáng)了入庫(kù)數(shù)據(jù)的規(guī)范化以及數(shù)據(jù)的完整性和一致性,為數(shù)據(jù)應(yīng)用和共享提供了可靠基礎(chǔ)。
預(yù)處理轉(zhuǎn)換后的數(shù)據(jù)要存入共享平臺(tái)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)是按照各種業(yè)務(wù)的特點(diǎn)建立相關(guān)的資源數(shù)據(jù)庫(kù),并提供給各個(gè)業(yè)務(wù)系統(tǒng)使用。建設(shè)數(shù)據(jù)庫(kù)時(shí),使用定時(shí)捕獲變化數(shù)據(jù)策略并加載復(fù)雜數(shù)據(jù)轉(zhuǎn)換、整合邏輯等模塊再進(jìn)行入庫(kù)。
數(shù)據(jù)同步和數(shù)據(jù)預(yù)處理階段自動(dòng)生成各種操作日志和節(jié)點(diǎn)日志,建立對(duì)操作日志進(jìn)行監(jiān)控、預(yù)警的監(jiān)控平臺(tái)。另外在監(jiān)控平臺(tái)中引入對(duì)數(shù)據(jù)質(zhì)量的監(jiān)控,如數(shù)據(jù)行為分析的監(jiān)控和預(yù)警。
在上述體系結(jié)構(gòu)中采用多層、可擴(kuò)展框架結(jié)構(gòu),使其具有高度的擴(kuò)展能力和方便的系統(tǒng)開(kāi)發(fā)和維護(hù)性能,符合目前流行的多層應(yīng)用結(jié)構(gòu),適合數(shù)據(jù)庫(kù)多階段、多層次的應(yīng)用特點(diǎn)。
數(shù)據(jù)預(yù)處理的目的就是檢測(cè)出臟數(shù)據(jù)并修復(fù)它們,而當(dāng)前的預(yù)處理工具主要是通過(guò)執(zhí)行一系列的預(yù)處理規(guī)則函數(shù)來(lái)完成臟數(shù)據(jù)的預(yù)處理,這些工具主要存在以下缺陷:
1)可擴(kuò)展性差
由于它們的預(yù)處理規(guī)則是事先定義好的,一般不能擴(kuò)展和修改,所以有限的預(yù)處理操作不能完全滿(mǎn)足用戶(hù)多變的需求。
2)缺乏對(duì)動(dòng)態(tài)數(shù)據(jù)預(yù)處理的能力
對(duì)于用戶(hù)提出新的預(yù)處理規(guī)則和建立的新表,原預(yù)處理系統(tǒng)無(wú)法應(yīng)用新規(guī)則去預(yù)處理新建立表中的新數(shù)據(jù),形成高質(zhì)量的數(shù)據(jù)。
因此,當(dāng)前的數(shù)據(jù)預(yù)處理產(chǎn)品主要缺點(diǎn)是缺乏可擴(kuò)展性和靈活性,這些嚴(yán)重阻礙了預(yù)處理數(shù)據(jù)的共享和傳播。為了解決上述問(wèn)題,針對(duì)政法異構(gòu)信息源的特點(diǎn)構(gòu)建了一個(gè)基于規(guī)則庫(kù)的多級(jí)數(shù)據(jù)預(yù)處理框架。
如圖2所示,多級(jí)數(shù)據(jù)預(yù)處理流程是:針對(duì)該特定業(yè)務(wù)數(shù)據(jù),通過(guò)行業(yè)專(zhuān)家、部門(mén)操作員訪(fǎng)談分析整理出第一級(jí)預(yù)處理指標(biāo),并按照錯(cuò)誤分類(lèi)整理的字典信息,確定預(yù)處理規(guī)則格式,制定基礎(chǔ)規(guī)則庫(kù);再選取樣本數(shù)據(jù)集實(shí)現(xiàn)基于規(guī)則庫(kù)的二級(jí)預(yù)處理,并檢測(cè)、評(píng)估預(yù)處理規(guī)則及相應(yīng)算法,從而通過(guò)評(píng)價(jià)匹配最佳預(yù)處理規(guī)則實(shí)現(xiàn)干凈數(shù)據(jù)的加載提取;三級(jí)預(yù)處理進(jìn)入政法業(yè)務(wù)抽取數(shù)據(jù)庫(kù),按照預(yù)處理效果,還可以通過(guò)算法及人工加入新的預(yù)處理規(guī)則、擴(kuò)展規(guī)則庫(kù),進(jìn)行回溯后再預(yù)處理。
共享平臺(tái)通過(guò)連續(xù)的樣本訓(xùn)練建立越來(lái)越完善的規(guī)則庫(kù),不斷提高后續(xù)數(shù)據(jù)抽取質(zhì)量。通過(guò)上述多級(jí)規(guī)則庫(kù)匹配預(yù)處理策略,將其分步嵌入到數(shù)據(jù)應(yīng)用系統(tǒng)中,除非常少的個(gè)別錯(cuò)誤數(shù)據(jù)要單獨(dú)匯總處理外,基本實(shí)現(xiàn)了數(shù)據(jù)規(guī)范化,為進(jìn)一步的數(shù)據(jù)應(yīng)用、共享提供了可靠基礎(chǔ)。
多級(jí)預(yù)處理的規(guī)則庫(kù)框架如圖3所示。在處理數(shù)據(jù)質(zhì)量問(wèn)題時(shí),第一級(jí)預(yù)處理的制定、考量的角度及相應(yīng)的指標(biāo)均是由相關(guān)領(lǐng)域?qū)<?、研究人員的訪(fǎng)談結(jié)果中抽象化得到的,以最大程度契合研究人員的預(yù)處理需求。評(píng)級(jí)指標(biāo)體系將用戶(hù)可能需要的劃分維度進(jìn)行整理匯集,一定程度上避免了用戶(hù)自定義預(yù)處理維度的必要性,只需要在已有指標(biāo)中界定具體賦值,即可獲得較為理想的預(yù)處理結(jié)果。
預(yù)處理方法兼顧了數(shù)據(jù)完整性和可回溯性,便于預(yù)處理結(jié)果的進(jìn)一步優(yōu)化。在實(shí)際使用過(guò)程中,如果預(yù)處理人員發(fā)現(xiàn)最終預(yù)處理結(jié)果有明顯的案件信息不完整、關(guān)鍵數(shù)據(jù)缺失,可以進(jìn)行層次回溯,找到預(yù)處理規(guī)則漏洞的存在環(huán)節(jié)。三級(jí)預(yù)處理機(jī)制首先可以提高査找規(guī)則漏洞的效率,例如在最終預(yù)處理素材庫(kù)中發(fā)現(xiàn)缺少法院的審判信息,可以在二級(jí)預(yù)處理結(jié)果數(shù)據(jù)庫(kù)中進(jìn)行査找。如果在二級(jí)預(yù)處理結(jié)果中該信息存在,僅為三級(jí)預(yù)處理的規(guī)則配置不合理,可以相對(duì)小范圍內(nèi)進(jìn)行漏洞定位及修改。如果在二級(jí)預(yù)處理結(jié)果中不存在,則向上迭代。三級(jí)預(yù)處理機(jī)制的另一個(gè)優(yōu)點(diǎn)在于回溯排查過(guò)程中需要處理的數(shù)據(jù)庫(kù)體量較小,減少運(yùn)算量及運(yùn)算時(shí)間??梢栽谙鄬?duì)較小的數(shù)據(jù)范圍內(nèi)進(jìn)行排查、校驗(yàn)。
圖2 基于規(guī)則庫(kù)的多級(jí)交互式數(shù)據(jù)預(yù)處理框架圖
圖3 多級(jí)預(yù)處理的規(guī)則庫(kù)框架
為了驗(yàn)證共享平臺(tái)數(shù)據(jù)預(yù)處理算法的有效性,測(cè)試采用隨機(jī)從異構(gòu)數(shù)據(jù)源中采集10000條記錄的方式,并用傳統(tǒng)的直接映射過(guò)濾數(shù)據(jù)預(yù)處理算法與采用基于規(guī)則庫(kù)的多級(jí)交互式數(shù)據(jù)預(yù)處理算法分別進(jìn)行驗(yàn)證。
實(shí)驗(yàn)的硬件配置及軟件環(huán)境見(jiàn)表1。
實(shí)驗(yàn)結(jié)果顯示,如果采用傳統(tǒng)的直接映射過(guò)濾算法,處理10 000條記錄花費(fèi)總時(shí)間為16 688.54 s,其中映射過(guò)濾算法占用7 456.31 s,臟數(shù)據(jù)輸出354條。而采用多級(jí)規(guī)則庫(kù)技術(shù)后,處理同樣多的記錄,預(yù)處理算法花費(fèi)時(shí)間為8 762.54 s,臟數(shù)據(jù)輸出19條。
實(shí)驗(yàn)結(jié)果表明基于規(guī)則庫(kù)的多級(jí)數(shù)據(jù)預(yù)處理算法通過(guò)連續(xù)的樣本訓(xùn)練建立越來(lái)越完善的規(guī)則庫(kù),不斷提高后續(xù)數(shù)據(jù)抽取質(zhì)量,并通過(guò)上述多級(jí)規(guī)則庫(kù)匹配預(yù)處理策略,將其分步嵌入到數(shù)據(jù)應(yīng)用系統(tǒng)中,除非常少的個(gè)別錯(cuò)誤數(shù)據(jù)要單獨(dú)匯總處理外,臟數(shù)據(jù)輸出較少,預(yù)處理速度也比較適中。
表1 實(shí)驗(yàn)環(huán)境
我國(guó)的地級(jí)市平均每年有幾萬(wàn)宗刑事案件,近百萬(wàn)人次的涉案犯罪嫌疑人員,多達(dá)千萬(wàn)條涉案信息。由于涉案信息逐年累積,各部門(mén)基礎(chǔ)信息量的存儲(chǔ)量越來(lái)越龐大。政法數(shù)據(jù)共享平臺(tái)必須將這些海量的異構(gòu)源政法數(shù)據(jù)進(jìn)行有效融合,構(gòu)造成信息量更龐大的基礎(chǔ)信息庫(kù)為政法委系統(tǒng)內(nèi)的各部門(mén)提供數(shù)據(jù)服務(wù),解決這一問(wèn)題的實(shí)質(zhì)就是大數(shù)據(jù)的處理問(wèn)題。
“高效收集”是大數(shù)據(jù)的核心點(diǎn)之一,也是它的研究基礎(chǔ),是重中之重。本信息共享平臺(tái)通過(guò)利用掌握政法體系的領(lǐng)域知識(shí),充分分析數(shù)據(jù)特點(diǎn)后,建立了可靠、高效的自動(dòng)化數(shù)據(jù)預(yù)處理框架,它通過(guò)對(duì)數(shù)據(jù)進(jìn)行回溯后再預(yù)處理這種多級(jí)處理模式,達(dá)到對(duì)政法數(shù)據(jù)規(guī)范化、標(biāo)準(zhǔn)化的目的。為后續(xù)的政法大數(shù)據(jù)的組織與使用提供了統(tǒng)一的查詢(xún)管理平臺(tái),方便了政法信息的綜合利用。
通過(guò)實(shí)測(cè)對(duì)比數(shù)據(jù),可以看出這種基于異構(gòu)數(shù)據(jù)源的政法網(wǎng)平臺(tái)數(shù)據(jù)預(yù)處理系統(tǒng)花費(fèi)時(shí)間沒(méi)有明顯改變,但數(shù)據(jù)預(yù)處理效果有明顯提高,要人工處理的臟數(shù)據(jù)大大減少。基于規(guī)則庫(kù)的數(shù)據(jù)預(yù)處理算法達(dá)到了政法信息共享平臺(tái)的建設(shè)目標(biāo),使政法業(yè)務(wù)信息在各職能部門(mén)能相互共享,且為領(lǐng)導(dǎo)決策提供及時(shí)可靠的依據(jù)。
[1]馬敏,王伯波,薛倩,等.基于數(shù)據(jù)融合的ECT圖像重建算法[J].儀器儀表學(xué)報(bào),2015,36(12):2798-2803.
[2]張猛,曾永年.基于多時(shí)相Landsat數(shù)據(jù)融合的洞庭湖區(qū)水稻面積提取[J].農(nóng)業(yè)工程學(xué)報(bào),2015,12(13):178-185.
[3]張燕君,劉文哲,付興虎,等.基于TTDF和CNS算法的多路BOTDR散射譜信息高精度分析研究[J].光譜學(xué)與光譜分析,2015,12(7):1802-1807.
[4]趙建忠,徐廷學(xué),葉文,等.基于數(shù)據(jù)融合和改進(jìn)MUGM(1,m,w)的導(dǎo)彈裝備故障預(yù)測(cè)[J].系統(tǒng)工程與電子技術(shù),2015(4):832-837.
[5]李巧茹,趙蓉,陳亮,等.基于SVM與自適應(yīng)時(shí)空數(shù)據(jù)融合的短時(shí)交通流量預(yù)測(cè)模型[J].北京工業(yè)大學(xué)學(xué)報(bào),2015(4):597-602.
[6]冀俊忠,柴鷹,貝飛,等.基于時(shí)間片劃分和多元數(shù)據(jù)融合的異質(zhì)媒體網(wǎng)絡(luò)社會(huì)事件發(fā)現(xiàn)[J].北京工業(yè)大學(xué)學(xué)報(bào),2015(8):1165-1171.
[7]周勇,王嫚,劉奇,等.基于數(shù)據(jù)融合濾波算法的EMA故障自修復(fù)策略[J].西北工業(yè)大學(xué)學(xué)報(bào),2015(2):204-208.
[8]石月嬋,楊貴軍,李鑫川,等.融合多源遙感數(shù)據(jù)生成高時(shí)空分辨率數(shù)據(jù)的方法對(duì)比[J].紅外與毫米波學(xué)報(bào),2015,34(1):92-99.
[9]張艷超,肖宇釗,莊載椿,等.基于小波分解的油菜多光譜圖像與深度圖像數(shù)據(jù)融合方法[J].農(nóng)業(yè)工程學(xué)報(bào),2016,32(16):143-150.
[10]薛見(jiàn)新,申德榮,寇月,等.面向數(shù)據(jù)融合的半環(huán)溯源計(jì)算方法 [J].計(jì)算機(jī)研究與發(fā)展,2016,53(2):316-325.
[11]楊元喜.綜合PNT體系及其關(guān)鍵技術(shù)[J].測(cè)繪學(xué)報(bào),2016,45(5):505-510.
[12]孟小峰,杜治娟.大數(shù)據(jù)融合研究:問(wèn)題與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2016,53(2):229-246.
[13]黃丁發(fā),周樂(lè)韜,盧建康,等.GNSS衛(wèi)星導(dǎo)航地基增強(qiáng)系統(tǒng)與位置云服務(wù)關(guān)鍵技術(shù)[J].西南交通大學(xué)學(xué)報(bào),2016,51(2):388-395.
[14]朱君,秦柳麗,傅得立,等.一種石墨烯波導(dǎo)褶皺激發(fā)表面等離子體激元的設(shè)計(jì)[J].光子學(xué)報(bào),2016,45(2):40-45.
[15]朱君,李志全,秦柳麗,等.MIM結(jié)構(gòu)中腔的物理性質(zhì)對(duì)SPP傳播的分析 [J].紅外與激光工程,2015,43(3):852-856.
Research on data pretreatment system of politics and law information sharing platform based on heterogeneous data sources
LI Zhi-min1, LIANG Bo-chao1,HE Wen-feng2,CHEN Jun-jian3
(1.Municipal Committee of Political Science and Law Committee of The Communist Party of China Foshan, Foshan528000,China; 2.The Guangdong Beijing Information Technology co., LTD., Foshan528000,China; 3.Foshan Institute of Science and Technology, Foshan528000,China)
TN273
A
1674-6236(2017)19-0038-05
2016-09-21稿件編號(hào)201609187
李志敏(1960—),男,廣東佛山人。研究方向:政法信息網(wǎng)絡(luò)構(gòu)建,政法系統(tǒng)數(shù)據(jù)存儲(chǔ)、共享。