程 童
(陜西警官職業(yè)學(xué)院基礎(chǔ)部,西安710021)
區(qū)域經(jīng)濟(jì)作為國(guó)民經(jīng)濟(jì)的重要組成部分,是地區(qū)社會(huì)活動(dòng)活力的主要體現(xiàn)[1]。由于區(qū)域經(jīng)濟(jì)在國(guó)民經(jīng)濟(jì)中扮演著重要的角色,因此區(qū)域經(jīng)濟(jì)是社會(huì)各領(lǐng)域重點(diǎn)關(guān)注和普遍研究的領(lǐng)域。中國(guó)作為一個(gè)地域、人口大國(guó),經(jīng)濟(jì)發(fā)展內(nèi)向程度高,經(jīng)濟(jì)系統(tǒng)極其復(fù)雜,不同部門、不同領(lǐng)域在日常經(jīng)濟(jì)活動(dòng)中均產(chǎn)生大量經(jīng)濟(jì)數(shù)據(jù),分散化的數(shù)據(jù)以不同格式、不同類型存在于各經(jīng)濟(jì)部門數(shù)據(jù)庫(kù)中[2-4]。如何從多源異構(gòu)數(shù)據(jù)尋找到有用的信息,為區(qū)域經(jīng)濟(jì)的發(fā)展提供數(shù)據(jù)支撐,成為亟待解決的關(guān)鍵問(wèn)題[5-7]。數(shù)據(jù)挖掘是從海量的、不完全、模糊的異構(gòu)數(shù)據(jù)中提取隱藏在其中的有潛在價(jià)值的信息和知識(shí)的過(guò)程[8]。目前,比較成熟的數(shù)據(jù)挖掘技術(shù)主要有遺傳算法[9]、人工神經(jīng)網(wǎng)絡(luò)[10,11]、鄰近搜索方法[12]等,通過(guò)在大量數(shù)據(jù)中提取隱含規(guī)則和信息,為區(qū)域經(jīng)濟(jì)的發(fā)展推進(jìn)策略提供分類指導(dǎo)、分區(qū)推進(jìn)的技術(shù)支持[13]?;诖耍狙芯扛鶕?jù)區(qū)域經(jīng)濟(jì)系統(tǒng)的特點(diǎn),提出一種基于Multi-Agents數(shù)據(jù)挖掘技術(shù)的區(qū)域經(jīng)濟(jì)系統(tǒng),將數(shù)據(jù)挖掘算法應(yīng)用于區(qū)域經(jīng)濟(jì)分析中,把握地區(qū)發(fā)展方向和進(jìn)程,提高區(qū)域規(guī)劃的及時(shí)性和有效性。
Agent是能夠感知環(huán)境、接收環(huán)境消息并作出反應(yīng),進(jìn)而反作用環(huán)境中的一種實(shí)體[14]。在移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)挖掘中,將Agent看作是一種能在異構(gòu)網(wǎng)絡(luò)中有一臺(tái)主機(jī)前移到另一臺(tái)主機(jī)實(shí)現(xiàn)資源交互的程序。而Multi-Agents是通過(guò)多個(gè)Agent組成的集合,系統(tǒng)中各Agent根據(jù)具有的知識(shí)對(duì)外界刺激作出反應(yīng),并獲取新的消息更新自身狀態(tài),通過(guò)消息獲取和數(shù)據(jù)交互完成任務(wù)。
由于Multi-Agents系統(tǒng)的Agent都是相互獨(dú)立的,各Agent間、Agent與環(huán)境間通過(guò)通訊、協(xié)商和協(xié)作共同完成系統(tǒng)數(shù)據(jù)的采集、傳輸、分析和評(píng)價(jià)[15]。Multi-Agents系統(tǒng)在異構(gòu)、分布控制、解決多個(gè)關(guān)聯(lián)性任務(wù)場(chǎng)合具有較高的可靠性,可動(dòng)態(tài)對(duì)系統(tǒng)任務(wù)進(jìn)行分解。根據(jù)區(qū)域經(jīng)濟(jì)系統(tǒng)的特點(diǎn),結(jié)合數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu),將Multi-Agents技術(shù)應(yīng)用于區(qū)域經(jīng)濟(jì)系統(tǒng),建立基于Multi-Agents的區(qū)域經(jīng)濟(jì)應(yīng)用框架如圖1所示。
圖1 基于Multi-Agents的區(qū)域經(jīng)濟(jì)應(yīng)用框架
從Multi-Agents應(yīng)用框架可以看出,整個(gè)系統(tǒng)被劃分為數(shù)據(jù)處理模塊、數(shù)據(jù)挖掘引擎、模式評(píng)估、知識(shí)庫(kù)系統(tǒng)4個(gè)部分。數(shù)據(jù)處理模塊將區(qū)域經(jīng)濟(jì)數(shù)據(jù)庫(kù)基礎(chǔ)數(shù)據(jù)提取、過(guò)濾、轉(zhuǎn)化為數(shù)據(jù)庫(kù)要求數(shù)據(jù)文件。數(shù)據(jù)挖掘引擎包括關(guān)聯(lián)規(guī)則、聚類算法等數(shù)據(jù)挖掘工具。模式評(píng)估根據(jù)知識(shí)庫(kù)的相關(guān)知識(shí),對(duì)獲得的結(jié)果評(píng)估。知識(shí)庫(kù)中存取經(jīng)濟(jì)領(lǐng)域知識(shí),將獲得的數(shù)據(jù)評(píng)估結(jié)果與知識(shí)庫(kù)相關(guān)領(lǐng)域比較,用以指導(dǎo)數(shù)據(jù)挖掘執(zhí)行。
Multi-Agents的區(qū)域經(jīng)濟(jì)數(shù)據(jù)挖掘通過(guò)分布在網(wǎng)絡(luò)中的多個(gè)Agent完成各區(qū)域經(jīng)濟(jì)事務(wù)的數(shù)據(jù)服務(wù),將各Agent挖掘信息匯總,與綜合分析系統(tǒng)形成交互機(jī)制,分析區(qū)域經(jīng)濟(jì)現(xiàn)狀成因、宏觀調(diào)控有效性等,各Agent智能代理間采用聯(lián)邦式協(xié)同挖掘機(jī)制[16]。
在區(qū)域經(jīng)濟(jì)數(shù)據(jù)庫(kù)中,選擇某些經(jīng)濟(jì)事務(wù)的相關(guān)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)數(shù)據(jù)分析和挖掘獲得準(zhǔn)確的結(jié)果來(lái)指導(dǎo)區(qū)域經(jīng)濟(jì)發(fā)展成為關(guān)鍵點(diǎn)。由于區(qū)域經(jīng)濟(jì)分析基本是在過(guò)往數(shù)據(jù)基礎(chǔ)上進(jìn)行[17],因此,首先選擇Microsoft時(shí)序算法對(duì)經(jīng)濟(jì)數(shù)據(jù)分析挖掘并預(yù)測(cè)經(jīng)濟(jì)指標(biāo),再通過(guò)聚類算法對(duì)選定的預(yù)測(cè)指標(biāo)相關(guān)的數(shù)據(jù)進(jìn)行挖掘分析。
1.2.1 Microsoft時(shí)序算法自回歸是在特定的時(shí)間點(diǎn)t內(nèi),根據(jù)過(guò)往的時(shí)點(diǎn)計(jì)算,獲得當(dāng)前時(shí)刻的預(yù)測(cè)值。因此,考慮n個(gè)以前時(shí)點(diǎn),獲得當(dāng)前時(shí)刻點(diǎn)t的函數(shù)關(guān)系為:
式中,Xt為t時(shí)刻的預(yù)測(cè)值,ai為i時(shí)刻點(diǎn)的自回歸系數(shù),εt為閾值,通常取0~1。
采用自回歸時(shí)序算法的關(guān)鍵是將系統(tǒng)內(nèi)部不同時(shí)間序列轉(zhuǎn)化為多個(gè)事件,創(chuàng)建一個(gè)行列允許算法根據(jù)過(guò)往值獲得當(dāng)前某一時(shí)刻的計(jì)算值。確定自回歸系數(shù)采用最小化建模時(shí)間序列與觀察時(shí)間序列的均值。
1.2.2 Microsoft聚類算法當(dāng)數(shù)據(jù)分組不明顯時(shí),采用Micorsoft聚類算法從數(shù)據(jù)中尋找自然分組。聚類算法創(chuàng)建一組聚類,假設(shè)該聚類為正確的,并將事例分布到每個(gè)聚類,建立了正確的模型[18]。將需要訓(xùn)練數(shù)據(jù)的事例隨機(jī)分配到模型中進(jìn)行合適的聚類,并通過(guò)不斷調(diào)整使之與現(xiàn)實(shí)世界相適應(yīng),直至某個(gè)事例不再滿足提前設(shè)置的終止條件或不在聚類間,此時(shí)該模型與實(shí)際相符,處于一個(gè)準(zhǔn)確狀態(tài)。
在聚類算法中,采用期望最大化算法(Expectation maximization,EM)將事例分配到聚類中。即便對(duì)于一個(gè)包含m個(gè)元素和d個(gè)連續(xù)屬性的數(shù)據(jù)庫(kù)D,假設(shè)每個(gè)事例x∈D,計(jì)算x屬于每個(gè)聚類h=1,2,…,k的概率:
將獲得的元素概率結(jié)果放入到模型中,更新混合模型參數(shù)值:
EM算法通過(guò)度量某對(duì)象的概率來(lái)決定該對(duì)象屬于哪個(gè)類別[19]。算法將每一維作為鐘型曲線計(jì)算標(biāo)準(zhǔn)差和均差,當(dāng)某點(diǎn)落入鐘型曲線內(nèi),則表示該點(diǎn)以計(jì)算的概率分為某一個(gè)聚類。由于各聚類曲線可重疊,因此該點(diǎn)也可以屬于其他聚類,但聚類概率不同,存在模糊邊界,表征實(shí)際參數(shù)間存在的相互關(guān)聯(lián)關(guān)系,因此可通過(guò)統(tǒng)計(jì)每個(gè)對(duì)象的聚類概率進(jìn)行結(jié)果預(yù)測(cè)。
創(chuàng)建區(qū)域經(jīng)濟(jì)分析系統(tǒng)的重點(diǎn)是解決異構(gòu)數(shù)據(jù)格式和數(shù)據(jù)服務(wù)方式的統(tǒng)一[20]。本研究選擇采用XML Web Service技術(shù)實(shí)現(xiàn)數(shù)據(jù)服務(wù)Agent,以XML格式文件作為系統(tǒng)數(shù)據(jù)的表達(dá)方式。XML Web Service是一個(gè)與具體開發(fā)工具和平臺(tái)無(wú)關(guān)的標(biāo)準(zhǔn),XML Web Service采用SOAP協(xié)議,并通過(guò)Http來(lái)調(diào)用。利用XML Web Service建立網(wǎng)絡(luò)中的服務(wù)節(jié)點(diǎn),響應(yīng)數(shù)據(jù)請(qǐng)求,進(jìn)而形成具有標(biāo)準(zhǔn)傳輸接口的數(shù)據(jù)庫(kù)“黑盒”服務(wù)節(jié)點(diǎn)[21]。XML作為用戶數(shù)據(jù)服務(wù)標(biāo)準(zhǔn)格式,實(shí)現(xiàn)數(shù)據(jù)在網(wǎng)絡(luò)上的無(wú)損傳輸,形成網(wǎng)絡(luò)共享的數(shù)據(jù)庫(kù)服務(wù)數(shù)據(jù)流[22]。通過(guò)XML Web Service技術(shù)和XML系統(tǒng)數(shù)據(jù)表達(dá)方式建立區(qū)域經(jīng)濟(jì)分析系統(tǒng)結(jié)構(gòu)框架如圖2所示。系統(tǒng)被分為4層結(jié)構(gòu),分別為數(shù)據(jù)庫(kù)層、數(shù)據(jù)庫(kù)服務(wù)擴(kuò)展層、異構(gòu)數(shù)據(jù)庫(kù)服務(wù)層、用戶應(yīng)用層。
圖2 區(qū)域經(jīng)濟(jì)分析系統(tǒng)結(jié)構(gòu)框架
數(shù)據(jù)庫(kù)層作為系統(tǒng)最底層,既可作為異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)的底層數(shù)據(jù)源,也可作為網(wǎng)絡(luò)中數(shù)據(jù)服務(wù)節(jié)點(diǎn)。數(shù)據(jù)庫(kù)層作為系統(tǒng)共享資源,應(yīng)該能為系統(tǒng)提供可視化數(shù)據(jù)圖表信息,同時(shí)根據(jù)用戶訪問(wèn)權(quán)限的不同將數(shù)據(jù)分為共有或私有數(shù)據(jù),強(qiáng)化數(shù)據(jù)庫(kù)的訪問(wèn)安全性。
數(shù)據(jù)庫(kù)服務(wù)擴(kuò)展層主要為系統(tǒng)提供數(shù)據(jù)服務(wù)資源結(jié)構(gòu),為數(shù)據(jù)信息共享提供數(shù)據(jù)服務(wù),并根據(jù)功能需求進(jìn)行數(shù)據(jù)提取,以XML形式屏蔽不同數(shù)據(jù)庫(kù)間的差異,提供統(tǒng)一的數(shù)據(jù)格式響應(yīng),并將數(shù)據(jù)交付給上一層。
異構(gòu)數(shù)據(jù)庫(kù)服務(wù)層通過(guò)系統(tǒng)服務(wù)里列表記錄不同數(shù)據(jù)庫(kù)的數(shù)據(jù)服務(wù),并實(shí)時(shí)更新數(shù)據(jù)庫(kù)數(shù)據(jù),提供全局?jǐn)?shù)據(jù)服務(wù)視圖響應(yīng)用戶服務(wù)請(qǐng)求,建立全面的數(shù)據(jù)服務(wù)平臺(tái)將數(shù)據(jù)服務(wù)分解,向下層傳遞請(qǐng)求信息,并根據(jù)下層數(shù)據(jù)庫(kù)返回的信息進(jìn)行再加工,生成滿足用戶要求的服務(wù)數(shù)據(jù)。
用戶應(yīng)用層通過(guò)互聯(lián)網(wǎng)進(jìn)行數(shù)據(jù)服務(wù)請(qǐng)求。用戶應(yīng)用層可以對(duì)數(shù)據(jù)庫(kù)服務(wù)擴(kuò)展層、異構(gòu)數(shù)據(jù)庫(kù)層進(jìn)行管理,通過(guò)數(shù)據(jù)庫(kù)服務(wù)擴(kuò)展層的全局?jǐn)?shù)據(jù)服務(wù)為用戶提供面向系統(tǒng)的數(shù)據(jù)服務(wù),這種服務(wù)屏蔽掉平臺(tái)系統(tǒng)的差異,在異構(gòu)數(shù)據(jù)庫(kù)層提供全局的共享平臺(tái)。
通過(guò)系統(tǒng)的4層網(wǎng)絡(luò)結(jié)構(gòu),為用戶提供基于互聯(lián)網(wǎng)的XML Web Service數(shù)據(jù)服務(wù)體系,用戶能夠在異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)采集、加工和數(shù)據(jù)整合,建立透明的數(shù)據(jù)綜合服務(wù)平臺(tái)。
針對(duì)系統(tǒng)結(jié)構(gòu)框架,采用C#語(yǔ)言開發(fā)區(qū)域經(jīng)濟(jì)數(shù)據(jù)分析。系統(tǒng)開發(fā)工具為:NET集成開發(fā)平臺(tái),服務(wù)器采用Windows Server 2016服務(wù)器,采用MySQL數(shù)據(jù)庫(kù)。系統(tǒng)硬件標(biāo)準(zhǔn)為:PIII/1G以上CPU,內(nèi)存16 G以上,操作系統(tǒng)Windows 10。數(shù)據(jù)庫(kù)軟件:MySQL數(shù)據(jù)庫(kù)。數(shù)據(jù)挖掘采集過(guò)程中采用Micorsoft聚類的期望最大化算法抓取Agent系統(tǒng)文本內(nèi)容,采用XML web Service技術(shù)實(shí)現(xiàn)數(shù)據(jù)服務(wù),由XML作為用戶數(shù)據(jù)存儲(chǔ)和傳輸。
2.2.1 數(shù)據(jù)采集功能以某個(gè)金融行業(yè)數(shù)據(jù)庫(kù)為基礎(chǔ),進(jìn)行進(jìn)入系統(tǒng)的數(shù)據(jù)分析,由于金融機(jī)構(gòu)所屬行業(yè)眾多,金融數(shù)據(jù)差異性極大,采用Micorsoft支持的時(shí)序算法抓取數(shù)據(jù),系統(tǒng)保留數(shù)據(jù)源,并對(duì)數(shù)據(jù)應(yīng)用層進(jìn)行數(shù)據(jù)更新,圖3為數(shù)據(jù)采集界面。
圖3 數(shù)據(jù)采集界面
2.2.2 數(shù)據(jù)挖掘功能用戶根據(jù)采集到的數(shù)據(jù),由需求分析,選擇Micorsoft聚類算法進(jìn)行數(shù)據(jù)挖掘,根據(jù)用戶執(zhí)行命令獲取異構(gòu)數(shù)據(jù)庫(kù)中信息,并進(jìn)行數(shù)據(jù)挖掘,并將挖掘的數(shù)據(jù)信息在界面顯示,每次挖掘出來(lái)的數(shù)據(jù),系統(tǒng)都會(huì)詳細(xì)羅列出來(lái),用戶能查詢每項(xiàng)數(shù)據(jù)的詳細(xì)信息,圖4為數(shù)據(jù)挖掘界面。
圖4 數(shù)據(jù)挖掘界面
2.2.3 數(shù)據(jù)監(jiān)控功能為加強(qiáng)對(duì)數(shù)據(jù)的管理,系統(tǒng)開發(fā)了數(shù)據(jù)監(jiān)控功能,數(shù)據(jù)監(jiān)控功能包括數(shù)據(jù)的選擇、監(jiān)控信息反饋、進(jìn)度查看等子功能。用戶在進(jìn)行數(shù)據(jù)監(jiān)控時(shí),首先確定監(jiān)控?cái)?shù)據(jù),然后由系統(tǒng)應(yīng)用層對(duì)全局覆蓋監(jiān)控?cái)?shù)據(jù),用戶能查看到數(shù)據(jù)的實(shí)時(shí)狀態(tài),并將最終反饋發(fā)送至數(shù)據(jù)服務(wù)層,如圖5所示。
圖5 監(jiān)控進(jìn)度查看界面
區(qū)域經(jīng)濟(jì)是經(jīng)濟(jì)社會(huì)活動(dòng)普遍存關(guān)注的問(wèn)題,對(duì)地方尋求經(jīng)濟(jì)振興、中央制定宏觀決策具有重要的參考作用。而區(qū)域經(jīng)濟(jì)涉及海量的多源異構(gòu)數(shù)據(jù),如何從分散化的數(shù)據(jù)庫(kù)異構(gòu)數(shù)據(jù)中提取有價(jià)值的經(jīng)濟(jì)數(shù)據(jù)成為難點(diǎn)。在充分認(rèn)識(shí)區(qū)域經(jīng)濟(jì)特征基礎(chǔ)上,從分布式網(wǎng)絡(luò)管理體系結(jié)構(gòu)入手,基于Multi-Agents的分布式數(shù)據(jù)管理模式和協(xié)作方式,建立起區(qū)域經(jīng)濟(jì)分析的數(shù)據(jù)挖掘應(yīng)用框架,采用Microsoft時(shí)序算法和期望最大化算法進(jìn)行系統(tǒng)數(shù)據(jù)的采集和數(shù)據(jù)挖掘,并以通過(guò)XML Web Service技術(shù)實(shí)現(xiàn)數(shù)據(jù)服務(wù)Agent,以標(biāo)準(zhǔn)XML格式進(jìn)行數(shù)據(jù)訪問(wèn),創(chuàng)建一個(gè)多數(shù)據(jù)庫(kù)訪問(wèn)Agent來(lái)集中管理數(shù)據(jù)訪問(wèn),為用戶提供跨數(shù)據(jù)庫(kù)平臺(tái)的數(shù)據(jù)共享環(huán)境。