徐 東,王 雷,侍守創(chuàng)
(1.工業(yè)互聯(lián)網(wǎng)創(chuàng)新中心(上海)有限公司,上海 200120;2.江蘇杰瑞信息科技有限公司,江蘇連云港 222000)
越來越多的發(fā)達(dá)國家開始采用工業(yè)智能應(yīng)用平臺(tái)靈活部署工業(yè)布局[1],為企業(yè)提供跨區(qū)域的工業(yè)信息化服務(wù)。在工業(yè)智能應(yīng)用平臺(tái)中,通常采用基于內(nèi)容的文本自動(dòng)分類方法,不僅可以節(jié)省大量的時(shí)間和人力資源,提高信息分類的效率和準(zhǔn)確性,而且克服了手工整理效果不佳的問題。
以往分類系統(tǒng)都是采用已有的指數(shù)經(jīng)驗(yàn)數(shù)據(jù)。例如文獻(xiàn)[2]建立了知識(shí)庫,實(shí)現(xiàn)了基于關(guān)鍵詞的自動(dòng)分詞和分類。該方法的缺點(diǎn)是不能處理大量無序的文檔,導(dǎo)致分類結(jié)果不準(zhǔn)確;文獻(xiàn)[3]提出了一種基于云計(jì)算的自動(dòng)分類系統(tǒng),并在該系統(tǒng)的基礎(chǔ)上,引入云計(jì)算平臺(tái)和分布式計(jì)算架構(gòu),對(duì)大型非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分類。但該方法只能處理部分結(jié)構(gòu)化和非結(jié)構(gòu)化的平臺(tái)信息,不能處理大量系統(tǒng)無序文檔,造成分類結(jié)果不準(zhǔn)確。
針對(duì)上述問題,提出了一個(gè)基于模糊聚類算法的工業(yè)智能應(yīng)用平臺(tái)信息自動(dòng)分類系統(tǒng),將該系統(tǒng)與模糊聚類算法相結(jié)合,對(duì)工業(yè)智能應(yīng)用平臺(tái)的信息進(jìn)行精確挖掘,有效地提高了分類性能。
基于C/S 體系結(jié)構(gòu),結(jié)合工業(yè)智能應(yīng)用平臺(tái)信息分類系統(tǒng)的需求[4],以B/S 體系結(jié)構(gòu)管理用戶信息[5],進(jìn)行了系統(tǒng)硬件結(jié)構(gòu)設(shè)計(jì),如圖1 所示。
圖1 系統(tǒng)硬件結(jié)構(gòu)
如圖1 所示,該系統(tǒng)由3 層組成,分別是系統(tǒng)表示層、業(yè)務(wù)邏輯層和系統(tǒng)數(shù)據(jù)層??梢允瓜到y(tǒng)運(yùn)行速度更快,數(shù)據(jù)處理更安全,方便了網(wǎng)絡(luò)資料查詢和公告的發(fā)布。
1.1.1 圖形用戶界面
便攜式媒體播放器以TMS320DM270 作為主控芯片,這是一種具有多種外部設(shè)置的可編程芯片,它有利于滿足市場(chǎng)的動(dòng)態(tài)變化要求,并使系統(tǒng)的其他模塊受其控制[6-7]。采用TVP5150A 核心芯片作為視頻輸入模塊,能夠?qū)σ曨l信號(hào)進(jìn)行轉(zhuǎn)換,以獲取數(shù)字信號(hào)。
系統(tǒng)添加了觸摸屏功能,其中,必須使用觸摸屏控制器和音頻編解碼器,同時(shí),采用DM270 和McBSP構(gòu)建音頻輸入輸出模塊,使得觸摸屏控制器的使用更加簡(jiǎn)單方便[8-10]。此外,為了減小芯片尺寸和成本,觸摸屏控制器可以集成音頻編碼[11]。根據(jù)交流充電或USB 充電需求,選擇電源模塊。
1.1.2 瀏覽器
瀏覽器是用來訪問和瀏覽互聯(lián)網(wǎng)的客戶端[12]。瀏覽器引擎使用一個(gè)接口來查詢和操作渲染引擎。渲染引擎與后臺(tái)使用同一個(gè)界面來顯示請(qǐng)求的內(nèi)容。使用網(wǎng)絡(luò)調(diào)用接口,執(zhí)行HTTP 請(qǐng)求等內(nèi)容[13]。
業(yè)務(wù)邏輯層是系統(tǒng)的核心處理層,包括數(shù)據(jù)采集邏輯、預(yù)處理邏輯、文檔管理邏輯、信息發(fā)布管理邏輯、文件管理邏輯等[14]。
文中設(shè)計(jì)了一個(gè)以PC104 為嵌入式信息處理單元的嵌入式智能數(shù)據(jù)采集系統(tǒng),采用開放的互連結(jié)構(gòu)和CAN總線接口,提高系統(tǒng)可靠性,避免外界干擾[15]。
嵌入式數(shù)據(jù)采集器主要是由信息處理模塊、遠(yuǎn)程嵌入模塊、數(shù)據(jù)采集模塊、顯示模塊、外圍控制與維護(hù)接口模塊組成,并配置雙CAN 總線接口的嵌入式信息處理器和遠(yuǎn)程數(shù)據(jù)采集裝置。
由圖2 可知,該采集器主要單元為嵌入式信息處理單元,該單元的主要任務(wù)是對(duì)信息進(jìn)行采集和管理,將采集的信息定期發(fā)送給數(shù)據(jù)存儲(chǔ)和顯示模塊,分析用戶指令,并實(shí)時(shí)從維護(hù)界面入手,進(jìn)行采集器維護(hù)工作,對(duì)系統(tǒng)進(jìn)行日常維護(hù)[16]。高速網(wǎng)絡(luò)接口用于實(shí)現(xiàn)與其他網(wǎng)絡(luò)的數(shù)據(jù)交換。
圖2 嵌入式數(shù)據(jù)采集器
在系統(tǒng)數(shù)據(jù)層,使用一種數(shù)據(jù)分類器進(jìn)行數(shù)據(jù)中心的信息分類,使其與數(shù)據(jù)庫管理系統(tǒng)相結(jié)合。對(duì)屬性集進(jìn)行一系列決策,包括提供屬性集和分類數(shù)據(jù),分類器結(jié)構(gòu)如圖3 所示。
圖3 分類器結(jié)構(gòu)
2.1.1 初始聚類中心選取
通過對(duì)象間的距離公式,確定數(shù)據(jù)集中最遠(yuǎn)的點(diǎn),將其作為初始聚類中心,設(shè)對(duì)象間距離公式為:
式(1)中,Pk和Pi表示兩個(gè)對(duì)象。
2.1.2 類合并
當(dāng)兩個(gè)對(duì)象之間距離最短時(shí),則說明這兩個(gè)對(duì)象是同一類別的。在聚類過程中,兩個(gè)類別間距離最小時(shí),可以進(jìn)行類合并處理。為了加快聚類速度,設(shè)定閾值為:
式(2)中,λ表示比例系數(shù);dmin、dmax分別表示類別間最小和最大距離。閾值取值不能過小,否則合并速度較慢;取值也不能過大,否則所有類別將全部被歸為一類。
2.1.3 模糊聚類算法流程
將每個(gè)樣本都作為初始聚類中心,計(jì)算閾值,同時(shí),將類間小于閾值的兩個(gè)類別進(jìn)行合并處理,由此獲取新的類別點(diǎn),計(jì)算隸屬度函數(shù),更新聚類中心。根據(jù)評(píng)價(jià)函數(shù),計(jì)算新的分類評(píng)估結(jié)果為:
如果E(n-1)<Y(n-2),則輸出聚類結(jié)果;否則,重新計(jì)算隸屬度函數(shù),直到滿足上述條件,即可完成模糊聚類。
模糊聚類原理是將工業(yè)智能應(yīng)用平臺(tái)中的所有信息進(jìn)行自動(dòng)分類,設(shè)某個(gè)工業(yè)智能應(yīng)用平臺(tái)中包含的類別nj,其中nj在該平臺(tái)訓(xùn)練樣本集Wrj中的樣本信息為mj,按照下列步驟將所屬類別nj劃分到子類T1或T2中。
分類步驟如下:
step1:根據(jù)模糊聚類原理對(duì)樣本訓(xùn)練集Wrt進(jìn)行模糊聚類,得到類別信息xji及兩個(gè)子類隸屬度μj1i和μj2i,將滿足隸屬度之差大于0、小于0、等于0 的樣本分別存儲(chǔ)到集合Wj1、Wj2、Wj3中,并分別設(shè)置3 個(gè)集合的樣本數(shù),依次為Zj1、Zj2、Zj3;
step2:對(duì)于種類nj中,如果存在:
式(4)中,α表示設(shè)定的閾值,該值越大,說明交疊結(jié)構(gòu)類別數(shù)量就越多。如果滿足式(4),則將種類nj劃分到子類T1或T2中;
step3:對(duì)于種類nj中,如果存在:
如果滿足式(5),則將集合Zj1劃分到子類T1中,Zj2劃分到子類T2中,Zj3劃分到子類T1或T2中;
從初始訓(xùn)練節(jié)點(diǎn)開始,生成各個(gè)節(jié)點(diǎn)模糊聚類后,再從每個(gè)模糊類別中直接選擇該模糊聚類中隸屬度小于1 的樣本。
從上述訓(xùn)練結(jié)果可看出,使用模糊聚類算法減少了訓(xùn)練樣本的數(shù)量,避免了系統(tǒng)化無序信息對(duì)分類造成的不利影響,進(jìn)而有效提高系統(tǒng)精度。
為了驗(yàn)證基于模糊聚類算法的工業(yè)智能應(yīng)用平臺(tái)信息自動(dòng)分類系統(tǒng)設(shè)計(jì)的合理性,進(jìn)行實(shí)驗(yàn)驗(yàn)證分析。
系統(tǒng)測(cè)試數(shù)據(jù)集主要包括工廠遠(yuǎn)程運(yùn)維管理平臺(tái)、訂單數(shù)字制造管控平臺(tái)、智能工業(yè)云服務(wù)平臺(tái)、項(xiàng)目管理協(xié)同工作云平臺(tái)4 個(gè)類別,每個(gè)類別中均有600 條信息,共包含2 400 條信息。
系統(tǒng)運(yùn)行平臺(tái)硬件配置了5 臺(tái)主機(jī),該主機(jī)的內(nèi)存為2.5 GB。在計(jì)算機(jī)周圍部署Hadoop,并將這5 臺(tái)主機(jī)連接起來,形成分布式集群。
在Eclipse中,選擇Maven 作為管理工具,引用管理工具即可進(jìn)行相關(guān)實(shí)驗(yàn)。
分類結(jié)果評(píng)價(jià)可以從側(cè)面反映分類系統(tǒng)性能的優(yōu)良,主要有兩個(gè)評(píng)價(jià)指標(biāo),分別是召回率recall 和準(zhǔn)確率precision。其中,召回率指的是分類系統(tǒng)信息分類的數(shù)量與屬于同一類工業(yè)智能應(yīng)用平臺(tái)信息總數(shù)之比的正確評(píng)價(jià)結(jié)果;準(zhǔn)確率指的是分類系統(tǒng)工業(yè)智能應(yīng)用平臺(tái)信息中,真正屬于該平臺(tái)信息所占比例的正確評(píng)價(jià)結(jié)果。召回率和準(zhǔn)確率的計(jì)算公式為:
由式(6)、(7)可知,S表示分類標(biāo)準(zhǔn)中屬于同一類信息同時(shí)也被分類系統(tǒng)分到同一類中的信息數(shù);Q表示分類標(biāo)準(zhǔn)中不屬于同一類信息,卻被分類系統(tǒng)分到同一類中的信息數(shù);R表示原本應(yīng)當(dāng)分類到同一類信息卻被分到其他類別中的信息數(shù)。
分別使用基于知識(shí)庫自動(dòng)分類系統(tǒng)、云計(jì)算的自動(dòng)分類系統(tǒng)和基于模糊聚類算法自動(dòng)分類系統(tǒng)對(duì)比分析召回率和準(zhǔn)確率,對(duì)比結(jié)果如圖4 所示。
由圖4可知,使用基于知識(shí)庫自動(dòng)分類系統(tǒng)對(duì)4個(gè)平臺(tái)信息分類的過程中,以關(guān)鍵詞作為特征粒度后,該系統(tǒng)的召回率得到提高,最高召回率為0.7,但在處理項(xiàng)目管理協(xié)同工作云平臺(tái)時(shí),系統(tǒng)化無序信息影響著系統(tǒng)的分類精度,最低精度為0.6;使用基于云計(jì)算的自動(dòng)分類系統(tǒng)對(duì)4 個(gè)平臺(tái)信息分類的過程中,引入了云計(jì)算平臺(tái)和分布式計(jì)算架構(gòu),有效提高了系統(tǒng)召回率,最高召回率為0.65。但在處理項(xiàng)目管理協(xié)同工作云平臺(tái)時(shí),同樣受到系統(tǒng)化無序信息影響,導(dǎo)致系統(tǒng)分類精度較低,最低為0.59;而基于模糊聚類算法的自動(dòng)分類系統(tǒng),結(jié)合了模糊聚類算法,能夠精準(zhǔn)挖掘出4 個(gè)平臺(tái)信息,不會(huì)受到系統(tǒng)化無序信息影響,最高召回率為0.91、最高準(zhǔn)確率為0.89。
文中設(shè)計(jì)了一個(gè)基于模糊聚類算法的工業(yè)智能應(yīng)用平臺(tái)信息自動(dòng)分類系統(tǒng),用模糊聚類方法生成模糊類,解決了模糊類中多類嚴(yán)重重疊和信息系統(tǒng)混亂等問題,可以對(duì)工業(yè)智能應(yīng)用平臺(tái)的海量信息進(jìn)行自動(dòng)分類,具有識(shí)別效率高、訓(xùn)練速度快、分類準(zhǔn)確率高等特點(diǎn),是解決信息分類分類問題的有效途徑。
盡管所設(shè)計(jì)的自動(dòng)分類系統(tǒng)具有較高的效率,但還存在一些不足,例如現(xiàn)有的模糊聚類算法都是低維計(jì)算,缺少特征降維處理,因此,為了提高信息提取精準(zhǔn)度,在未來應(yīng)研究特征提取和降維技術(shù)是非常必要的。