孫忠華 楊婷婷
摘 要:本文以歐盟最新港口國(guó)監(jiān)督法令(2009/16/EC)巴黎備忘錄目標(biāo)船選船機(jī)制(NIR)為研究對(duì)象,提
出基于粗糙集和BP神經(jīng)網(wǎng)絡(luò)組合算法的PSC的新選船模型。研究結(jié)果表明:該算法有效結(jié)合粗糙集
理論與BP神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),屬性約簡(jiǎn)科學(xué)合理,避免選擇評(píng)價(jià)因素的主觀影響,簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu)。
關(guān)鍵詞:粗糙集 BP神經(jīng)網(wǎng)絡(luò) 約簡(jiǎn) PSC選船
2009/16/EC歐盟最新港口國(guó)監(jiān)督法令第10條“船舶風(fēng)險(xiǎn)等級(jí)”規(guī)定:“所有??繗W盟成員國(guó)港口或錨地的船舶在船舶檢查數(shù)據(jù)庫(kù)中都具有一個(gè)船舶風(fēng)險(xiǎn)等級(jí)信息,風(fēng)險(xiǎn)等級(jí)決定了檢查等級(jí)、檢查周期和檢查范圍?!倍帮L(fēng)險(xiǎn)等級(jí)的評(píng)估則由包括船型、船齡、船旗國(guó)、認(rèn)可組織及管理公司表現(xiàn)在內(nèi)的通用參數(shù)和基于一定歷史時(shí)期內(nèi)(通常是3年)在巴黎備忘錄地區(qū)港口國(guó)監(jiān)督檢查缺陷數(shù)和滯留次數(shù)的歷史參數(shù)共同確定。但由于該選船方法中的風(fēng)險(xiǎn)因素只是提供了一些相對(duì)具有代表性的因素,這些因素是否科學(xué),能否通過(guò)PSC歷史檢查數(shù)據(jù)對(duì)船舶風(fēng)險(xiǎn)因素進(jìn)行重新梳理,而且該機(jī)制只是對(duì)風(fēng)險(xiǎn)因素進(jìn)行打分并通過(guò)簡(jiǎn)單的相加得出船舶風(fēng)險(xiǎn)值,是線性選船模型,而實(shí)際上PSC預(yù)測(cè)選船模型是非線性模型。
PSC選船模型國(guó)內(nèi)外相關(guān)研究主要集中在層次分析法和模糊綜合評(píng)價(jià)方法,魏棟等人采用BP神經(jīng)網(wǎng)絡(luò)可以很好地逼近非線性性函數(shù)的特性,采用BP神經(jīng)網(wǎng)絡(luò)建立了FSC檢查選船模型。但BP神經(jīng)網(wǎng)絡(luò)需要大量樣本數(shù)據(jù)進(jìn)行訓(xùn)練,收斂速度慢,并易陷入局部最優(yōu)。本文以2009/16/EC巴黎備忘錄目標(biāo)船選船機(jī)制(NIR)為研究對(duì)象,基于粗糙集和BP神經(jīng)網(wǎng)絡(luò)組合算法提出一種創(chuàng)新性的PSC選船模型。該算法采用了RSES粗糙集理論工具箱進(jìn)行屬性約簡(jiǎn),并通過(guò)決策挖掘的知識(shí)訓(xùn)練樣本建立神經(jīng)網(wǎng)絡(luò)。
基于粗糙集理論在PSC選船模型中的應(yīng)用
粗糙集理論是由波蘭數(shù)學(xué)家Pawlak于1982年首次提出的,它是一種處理不確定、不精確和不完全數(shù)據(jù)的新理論,特別在數(shù)據(jù)庫(kù)知識(shí)挖掘領(lǐng)域,粗糙集已經(jīng)成為知識(shí)獲取的有力工具。信息決策系統(tǒng)T可表示為T=(U,A,C,D),其中U是對(duì)象的集合,即論域,A是屬性集合,如果屬性A集可以分為條件屬性集C和決策屬性集D,即C∪D=A,C∩D=?覫,則該信息系統(tǒng)稱為決策系統(tǒng)或決策表。對(duì)于每個(gè)屬性子集R?哿A,不可分辨關(guān)系為:Ind(R)={(x,y)∈U×U:r∈R:r(x)=r(y)},顯然Ind(R)是一個(gè)等價(jià)關(guān)系,在不產(chǎn)生混淆的情況下可用R代替Ind(R)。所謂約簡(jiǎn),即不含多余屬性并保證分類正確的最小條件屬性集。一個(gè)信息決策表殼同時(shí)存在多個(gè)約簡(jiǎn)。關(guān)系等價(jià)族R中所有不可約去的關(guān)系稱為核,由它構(gòu)成的集合稱為R的核集,記作Core(R)。
1、構(gòu)建PSC評(píng)價(jià)決策表
根據(jù)遼寧海事局2006-2010年內(nèi)PSC檢查結(jié)果建立一個(gè)船舶風(fēng)險(xiǎn)因素決策表,共50個(gè)記錄,對(duì)于決策屬性值A(chǔ)CC,高風(fēng)險(xiǎn)船舶進(jìn)行了PSC檢查的置為1;低風(fēng)險(xiǎn)船舶暫未進(jìn)行PSC檢查的置為0。根據(jù)NIR船舶風(fēng)險(xiǎn)因素評(píng)價(jià),具體的條件屬性分別為:
船型={其他類型,散貨船,油船客船及危險(xiǎn)品船}
船齡={船齡小于等于5年的船舶,船齡大于5年而非老舊船舶,老舊船舶而船齡小于特別定期檢驗(yàn)船齡船舶,船齡大于特別定期檢驗(yàn)船齡而尚未需強(qiáng)制報(bào)廢船舶}
船員扣分情況={未扣過(guò)分,扣分1次,扣分2次,扣分2次以上}
航線={國(guó)內(nèi)航線,國(guó)際航線}
噸位={0~500GRT,500~3000GRT,3000~10000GRT,10000GRT+ }
船旗國(guó)={是否方便旗國(guó)家,船旗國(guó)的滯留率,船旗國(guó)核準(zhǔn)公約程度}
認(rèn)可機(jī)構(gòu)船級(jí)社={是否為IACS會(huì)員,船級(jí)社的滯留率}
公司NSM體系={A類,B類, C類}
船舶NSM體系={A類,B類, C類}
天氣地理及水文={A類,B類, C類}
過(guò)去36個(gè)月每次檢查記錄的缺陷數(shù)量={前三次安檢平均缺陷數(shù)小于等于5個(gè),前三次安檢平均缺陷數(shù)大于5個(gè)但小于等于10個(gè),前三次安檢平均缺陷數(shù)大于10個(gè)但小于等于15個(gè),前三次安檢平均缺陷數(shù)大于15個(gè)}
過(guò)去36個(gè)月滯留數(shù)量={未被滯留,被滯留1次,被滯留2次,被滯留2次以上}
距上次檢查時(shí)間={0~6個(gè)月,7~12個(gè),13個(gè)月+}
距上次滯留時(shí)間={0~6個(gè)月,7~12個(gè),13個(gè)月+}
是否存在未糾正缺陷={不存在,存在}
2、離散化
由于粗集理論方法分析的決策是有限維的離散化數(shù)據(jù)表,因此對(duì)上述數(shù)據(jù)必須進(jìn)行離散化,使屬性值離散化后的空間維數(shù)最小,才能進(jìn)行粗糙集分析。對(duì)各條件屬性指標(biāo)相對(duì)應(yīng)的離散化規(guī)則如下:
VTYPE={1,2,3},VAGE={1,2,3,4},VMARINER={1,2,3,4},VROUTE={1,2},VTON={1,2,3,4},VFLAG={1,2,3},VCS={1,2},VCNSM={1,2,3},VSNSM={1,2,3},VWET={1,2,3},VDEF={1,2,3},VDET={1,2,3,4},VDUR1={1,2,3},VDUR2={1,2,3},VDEF2={1,2},決策屬性離散化為VACC={1,0}。
3、基于RSES粗糙集軟件的數(shù)據(jù)挖掘
采用Warsaw University開(kāi)發(fā)粗糙集數(shù)據(jù)處理系統(tǒng)RSES 對(duì)PSC選船決策表進(jìn)行約簡(jiǎn),得出屬性約簡(jiǎn)集,規(guī)則集及各屬性分布頻度。具體步驟如下:
RSES決策表生成。在Newproject下用“InsertTable”插入新表格并導(dǎo)入原始決策表。新的決策表共有100條記錄,16個(gè)屬性,其中15個(gè)為條件屬性,1個(gè)為決策屬性。
約簡(jiǎn)。利用粗糙集理論中常見(jiàn)的約簡(jiǎn)和規(guī)則生成算法—基因遺傳算法(genetical algorithm),規(guī)則集生成。共產(chǎn)生22個(gè)約簡(jiǎn)集1544條規(guī)則,與無(wú)約簡(jiǎn)的決策規(guī)則集相比,擴(kuò)大了15.4倍。各約簡(jiǎn)集的規(guī)則數(shù)為:
|Rules{TYPE,MARINER,FLAG,CNSM,DEF,DUR2,ROUTE}|=126
|Rules{TYPE,MARINER,FLAG,CNSM,DEF,DEF2}|=124
|Rules{TYPE,MARINER,ROUTE,CS,CNSM,WET,DUR2}|=58
|Rules{TYPE,MARINER,CNSM,WET,DEF,DEF2}|=56
計(jì)算可信度。根據(jù)可信度定義,CFij=card(Ci∩Dj)/card(Ci), Ci∩Dj≠?覫這里只列舉條件屬性TYPE的可信度計(jì)算方法,其他同。
CF(TYPE→ACC(1))=card(TYPE∩ACC(1))/card(TYPE)=962/1544=0.62
CF(TYPE→ACC(0))=card(TYPE∩ACC(0))/card(TYPE)=582/1544=0.38
則我們可以認(rèn)為船型指標(biāo)導(dǎo)致進(jìn)行PSC檢查的可信度大于不進(jìn)行PSC檢查的可信度。
綜上選取Rules{TYPE,MARINER,FLAG,CNSM,DEF,DUR2,ROUTE}作為PSC檢查的評(píng)價(jià)因素約簡(jiǎn)集。
BP神經(jīng)網(wǎng)絡(luò)在PSC選船模型中的應(yīng)用
本文采用權(quán)值訓(xùn)練中使用誤差逆向傳播方式的反向傳播(backward propagation, BP)神經(jīng)網(wǎng)絡(luò)。使用MATLAB語(yǔ)言的神經(jīng)網(wǎng)絡(luò)工具箱提供的函數(shù)和神經(jīng)網(wǎng)絡(luò)類,采用Sigmoid函數(shù)作為傳輸函數(shù),使用net=newff(minmax(Xtrain),[10,10,1],{'tansig','tansig','purelin'},'traingdm')建立神經(jīng)網(wǎng)絡(luò)。這里構(gòu)建3個(gè)隱層的神經(jīng)網(wǎng)絡(luò),第一個(gè)隱層節(jié)點(diǎn)個(gè)數(shù)10, 第2個(gè)隱層節(jié)點(diǎn)數(shù)個(gè)數(shù)為10,第3個(gè)隱層有1個(gè)節(jié)點(diǎn)。具體設(shè)置如下:
自學(xué)習(xí)的學(xué)習(xí)率net.trainParam.lr = 0.02;
學(xué)習(xí)系數(shù)的初始值,Marquardt調(diào)整參數(shù)net.trainParam.mu=0 ;
學(xué)習(xí)系數(shù)下降因子net.trainParam.mu_dec= 0.9;
學(xué)習(xí)系數(shù)上升因子net.trainParam.mu_inc=1.05;
訓(xùn)練步數(shù)net.trainParam.epochs = 10000;
訓(xùn)練目標(biāo)net.trainParam.goal = 0.01;
將訓(xùn)練樣本使用規(guī)則約簡(jiǎn)后從遼寧海事局PSC檢查數(shù)據(jù)庫(kù)中另選10組樣本對(duì)網(wǎng)絡(luò)進(jìn)行測(cè)試經(jīng)過(guò)7419步訓(xùn)練,性能達(dá)到0.00999992,網(wǎng)絡(luò)平滑收斂于全局極小值,得出訓(xùn)練過(guò)程的均方誤差曲線。表1為測(cè)試樣本,可見(jiàn)真實(shí)檢查結(jié)果和該算法辨識(shí)結(jié)果誤差較小,從而證明該網(wǎng)絡(luò)精度較高,滿足實(shí)際PSC工作需要。
(作者單位:大連海事大學(xué))