吳 偉 郭軍巧 安淑一 任仰武 夏玲姿 周寶森△
使用思維進化算法優(yōu)化的神經網絡建立腎綜合征出血熱預測模型*
吳 偉1郭軍巧2安淑一2任仰武1夏玲姿1周寶森1△
目的 探討思維進化算法優(yōu)化的BP神經網絡在建立腎綜合征出血熱發(fā)病率預測模型中的應用前景。方法 使用1984-2013年沈陽市的鼠情資料(鼠密度和鼠帶毒率)和氣象資料(平均氣溫、降水量和日照時數)作為網絡的輸入,同年的腎綜合征出血熱發(fā)病率作為網絡的輸出。把1984-2009年的數據作為訓練樣本,2010-2013年的數據作為預測樣本。分別建立BP神經網絡和思維進化算法優(yōu)化的BP神經網絡預測模型,并比較兩種模型的擬合和預測效果。結果 對于訓練樣本和預測樣本,思維進化算法優(yōu)化的BP神經網絡的平均絕對誤差(MAE)、平均絕對誤差百分比(MAPE)以及均方誤差平方根(RMSE)均小于未優(yōu)化的BP神經網絡。結論 思維進化算法優(yōu)化的BP神經網絡預測模型的擬合和預測效果均優(yōu)于未優(yōu)化的BP神經網絡,具有較強的推廣應用價值。
腎綜合征出血熱 思維進化算法 神經網絡 預測
目前,人們普遍認為腎綜合征出血熱(hemorrhagic fever with renal syndrome,HFRS)的發(fā)病受到很多因素的影響,如氣象因素和動物疫情因素[1-4]。各種影響因素之間又存在錯綜復雜的聯(lián)系,因此很難建立結構式的因果模型進行解釋。BP神經網絡已被廣泛用于建立傳染病的預警預測模型[5-8]。該方法把未知系統(tǒng)看成是一個黑箱,首先用系統(tǒng)輸入輸出數據訓練網絡,使其能夠表達該未知函數,然后用訓練好的BP神經網絡預測系統(tǒng)輸出。盡管BP算法具簡單、可塑性好等優(yōu)點,但是在實際使用中也存在一些不足,如收斂速度慢、全局搜索能力弱、容易陷入局部最小等。
隨著計算機科學的發(fā)展,人們借助適者生存這一進化法則,將計算機科學和生物進化結合起來,逐漸發(fā)展形成一類啟發(fā)式隨機搜索的進化算法(evolutionary computation,EC)。該算法存在早熟、結果不可預知等缺陷。針對EC存在的問題,孫承意等人于1998年提出了思維進化算法(mind evolutionary algorithm,MEA)[9]。MEA具有全局尋優(yōu)能力,可以改善神經網絡的收斂速度和精度[10]。為了彌補BP神經網絡的不足,本研究擬使用MEA對BP神經網絡的初始權值和閾值進行優(yōu)化,探討MEA優(yōu)化后的BP神經網絡在建立HFRS預測模型中的應用前景。
1.資料收集 HFRS發(fā)病率和鼠情資料來源于遼寧省和沈陽市疾病預防控制中心,收集1984-2013年HFRS年發(fā)病率(1/10萬)資料,鼠情資料收集1984-2013年每年在監(jiān)測點采集的鼠密度(%)和鼠帶毒率(%)監(jiān)測數據。氣象資料來自于遼寧統(tǒng)計年鑒,選擇沈陽市1984-2013年每年的平均氣溫(℃)、降水量(毫米)和日照時數(小時)。選取1984-2009年的數據作為訓練樣本,2010-2013年的數據作為預測樣本。
2.BP神經網絡建立 把每年沈陽市的動物疫情資料(鼠密度和鼠帶毒率)和氣象資料(平均氣溫、降水量和日照時數)共5個指標作為樣本的輸入,同年該地區(qū)HFRS的發(fā)病率作為樣本的輸出。所有數據按少隱含層神經元數目的方法,選擇使網絡具有足夠泛化和輸出精度的隱含層神經元數目,最后確定為8個隱含層神經元數目。最終,網絡結構為5-8-1。隱含層選取logsig作為傳遞函數,輸出層選擇tansig作為傳遞函數,選擇trainlm作為訓練函數,learngdm作為神經網絡權值/閾值學習函數。BP神經網絡模型初始化的權值和閾值參數依據Nguyen-Widrow算法隨機產生[11],具體過程如下:w=0.7×s1/r×randanr(s,r);d=w×y+0.7×s1/r×linspae(-1,1,s).×sign(w(:,1))。其中:s為該層神經元的個數,r為輸入向量的維數,y為與輸入向量最大值和最小值相關的參數,randanr、linspace和sign為Matlab函數。w和d再經過簡單的矩陣運算即為該層權值和閾值的初始參數。根據Nguyen-Widrow算法產生的初始化值,可以使網絡層中每個神經元的作用范圍近似地在網絡層的輸入空間均勻分布。最大訓練步數為100次,訓練目標誤差為0.005,學習率為0.1。最后利用訓練好的網絡進行外推預測,得到的輸出值經過反歸一化后即為最終預測值。
3.MEA優(yōu)化BP神經網絡的建立[10]
(1)思維進化初始種群的產生 假設神經網絡的最大隱含層數為n,每一個隱含層的最大節(jié)點數為m。確定了隱含層數和隱含層節(jié)點數就確定了神經網絡的結構。隨機產生N組數作為初始種群,每組數中包含n個元素,代表一個個體(即神經網絡結構),每個元素均從隱含層節(jié)點數0,1,…,m中選取。本研究BP神經網絡結構同上,為5-8-1。
(2)得分函數的確定 本研究選擇訓練集的均方誤差的倒數作為各個個體與種群的得分函數f=出值,ti表示目標輸出,p為訓練樣本數。
(3)訓練權值和閾值 對于每個網絡結構,在(0,1)之間以均勻分布產生R組隨機數,作為初始的權值和閾值群體。根據網絡計算規(guī)則,按照得分函數計算每個個體得分,得分最高的q個個體被稱為優(yōu)勝者。誤差越小,則認為個體所含權值和閾值信息越好,得分就越高。
(4)子種群趨同過程 分別以每一個優(yōu)勝者為中心,服從正態(tài)分布產生個體,形成M個優(yōu)勝子種群和T個臨時子種群,每個子群體包含w個個體。該正態(tài)分布可以表示為N(μ,∑),式中μ是正態(tài)分布的中心向量,Σ是該正態(tài)分布的協(xié)方差矩陣。正態(tài)分布的中心就是勝者的坐標,即勝者的權值。本研究的優(yōu)勝子種群和臨時子種群個數均設為5。
(5)子種群異化過程 異化操作是整個解空間內各子群體成為勝者而競爭的過程。通過全局公告版,它記錄了各子群體評價函數值以及成熟度,在各個子群體間進行全局競爭,若一個臨時子群體的得分高于某個成熟優(yōu)勝子群體的得分,則該優(yōu)勝子群體被獲勝的臨時子群體替代,原優(yōu)勝子群體中的個體被釋放;若一個成熟的臨時子群體得分低于任意一個優(yōu)勝子群體得分,則該臨時子群體被廢棄,其中的個體被釋放。
(6)解析最優(yōu)個體 當滿足迭代停止條件時,思維進化算法結束優(yōu)化過程。此時,根據編碼規(guī)則,對尋找到的最優(yōu)個體進行解析,從而得到對應的BP神經網絡的權值和閾值。
(7)訓練MEA優(yōu)化的BP神經網絡 MEA優(yōu)化的BP神經網絡的訓練參數和未優(yōu)化的BP神經網絡一致。
4.效果評價[12]使用平均絕對誤差(MAE)、平均絕對誤差百分比(MAPE)以及均方誤差平方根(RMSE)三個指標對BP神經網絡和MEA優(yōu)化的BP神經網絡的擬合及預測效果進行評價。
5.數據處理 利用Matlab2014b軟件中的神經網絡工具箱編程構建BP神經網絡;編寫并調用初始種群產生函數、子種群產生函數和種群成熟判別等函數實現MEA的運算。
1.未優(yōu)化的BP神經網絡訓練情況 未優(yōu)化的BP神經網絡經過14次訓練后,其訓練誤差為0.0047。網絡訓練誤差迭代收斂曲線見圖1。
圖1 未優(yōu)化的BP神經網絡誤差迭代收斂曲線
2.MEA優(yōu)化的BP神經網絡訓練情況 MEA優(yōu)化的BP神經網絡初始優(yōu)勝子種群和臨時子種群的趨同過程分別見圖2和圖3。通過觀察圖形,我們發(fā)現,經過若干次趨同操作,各個子種群均已成熟(得分不再增加)。同時,待優(yōu)勝子種群和臨時子種群成熟后,臨時子種群中的子種群3的得分比優(yōu)勝子種群中的一些子種群得分高,而優(yōu)勝子種群中的子種群3的得分比臨時子種群中的一些子種群得分低,因此需要執(zhí)行1次異化操作,同時需要補充1個新的子種群到臨時子種群中。MEA優(yōu)化的BP神經網絡經過11次訓練后,其訓練誤差為0.0027。網絡訓練誤差迭代收斂曲線見圖4。
圖2 初始優(yōu)勝子種群趨同過程
圖3 初始臨時子種群趨同過程
圖4 思維進化算法優(yōu)化的BP神經網絡誤差迭代收斂曲線
3.兩種模型的擬合和預測效果的比較 兩種模型的擬合和預測值見表1。對于訓練樣本和預測樣本,MEA優(yōu)化的 BP神經網絡的 MAE、MAPE和RMSE均小于未優(yōu)化的BP神經網絡(表2)。
表1 兩種模型的擬合和預測值比較(單位:1/10萬)
表2 兩種模型擬合和預測效果的比較
目前為止,很多研究者對HFRS的疫情和流行特征建立了預測預警模型進行分析。其中,多數的方法是使用時間序列分析的方法對HFRS進行研究[13-17]。這些方法把時間序列變量綜合替代各種影響因素,對數據資料要求較低,模型的建立過程簡單,短期預測精度較高。而對于本研究中的數據,按照上述方法我們未能建立合適的時間序列模型。此外,這些研究中大多都未考慮其他影響因素對出血熱發(fā)病的影響。根據專業(yè)知識判斷,在條件允許的情況下,把HFRS發(fā)病的影響因素納入到模型中應該可以提高模型的擬合和預測精度。
MEA是近年來提出的一種新算法,主要通過模擬生物進化過程中人類思維進化的方式。它借鑒了遺傳算法的“群體”與“進化”的思想,將群體劃分為若干子群體,提出了“趨同”與“異化”兩種操作,并且這二者的作用是非對立的。“趨同”操作對系統(tǒng)從環(huán)境得到局部信息加以開采,迅速搜索局部最優(yōu)。而“異化”操作在整個解空間進行搜索,選擇較優(yōu)的個體作為中心創(chuàng)建新的臨時子群體[18]。因而,MEA具有全局尋優(yōu)的能力,將其用于優(yōu)化神經網絡的權值和閾值后,可有效改善神經網絡收斂速度和收斂精度。本研究在使用BP神經網絡建立沈陽市HFRS預測模型過程中,使用MEA在神經網絡的權值和閾值范圍內,通過多次的“趨同”與“異化”操作進行全局尋優(yōu),將得到的全局最優(yōu)解應用于BP神經網絡的初始值中。研究結果表明,使用MEA優(yōu)化的BP神經網絡方法可以在一定程度上改善模型的收斂速度,并且提高擬合和預測的準確性,具有一定的應用前景。
MEA在變壓器故障診斷[19]和電廠主蒸汽溫度控制[20]等方面已進行大量相關應用,并取得了較好的效果。目前為止,該方法在醫(yī)學領域的應用并未見到相關報導。本研究首次把MEA應用于傳染病領域,雖然本次研究中優(yōu)化后的BP神經網絡對于HFRS建模效果尚可,但是此方法是否適用于其他疾病需要開展后續(xù)進一步的深入研究進行論證。此外,基于MEA優(yōu)化神經網絡的方式主要有三種:優(yōu)化神經網絡的權值和閾值、優(yōu)化神經網絡的結構和優(yōu)化神經網絡的學習規(guī)則。本研究只是針對神經網絡權值和閾值的優(yōu)化進行了深入的研究,在其他兩個方面進行優(yōu)化的研究仍然有不足,后續(xù)研究可以考慮三種方法結合使用,觀察其對所建預測模型的影響。再次,目前MEA作為一種比較新的理論,這方面的資料還不是很完善。同時對于群體的規(guī)模設置、優(yōu)勝子群體和臨時子群體的個數和迭代進化停止條件等還沒有成熟的理論指導,現在多是根據個人的經驗進行確定,因此我們仍需對MEA進行深入研究。
[1]羅雷,王鳴,周端華,等.氣候因子與腎綜合征出血熱發(fā)生及鼠密度關系分析.現代預防醫(yī)學,2005,32(3):205-222.
[2]劉靜,王潔貞,薛付忠,等.腎綜合征出血熱發(fā)病率與氣象因素關系的研究.中國衛(wèi)生統(tǒng)計,2006,23(4):326-329.
[3]羅成旺,陳化新.腎綜合征出血熱流行因素的影響研究.中國媒介生物學及控制雜志,2003,14(6):451-454.
[4]吳榮軍,胡曉抒,鄭有飛,等.腎綜合征出血熱與氣象因子相關性分析及其預報研究.中國媒介生物學及控制雜志,2005,16(2):118-120.
[5]黎健,顧君忠,毛盛華,等.BP人工神經網絡模型在上海市感染性腹瀉日發(fā)病例數預測中的應用.中華流行病學雜志,2013,34(12):1198-1202.
[6]徐學琴,徐玉芳,朱明軍,等.基于逆?zhèn)鞑ド窠浘W絡的麻疹短期發(fā)病預測研究.中國全科醫(yī)學,2013,16(29):3488-3490.
[7]劉文東,吳瑩,艾靜,等.BP神經網絡在痢疾發(fā)病趨勢預測中的應用研究.中國衛(wèi)生統(tǒng)計,2012,29(6):801-804.
[8]楊佳琦,陳露菲,陳淑紅,等.BP神經網絡在腎綜合征出血熱發(fā)病率預測中的應用.中華疾病控制雜志,2012,16(8):717-720.
[9]Sun Chengyi,Sun Yan,Wei Lijan.Mind-Evolution-Based Machine Learning:Framework and the Implementation of Optimization.Proc.of IEEE Intelligent Conference on Intelligent Engineering Systems,1998:355-359.
[10]張建軍,李秀廣,武娟.基于思維進化BP網絡的電力系統(tǒng)暫態(tài)穩(wěn)定事故篩選.電氣技術,2010(5):41-44.
[11]劉鯖潔,陳桂明,劉小方,等.BP神經網絡權重和閾值初始化方法研究.西南師范大學學報(自然科學版),2010,35(6):137-141.
[12]張興裕,張韜,劉元元,等.小波神經網絡在腎綜合癥出血熱發(fā)病率預測中的應用.中國衛(wèi)生統(tǒng)計,2012,29(6):864-865.
[13]陳葉,白杉,陳慧中,等.ARMA模型對腎綜合征出血熱發(fā)病趨勢預測的擬合研究.現代預防醫(yī)學,2008,35(8):1414-1415.
[14]劉潔,曲波,何欽成.應用GM(1,1)模型對全國1999-2009年腎綜合征出血熱疫情分析及預測.中國媒介生物學及控制雜志,2011,22(3):248-250.
[15]吳偉,關鵬,郭軍巧,等.GM(1,1)灰色模型和 ARIMA模型在HFRS發(fā)病率預測中的比較研究.中國醫(yī)科大學學報,2008,37(1):52-55.
[16]黃德生,郭海強,沈鐵峰,等.SARIMA模型在腎綜合征出血熱發(fā)病率預測中的應用.數學的實踐與認識,2009,39(23):100-106.
[17]郭海強,丁海龍,曲波,等.應用ARIMA模型對全國2004-2009年腎綜合征出血熱疫情分析及預測.中國人獸共患病學報,2010,26(12):1137-1140.
[18]尚彥維.基于思維進化算法的單相電機矢量控制系統(tǒng).太原:太原理工大學碩士,2009.
[19]高金蘭,陶國彬,趙玉峰.思維進化優(yōu)化模糊神經網絡的變壓器故障診斷.科學技術與工程,2011,11(13):2957-2961.
[20]王新亞.基于MEA-BP神經網絡的主汽溫控制系統(tǒng)的研究.山西焦煤科技,2009(3):13-15.
Application of Mind Evolutionary Algorithm Optimized Neural Network Model to Predict the Incidence of Hemorrhagic Fever with Renal Syndrome
Wu Wei,Guo Junqiao,An Shuyi,et al
(Department of Epidemiology,School of Public Health,China Medical University(110122),Shenyang)
Objective To explore the application prospect of mind evolutionary algorithm optimized neural network model in building prediction model of hemorrhagic fever of renal syndrome.Methods Rat epidemic information including rodent density and viral carriage of rodents and meteorological data including average temperature,precipitation and sunshine duration from 1984 to 2013 in Shenyang city were used as the input of neural network.The incidence of HFRSin the same year was used as the output of neural network.Data from 1984 to 2009 were selected as training sample,while data from 2010 to 2013 were selected as predicting sample.BPneural network and MEA optimized BPneural network were built respectively.Fitting and forecasting effect were compared between the two models.Results For the training sample and predicting sample,the mean absolute error,mean absolute percentage error and root mean square error of mind evolutionary algorithm optimized BPneural network were smaller than that of BP neural network.Conclusion MEA optimized BP neural network fitting and forecasting the HFRS incidence better than BP neural network,which is of great application value for the prevention and control of HFRS.
Hemorrhagic fever with renal syndrome;Mind evolutionary algorithm;Neural network;Predict
*國家自然科學基金項目(No.81202254;No.30771860)資助
1.中國醫(yī)科大學公共衛(wèi)生學院(110122)
2.遼寧省疾病預防控制中心
△通信作者:周寶森,E-mail:bszhou@m(xù)ail.cmu.edu.cn
郭海強)