曹倩倩
(宿州學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,安徽 宿州 234000)
隨著第一臺計算機ENIAC的出現(xiàn)以及人工智能的興起,人們自然而然的把目光投向如何將人類的識別成為計算機的一部分功能,從而減輕人類自身的腦力勞動.模式識別在20世紀60年代迅速發(fā)展并成為一門新學(xué)科,它所研究的理論和方法在很多學(xué)科和領(lǐng)域中得到廣泛的重視,推動了人工智能系統(tǒng)的發(fā)展,擴大了計算機應(yīng)用的可能性.其中,圖像處理就是模式識別方法的一個重要領(lǐng)域[1,2].
什么是模式呢?廣義地說,存在于時間和空間中可觀察的事物,如果可以區(qū)別它們是否相同或相似,都可以稱之為模式;狹義地說,模式是通過對具體的個別事物進行觀測所得到的具有時間和空間分布的信息,把模式所屬的類別或同一類中模式的總體稱為模式類.
模式識別則是研究一些自動技術(shù),使計算機能自動地把待識別的模式分到各自的模式類中去.計算機模式識別就是指利用計算機等裝置對物體、圖像、圖形、語音、字形等信息進行自動識別[3-5].
模式識別的研究主要集中在兩方面,一是研究生物體(包括人)是如何感知對象的;二是在給定的任務(wù)下,如何用計算機實現(xiàn)模式識別的理論和方法.前者是生理學(xué)家的研究內(nèi)容,屬于認知科學(xué)的范疇;后者通過數(shù)學(xué)家、信息學(xué)專家和計算機科學(xué)工作者近幾十年的努力,已經(jīng)取得了系統(tǒng)的研究成果.
從模式識別的起源、目的、方法、應(yīng)用、現(xiàn)狀及發(fā)展和它同其他領(lǐng)域的關(guān)系來考察,可以把它的特點概括的描述如下:
(1)模式識別是用機器模仿大腦的識別過程的,設(shè)計很大的數(shù)據(jù)集合,并自動的以高速度做出決策.
(2)模式識別不像純數(shù)學(xué),而是抽象加上實驗的一個領(lǐng)域.它的這個性質(zhì)常常導(dǎo)致不平凡的和比較有成效的應(yīng)用,而應(yīng)用又促進進一步的研究和發(fā)展.由于它和應(yīng)用的關(guān)系密切,因此它又被認為是一門工程學(xué)科.
(3)學(xué)習(xí)(自適應(yīng)性)是模式識別的一個重要的過程和標志.但是,編制學(xué)習(xí)程序比較困難,而有效地消除這種程序中的錯誤更難,因為這種程序是有智能的.
(4)同人的能力相比,現(xiàn)有模式識別的能力仍然是相當(dāng)薄弱的,機器通常不能對付大多數(shù)困難問題.采用交互識別法可以在較大程度上克服這一困難,當(dāng)機器不能做出一個可靠的決策時,它可以求助于操作人.
模式識別方法大致可以分為四類:統(tǒng)計模式識別法、結(jié)構(gòu)模式識別方法、模糊模式識別方法與基于人工智能方法.其中基于人工智能的方法本文主要介紹人工神經(jīng)網(wǎng)絡(luò)模式識別方法.前兩種方法發(fā)展得比較早,理論相對也比較成熟,在早期的模式識別中應(yīng)用較多.后兩種方法目前的應(yīng)用較多,由于模糊方法更合乎邏輯、神經(jīng)網(wǎng)絡(luò)方法具有較強的解決復(fù)雜模式識別的能力,因此日益得到人們的重視[6,7].
統(tǒng)計模式識別法以概率論和數(shù)理統(tǒng)計為基礎(chǔ),它包括參數(shù)方法和非參數(shù)方法.
參數(shù)方法主要以Bayes決策理論為指導(dǎo).其中最小錯誤率和最小風(fēng)險貝葉斯決策是最常用的兩種決策方法.假定特征對給定類的影響?yīng)毩⒂谄渌卣?,在決策分類的類別N已知與各類別的先驗概率P(ωi)及類條件概率密度P(x|ωi)已知的情況下,對于一特征矢量x根據(jù)式(1)計算待檢模式在各類中發(fā)生的后驗概率P(ωi|x),后驗概率最大的類別即為該模式所屬類別.在這樣的條件下,模式識別問題轉(zhuǎn)化為一個后驗概率的計算問題.
在貝葉斯決策的基礎(chǔ)上,根據(jù)各種錯誤決策造成損失的不同,人們提出基于貝葉斯風(fēng)險的決策,即計算給定特征矢量x在各種決策中的條件風(fēng)險大小,找出其中風(fēng)險最小的決策.實際上對于具體的模式識別問題,先驗概率和類條件概率密度很難精確知道.先驗概率根據(jù)樣本總數(shù)可大致估計,類條件概率密度可采用統(tǒng)計學(xué)中的最大似然估計法、Bayes估計法等進行估計.這類方法應(yīng)用于圖像分割、圖像復(fù)原以及圖像識別等方面.在圖像分割中,假定圖中的數(shù)據(jù)是服從K個概率密度混合分布的樣本,然后估計概率密度函數(shù)的參數(shù),最后計算后驗概率或風(fēng)險,對像素進行歸類,從而達到分割圖像的目的.一般情況下,往往假定概率密度函數(shù)是高斯型的,這一方面很多情況下樣本的分布接近高斯分布,另一方面是數(shù)學(xué)上處理相對比較簡單.和圖像分割的原理類似,圖像識別也是對圖像的某些特征采用貝葉斯決策的方法設(shè)計分類器,根據(jù)分類器對未知圖像的特征進行識別.
參數(shù)估計方法的理論基礎(chǔ)是樣本數(shù)目趨近于無窮大時的漸進理論.在樣本數(shù)目很大時,參數(shù)估計的結(jié)果才趨近于真實的模型.然而實際樣本數(shù)目總是有限的,很難滿足這一要求.另外參數(shù)估計的另一個前提條件是特征獨立性,這一點有時和實際差別較大.實際上在樣本數(shù)量不是很大的情況下,往往根據(jù)樣本直接設(shè)計分類器,這就是非參數(shù)方法.這類方法物理意義直觀,但所得的結(jié)果和錯誤率往往沒有直接聯(lián)系,所設(shè)計的分類器不能保證最優(yōu).比較典型的方法如線性分類器、最近鄰方法、K均值聚類法等.在圖像壓縮領(lǐng)域的矢量量化編碼算法中,碼書的訓(xùn)練就是一個典型的聚類過程,壓縮的效果和聚類的結(jié)果關(guān)系很大.在圖像分割中,采用對像素或圖像的其他特征進行聚類,達到圖像分割的目的.
然而,統(tǒng)計決策理論主要集中在數(shù)量的統(tǒng)計關(guān)系上而忽略了刻畫模式的結(jié)構(gòu)特征.圖像處理往往與圖像的結(jié)構(gòu)信息有關(guān),對于很復(fù)雜的圖像,要求的特征量非常巨大,要把某一模式準確分類很困難,這時采用統(tǒng)計分類方法很難實現(xiàn),因此設(shè)法分割出圖像的基元子模式,將基元按照一定句法關(guān)系組合來代替原圖像進行分類,這就涉及到結(jié)構(gòu)模式識別的問題.
結(jié)構(gòu)模式識別是利用模式的結(jié)構(gòu)描述與句法描述之間的相似性對模式進行分類.每個模式由它的各個子部分(稱為子模式或模式基元)的組合來表示.對模式的識別常以句法分析的方式進行,即依據(jù)給定的一組句法規(guī)則來剖析模式的結(jié)構(gòu).當(dāng)模式中每一個基元被辨認后,識別過程就可通過執(zhí)行語法分析來實現(xiàn).選擇合適的基元是結(jié)構(gòu)模式識別的關(guān)鍵.基元應(yīng)具有“結(jié)構(gòu)簡單、含義明確、能方便地描述數(shù)據(jù)、易于抽取、結(jié)構(gòu)信息少”等特點.由于基元選擇的不確定性以及基元特征的多樣性,實際應(yīng)用中有時很難同時滿足以上特點,所以有必要在基元的復(fù)雜性和易識別性之間取一個恰當(dāng)?shù)恼壑?
結(jié)構(gòu)模式識別主要用于文字識別、遙感圖形的識別與分析、紋理圖像的分析中.該方法的特點是識別方便,能夠反映模式的結(jié)構(gòu)特征,能描述模式的性質(zhì),對圖像畸變的抗干擾能力較強.如何選擇基元是本方法的一個關(guān)鍵問題,尤其是當(dāng)存在干擾及噪聲時,抽取基元更困難,且易失誤.
基于統(tǒng)計決策和結(jié)構(gòu)模式識別在早期的模式識別中應(yīng)用比較多,隨著人們對模式識別要求的提高,在解決一些復(fù)雜的模式識別問題時,上述方法的局限性越來越明顯.模糊邏輯思想和神經(jīng)網(wǎng)絡(luò)的提出,為人們解決模式識別問題提供了新的思路.
1965年Zadeh提出了他著名的模糊集理論,使人們認識事物的傳統(tǒng)二值0,1邏輯轉(zhuǎn)化為[0,1]區(qū)間上的邏輯,這種刻畫事物的方法改變了人們以往單純地通過事物內(nèi)涵來描述其特征的片面方式,并提供了能綜合事物內(nèi)涵與外延性態(tài)的合理數(shù)學(xué)模型—隸屬度函數(shù).對于A、B兩類問題,傳統(tǒng)二值邏輯認為樣本C要么屬于A,要么屬于B,但是模糊邏輯認為C既屬于A,又屬于B,二者的區(qū)別在于C在這兩類中的隸屬度不同.所謂模糊模式識別就是解決模式識別問題時引入模糊邏輯的方法或思想.同一般的模式識別方法相比較,模糊模式識別具有客體信息表達更加合理,信息利用充分,各種算法簡單靈巧,識別穩(wěn)定性好,推理能力強的特點.
模糊模式識別的關(guān)鍵在隸屬度函數(shù)的建立,目前主要的方法有模糊統(tǒng)計法、模糊分布法、二元對比排序法、相對比較法和專家評分法等.雖然這些方法具有一定的客觀規(guī)律性與科學(xué)性,但同時也包含一定的主觀因素,準確合理的隸屬度函數(shù)很難得到,如何在模糊模式識別方法中建立比較合理的隸屬度函數(shù)是需要進一步解決的問題.
早在20世紀50年代,研究人員就開始模擬動物神經(jīng)系統(tǒng)的某些功能,他們采用軟件或硬件的辦法,建立了許多以大量處理單元為結(jié)點,處理單元間實現(xiàn)(加權(quán)值的)互聯(lián)的拓撲網(wǎng)絡(luò),進行模擬,稱之為人工神經(jīng)網(wǎng)絡(luò).這種方法可以看作是對原始特征空間進行非線性變換,產(chǎn)生一個新的樣本空間,使得變換后的特征線性可分.同傳統(tǒng)統(tǒng)計方法相比,其分類器是與概率分布無關(guān)的.人工神經(jīng)網(wǎng)絡(luò)的主要特點在于其具有信息處理的并行性、自組織和自適應(yīng)性、具有很強的學(xué)習(xí)能力和聯(lián)想功能以及容錯性能等,在解決一些復(fù)雜的模式識別問題中顯示出其獨特的優(yōu)勢.
人工神經(jīng)網(wǎng)絡(luò)是一種復(fù)雜的非線性映射方法,其物理意義比較難解釋,在理論上還存在一系列亟待解決的問題.例如在設(shè)計上,網(wǎng)絡(luò)層數(shù)的確定和節(jié)點個數(shù)的選取帶有很大的經(jīng)驗性和盲目性,缺乏理論指導(dǎo),網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計仍是一個尚未解決的問題.在算法復(fù)雜度方面,神經(jīng)網(wǎng)絡(luò)計算復(fù)雜度大,在特征維數(shù)比較高時,樣本訓(xùn)練時間比較長;在算法穩(wěn)定性方面,學(xué)習(xí)過程中容易陷入局部極小,并且存在欠學(xué)習(xí)與過學(xué)習(xí)的現(xiàn)象范化能力不容易控制.這些也是制約人工神經(jīng)網(wǎng)絡(luò)進一步發(fā)展的關(guān)鍵問題.
前面介紹的各種模式識別方法都是假定分類信息是完全包含在訓(xùn)練樣本內(nèi),以兩類或多類樣本的最優(yōu)劃分為基礎(chǔ),分類器的訓(xùn)練過程實際上可以看作對樣本的劃分過程.有文獻提出把模式識別問題看成是模式的“認識”,而不是分類劃分,不是模式分類;是一類一類樣本的“認識”,而不是多類樣本的劃分.為了強調(diào)與傳統(tǒng)模式識別在概念上的不同,有的文獻中采用“仿生模式識別”這一概念,“仿生”的含義只是在模式識別的功能和數(shù)學(xué)模型上強調(diào)了“認識”的概念,更接近于人類的認識.
傳統(tǒng)模式識別從特征空間中不同類樣本的劃分出發(fā)設(shè)計分類器.而仿生模式識別就在引入特征空間同類樣本的連續(xù)性規(guī)律,對一類事物的“認識”,實際上是對這類事物的全體在特征空間中形成的無窮點集合的“形狀”的分析和認識,文中根據(jù)這種規(guī)律性建立起“多維空間中非超球復(fù)雜幾何形體覆蓋”的識別原理.基于仿生模式識別的多鏡頭人臉身份確認系統(tǒng)研究中,采用多權(quán)值神經(jīng)網(wǎng)絡(luò)算法,能得到比較好的識別率.這種高的識別率顯示了這一思想在模式識別方面的潛力.
仿生模式識別提出了一種新的模式識別思想,為模式識別的研究開辟了一個嶄新的研究方向.采用神經(jīng)網(wǎng)絡(luò)覆蓋來實現(xiàn)該思想,不可避免地遇到訓(xùn)練速度慢、網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)、節(jié)點個數(shù)選擇等選擇問題,因此這種思想的實現(xiàn)模型有待于進一步的研究.
隨著計算機和人工智能技術(shù)的發(fā)展,人們對計算機圖像處理中自動處理圖像的要求越來越高,因此對模式識別技術(shù)提出更高的要求.到目前為止,雖然模式識別在圖像處理中的應(yīng)用取得了一些可喜的成就,但是它還存在一系列亟待解決問題,例如支撐向量機中核函數(shù)的選擇問題、VC維的計算和估計問題,神經(jīng)網(wǎng)絡(luò)節(jié)點選擇和結(jié)構(gòu)設(shè)計問題、仿生模式識別新思想的建模和實現(xiàn)問題、多種方法綜合運用中的分類器選擇問題等,這些問題的解決將直接推動模式識別領(lǐng)域的發(fā)展,進而推動其在圖像處理領(lǐng)域的應(yīng)用.
同時,模式識別是一門綜合性學(xué)科,它涉及和利用到數(shù)學(xué)、計算機科學(xué)等多學(xué)科的知識,如何將這些學(xué)科的新方法新成就綜合應(yīng)用到模式識別中,提出更加符合人類認識的識別方法也是值得進一步研究的問題.
〔1〕張俊玲,趙林.模式識別理論基礎(chǔ)上的圖像分割研究[J].科技創(chuàng)新導(dǎo)報,2014(19):234.
〔2〕程方.淺談模式識別在圖像處理中的應(yīng)用[J].信息通信,2012(06):264-265.
〔3〕王憲保.基于仿生模式識別的人臉身份確認研究[D].浙江工業(yè)大學(xué),2003-05.
〔4〕朱俊株,郭立,王寧.一種基于模糊增強的圖像分割方法[J].微機發(fā)展,1999(6):33-35.
〔5〕杜干,孫肖子.醫(yī)學(xué)圖像分割的神經(jīng)網(wǎng)絡(luò)方法[J].西安電子科技大學(xué)學(xué)報,1998,25(5):602-605.
〔6〕王守覺.仿生模式識別(拓撲模式識別)—一種模式識別新模型的理論與應(yīng)用 [J].電子學(xué)報,2002,30(10):1417-1420.
〔7〕王守覺,徐健,王憲保,等.基于仿生模式識別的多鏡頭人臉身份確認系統(tǒng)研究 [J].電子學(xué)報,2003,31(1):1-3.