史巖
(航空工業(yè)西安航空計(jì)算技術(shù)研究所,陜西 西安 710065)
統(tǒng)計(jì)學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的重要組成部分,一直以來(lái)備受研究者關(guān)注,在眾多領(lǐng)域中展現(xiàn)出了強(qiáng)大的應(yīng)用潛力,為解決各種復(fù)雜問(wèn)題提供了有效的工具和方法。本文聚焦統(tǒng)計(jì)學(xué)習(xí)中的一個(gè)關(guān)鍵專題:K-近鄰算法(K-Nearest Neighbors,KNN)及其在人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)中的發(fā)展與應(yīng)用。
近3年來(lái),針對(duì)KNN、ANN和CNN算法的研究成果不斷涌現(xiàn),為統(tǒng)計(jì)學(xué)領(lǐng)域注入了新的活力。這些算法在眾多領(lǐng)域中展現(xiàn)出了卓越的性能和廣泛的應(yīng)用前景。隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)金融領(lǐng)域不斷推出創(chuàng)新產(chǎn)品,引發(fā)社會(huì)各界高度關(guān)注。葉瑜琦[1]借鑒機(jī)器學(xué)習(xí)中的KNN和CART(Classlflcation and Regression Tree,分類與回歸樹)算法,通過(guò)設(shè)計(jì)2類求解ML-Weighted模型的算法,解決數(shù)據(jù)驅(qū)動(dòng)下的電商需求預(yù)測(cè)與庫(kù)存優(yōu)化的集成決策問(wèn)題;李學(xué)娟[2]以KNN為基礎(chǔ)模型,使用滑動(dòng)窗口動(dòng)態(tài)提取數(shù)據(jù),并以主成分分析作為降維與特征提取方法,進(jìn)行余額寶收益率數(shù)據(jù)的組合模型預(yù)測(cè);袁晨暉[3]進(jìn)行基于模糊KNN案例推理的長(zhǎng)距離調(diào)水工程突發(fā)事件應(yīng)急處置研究,通過(guò)與案例庫(kù)中的案例進(jìn)行相似度計(jì)算,得到與目前情況最匹配的歷史案例,并提供相應(yīng)的處置方案及預(yù)防措施。在航空航天領(lǐng)域,吳浩然等[4]依據(jù)主觀量表評(píng)估飛行員工作負(fù)荷易受主觀因素干擾的問(wèn)題,基于時(shí)間窗口內(nèi)的客觀績(jī)效和生理數(shù)據(jù)及KNN算法建立飛行員工作負(fù)荷評(píng)估模型。精準(zhǔn)的短時(shí)交通狀態(tài)預(yù)測(cè)是實(shí)施有效的交通管控的重要依據(jù),馮小原等[5]采用改進(jìn)的KNN框架建立短時(shí)交通狀態(tài)預(yù)測(cè)模型,提出該預(yù)測(cè)模型基于深度強(qiáng)化學(xué)習(xí)的實(shí)時(shí)動(dòng)態(tài)優(yōu)化方法。轉(zhuǎn)靜碰摩是航空發(fā)動(dòng)機(jī)轉(zhuǎn)子系統(tǒng)的一種常見(jiàn)故障,碰摩嚴(yán)重時(shí)會(huì)損壞整個(gè)轉(zhuǎn)子系統(tǒng),引發(fā)嚴(yán)重安全事故,陳王瑩[6]基于KNN算法對(duì)航空發(fā)動(dòng)機(jī)轉(zhuǎn)靜碰摩故障及碰摩部位進(jìn)行識(shí)別研究。
本文通過(guò)系統(tǒng)性綜述,對(duì)KNN的理論、應(yīng)用領(lǐng)域和最新研究成果進(jìn)行分析。首先,研究KNN的理論基礎(chǔ),將其與實(shí)際應(yīng)用場(chǎng)景相結(jié)合,展現(xiàn)算法在多領(lǐng)域的應(yīng)用潛力;其次,討論KNN的局限性,特別是在應(yīng)對(duì)高維數(shù)據(jù)和大規(guī)模數(shù)據(jù)集方面的挑戰(zhàn)時(shí),可為其應(yīng)用提供更廣泛的可能性;再次,將KNN與ANN和CNN等深度學(xué)習(xí)方法相結(jié)合,拓展傳統(tǒng)KNN的應(yīng)用領(lǐng)域,提高分類和模式識(shí)別的性能;最后,提出對(duì)未來(lái)研究的展望,強(qiáng)調(diào)KNN在大數(shù)據(jù)、計(jì)算能力不斷增強(qiáng)的情況下將繼續(xù)發(fā)揮更大的作用,并呼吁深入研究可解釋性和魯棒性。本文對(duì)KNN、ANN和CNN算法的研究和綜述旨在為未來(lái)的研究和創(chuàng)新提供新的思路和方法。這一領(lǐng)域的不斷發(fā)展將有望為統(tǒng)計(jì)學(xué)習(xí)帶來(lái)新的突破與機(jī)遇,為解決實(shí)際問(wèn)題提供更多的可能性。
KNN算法是一種基于實(shí)例的學(xué)習(xí)方法,通過(guò)測(cè)量數(shù)據(jù)之間的距離,對(duì)新數(shù)據(jù)進(jìn)行分類[7],即通過(guò)周圍數(shù)據(jù)的標(biāo)簽決定新數(shù)據(jù)的標(biāo)簽。此外,它是一種基本的監(jiān)督學(xué)習(xí)算法,算法原理相對(duì)簡(jiǎn)單,具有廣泛的適用性,其基本原理如下。
(1)將訓(xùn)練數(shù)據(jù)集中的樣本點(diǎn)按特征描述,構(gòu)建一個(gè)特征空間。每個(gè)樣本點(diǎn)都包含特征向量及其所屬的類別標(biāo)簽或目標(biāo)值。
(2)對(duì)于一個(gè)待預(yù)測(cè)或分類的樣本點(diǎn),KNN算法通過(guò)計(jì)算該樣本與訓(xùn)練數(shù)據(jù)集中其他樣本的相似性進(jìn)行判斷。常用的相似性度量方法包括歐幾里得距離、曼哈頓距離、余弦相似度等。
(3)根據(jù)相似性度量,選取訓(xùn)練數(shù)據(jù)集中與待預(yù)測(cè)樣本最相似的k個(gè)樣本,這些樣本被稱為“鄰居”。對(duì)于分類問(wèn)題,根據(jù)鄰居的類別標(biāo)簽,通過(guò)多數(shù)投票法則決定待預(yù)測(cè)樣本的類別。
(4)對(duì)于回歸問(wèn)題,可以通過(guò)計(jì)算鄰居的平均目標(biāo)值預(yù)測(cè)待預(yù)測(cè)樣本的目標(biāo)值。KNN算法中的一個(gè)關(guān)鍵參數(shù)是k值,它決定了選取多少個(gè)鄰居進(jìn)行預(yù)測(cè)。選擇合適的k值對(duì)于算法的性能至關(guān)重要。通常,通過(guò)交叉驗(yàn)證等方法確定最佳的k值。
有目的地查閱文獻(xiàn)、提取相關(guān)信息(高頻詞、關(guān)鍵詞)、填充框架是文獻(xiàn)綜述中十分重要的一步,文獻(xiàn)檢索具有PICOS(對(duì)象-干預(yù)-對(duì)照-結(jié)局-研究設(shè)計(jì)準(zhǔn)則)的指導(dǎo)原則,通過(guò)PICOS的幾個(gè)維度,把KNN類似的不容易被定位和系統(tǒng)化闡述的概念用標(biāo)準(zhǔn)化的方法表述出來(lái),以指導(dǎo)進(jìn)一步的工作。PICOS指導(dǎo)原則主要聚焦于研究確定納入什么樣的文獻(xiàn)、排除什么樣的文獻(xiàn)等,以指導(dǎo)本研究篩選中、英文數(shù)據(jù)庫(kù)的相關(guān)文獻(xiàn)。
在中文數(shù)據(jù)庫(kù)(中國(guó)知識(shí)資源總庫(kù),CNKI)中進(jìn)行檢索,以總庫(kù)為檢索范圍,“KNN算法”為關(guān)鍵詞,反饋得到2 635篇相關(guān)文獻(xiàn),總體趨勢(shì)分析如圖1所示??梢?jiàn),KNN相關(guān)研究量于近年呈現(xiàn)平穩(wěn)上升趨勢(shì),于2022年回跌,說(shuō)明KNN算法研究量有所回落,相關(guān)算法較成熟。
圖1 中國(guó)知識(shí)資源總庫(kù)KNN檢索文獻(xiàn)的總體時(shí)間序列趨勢(shì)
KNN在許多領(lǐng)域都有廣泛的應(yīng)用,主要領(lǐng)域包括模式識(shí)別與分類、推薦系統(tǒng)、圖像處理、自然語(yǔ)言處理[8]、醫(yī)學(xué)診斷、金融風(fēng)控、遙感反演[9]、網(wǎng)絡(luò)安全等。圖2為中國(guó)知識(shí)資源總庫(kù)KNN檢索文獻(xiàn)的主要主題分布情況,與KNN有關(guān)的詞條主要聚焦于文本分類、分類算法及定位算法等,說(shuō)明其在模式識(shí)別和分類任務(wù)中被廣泛應(yīng)用。KNN可以根據(jù)相似度將數(shù)據(jù)點(diǎn)分配到不同的類別,從而實(shí)現(xiàn)自動(dòng)分類,如圖像分類、手寫字體識(shí)別等。此外,故障分析[10]及其相關(guān)研究與應(yīng)用也是關(guān)注熱點(diǎn)。總之,KNN算法以其簡(jiǎn)單的原理與應(yīng)用靈活性成為許多數(shù)據(jù)分析和模式識(shí)別的常用方法之一。
本文綜合中英文數(shù)據(jù)庫(kù)對(duì)KNN的研究現(xiàn)狀進(jìn)行綜述。在英文數(shù)據(jù)庫(kù)(科技文獻(xiàn)數(shù)據(jù)庫(kù),Web of Science)中,以PICOS原則指導(dǎo)篩選關(guān)鍵文獻(xiàn)(結(jié)果見(jiàn)表1)。KNN算法的優(yōu)勢(shì)在于簡(jiǎn)單易懂,對(duì)于數(shù)據(jù)分布沒(méi)有假設(shè)限制,適用于多種類型的數(shù)據(jù)。然而,KNN算法也存在一些限制,如對(duì)高維數(shù)據(jù)和大規(guī)模數(shù)據(jù)集的處理效率較低,對(duì)噪聲數(shù)據(jù)和不平衡數(shù)據(jù)集的適應(yīng)性較差,它是一種懶散學(xué)習(xí)方法,學(xué)習(xí)速度較慢,類別評(píng)分不規(guī)格化,可解釋性較弱,在樣本不平衡情況下容易出現(xiàn)混沌問(wèn)題。為克服KNN算法的局限性,可引入ANN、CNN算法進(jìn)行拓展。
表1 PICOS指導(dǎo)篩選文獻(xiàn)關(guān)鍵詞
隨著計(jì)算能力的提高,ANN在深度學(xué)習(xí)中展現(xiàn)出巨大的潛力。近年來(lái),隨著大規(guī)模數(shù)據(jù)集的涌現(xiàn),ANN在圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域取得了突破性進(jìn)展。人工神經(jīng)網(wǎng)絡(luò)模仿了人腦神經(jīng)元的結(jié)構(gòu)和工作方式,通過(guò)多層次的神經(jīng)元網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)的復(fù)雜特征[11-12]。ANN中的神經(jīng)元之間存在權(quán)重與偏差,主要通過(guò)激活函數(shù)傳遞信號(hào)和計(jì)算輸出。ANN的深層結(jié)構(gòu)使其成為深度學(xué)習(xí)的核心算法,隨著大數(shù)據(jù)的興起,ANN在自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域展現(xiàn)出了強(qiáng)大的性能。例如,在自然語(yǔ)言處理中,ANN被廣泛用于文本分類[13]、情感分析[14]等任務(wù)。
KNN、ANN的優(yōu)點(diǎn)包括簡(jiǎn)單、有效、重新訓(xùn)練的代價(jià)較低等。然而,此類算法也存在一些缺點(diǎn),如類別評(píng)分不規(guī)格化、可解釋性較弱、計(jì)算成本較大。為克服KNN、ANN算法的局限性,需引入CNN算法進(jìn)行拓展。
CNN能自動(dòng)從數(shù)據(jù)中學(xué)習(xí)特征,不需要人為設(shè)計(jì)特征,這使其在處理復(fù)雜數(shù)據(jù)結(jié)構(gòu)時(shí)更高效;并且通過(guò)多層卷積和池化層構(gòu)建復(fù)雜的層次結(jié)構(gòu),能捕捉數(shù)據(jù)的不同抽象層次的特征,從而提高模型的性能。CNN還能使用局部連接和權(quán)值共享的機(jī)制減少參數(shù)數(shù)量,提高模型的計(jì)算效率和泛化能力。此外,卷積操作的并行計(jì)算功能利用硬件優(yōu)勢(shì),可極大地加速訓(xùn)練過(guò)程??傊ㄟ^(guò)引入卷積神經(jīng)網(wǎng)絡(luò)算法,可以克服KNN、ANN的算法限制,實(shí)現(xiàn)更高效、準(zhǔn)確的數(shù)據(jù)分析和模式識(shí)別,尤其在處理大規(guī)模和復(fù)雜數(shù)據(jù)時(shí)具有顯著優(yōu)勢(shì)。
近年來(lái),研究人員在KNN、ANN和CNN算法領(lǐng)域持續(xù)不斷地取得新成果,例如在KNN算法中引入距離加權(quán)策略,提高分類精度。在ANN領(lǐng)域,殘差網(wǎng)絡(luò)(ResNet)的提出使深層網(wǎng)絡(luò)訓(xùn)練變得更穩(wěn)定。在CNN算法方面,自注意力機(jī)制(self-attention)被引入,提升了圖像語(yǔ)義分析的性能。未來(lái),可以期待這些算法在更多領(lǐng)域的新應(yīng)用,如自動(dòng)駕駛、金融分析等。同時(shí),需要進(jìn)一步研究這些算法的可解釋性和魯棒性,以提高其在實(shí)際應(yīng)用中的可信度和穩(wěn)定性。
本文對(duì)統(tǒng)計(jì)學(xué)習(xí)中的KNN及其深度學(xué)習(xí)領(lǐng)域的拓展形式(包括ANN和CNN算法)進(jìn)行介紹與分析。這些算法在數(shù)據(jù)分析、圖像識(shí)別和模式識(shí)別等多個(gè)領(lǐng)域都具有重要的應(yīng)用潛力和實(shí)際價(jià)值。通過(guò)對(duì)最新研究成果的探討,得出以下結(jié)論。
(1)KNN算法在多個(gè)領(lǐng)域中都有廣泛的應(yīng)用,包括但不限于模式識(shí)別與分類、推薦系統(tǒng)、圖像處理、自然語(yǔ)言處理、醫(yī)學(xué)診斷、金融風(fēng)控、遙感反演、網(wǎng)絡(luò)安全等。KNN算法的靈活性和簡(jiǎn)單性使其成為數(shù)據(jù)分析和模式識(shí)別問(wèn)題中常用的工具之一。
(2)KNN算法存在一些局限性,例如對(duì)高維數(shù)據(jù)和大規(guī)模數(shù)據(jù)集的處理效率相對(duì)較低,對(duì)噪聲數(shù)據(jù)和不平衡數(shù)據(jù)集的適應(yīng)性有待改進(jìn)。因此,引入人工神經(jīng)網(wǎng)絡(luò)(ANN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)等拓展算法成為克服KNN算法限制的有效途徑。
(3)近年來(lái),研究人員在KNN、ANN和CNN算法領(lǐng)域取得了顯著的進(jìn)展。例如,在KNN算法中引入距離加權(quán)策略,有助于提高分類精度;在ANN領(lǐng)域,殘差網(wǎng)絡(luò)(ResNet)的提出使深層網(wǎng)絡(luò)的訓(xùn)練變得更穩(wěn)定;在CNN算法中,自注意力機(jī)制(Self-Attention)的引入提升了圖像語(yǔ)義分析的性能。這些創(chuàng)新為算法的進(jìn)一步優(yōu)化和性能的提升提供了有力支持。
(4)未來(lái),可以期待這些算法在更多領(lǐng)域的廣泛應(yīng)用,如自動(dòng)駕駛、金融分析等。同時(shí),需要加強(qiáng)對(duì)這些算法的可解釋性和魯棒性研究,以提高其在實(shí)際應(yīng)用中的可信度和穩(wěn)定性。
綜上所述,本文探討了KNN、ANN和CNN算法及其應(yīng)用領(lǐng)域,強(qiáng)調(diào)它們?cè)跀?shù)據(jù)分析和模式識(shí)別中的重要性。這些算法不斷發(fā)展和完善,為解決實(shí)際問(wèn)題提供更多可能性,推動(dòng)統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域的進(jìn)步。同時(shí)也需要繼續(xù)深入研究,以克服算法存在的局限性,實(shí)現(xiàn)更廣泛的應(yīng)用。