孟文出
如果有足夠的訓(xùn)練數(shù)據(jù),機(jī)器學(xué)習(xí)模型可以表現(xiàn)出色。不幸的是,對(duì)于許多應(yīng)用程序來(lái)說(shuō),對(duì)高質(zhì)量數(shù)據(jù)的訪問(wèn)仍然是一個(gè)障礙。解決這個(gè)問(wèn)題的一個(gè)方法是“數(shù)據(jù)增強(qiáng)”,這是一種從現(xiàn)有的訓(xùn)練樣本中生成新訓(xùn)練樣本的技術(shù)。數(shù)據(jù)增強(qiáng)是一種在數(shù)據(jù)約束環(huán)境下提高機(jī)器學(xué)習(xí)模型性能和準(zhǔn)確性的低成本和有效的方法。
機(jī)器學(xué)習(xí)模型的“過(guò)度擬合”
當(dāng)機(jī)器學(xué)習(xí)模型在有限的例子上進(jìn)行訓(xùn)練時(shí),它們往往會(huì)“過(guò)度擬合”。當(dāng)機(jī)器學(xué)習(xí)模型對(duì)其訓(xùn)練示例執(zhí)行準(zhǔn)確,但不能推廣到未見(jiàn)數(shù)據(jù)時(shí),就會(huì)發(fā)生“過(guò)度擬合”。
在機(jī)器學(xué)習(xí)中有幾種方法可以避免“過(guò)度擬合”,比如選擇不同的算法、修改模型的結(jié)構(gòu)和調(diào)整參數(shù)。但最終,解決“過(guò)度擬合”的主要方法是向訓(xùn)練數(shù)據(jù)集添加更多高質(zhì)量數(shù)據(jù)。
例如,考慮卷積神經(jīng)網(wǎng)絡(luò)(CNN),這是一種機(jī)器學(xué)習(xí)架構(gòu),特別適合于圖像分類任務(wù)。但如果沒(méi)有大量多樣的訓(xùn)練例子,CNN最終會(huì)在現(xiàn)實(shí)世界中對(duì)圖像進(jìn)行錯(cuò)誤分類。另一方面,如果CNN接受不同角度和不同光照條件下的物體圖像訓(xùn)練,它在現(xiàn)實(shí)世界中識(shí)別物體的能力會(huì)變得更加強(qiáng)大。
然而,收集額外的培訓(xùn)示例可能是昂貴且耗時(shí)的,有時(shí)甚至是不可能的。這一挑戰(zhàn)在監(jiān)督學(xué)習(xí)應(yīng)用程序中變得更加困難,因?yàn)橛?xùn)練示例必須由人類專家標(biāo)記。
數(shù)據(jù)增加
增加訓(xùn)練數(shù)據(jù)集多樣性的方法之一是創(chuàng)建現(xiàn)有數(shù)據(jù)的副本,并對(duì)其進(jìn)行小的修改。這被稱為“數(shù)據(jù)增強(qiáng)”。例如,假設(shè)在圖像分類數(shù)據(jù)集中有20張鴨子的圖像。通過(guò)創(chuàng)建鴨子圖像的副本并水平翻轉(zhuǎn)它們,已經(jīng)將“鴨子”類的訓(xùn)練示例增加了一倍??梢允褂闷渌D(zhuǎn)換,如旋轉(zhuǎn)、剪切、縮放和轉(zhuǎn)換,還可以結(jié)合這些轉(zhuǎn)換來(lái)進(jìn)一步擴(kuò)展獨(dú)特的訓(xùn)練示例集合。
數(shù)據(jù)擴(kuò)充不需要局限于幾何操作。添加噪點(diǎn)、改變顏色設(shè)置和其他效果(如模糊和銳化濾鏡)也可以幫助將現(xiàn)有的訓(xùn)練示例作為新的數(shù)據(jù)。
數(shù)據(jù)擴(kuò)充
數(shù)據(jù)增強(qiáng)對(duì)于監(jiān)督學(xué)習(xí)特別有用,因?yàn)橐呀?jīng)有了標(biāo)簽,不需要額外的工作來(lái)注釋新的示例。數(shù)據(jù)增強(qiáng)對(duì)于其他類型的機(jī)器學(xué)習(xí)算法也很有用,如無(wú)監(jiān)督學(xué)習(xí)、對(duì)比學(xué)習(xí)和生成模型。
數(shù)據(jù)增強(qiáng)已經(jīng)成為訓(xùn)練計(jì)算機(jī)視覺(jué)應(yīng)用的機(jī)器學(xué)習(xí)模型標(biāo)準(zhǔn)實(shí)踐。流行的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)編程庫(kù)具有易于使用的函數(shù),可以將數(shù)據(jù)增強(qiáng)集成到機(jī)器學(xué)習(xí)訓(xùn)練管道中。
數(shù)據(jù)增強(qiáng)不僅局限于圖像,還可以應(yīng)用于其他類型的數(shù)據(jù)。對(duì)于文本數(shù)據(jù)集,可以用它們的同義詞替換名詞和動(dòng)詞。在音頻數(shù)據(jù)中,可以通過(guò)添加噪聲或改變播放速度來(lái)修改訓(xùn)練示例。
數(shù)據(jù)擴(kuò)充的限制
數(shù)據(jù)增強(qiáng)并不是解決所有數(shù)據(jù)問(wèn)題的靈丹妙藥,但可以將其視為機(jī)器學(xué)習(xí)模型的免費(fèi)性能增強(qiáng)器。基于目標(biāo)應(yīng)用程序,仍然需要具有足夠示例的相當(dāng)大的訓(xùn)練數(shù)據(jù)集。
在某些應(yīng)用程序中,訓(xùn)練數(shù)據(jù)可能太過(guò)有限,無(wú)法通過(guò)數(shù)據(jù)擴(kuò)充來(lái)提供幫助。在這些情況下,必須收集更多的數(shù)據(jù),直到達(dá)到最小閾值,才能使用數(shù)據(jù)增強(qiáng)。有時(shí),可以使用遷移學(xué)習(xí),即在一個(gè)通用數(shù)據(jù)集(例如ImageNet)上訓(xùn)練機(jī)器學(xué)習(xí)模型,然后通過(guò)微調(diào)其針對(duì)目標(biāo)應(yīng)用程序的有限數(shù)據(jù)的更高層次來(lái)重新利用它。
數(shù)據(jù)增強(qiáng)也不能解決其他問(wèn)題,比如訓(xùn)練數(shù)據(jù)集中存在的偏差,數(shù)據(jù)擴(kuò)充過(guò)程還需要進(jìn)行調(diào)整,以解決其他潛在的問(wèn)題,例如類不平衡。如果使用得當(dāng),數(shù)據(jù)管理可以成為機(jī)器學(xué)習(xí)工程師工具箱中的一個(gè)強(qiáng)大工具。