齊鑫 劉思源
隨著人工智能技術(shù)、智能制造業(yè)和智能汽車(chē)等新興技術(shù)、產(chǎn)業(yè)的高速發(fā)展,為提升智能制造行業(yè)的競(jìng)爭(zhēng)力,我國(guó)汽車(chē)企業(yè)對(duì)于非結(jié)構(gòu)化關(guān)鍵數(shù)據(jù)挖掘的需求也愈發(fā)強(qiáng)烈。通過(guò)人工智能技術(shù),將各類(lèi)車(chē)輛企業(yè)研發(fā)非結(jié)構(gòu)化信息如警告圖標(biāo)、檢測(cè)報(bào)告信息提取后處理,利用圖像識(shí)別處理技術(shù)的高效性和實(shí)用性,實(shí)現(xiàn)大量數(shù)據(jù)挖掘和收集。本文將在人工智能圖像識(shí)別與處理技術(shù)應(yīng)用的基礎(chǔ)上,對(duì)企業(yè)非結(jié)構(gòu)化關(guān)鍵數(shù)據(jù)信息進(jìn)行分析,根據(jù)現(xiàn)有深度學(xué)習(xí)圖像處理算法,探討算法的可行性,最終實(shí)現(xiàn)其在非結(jié)構(gòu)化關(guān)鍵數(shù)據(jù)挖掘上的應(yīng)用。
在汽車(chē)智能制造領(lǐng)域、對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用研究愈發(fā)重要,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)中有用信息的提取是關(guān)鍵步驟。同時(shí),人工智能深度學(xué)習(xí)技術(shù)、圖像識(shí)別技術(shù)、數(shù)據(jù)處理技術(shù)日漸成熟,已成為將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的有利手段。因此,本文面向車(chē)輛研發(fā)生產(chǎn)環(huán)節(jié)中的典型非結(jié)構(gòu)化數(shù)據(jù),包括危險(xiǎn)品圖片、合格證圖片、檢測(cè)報(bào)告PDF版、車(chē)型照片等進(jìn)行分析,詳述其典型特征、利用圖像識(shí)別技術(shù)提取要素方法、圖像識(shí)別模型訓(xùn)練庫(kù)分類(lèi)方法、以及為保證圖像識(shí)別的準(zhǔn)確度的注意事項(xiàng)等等,促進(jìn)多種非結(jié)構(gòu)化數(shù)據(jù)的信息提取和轉(zhuǎn)化,為企業(yè)可用數(shù)據(jù)資產(chǎn)的積累提供支持。
圖像識(shí)別是新一代信息技術(shù)發(fā)展的重要應(yīng)用,它利用計(jì)算機(jī)視覺(jué)和模式識(shí)別的方法,將輸入的圖像與已知的圖像進(jìn)行比對(duì)和匹配,從而實(shí)現(xiàn)對(duì)圖像內(nèi)容的自動(dòng)判斷和分類(lèi)。該技術(shù)可以通過(guò)分析輸入圖像中的視覺(jué)特征,如顏色、紋理、形狀等,來(lái)識(shí)別和理解圖像中的物體、場(chǎng)景等信息[1]。圖像識(shí)別和處理技術(shù)的主要功能包括信息采集、預(yù)處理、壓縮處理、圖像特征提取以及最終的分類(lèi)決策,經(jīng)過(guò)這些步驟,計(jì)算機(jī)可以從圖像中提取特征并對(duì)其進(jìn)行分類(lèi),用于滿足智能制造和智能汽車(chē)行業(yè)對(duì)非結(jié)構(gòu)化關(guān)鍵數(shù)據(jù)挖掘的需求。
同時(shí),神經(jīng)網(wǎng)絡(luò)算法的融入使圖像識(shí)別的準(zhǔn)確度、可用性得到進(jìn)一步的提升。神經(jīng)網(wǎng)絡(luò)算法作為一種深層次的處理方式,旨在模仿大腦神經(jīng)元的邏輯運(yùn)行,其方式與人類(lèi)神經(jīng)細(xì)胞的視覺(jué)處理方式雖然存在差異,但能達(dá)到近似的學(xué)習(xí)效果。通過(guò)使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、圖像識(shí)別和處理技術(shù)效果進(jìn)一步增強(qiáng),能夠處理復(fù)雜的圖像信息,自動(dòng)完成圖像識(shí)別任務(wù),并排除非關(guān)鍵特征。當(dāng)然,為了使神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型能夠解釋數(shù)據(jù),需要進(jìn)行大量的調(diào)節(jié)和訓(xùn)練,以模擬人腦的工作機(jī)制。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)模型的一種常見(jiàn)結(jié)構(gòu),通常由數(shù)據(jù)處理層、卷積計(jì)算層、修正線性單元層、全連接層和池化層組成。數(shù)據(jù)處理層作為第一層可以接收原始圖像數(shù)據(jù),并通過(guò)白化和去均值等操作進(jìn)行圖片處理,以便使模型能更加容易識(shí)別圖像信息;卷積計(jì)算層是神經(jīng)網(wǎng)絡(luò)模型的核心部分,通過(guò)對(duì)局部組織進(jìn)行操作并移動(dòng)窗口來(lái)分析數(shù)據(jù)。每個(gè)神經(jīng)元可以視為一個(gè)功能強(qiáng)大的放大器,它對(duì)來(lái)自局部組織的數(shù)據(jù)進(jìn)行計(jì)算。而在具體的卷積網(wǎng)絡(luò)計(jì)算過(guò)程中,共享相關(guān)參數(shù)是關(guān)鍵,即每個(gè)神經(jīng)元與數(shù)據(jù)庫(kù)數(shù)據(jù)連接的權(quán)值不固定,每個(gè)神經(jīng)元只關(guān)注特定的外部特征。這一層的作用其實(shí)就是通過(guò)調(diào)整參數(shù),定位到想要識(shí)別圖像主體,來(lái)確定能表征圖片特征的主要特點(diǎn)的參數(shù);池化層通常用于壓縮數(shù)據(jù)量及相關(guān)參數(shù),以降低過(guò)擬合的風(fēng)險(xiǎn)。池化層的功能包括外部特征不變性和外部特征降維,可去除不重要的相關(guān)信息,但同時(shí)保持顯示圖像的主要表達(dá)方式,避免過(guò)擬合的發(fā)生,該層的目的是提取圖像中最具表現(xiàn)力的特征、去除無(wú)用和冗余的相關(guān)信息,從而提升圖像識(shí)別的準(zhǔn)確度[2]。
圖1 神經(jīng)網(wǎng)絡(luò)組成
車(chē)輛企業(yè)研發(fā)設(shè)計(jì)中的非結(jié)構(gòu)化關(guān)鍵數(shù)據(jù)常常包括合格證信息、危險(xiǎn)標(biāo)識(shí)信息以及檢測(cè)報(bào)告數(shù)據(jù)信息等,這些數(shù)據(jù)信息通常是以PDF、JPG等形式存儲(chǔ),并且大多需要通過(guò)人力進(jìn)行處理,將其轉(zhuǎn)化為企業(yè)可以正常利用的信息。但是對(duì)于這類(lèi)信息通過(guò)人為一個(gè)一個(gè)緩慢地識(shí)別并將其保存為可處理的文本信息,會(huì)極大降低企業(yè)對(duì)于非結(jié)構(gòu)化的關(guān)鍵數(shù)據(jù)的轉(zhuǎn)換效率,同時(shí)還增加人力資源負(fù)擔(dān),增加企業(yè)的經(jīng)濟(jì)投入。基于此問(wèn)題,對(duì)于需要分類(lèi)識(shí)別的非結(jié)構(gòu)化數(shù)據(jù)而言,利用人工智能計(jì)算機(jī)視覺(jué)圖像識(shí)別和理解技術(shù),可以提高車(chē)輛企業(yè)非結(jié)構(gòu)化關(guān)鍵數(shù)據(jù)挖掘的準(zhǔn)確度、提升挖掘的效率、擴(kuò)大挖掘的范圍。
簡(jiǎn)單來(lái)說(shuō),車(chē)輛企業(yè)研發(fā)中,非結(jié)構(gòu)化關(guān)鍵信息的挖掘和收集是極為重要的,例如圖片、合格證、危險(xiǎn)品、報(bào)告信息,均為圖片數(shù)據(jù)和PDF數(shù)據(jù)。利用條件規(guī)則對(duì)圖片和PDF中關(guān)鍵數(shù)據(jù)進(jìn)行提取后,可將此部分?jǐn)?shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。在實(shí)際應(yīng)用上,可延伸到多類(lèi)企業(yè)的應(yīng)用場(chǎng)景,例如,場(chǎng)景一:通過(guò)對(duì)多張不同車(chē)型照片中背景環(huán)境的剔除、以車(chē)輛為主題提取關(guān)鍵特征顏色、型號(hào)等,可以精準(zhǔn)比對(duì)不同照片中的車(chē)輛是否為同一車(chē)型;場(chǎng)景二:對(duì)車(chē)輛生產(chǎn)后的合格證照片、檢驗(yàn)報(bào)告等進(jìn)行識(shí)別,可提取關(guān)鍵數(shù)據(jù),該數(shù)據(jù)可用與研發(fā)過(guò)程的數(shù)據(jù)進(jìn)行比對(duì),從而判斷車(chē)輛研發(fā)和生產(chǎn)過(guò)程中主要變化;場(chǎng)景三:對(duì)危險(xiǎn)品照片進(jìn)行識(shí)別,從而可以確定車(chē)輛的承載危險(xiǎn)品的類(lèi)型,例如易燃物品或者有毒氣體等,從而在車(chē)輛注冊(cè)時(shí),針對(duì)是否滿足特殊用途給以重點(diǎn)檢查和確認(rèn)。利用圖像識(shí)別手段整理這些重要非結(jié)構(gòu)化信息,可以充分發(fā)揮數(shù)據(jù)價(jià)值,輔助確保車(chē)輛在研發(fā)、生產(chǎn)過(guò)程中的一致性,從而保證新型車(chē)輛的有效產(chǎn)出,推動(dòng)智能制造業(yè)的高質(zhì)量發(fā)展。
當(dāng)前如何科學(xué)有效地使用圖像識(shí)別和處理技術(shù),是企業(yè)非結(jié)構(gòu)化關(guān)鍵數(shù)據(jù)挖掘的一大難點(diǎn)。通常企業(yè)需要先收集一定量的圖片,作為數(shù)據(jù)集將其預(yù)處理,而預(yù)處理是圖像識(shí)別中相當(dāng)重要的一點(diǎn),預(yù)處理過(guò)程就是在圖片、PDF等非結(jié)構(gòu)化數(shù)據(jù)中提取關(guān)鍵特征的手段,關(guān)鍵特征點(diǎn)提取越準(zhǔn)確,后續(xù)在特征學(xué)習(xí)中,算法會(huì)被訓(xùn)練得越發(fā)有效;如果預(yù)處理未能做好,之后訓(xùn)練出來(lái)的模型將會(huì)出現(xiàn)識(shí)別不準(zhǔn)確的問(wèn)題,即圖像中包含的有用信息過(guò)少,模型過(guò)多關(guān)注無(wú)用信息會(huì)導(dǎo)致無(wú)法收斂等問(wèn)題。因此,首先對(duì)于數(shù)據(jù)集的預(yù)處理,以車(chē)輛企業(yè)非結(jié)構(gòu)化關(guān)鍵數(shù)據(jù)圖片為例,需要將圖片進(jìn)行分類(lèi),將這些圖片中屬于合格證、危險(xiǎn)標(biāo)識(shí)、檢測(cè)報(bào)告等等分為大類(lèi),再將大類(lèi)細(xì)化,以便獲得最小的預(yù)處理學(xué)習(xí)集合。以危險(xiǎn)品標(biāo)識(shí)舉例,車(chē)輛危險(xiǎn)品標(biāo)識(shí)共有9類(lèi),包括易燃固體、易燃液體、放射性物質(zhì)等,根據(jù)不同的危險(xiǎn)標(biāo)識(shí)照片建立多個(gè)訓(xùn)練集和驗(yàn)證集,用于后續(xù)訓(xùn)練和驗(yàn)證算法。
對(duì)于圖像分類(lèi)而言,其主要目的是將各類(lèi)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)的圖片進(jìn)行分類(lèi),不同種類(lèi)圖像的差異較為明顯,因此可選擇的分類(lèi)器種類(lèi)多,例如 Logistic Regression、Naive Bayes等算法都可納入圖像分類(lèi)的初步選擇。分類(lèi)器選擇完畢后,初始模型可利用訓(xùn)練集中的照片進(jìn)行訓(xùn)練,完成后使用驗(yàn)證集進(jìn)行驗(yàn)證,最終獲得能夠根據(jù)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)圖片的關(guān)鍵特征進(jìn)行圖片分類(lèi)的模型。而訓(xùn)練出的模型的出錯(cuò)率則會(huì)直接影響后面圖像處理的效率和準(zhǔn)確度[3]。
將不同種類(lèi)的企業(yè)非結(jié)構(gòu)化數(shù)據(jù)圖片進(jìn)行處理,深度學(xué)習(xí)可以提取圖像特征,圖像特征的本質(zhì)是可以高度概括圖像內(nèi)容的抽象化信息,憑借人工經(jīng)驗(yàn)提取的特征是從人的角度將紋理、顏色、形狀等信息從原始像素中提取出來(lái)。這些特征都來(lái)源于圖像的原始像素,雖然是一種高效的信息抽象方式,但同時(shí)會(huì)損失掉很多信息,因此,可以利用模型直接在原始數(shù)據(jù)上學(xué)習(xí),能將信息損失大幅降低。然而圖像中除了我們關(guān)注的特征信息以外,也留有很多無(wú)用的干擾信息,例如對(duì)于在道路行駛的車(chē)輛照片來(lái)說(shuō),周?chē)沫h(huán)境、樹(shù)木、人員,甚至其他移動(dòng)物體都是干擾信息。這些無(wú)用信息過(guò)多地被關(guān)注,或者參與到模型學(xué)習(xí)中,會(huì)導(dǎo)致模型無(wú)法準(zhǔn)確提取到關(guān)鍵的圖像特征。因此,需要使用卷積神經(jīng)網(wǎng)絡(luò)精準(zhǔn)地提取圖像中的有用信息和高效地獲取訓(xùn)練集,更準(zhǔn)確地處理企業(yè)非結(jié)構(gòu)化數(shù)據(jù)。
卷積神經(jīng)網(wǎng)絡(luò)算法,通過(guò)將原始數(shù)據(jù)與預(yù)設(shè)權(quán)重的卷積核做加權(quán),從原始數(shù)據(jù)中提取出關(guān)鍵信息,常用的CNN模型卷積神經(jīng)網(wǎng)絡(luò)算法有三種流派:ResNet、Inception和DenseNet。企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)中,各類(lèi)圖像特征區(qū)別通常較為明顯,例如圖像中危險(xiǎn)標(biāo)識(shí)與檢測(cè)報(bào)告相比,前者主要根據(jù)形狀和顏色進(jìn)行區(qū)分,后者則是非常規(guī)律的文字信息,兩者具有顯著特征,因此通過(guò)卷積神經(jīng)網(wǎng)絡(luò)算法將其分類(lèi),準(zhǔn)確率可以得到保證。而進(jìn)一步的圖像識(shí)別則需要更加細(xì)節(jié)化的特征預(yù)設(shè)和卷積收斂[4]。
車(chē)輛企業(yè)非結(jié)構(gòu)化數(shù)據(jù),以危險(xiǎn)標(biāo)識(shí)和檢測(cè)報(bào)告兩類(lèi)為例,前者圖像形狀的特征較為明顯,因此可以使用TensorFlow平臺(tái)現(xiàn)有的模型為基礎(chǔ),修改部分代碼、權(quán)重等,加以訓(xùn)練及驗(yàn)證后,則可識(shí)別危險(xiǎn)標(biāo)識(shí),判斷該項(xiàng)目是否需要重點(diǎn)檢查或者用于其他需要判斷危險(xiǎn)標(biāo)識(shí)的情況;而后者則可通過(guò)圖像識(shí)別處理技術(shù),利用檢測(cè)報(bào)告主要為文字內(nèi)容的特點(diǎn),將其中的文字識(shí)別,再利用自然語(yǔ)言處理技術(shù)或者直接比對(duì),將檢測(cè)項(xiàng)目中的內(nèi)容和實(shí)際數(shù)據(jù)輸出,用作車(chē)輛企業(yè)的研發(fā)數(shù)據(jù)信息。由此,通過(guò)人工智能圖像識(shí)別技術(shù)和處理技術(shù),利用深度學(xué)習(xí)的高效性、準(zhǔn)確性和實(shí)用性,將圖像數(shù)據(jù)中有關(guān)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘和收集,最終在應(yīng)用上為企業(yè)增加產(chǎn)值和貢獻(xiàn)。
在汽車(chē)智能制造過(guò)程中,傳統(tǒng)工作模式下,企業(yè)產(chǎn)生海量的圖片和照片數(shù)據(jù),對(duì)于企業(yè)而言是一座“金礦”,但是開(kāi)采方式卻是難點(diǎn)痛點(diǎn),工業(yè)數(shù)據(jù)的應(yīng)用一直是制造業(yè)企業(yè)的研究重點(diǎn)。隨著新一代信息技術(shù)的發(fā)展,人工智能學(xué)習(xí)愈發(fā)成熟,圖像識(shí)別越發(fā)精確和快速,通過(guò)智能化圖像識(shí)別技術(shù)可以對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,將圖像包含的信息進(jìn)行直觀、清晰的表達(dá),從而促進(jìn)工業(yè)數(shù)據(jù)在汽車(chē)企業(yè)研發(fā)、設(shè)計(jì)、生產(chǎn)環(huán)節(jié)上的應(yīng)用,助力制造業(yè)數(shù)字化轉(zhuǎn)型走深走實(shí)。