摘要:隨著社會(huì)的發(fā)展,由圖書館中圖書流動(dòng)性增加帶來(lái)的書籍整理與歸檔難題日益顯著。針對(duì)這一問題,文章提出了一種智能化系統(tǒng),利用計(jì)算機(jī)視覺技術(shù)對(duì)圖書進(jìn)行識(shí)別,通過與圖書館數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)匹配,以精確定位每本圖書的具體位置。具體操作流程包括:通過圖書館內(nèi)攝像頭進(jìn)行圖像采集和預(yù)處理,進(jìn)行書脊檢測(cè),提取出每本書籍的索書號(hào)區(qū)域,并利用OpenCV庫(kù)對(duì)索書號(hào)區(qū)域內(nèi)的字符進(jìn)行識(shí)別,最終實(shí)現(xiàn)對(duì)圖書位置的精確定位。
關(guān)鍵詞:智能化系統(tǒng);計(jì)算機(jī)視覺技術(shù);OpenCV庫(kù);圖書館數(shù)字化轉(zhuǎn)型
中圖分類號(hào):G251 文獻(xiàn)標(biāo)志碼:A
0 引言
隨著人們對(duì)知識(shí)的需求不斷增加,圖書館的訪客量也隨之上升。這一現(xiàn)象卻帶來(lái)了另一個(gè)問題——圖書整理困難。由于大量圖書被借閱和歸還,圖書館內(nèi)的書籍常常被翻亂,書架上的書籍也難以保持整齊有序[1]。這給圖書館工作人員帶來(lái)了巨大的壓力,須要花費(fèi)更多的時(shí)間和精力來(lái)整理書籍,以確保圖書館內(nèi)圖書排列井然有序。
隨著圖書種類的增加,分類和歸檔的工作也變得更加復(fù)雜。圖書館工作人員須要對(duì)每一本圖書進(jìn)行仔細(xì)的檢查,確保它們被放置在正確的位置。由于人力資源有限,這一工作往往難以做到盡善盡美。
隨著數(shù)字化時(shí)代的到來(lái),圖書館的數(shù)字化轉(zhuǎn)型成為提升服務(wù)質(zhì)量和效率的重要途徑。傳統(tǒng)的圖書館管理方式已經(jīng)難以滿足現(xiàn)代社會(huì)對(duì)信息獲取速度和準(zhǔn)確性的需求。因此,利用現(xiàn)代信息技術(shù),特別是計(jì)算機(jī)視覺技術(shù),來(lái)改進(jìn)圖書館的服務(wù)和管理,已經(jīng)成為一個(gè)迫切要研究的課題。
為了解決這個(gè)問題,許多學(xué)者提出了不同的解決方案。比如王海燕[2]提出圖書館要在治理轉(zhuǎn)換的階段中積極創(chuàng)新,實(shí)現(xiàn)管理轉(zhuǎn)型。楊顏僖[3]提出當(dāng)前信息科技發(fā)展迅猛,公共圖書館在管理與服務(wù)方面也應(yīng)不斷創(chuàng)新。秦燕等[4]提出基于深度學(xué)習(xí)識(shí)別圖書封面。李小燕[5]從機(jī)器視覺方向設(shè)計(jì)了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的圖書識(shí)別系統(tǒng)。
本文在以上研究的基礎(chǔ)上,通過書庫(kù)中的攝像獲取書架圖片,然后對(duì)圖片進(jìn)行預(yù)處理,再對(duì)圖片進(jìn)行書脊檢測(cè),提取出索書號(hào),將索書號(hào)進(jìn)行分割及識(shí)別后,與所需要的索書號(hào)進(jìn)行對(duì)比,提示讀者或者圖書管理員所需圖書的具體位置。本文通過自動(dòng)化圖書識(shí)別和定位技術(shù),提高了圖書館的檢索效率和管理智能化水平,優(yōu)化了讀者的體驗(yàn),具有重要的實(shí)用價(jià)值和廣闊的應(yīng)用前景。
1 系統(tǒng)整體設(shè)計(jì)
1.1 系統(tǒng)設(shè)計(jì)
系統(tǒng)實(shí)現(xiàn)流程如圖1所示,各流程詳述如下。
(1)圖像預(yù)處理。在輸入圖像進(jìn)入神經(jīng)網(wǎng)絡(luò)之前,須要進(jìn)行預(yù)處理,包括圖像的縮放、裁剪、灰度化、去噪等操作,以便更好地識(shí)別圖片細(xì)節(jié)。
(2)書脊檢測(cè)。使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)或其他邊緣檢測(cè)方法來(lái)定位一張圖片中書脊的位置。
(3)索書號(hào)提取。使用目標(biāo)檢測(cè)算法(如 Faster-RCNN)來(lái)提取索書號(hào)區(qū)域。
(4)字符分割與識(shí)別。用OpenCV庫(kù)識(shí)別提取出來(lái)的索書號(hào)區(qū)域的字符。
(5)匹配字符。將識(shí)別出的字符和數(shù)據(jù)庫(kù)中記錄的字符進(jìn)行對(duì)比,查找出該字符對(duì)應(yīng)書籍的正確位置。
1.2 圖像預(yù)處理
圖像預(yù)處理是一個(gè)關(guān)鍵步驟,其目的在于提升圖像品質(zhì)并優(yōu)化后續(xù)的圖像識(shí)別與處理流程。本文的圖像預(yù)處理包括以下幾個(gè)主要步驟,具體如圖2所示。
(1)圖像尺寸標(biāo)準(zhǔn)化與裁剪。鑒于輸入圖像可能存在尺寸上的差異,本文采用尺寸歸一化技術(shù),將圖像縮放至一致的規(guī)格,以適應(yīng)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的輸入要求。同時(shí),為了排除背景噪聲對(duì)研究對(duì)象的干擾,還實(shí)施了圖像裁剪操作,僅保留圖像中關(guān)鍵的研究區(qū)域。
(2)色彩到灰度轉(zhuǎn)換。為了降低圖像處理的計(jì)算復(fù)雜性,同時(shí)保持對(duì)圖像紋理特征的敏感性,采用了灰度化處理,將彩色圖像轉(zhuǎn)換為灰度圖像。
GRAY=B×0.114+G×0.587+R×0.299
(3)噪聲消除。在圖像的采集與傳輸過程中,噪聲的產(chǎn)生是難以避免的。為了降低噪聲對(duì)圖像分析的影響,采用了中值濾波技術(shù)[6]。
以上步驟確保了圖像在進(jìn)入機(jī)器學(xué)習(xí)模型之前具有良好的質(zhì)量和處理一致性,對(duì)于提升模型的準(zhǔn)確性和魯棒性具有重要意義。
1.3 書脊檢測(cè)
本文使用了一種基于深度學(xué)習(xí)的圖書脊檢測(cè)算法,該算法能夠從復(fù)雜場(chǎng)景的圖像中精確地定位書脊的位置。為了實(shí)現(xiàn)這一目標(biāo),本文采用了CNN[7]。這是一種在圖像識(shí)別和處理任務(wù)中表現(xiàn)卓越的深度學(xué)習(xí)模型,如圖3所示。
為了訓(xùn)練CNN模型,本文構(gòu)建了一個(gè)大規(guī)模的帶有書脊標(biāo)注的圖像數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含多種場(chǎng)景、光照條件下的書籍圖片,確保模型能夠?qū)W習(xí)到書脊的多樣性和復(fù)雜性。在訓(xùn)練過程中,本文采用了遷移學(xué)習(xí)策略,應(yīng)用在大型圖像數(shù)據(jù)集上預(yù)訓(xùn)練的模型作為起點(diǎn),以增強(qiáng)模型對(duì)書脊特征的學(xué)習(xí)能力。
為了提高檢測(cè)的準(zhǔn)確性和魯棒性,本文還引入了以下幾種算法和技術(shù)。
(1)特征融合。本文結(jié)合了多種特征提取方法,如邊緣檢測(cè)、紋理分析和形狀上下文,以獲得更豐富的書脊特征表示。
(2)多尺度檢測(cè)。通過在不同尺度上應(yīng)用CNN,提高了模型對(duì)不同尺寸和比例的書脊的檢測(cè)能力。
(3)上下文信息利用。在檢測(cè)過程中考慮了書脊周圍的上下文信息,以幫助區(qū)分書脊與其他類似結(jié)構(gòu)。
(4)損失函數(shù)優(yōu)化。本文采用了改進(jìn)的損失函數(shù),如焦點(diǎn)損失(Focal Loss),以解決類別不平衡問題,提高模型對(duì)少數(shù)類別的學(xué)習(xí)能力。
(5)數(shù)據(jù)增強(qiáng)。通過旋轉(zhuǎn)、縮放、裁剪等多種數(shù)據(jù)增強(qiáng)技術(shù),極大地提高了訓(xùn)練數(shù)據(jù)的多樣性,增強(qiáng)了模型的泛化能力。
(6)注意力機(jī)制。引入了注意力機(jī)制,使模型能夠聚焦于圖像中與書脊相關(guān)的關(guān)鍵區(qū)域,從而提高檢測(cè)的準(zhǔn)確率。
1.4 索書號(hào)提取
本文專注于圖書識(shí)別領(lǐng)域的一個(gè)重要環(huán)節(jié):索書號(hào)的自動(dòng)提取。索書號(hào)不僅是圖書的唯一標(biāo)識(shí),而且是實(shí)現(xiàn)圖書識(shí)別和管理的核心。為了精確地從圖像中提取索書號(hào)區(qū)域,采用了先進(jìn)的目標(biāo)檢測(cè)算法,如Faster R-CNN,該算法在對(duì)象識(shí)別和邊界框定位方面具有較高的準(zhǔn)確性和效率。
為了訓(xùn)練目標(biāo)檢測(cè)模型,本文構(gòu)建了一個(gè)大規(guī)模的帶有索書號(hào)標(biāo)注的圖像數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含多種場(chǎng)景、不同字體風(fēng)格、大小和排列方式的索書號(hào),確保了模型能夠?qū)W習(xí)到索書號(hào)的多樣性和復(fù)雜性。在訓(xùn)練過程中,模型通過學(xué)習(xí)這些標(biāo)注索書號(hào)圖像的特征,能夠從實(shí)際圖像中準(zhǔn)確地定位和提取出索書號(hào)區(qū)域。
為了進(jìn)一步提高模型性能,本文采用了以下幾種技術(shù)和策略。
(1)深度特征融合。結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)的不同層次的深度特征,以獲得更豐富的索書號(hào)特征表示,增強(qiáng)了模型對(duì)索書號(hào)的識(shí)別能力。
(2)區(qū)域提議網(wǎng)絡(luò)(Region Proposal Network,RPN)。在Faster R-CNN的基礎(chǔ)上,利用區(qū)域提議網(wǎng)絡(luò)來(lái)生成更準(zhǔn)確的候選索書號(hào)區(qū)域,提高了目標(biāo)檢測(cè)的準(zhǔn)確性和效率。
(3)損失函數(shù)創(chuàng)新。采用了平衡損失函數(shù),如焦點(diǎn)損失(Focal Loss),以解決類別不平衡問題,提高模型對(duì)少數(shù)類別的學(xué)習(xí)能力。
(4)數(shù)據(jù)增強(qiáng)和預(yù)處理。通過旋轉(zhuǎn)、縮放、裁剪等多項(xiàng)數(shù)據(jù)增強(qiáng)技術(shù)和圖像質(zhì)量提升預(yù)處理技術(shù),顯著提升了訓(xùn)練數(shù)據(jù)的多樣性,最終增強(qiáng)了模型的泛化能力。
(5)多尺度訓(xùn)練和檢測(cè)。在訓(xùn)練和檢測(cè)過程中考慮了不同尺度,確保模型能夠適應(yīng)不同尺寸的索書號(hào)。
通過這些技術(shù)和策略的綜合運(yùn)用,目標(biāo)檢測(cè)模型在圖書索書號(hào)提取任務(wù)上表現(xiàn)出色,能夠高精度地從各種圖像中定位并提取出索書號(hào)區(qū)域,為實(shí)現(xiàn)自動(dòng)化的圖書識(shí)別和管理提供了強(qiáng)有力的技術(shù)支持。
1.5 字符分割與識(shí)別
在圖書識(shí)別系統(tǒng)中,準(zhǔn)確提取索書號(hào)后,緊接著的任務(wù)是對(duì)索書號(hào)中的字符進(jìn)行精確的分割和識(shí)別[8]。這一步驟對(duì)于確保圖書信息能夠被正確索引和檢索至關(guān)重要。本文采用了一系列先進(jìn)的圖像處理和深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)這一目標(biāo),如圖4所示。
首先利用OpenCV庫(kù)中的圖像處理功能對(duì)提取的索書號(hào)區(qū)域進(jìn)行字符分割。這一步驟通過圖像分割算法實(shí)現(xiàn),旨在將連續(xù)的索書號(hào)文本區(qū)域分解為獨(dú)立的字符圖像。這一過程涉及圖像輪廓檢測(cè)、區(qū)域生長(zhǎng)等算法,以確保每個(gè)字符都能被準(zhǔn)確地分割出來(lái)。
為了對(duì)分割后的字符進(jìn)行識(shí)別,采用了一個(gè)預(yù)訓(xùn)練的深度學(xué)習(xí)模型,專門設(shè)計(jì)用于字符識(shí)別任務(wù)。該模型基于CNN架構(gòu),已經(jīng)在大量字符數(shù)據(jù)上進(jìn)行了訓(xùn)練,能夠識(shí)別包括字母、數(shù)字以及其他特殊字符在內(nèi)的多種字符。
在字符識(shí)別階段,將分割后的單個(gè)字符圖像作為輸入,通過預(yù)訓(xùn)練的模型進(jìn)行識(shí)別。模型會(huì)輸出每個(gè)字符的概率分布,據(jù)此選擇概率最高的字符作為最終的識(shí)別結(jié)果。為了提高識(shí)別的準(zhǔn)確率,還在模型訓(xùn)練過程中采用了數(shù)據(jù)增強(qiáng)技術(shù),如字符旋轉(zhuǎn)、縮放等,以增強(qiáng)模型的泛化能力。
通過這一系列技術(shù)的應(yīng)用,該系統(tǒng)能夠?qū)崿F(xiàn)圖書索書號(hào)中字符的高精度分割和識(shí)別,為圖書館自動(dòng)化管理、在線圖書檢索系統(tǒng)等提供了強(qiáng)有力的技術(shù)支持。此外,該系統(tǒng)還可以擴(kuò)展應(yīng)用于其他需要字符分割和識(shí)別的場(chǎng)合,如文本編輯、自動(dòng)抄寫等。
1.6 匹配字符
最后階段,采用了字符匹配技術(shù)確保識(shí)別出的字符能夠準(zhǔn)確地對(duì)應(yīng)到數(shù)據(jù)庫(kù)中的記錄。鑒于識(shí)別過程中可能存在的誤差,選擇了模糊匹配算法,以提高匹配過程的容錯(cuò)性和準(zhǔn)確性。
在字符匹配階段,將識(shí)別出的字符序列與數(shù)據(jù)庫(kù)中存儲(chǔ)的正確字符序列進(jìn)行對(duì)比。為了計(jì)算2個(gè)字符串的相似度,采用了Levenshtein距離[9],這是一種衡量字符串之間差異的度量方法。Levenshtein距離考慮了字符替換、插入和刪除操作,能夠準(zhǔn)確地反映2個(gè)字符串之間的編輯距離,算法公式如下:
在匹配過程中,設(shè)定了一個(gè)閾值,以確定何種程度的不匹配是可以接受的。模糊匹配算法能夠容忍一定程度的不匹配,從而提高了匹配的準(zhǔn)確性。這意味著即使識(shí)別出的字符序列與數(shù)據(jù)庫(kù)中的字符序列存在一定的差異,只要這些差異在閾值范圍內(nèi),算法仍然能夠判斷它們?yōu)槠ヅ洹?/p>
通過這一系列的匹配過程,該系統(tǒng)能夠有效地找出識(shí)別出的字符在數(shù)據(jù)庫(kù)中的正確位置,從而實(shí)現(xiàn)圖書的準(zhǔn)確識(shí)別和檢索。這種模糊匹配算法在處理計(jì)算機(jī)視覺任務(wù)中的字符識(shí)別和匹配問題時(shí)顯示出獨(dú)特的優(yōu)勢(shì),尤其是在處理噪聲和錯(cuò)誤容忍的場(chǎng)景中。
2 結(jié)語(yǔ)
本文成功開發(fā)了一套基于深度學(xué)習(xí)的圖書識(shí)別系統(tǒng),能夠自動(dòng)從圖像中提取索書號(hào),對(duì)索書號(hào)中的字符進(jìn)行精確的分割和識(shí)別。通過采用先進(jìn)的圖像處理技術(shù)和深度學(xué)習(xí)模型,該系統(tǒng)在字符分割和識(shí)別方面取得了較高的準(zhǔn)確率和效率。
此外,還引入了模糊匹配算法,以處理識(shí)別過程中可能出現(xiàn)的誤差。通過計(jì)算字符串之間的Levenshtein距離并設(shè)定合適的閾值,該系統(tǒng)能夠容忍一定程度的不匹配,從而提高匹配的準(zhǔn)確性。
實(shí)際應(yīng)用表明,該圖書識(shí)別系統(tǒng)在圖書館自動(dòng)化管理、在線圖書檢索等領(lǐng)域具有廣泛的應(yīng)用前景。未來(lái)將繼續(xù)優(yōu)化模型性能,提高系統(tǒng)的準(zhǔn)確率和魯棒性,使其更好地服務(wù)于圖書管理和識(shí)別領(lǐng)域。
盡管本文的研究已經(jīng)取得了顯著的成果,但仍然存在一些可以改進(jìn)的地方。
(1)數(shù)據(jù)集的多樣性和規(guī)模。為了進(jìn)一步提高模型的泛化能力,可以收集更多不同場(chǎng)景、光照條件、字體風(fēng)格和大小不同的圖書圖像,以擴(kuò)充數(shù)據(jù)集的規(guī)模和多樣性。
(2)模型解釋性。雖然深度學(xué)習(xí)模型在圖書識(shí)別任務(wù)上表現(xiàn)出色,但其內(nèi)部決策過程缺乏解釋性。可以嘗試使用一些可解釋性技術(shù),如注意力機(jī)制或集成解釋性方法,來(lái)揭示模型的決策依據(jù)。
(3)實(shí)時(shí)性能優(yōu)化。在實(shí)際應(yīng)用中,圖書識(shí)別系統(tǒng)需要快速響應(yīng)用戶的操作。為了提高系統(tǒng)的實(shí)時(shí)性能,可以對(duì)模型進(jìn)行進(jìn)一步優(yōu)化,如模型壓縮和量化,以減少模型的計(jì)算復(fù)雜度和存儲(chǔ)需求。
(4)多語(yǔ)言支持。系統(tǒng)主要針對(duì)特定語(yǔ)言的索書號(hào)進(jìn)行識(shí)別。為了使其更具通用性,可以考慮支持多語(yǔ)言的索書號(hào)識(shí)別,這涉及對(duì)模型進(jìn)行多語(yǔ)言訓(xùn)練 或引入外部語(yǔ)言資源。
(5)跨領(lǐng)域應(yīng)用。除了圖書識(shí)別之外,字符分割和識(shí)別技術(shù)還可以應(yīng)用于其他領(lǐng)域,如文本編輯、自動(dòng)抄寫等??梢蕴剿髌渌麘?yīng)用場(chǎng)景,并將該技術(shù)推廣到更廣泛的領(lǐng)域。
(6)對(duì)抗性樣本處理。在實(shí)際應(yīng)用中,攻擊者可能會(huì)嘗試使用對(duì)抗性樣本來(lái)欺騙識(shí)別系統(tǒng)。為了提高系統(tǒng)的魯棒性,可以研究對(duì)抗性樣本的檢測(cè)和處理方法,以防止系統(tǒng)被惡意攻擊。
總之,本文的研究在圖書識(shí)別領(lǐng)域取得了一定的成果,為自動(dòng)化圖書管理提供了有力的技術(shù)支持。隨著人工智能技術(shù)的不斷進(jìn)步,未來(lái)的圖書識(shí)別系統(tǒng)將更加智能化、高效化,為人們的閱讀和學(xué)習(xí)帶來(lái)更多的便利。
參考文獻(xiàn)
[1]李昊,楊燕勤.基于B/S結(jié)構(gòu)的高校圖書館管理系統(tǒng)的開發(fā)與應(yīng)用[J].現(xiàn)代情報(bào),2010(1):154-158.
[2]王海艷.從管理到治理圖書館改革在路上[J].文化產(chǎn)業(yè),2024(7):58-60.
[3]楊顏僖.公共圖書館管理與服務(wù)創(chuàng)新路徑探究[J].參花,2024(7):140-142.
[4]秦燕,連瑋.一種基于深度學(xué)習(xí)的圖書封面文字自動(dòng)檢測(cè)識(shí)別系統(tǒng)[J].長(zhǎng)治學(xué)院學(xué)報(bào),2023(2):56-60.
[5]李小燕.基于機(jī)器視覺的圖書智能識(shí)別系統(tǒng)研究[J].自動(dòng)化與儀器儀表,2022(5):122-126.
[6]劉光宇,曹禹,王帥,等.基于自適應(yīng)中值濾波的圖像去噪技術(shù)研究[J].安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2022(5):1-6.
[7]黃佳美,張偉彬,熊官送.基于深度卷積神經(jīng)網(wǎng)絡(luò)的汽車圖像分類算法與加速研究[J].現(xiàn)代電子技術(shù),2024(7):140-144.
[8]王帥,劉光宇,李俊松,等.基于模板匹配的車牌字符識(shí)別算法研究[J].武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報(bào),2024(1):97-102.
[9]崔競(jìng)松,薛慧,王蘭蘭,等.LEDA:一種基于Levenshtein距離的DNA序列拼接算法[J].武漢大學(xué)學(xué)報(bào)(理學(xué)版),2022(3):271-278.
Computer vision-based book recognition system
Abstract: With the development of society, the problem of book sorting and archiving is becoming more and more obvious due to the increasing mobility of library books. In order to solve this problem, an intelligent system was proposed to use computer vision technology to identify books and match the data with the library database to accurately locate the specific location of each book. The specific operation process includes: image acquisition and preprocessing are carried out by cameras in the library, spine detection, extraction of the call number area of each book, and the use of OpenCV library to identify the characters in the call number area, and finally realize the accurate determination of the location of the book.
Key words: intelligent systems; computer vision technology; OpenCV library; digital transformation of libraries