景月娟,張曉麗
(西安航空學(xué)院 計算機學(xué)院,陜西 西安 710077)
條形碼技術(shù)是在計算機應(yīng)用和實踐中產(chǎn)生并發(fā)展起來的一種廣泛應(yīng)用于商業(yè)、郵政、圖書管理、倉儲、工業(yè)生產(chǎn)過程控制、交通等領(lǐng)域的自動識別技術(shù),具有輸入速度快、準確度高、成本低、可靠性強等優(yōu)點,在當今的自動識別技術(shù)中占有重要地位。如今條碼辨識技術(shù)已相當成熟,其讀取的錯誤率約為百萬分之一,首讀率大于98%,是一種可靠性高、輸入快速、準確性高、成本低的資料自動收集技術(shù)。傳統(tǒng)的信息單機檢索模式已經(jīng)無法適應(yīng)現(xiàn)如今的網(wǎng)絡(luò)數(shù)據(jù)系統(tǒng)[1-2],智能檢索方法在檢索的性能與檢索的能力上雖然得到很大的提升,但依舊無法滿足人們對所檢索的信息的準確性的需求。在大數(shù)據(jù)發(fā)展的當今世界,應(yīng)提升數(shù)字化信息智能檢索技術(shù),充分發(fā)揮大數(shù)據(jù)系統(tǒng)在智能檢索方法中的優(yōu)勢,提高信息智能檢索的能力和效率[3-4]。
文獻[5]提出基于云計算環(huán)境下的信息檢索及智能融合的方法,通過邏輯結(jié)構(gòu)及加密過程的設(shè)計,搭建云計算的電子環(huán)境,通過ASP與ADO相結(jié)合完成信息檢索,改進TF-IDF算法完成信息的智能融合,實現(xiàn)基于云計算環(huán)境下的信息檢索及智能融合的研究;文獻[6]提出一種帶約束的語義相似模型和隱性反饋修正機制,探索特定條件下智能信息搜索的實現(xiàn)途徑。通過地理環(huán)境應(yīng)用領(lǐng)域的原型實驗數(shù)據(jù)分析,發(fā)現(xiàn)基于知識圖譜與語義計算的信息搜索準確率可達85%,具有較強的實用性,可為垂直搜索應(yīng)用領(lǐng)域的技術(shù)優(yōu)化提供參考思路;文獻[7]引入文本時間信息的抽取和標注并融合時間信息的檢索模型的基礎(chǔ)上,以時態(tài)語義的技術(shù)為整體脈絡(luò),從3個方面綜述研究信息需求中隱含的時間意圖分析,加入時間因素的檢索模型構(gòu)建,實現(xiàn)檢索結(jié)果的生成;文獻[8]以時態(tài)語義檢索的本源問題和其在學(xué)術(shù)文獻上的相關(guān)應(yīng)用為切入點,提出時態(tài)語義檢索未來的發(fā)展趨勢:識別多源異構(gòu)信息下的時間表達,構(gòu)建能識別查詢的時間預(yù)測模型,搭建能精準檢索時間意圖的檢索平臺和開發(fā)基于深度學(xué)習的隱含時間意圖自動分類模型;還有部分文獻重點介紹了時間溫度顯示器和RFID技術(shù)的研究現(xiàn)狀及其應(yīng)用,并分析在實際應(yīng)用中所受到的制約因素及可能的解決辦法[9-10]。但上述方法均存在檢索準確率不高,涵蓋范圍較小等問題。
為解決上述文獻存在的問題,本文提出一種基于條碼識別的標簽信息智能檢索方法,并通過實驗驗證了所提方法的性能,為進一步研究數(shù)據(jù)檢索提供參考依據(jù)。
利用新型計算機程序,在數(shù)量龐大的數(shù)據(jù)中整合出最具使用價值的信息資源,利用網(wǎng)絡(luò)系統(tǒng)以及計算機程序,經(jīng)由一定的處理方式,對標簽信息進行檢索處理[11]。
搜索引擎也大多是通過對信息關(guān)鍵字及信息主題等較為基礎(chǔ)方式進行信息檢索,此種信息檢索形式較為簡單,并且僅對關(guān)鍵詞進行搜索,導(dǎo)致檢索得到的信息數(shù)據(jù)量較為龐大繁雜,進而導(dǎo)致檢索的結(jié)果精確度相對較低[12-14]。
在互聯(lián)網(wǎng)大數(shù)據(jù)模式下,信息檢索形式發(fā)生了變化,標簽信息呈現(xiàn)出多樣化的趨勢,不同結(jié)構(gòu)與形式的信息數(shù)據(jù)只能通過傳統(tǒng)的關(guān)系型數(shù)據(jù)庫進行存儲,無法達到對標簽信息的實際存儲需求,因此必須建立云存儲系統(tǒng)才可以更好地存儲不同種類且數(shù)量龐大的標簽信息,這就要求數(shù)據(jù)的檢索不能僅靠單一的系統(tǒng)服務(wù)器進行處理,而需要利用搜索引擎,與多個存儲服務(wù)器共同作用完成檢索[15]。標簽信息檢索架構(gòu)如圖1所示。
圖 1 標簽信息檢索架構(gòu)示意圖
通常使用的信息檢索方法主要為串行檢索模式[16-17],此種檢索方式可以很好地處理文字數(shù)據(jù)、普通圖片等簡單數(shù)據(jù)信息,進而完成信息檢索,但對于音頻改造、視頻分析等數(shù)據(jù)信息的處理較為困難。雖然現(xiàn)有信息檢索平臺較多,但由于各種檢索方式與方法的不同,這些平臺對于數(shù)據(jù)信息的檢索范圍具有一定的局限性,容易出現(xiàn)使用者在對數(shù)據(jù)檢索后得到不同檢索結(jié)果的情況,對檢索的信息難以辨認,無法有效使用。
本文通過構(gòu)建大數(shù)據(jù)系統(tǒng),在海量大數(shù)據(jù)背景下,對多源標簽信息進行融合處理,突破信息源之間存在的界限,使其能夠在同一運算方法中使用。即按時序序列,利用計算機技術(shù)對獲得的多源標簽信息進行傳輸、過濾等處理,并以統(tǒng)一多源標簽信息形式與結(jié)構(gòu)為準則,進行標簽信息地融合處理。同時,注重標簽數(shù)據(jù)的個性化處理與智能化處理,特別是大數(shù)據(jù)環(huán)境下,改變傳統(tǒng)的信息融合模式,將用戶作為信息融合的核心,解決其個性化需求,提供智能化的信息融合服務(wù)。
自動檢索技術(shù)存在檢索得到的關(guān)鍵信息與檢索信息結(jié)果相關(guān)程度符合較低的問題,在標簽信息檢索過程中,對待處理標簽信息進行記錄,按照用戶的喜好程度有效排列待檢索信息,以此來提高信息檢索方式的智能化水平。
條碼識別利用各種數(shù)字圖像處理技術(shù),對標簽圖像中的條碼進行特征提取、分析,高效識別圖像中的條碼內(nèi)容,根據(jù)識別內(nèi)容檢索需要的標簽信息。條碼是由一組按照一定的編碼規(guī)則排列的條、空符號,用來表示一定的字符、數(shù)字以及符號組成的信息。條碼技術(shù)是由條碼符號設(shè)計、制作以及掃描閱讀組成的自動識別方法,具有準確度高的特點。本文采用條碼識別的方式進行標簽信息排序,進而有效檢索得到物品信息。
對待檢索數(shù)據(jù)信息進行排序,首先對信息進行相關(guān)性分析,按照相關(guān)程度大小自動排列。 在大數(shù)據(jù)系統(tǒng)中,對排序模型進行進一步地分類處理,這是實現(xiàn)快速、準確并可靠采集有效標簽信息的重要手段。 由于排序數(shù)據(jù)呈現(xiàn)出多樣化的形式,由此可以在進行信息排序的同時,將所排序的信息結(jié)果可視化地表示出來,進而更加客觀和全面反映排序信息。
排序模型 (見圖2) 在主要的排序中, 以一個獨立的四元組的形式存在, 主系統(tǒng)根據(jù)排序信息形式的差異, 自主選擇排序模型, 并根據(jù)排序算法進行排序計算, 信息排序主要對相關(guān)度進行高低排序, 要利用排序模型選擇一個定值來計算信息的相關(guān)程度[18]。
圖 2 排序模型示意圖Fig.2 Schematic diagram of sorting model
設(shè)定待檢索的關(guān)鍵信息為A,待檢索的主要信息為G,J≥0為A與G的定值,此值作為主要數(shù)值提供待檢索信息的相關(guān)程度。具有關(guān)鍵字的J通常情況下應(yīng)該是互相單獨存在的,待檢索的信息文檔會被系統(tǒng)自動設(shè)置為2個關(guān)鍵句。所以,2個相關(guān)程度較高的關(guān)鍵句在同一信息文檔中出現(xiàn)的時候,定值會由此顯示出兩者之間的相關(guān)度。利用排序算法計算得到的信息結(jié)果更為準確,更加能被用戶查詢使用。排序算法進行自動排序計算后,將顯示結(jié)果根據(jù)相關(guān)程度進行排序,一定程度上提高了信息檢索結(jié)果的準確性,同時也有利于用戶對于標簽信息的辨認和使用。
在利用條碼識別獲取得到標簽信息排序結(jié)果后,對標簽信息進行智能檢索分析,構(gòu)建智能檢索模式圖,智能檢索模式可以大致分為用戶交流層、數(shù)據(jù)應(yīng)用與數(shù)據(jù)處理層、數(shù)據(jù)處理使用層3個方面。
僅僅在數(shù)據(jù)查詢平臺上對數(shù)據(jù)信息進行檢索查詢是不夠的,還需要使用者在檢索過程中聯(lián)系多種檢索詞量,對待檢索信息進行綜合檢索,匯集整合所要檢索的標簽數(shù)據(jù)信息,對信息的發(fā)展動態(tài)做出較為準確掌握[19-20]。由于數(shù)據(jù)信息關(guān)鍵字是數(shù)據(jù)信息檢索的關(guān)鍵,因此要選擇準確的信息關(guān)鍵字。信息關(guān)鍵字查詢的準確,既可以提高檢索的速度,也可以提升信息檢索的準確度,更有利于用戶檢索到所需要的信息。
為了檢測本文標簽信息智能檢索方法的有效性,需要進行實驗分析,設(shè)置實驗環(huán)境和參數(shù),與傳統(tǒng)檢索方法進行比較,設(shè)計對比實驗。
在大數(shù)據(jù)互聯(lián)網(wǎng)形態(tài)檢索背景下,在數(shù)據(jù)檢索平臺進行檢索查詢,檢索數(shù)據(jù)來源于Mysql數(shù)據(jù)庫信息源,檢索算法為排序算法,檢索間隔為等分,信息字節(jié)為24bit。將本文標簽信息智能檢索方法與傳統(tǒng)標簽信息檢索方法進行比較,在相同時間內(nèi),分別記錄本文方法與文獻[5]和文獻[6]方法得出信息檢索準確率,以及檢索結(jié)果涵蓋面范圍對比結(jié)果。不同方法的信息檢索準確率對比結(jié)果如圖3所示。
圖 3 檢索結(jié)果準確率對比
從圖3可知,隨著檢索時間的增加,3種方法的標簽信息檢索準確率均不斷上升,且在檢索時間為30 s時,3種方法的檢索準確率均較高,本文方法的準確率約為95%,文獻[5]方法的檢索準確率約為90%,文獻[6]方法約為80%,可見本文方法具有一定的優(yōu)勢。因為本文方法在檢索之前,對標簽信息進行了排序處理,根據(jù)排序結(jié)果完成了標簽信息的智能化檢索,排序處理這一步驟使得本文方法的檢索結(jié)果更為準確。
對本文方法與文獻[5]方法的檢索結(jié)果涵蓋面范圍進行對比。依據(jù)檢索信息量,通過計算期望以及標準差,期望加上或者減去0.43倍的標準差表示的檢索結(jié)果屬于中區(qū)間,在中區(qū)間的概率為三分之一,中區(qū)間兩邊的為高區(qū)間以及低區(qū)間。檢索結(jié)果對比圖如圖4所示。
圖 4 檢索結(jié)果涵蓋面范圍對比Fig.4 Comparison of coverage range of search results
從圖4可知,檢索信息處于高區(qū)間證明檢索范圍較廣泛,檢索效果較好。檢索時間為10 s時,傳統(tǒng)方法檢索的信息結(jié)果涵蓋面范圍在低區(qū)間,本文方法檢索的信息結(jié)果涵蓋面范圍在中區(qū)間。檢索時間為20 s時,傳統(tǒng)方法檢索的信息結(jié)果涵蓋面范圍有所提升,但仍在在低區(qū)間,本文方法檢索的信息結(jié)果涵蓋面范圍在中區(qū)間。檢索時間為30 s時,傳統(tǒng)方法檢索的信息結(jié)果涵蓋面范圍在中區(qū)間,本文方法檢索的信息結(jié)果涵蓋面范圍有所提升,在高區(qū)間。
本文在傳統(tǒng)檢索方法研究的基礎(chǔ)上,研究了一種基于條碼識別的標簽信息智能檢索方法,對多源標簽信息進行融合處理,突破信息源之間存在的界限,使其能夠在同一運算方法中使用?;跅l碼識別對標簽信息進行排序,進而實現(xiàn)標簽信息的智能檢索。實驗結(jié)果表明,本文所提方法具有較高地檢索準確率,且能夠大范圍檢索得到標簽信息。
在后續(xù)的研究中需要進一步分析排序后的數(shù)據(jù)特征,以及其對檢索效果的影響,為大數(shù)據(jù)分析提供可參考依據(jù)。