陳昕
摘 要:如今隨著知識產(chǎn)權(quán)在社會經(jīng)濟生活中扮演著越來越重要的角色,無論是政府、企業(yè)、還是專門從事知識產(chǎn)權(quán)業(yè)務(wù)的事務(wù)所和律師事務(wù)所,都會越來越頻繁地使用到信息檢索技術(shù)來對相關(guān)的知識產(chǎn)權(quán)數(shù)據(jù)庫進行檢索。但由于目前該領(lǐng)域所應(yīng)用的技術(shù)僅停留在基于文字和語義來檢索,對于檢索很多以圖形圖像為主要表征的知識產(chǎn)權(quán)信息而言效率不高,同時為了得到準確的檢索結(jié)果也對檢索人員的技術(shù)水平有較多依賴。
近年來,隨著基于內(nèi)容的圖形檢索技術(shù)發(fā)展日趨成熟,已經(jīng)很大程度上實現(xiàn)了基于圖像的內(nèi)容對圖像數(shù)據(jù)庫進行檢索的要求。本文旨在通過將知識產(chǎn)權(quán)檢索領(lǐng)域的技術(shù)需求特點和圖形檢索技術(shù)的發(fā)展現(xiàn)狀進行對比分析,進而探索圖形檢索技術(shù)在知識產(chǎn)權(quán)領(lǐng)域的應(yīng)用空間、環(huán)境條件和愿景。
關(guān)鍵詞:圖形檢索;知識產(chǎn)權(quán);應(yīng)用分析
知識產(chǎn)權(quán)信息的管理和應(yīng)用在社會經(jīng)濟飛速發(fā)展的當(dāng)今世界扮演著越來越重要的角色,并為各國政府、企業(yè)所愈發(fā)關(guān)注和重視。知識產(chǎn)權(quán)也逐步發(fā)展成為推動科技發(fā)展和經(jīng)濟增長的巨大動力。出于維護自身經(jīng)濟權(quán)利和降低運營風(fēng)險的需要,越來越多的企業(yè)專門組建了知識產(chǎn)權(quán)團隊,甚至斥資購買了專門的數(shù)據(jù)庫系統(tǒng)查詢賬戶,在對企業(yè)自有知識產(chǎn)權(quán)進行管理之外,利用相關(guān)的數(shù)據(jù)庫系統(tǒng)對其關(guān)心的技術(shù)點進行檢索排查,以達到降低知識產(chǎn)權(quán)侵權(quán)的風(fēng)險,進一步指導(dǎo)產(chǎn)品和技術(shù)研發(fā)方向。同時也能更好地維護企業(yè)和技術(shù)人員的合法權(quán)益。
知識產(chǎn)權(quán)專業(yè)的數(shù)據(jù)庫系統(tǒng)主要分為政府和商業(yè)兩類,前者主要為公眾利益免費對外開放,后者則以企業(yè)商戶為服務(wù)對象,打造特殊需求的系統(tǒng)產(chǎn)品。不同于其他的數(shù)據(jù)庫產(chǎn)品,知識產(chǎn)權(quán)數(shù)據(jù)庫有其獨特的屬性:首先,收錄信息全,知識產(chǎn)權(quán)系統(tǒng)必須收錄針對某一或某些固定范圍的全面數(shù)據(jù),這是知識產(chǎn)權(quán)檢索的前提和基礎(chǔ);其次,知識產(chǎn)權(quán)系統(tǒng)檢索,特別是侵權(quán)排查檢索,其檢索屬性為查重檢索,即以發(fā)現(xiàn)相同或相似數(shù)據(jù)記錄為目標;再次,即檢索結(jié)果的嚴肅性,此類數(shù)據(jù)檢索結(jié)果將直接對企業(yè)的研發(fā)工作乃至知識產(chǎn)權(quán)相關(guān)訴訟的結(jié)果產(chǎn)生影響。因此,針對服務(wù)于知識產(chǎn)權(quán)領(lǐng)域的數(shù)據(jù)庫系統(tǒng),無論從數(shù)據(jù)收集,更新頻率,數(shù)據(jù)加工,檢索方案和交互設(shè)計等方面,都提出了很高的要求。
目前的數(shù)據(jù)庫產(chǎn)品,如湯森路透公司的Thomson Innovation和律商聯(lián)訊公司的Total Patent等專利數(shù)據(jù)庫,從檢索使用的友好度上,對專利數(shù)據(jù)進行了不同程度的加工。如為了盡量避免由于用戶關(guān)鍵詞選擇不當(dāng)所導(dǎo)致漏檢,對專利數(shù)據(jù)中出現(xiàn)的關(guān)鍵技術(shù)詞匯,進行解釋性改寫,這樣一來將會出現(xiàn)更多詞語表達同一關(guān)鍵語義,大大提升了用戶文本檢索的準確程度。
盡管如此,文本檢索仍然很大程度上依賴于檢索人對于技術(shù)的理解和語言的表述能力。對于圖形商標、產(chǎn)品外觀設(shè)計以及較難描述的專利描述圖的檢索而言,則帶來了很強的檢索難度。特別是電子商務(wù)企業(yè),由于商品種類繁雜,為了保證上架商品的法律安全,不得不花費很大精力變換不同關(guān)鍵字和檢索策略,反復(fù)進行文本檢索。例如當(dāng)需要對一款絲網(wǎng)產(chǎn)品進行檢索時,首先需要變換使用mesh, wire, fence等不同關(guān)鍵詞進行文本檢索,然后再針對海量的檢索結(jié)果中的圖形信息,比照原有的圖形,逐一進行對比分析,但往往收效甚微。此時得以看出,傳統(tǒng)的文本檢索,已經(jīng)無法滿足這種新型的檢索需求。如果能夠?qū)⑷遮叧墒斓膱D形檢索技術(shù)加以應(yīng)用,使用戶可以直接輸入圖像,就可以在數(shù)據(jù)庫系統(tǒng)中對滿足相似度要求的圖像的內(nèi)容直接進行檢索,相信檢索效率和精度都將大幅度提升。
有關(guān)計算機圖形檢索技術(shù),大致分成兩類,基于文本的圖形檢索(Text-based Retrieval,簡稱CBR)和基于內(nèi)容的圖形檢索(Content-based Retrieval,簡稱CBR)。其研究早在20世紀70年代就已經(jīng)開始。在檢索原理上,主要包括三方面:第一,對用戶需求的分析和轉(zhuǎn)化,形成可以檢索索引數(shù)據(jù)庫的提問;第二,收集和加工圖像資源,提取圖形特征,分析并進行標引,建立圖像的索引數(shù)據(jù)庫;第三,根據(jù)相似度的算法,計算用戶的提問與索引數(shù)據(jù)庫中記錄的相似度,然后提取出滿足取值范圍的記錄作為結(jié)果輸出,再按照相似度以降序的方式列表輸出顯示??紤]到要保證檢索的精度,許多系統(tǒng)結(jié)合相關(guān)反饋技術(shù)來收集用戶對檢索結(jié)果的反饋信息,這在CBIR中顯得更為突出,因為CBIR實現(xiàn)的是逐步求精的圖像檢索過程,在同一次檢索過程中需要不斷地與用戶進行交互。
基于內(nèi)容的圖像檢索根據(jù)圖像、圖像的內(nèi)容語義以及語境聯(lián)系進行查找,以圖像語義的特征為線索從圖像數(shù)據(jù)庫中檢出具有相似特性的其它圖像。因為圖像的內(nèi)容規(guī)模一般要大于純文本信息,因此,基于內(nèi)容的圖像檢索在檢索的速度和效率上要求更高。目前已有很多應(yīng)用于實踐環(huán)境的基于內(nèi)容的圖像檢索數(shù)據(jù)系統(tǒng),如由IBM公司開發(fā)的最早商業(yè)化QBIC系統(tǒng),以及由哥倫比亞大學(xué)研發(fā)的WebSeek系統(tǒng)、麻省理工學(xué)院研發(fā)的Photobook系統(tǒng),以及Goodgle公司和Baidu公司推出的圖形內(nèi)容檢索的產(chǎn)品等。
從技術(shù)層面,一個完整的圖形檢索過程大致包含以下三個步驟。首先,在檢索中要做的就是要對圖形的特征進行提取??商崛〉奶卣骺梢园伾?、紋理、平面空間對應(yīng)關(guān)系、外形,或其他數(shù)據(jù)特征等。 圖像特征的提取與表達是基于內(nèi)容的圖像檢索技術(shù)的基礎(chǔ)。從廣義上講,圖像的特征包括基于文本的特征(如關(guān)鍵字、注釋等)和視覺特征(如色彩、紋理、形狀、對象表面等)兩類。視覺特征又可分為通用的視覺特征和領(lǐng)域相關(guān)的視覺特征。前者用于描述所有圖像共有的特征,與圖像的具體類型或內(nèi)容無關(guān),主要包括色彩、紋理和形狀;后者則建立在對所描述圖像內(nèi)容的某些先驗知識(或假設(shè))的基礎(chǔ)上,與具體的應(yīng)用緊密有關(guān),例如人的面部特征或指紋特征等。其次就要對檢索過程中算法所依據(jù)的相似性進行定義從圖像中提取的特征可以組成一個向量,兩個圖像之間可以通過定義一個距離或者相似性的測量度來計算相似程度。最后,就要彌補語義鴻溝。在傳統(tǒng)的基于文字的查詢技術(shù)中,不會存在這個問題,因為查詢關(guān)鍵字基本能夠反映查詢意圖。但是在基于內(nèi)容的圖像查詢中,就存在一個底層特征和上層理解之間的差異。主要原因是底層特征不能完全反映或者匹配查詢意圖。彌補這個鴻溝的技術(shù)手段主要有:相關(guān)反饋(relevance feedback):按照最初的查詢條件,查詢系統(tǒng)返回給用戶查詢結(jié)果,用戶可以人為介入(或者自動)來選擇幾個最符合他查詢意圖的返回結(jié)果(正反饋),也可以選擇最不符合他查詢意圖的幾個返回結(jié)果(負反饋)。這些反饋信息被送入系統(tǒng)用來更新查詢條件,重新進行查詢。從而讓隨后的搜索更符合查詢者的真實意圖。
不難看出,雖然圖形檢索的發(fā)展,從技術(shù)上已經(jīng)可以滿足知識產(chǎn)權(quán)領(lǐng)域的應(yīng)用需求。但是從原始數(shù)據(jù)收集的角度看,仍然有很長的路要走。具體說,就是各國政府和相關(guān)機構(gòu)在核準商標、外觀設(shè)計、專利等技術(shù)文件時,需要對目標項進行統(tǒng)一標準的圖像留檔。如此,才有可能廣泛應(yīng)用圖形檢索技術(shù),更有效地在世界范圍內(nèi)推動科技和貿(mào)易的健康發(fā)展。