張晨民
(鄭州金惠計(jì)算機(jī)系統(tǒng)工程有限公司,鄭州 450000)
以手機(jī)為載體的移動(dòng)互聯(lián)網(wǎng)已經(jīng)開(kāi)始步入高速發(fā)展的快車道,移動(dòng)終端用戶對(duì)移動(dòng)數(shù)據(jù)業(yè)務(wù)的需求日益強(qiáng)烈,運(yùn)營(yíng)商也希望能充分利用目前的設(shè)備提供更多的增值服務(wù)。但隨著人們對(duì)信息需求的日益豐富,簡(jiǎn)單的文字、圖片信息不能滿足用戶的需求,擁有更真切、豐富的用戶體驗(yàn)的多媒體應(yīng)用,才是移動(dòng)業(yè)務(wù)發(fā)展的必然趨勢(shì)。充分利用移動(dòng)互聯(lián)網(wǎng)應(yīng)用和多媒體技術(shù),隨時(shí)隨地捕捉第一手資料,不僅豐富了移動(dòng)互聯(lián)網(wǎng)的信息內(nèi)容,更迎合了人們?nèi)赵龅男侣劽舾行院蜕鐣?huì)責(zé)任感。但是當(dāng)前移動(dòng)互聯(lián)網(wǎng)上的圖像數(shù)量迅速增長(zhǎng),雖然大量用戶被移動(dòng)互聯(lián)網(wǎng)中豐富的圖像信息所吸引,卻很難在海量數(shù)據(jù)環(huán)境下找到其真正需要的信息。另一方面,近年來(lái)移動(dòng)互聯(lián)網(wǎng)上色情、暴力、反動(dòng)等不良信息的傳播、泛濫,嚴(yán)重地?cái)牧松鐣?huì)風(fēng)氣,極大地影響了廣大青少年的健康成長(zhǎng),成為國(guó)家網(wǎng)絡(luò)安全的巨大隱患。如何加強(qiáng)信息監(jiān)督管理、保障信息安全,已經(jīng)成為世界各國(guó)共同面對(duì)的難題和挑戰(zhàn)。
可見(jiàn),移動(dòng)互聯(lián)網(wǎng)對(duì)網(wǎng)絡(luò)圖像搜索技術(shù)、不良圖像信息的發(fā)現(xiàn)技術(shù)需求迫切。從運(yùn)營(yíng)商運(yùn)營(yíng)管理的角度出發(fā),需要對(duì)網(wǎng)絡(luò)上傳輸?shù)膱D像內(nèi)容進(jìn)行審核,降低網(wǎng)內(nèi)系統(tǒng)中存儲(chǔ)非法違規(guī)信息的風(fēng)險(xiǎn)、依法打擊淫穢色情及政治性內(nèi)容。2010年中國(guó)移動(dòng)制訂了《中國(guó)移動(dòng)通信網(wǎng)絡(luò)不良信息監(jiān)測(cè)系統(tǒng)工程技術(shù)規(guī)范書》、《中國(guó)移動(dòng)通信多媒體內(nèi)容監(jiān)測(cè)系統(tǒng)設(shè)備規(guī)范》等系列規(guī)范,在其中明確了不良信息對(duì)圖像的初步發(fā)現(xiàn)和審核的技術(shù)要求和分類方式。從用戶的角度出發(fā),需要有準(zhǔn)確高效的圖像搜索工具,將現(xiàn)實(shí)生活和虛擬世界更加緊密的聯(lián)系在一起,獲得更好的移動(dòng)互聯(lián)網(wǎng)體驗(yàn)。而這兩者都需要先進(jìn)的圖像識(shí)別技術(shù)的支撐。
事實(shí)上,圖像內(nèi)容帶給人的信息是多方面的,沒(méi)有人僅借助標(biāo)號(hào)來(lái)回憶場(chǎng)景,對(duì)圖像信息的識(shí)別需要根據(jù)圖像所表達(dá)的內(nèi)容來(lái)進(jìn)行,因此,人們提出了基于內(nèi)容的圖像識(shí)別技術(shù)。
如圖1所示,圖像識(shí)別技術(shù)的第一步是底層特征提取,包括各種層次的視覺(jué)特征、文本特征、元數(shù)據(jù)等;第二步是建立對(duì)應(yīng)單特征的識(shí)別模型,建立模型的方法通常有神經(jīng)網(wǎng)絡(luò)、高斯混合模型、隱馬爾可夫模型、支持向量機(jī)等;第三步是信息融合,綜合各種特征、模態(tài),產(chǎn)生較為可靠的結(jié)果。
圖1 圖像識(shí)別通用框架
針對(duì)互聯(lián)網(wǎng)行業(yè)應(yīng)用來(lái)說(shuō),圖像搜索技術(shù)和圖像過(guò)濾技術(shù)正是圖像識(shí)別技術(shù)的應(yīng)用本質(zhì)。換句話說(shuō),圖像識(shí)別技術(shù)是核心,圖像搜素和圖像過(guò)濾是基于該技術(shù)的高層應(yīng)用。在傳統(tǒng)的搜索領(lǐng)域,搜索和過(guò)濾技術(shù)本質(zhì)上是一家的。同理,在如今的移動(dòng)互聯(lián)網(wǎng)中,圖像搜索和圖像過(guò)濾也可以理解為是一家的,都是圖像識(shí)別核心技術(shù)延伸的應(yīng)用工具。
圖像搜索系統(tǒng)一般特征抽取模塊和瀏覽查詢模塊。兩大模塊除了需要解決圖像數(shù)據(jù)模型的設(shè)計(jì)與表示、圖像特征的提取與表達(dá)、查詢結(jié)果的表達(dá)以及系統(tǒng)性能的分析和比較之外,還應(yīng)該著重解決相似性計(jì)算,高維索引技術(shù)。
國(guó)外,眾多大牌IT公司已經(jīng)有商用的移動(dòng)互聯(lián)網(wǎng)搜索產(chǎn)品投向市場(chǎng),最具代表性的是Google的“景物搜索”試驗(yàn)性產(chǎn)品 Goggles,它可以對(duì)用戶上傳的圖片內(nèi)容進(jìn)行分析,可辨認(rèn)書籍、音樂(lè)專輯封面、繪畫、地標(biāo)、場(chǎng)所和企業(yè)商標(biāo)圖案等。Amazon公司開(kāi)發(fā)的Snaptell,Idée公司開(kāi)發(fā)的TinEye,Nokia公司開(kāi)發(fā)的Point&Find等都是此類應(yīng)用。
國(guó)內(nèi)方面,阿里巴巴集團(tuán)投資的圖片搜索網(wǎng)站“淘淘搜”日前已經(jīng)上線,目前只是針對(duì)部分女裝類目進(jìn)行搜索;百度的新產(chǎn)品“識(shí)圖搜索”(目前處于內(nèi)測(cè)階段:shitu.baidu.com),也已經(jīng)上市。但在技術(shù)成熟度上與國(guó)外產(chǎn)品有較大差距,也沒(méi)有出現(xiàn)適合在智能手機(jī)上使用的版本。
圖像過(guò)濾,就是根據(jù)需要過(guò)濾的圖像,定義其特征,并用顏色分析、紋理識(shí)別、形狀檢測(cè)提取其多方面特征用于建模,產(chǎn)生合理的分類器,并用該分類器對(duì)新圖像進(jìn)行檢驗(yàn)分類,同時(shí)運(yùn)用人工智能的自學(xué)能力方法或其它交互方式進(jìn)一步完善分離器。
目前,國(guó)內(nèi)外的一些公司與研究機(jī)構(gòu)開(kāi)發(fā)出了一些原型系統(tǒng)。如Exotrope公司的BAIR,該軟件根據(jù)肌膚色調(diào)和形狀特征利用神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)色情圖像的過(guò)濾。Clearswift公司的圖像識(shí)別軟件PORNsweeper,該軟件先檢測(cè)圖像中肌膚色調(diào)的含量,在利用人臉識(shí)別技術(shù)來(lái)判斷是否為色情圖像。
近年來(lái),國(guó)內(nèi)有些單位也開(kāi)展了圖像內(nèi)容過(guò)濾的研究工作。清華大學(xué)、哈工大、上海交通大學(xué)、浙江大學(xué)都做出了一些這方面的科研成果,但是很多是原型系統(tǒng)。
在國(guó)內(nèi)敏感圖像產(chǎn)品和系統(tǒng)應(yīng)用方面,金惠科技的圖像過(guò)濾算法對(duì)圖像正確識(shí)別率達(dá)到90%以上,對(duì)視頻正確識(shí)別率達(dá)到85%以上,而兩者的誤判率均低于10%,具有國(guó)內(nèi)外的領(lǐng)先水平。
上述一些在用和將上線的IT產(chǎn)品,不論是圖像搜索,還是圖像過(guò)濾,其核心都是要對(duì)圖像內(nèi)容進(jìn)行精確的描述,達(dá)到人對(duì)圖像進(jìn)行自然理解的程度。為了克服語(yǔ)義鴻溝,處理大規(guī)模的圖像數(shù)據(jù),現(xiàn)在圖像識(shí)別技術(shù)的發(fā)展趨勢(shì)是建立在基于視覺(jué)詞典模型的基礎(chǔ)上。
視覺(jué)詞典的概念的思想是將文本檢索的方法用于目標(biāo)識(shí)別。視覺(jué)詞典是一部詞典,通過(guò)對(duì)局部關(guān)鍵點(diǎn)描述子特征(例如K均值)進(jìn)行聚類生成,它的每個(gè)單詞代表關(guān)鍵點(diǎn)的一類。圖像和詞典間的映射通過(guò)賦予每個(gè)關(guān)鍵點(diǎn)距離最近的視覺(jué)單詞來(lái)完成的。圖2描述了視覺(jué)詞典生成和用視覺(jué)詞典描述圖像的過(guò)程。首先提取關(guān)鍵點(diǎn)和它們的特征描述子。然后對(duì)描述子聚類生成視覺(jué)詞典,反過(guò)來(lái)用生成的視覺(jué)詞典頻次直方圖向量表示圖像。視覺(jué)詞典頻次直方圖向量的比較來(lái)度量圖像間的相似度。圖像的匹配可以用經(jīng)典的詞頻-逆文檔頻率(term frequency-inverse document frequency, tf-idf)文檔向量空間模型來(lái)實(shí)現(xiàn)。統(tǒng)計(jì)學(xué)上,圖像也可表示成基于視覺(jué)詞典的平滑概率分布。比較兩幅圖像可以轉(zhuǎn)換成基于視覺(jué)關(guān)鍵詞的向量或分布的比較,也可以依據(jù)此概率分布對(duì)特定圖像類型進(jìn)行建模?;谶@樣的設(shè)計(jì),圖像搜索和圖像過(guò)濾均能在視覺(jué)詞典模型上設(shè)計(jì)相應(yīng)的算法。
圖2 視覺(jué)詞典生成過(guò)程以及圖像表示
雖然視覺(jué)詞典方法由于其突出性能而日益受到研究人員重視,但是它也存在一些開(kāi)放性的問(wèn)題。它存在的第一個(gè)問(wèn)題是視覺(jué)單詞的同義性和歧義性問(wèn)題。在視覺(jué)詞典生成階段,現(xiàn)行的做法主要是采用K-Means算法對(duì)關(guān)鍵點(diǎn)聚類而得到的。由于K-Means聚類存在聚類中心分布不均勻特性,即在數(shù)據(jù)點(diǎn)密集空間得到的聚類中心偏多,而在數(shù)據(jù)點(diǎn)稀疏區(qū)域得到聚類偏少,就會(huì)導(dǎo)致有多個(gè)視覺(jué)單詞描繪同一特征點(diǎn)的現(xiàn)象,即視覺(jué)詞匯的同義性。況且,出現(xiàn)頻繁的特征點(diǎn)就好比如文本中“的”、“是”、“了”等經(jīng)常出現(xiàn)的詞匯,往往信息量不大,如果分配較多的單詞來(lái)描繪這類特征點(diǎn)的話,顯然意義很小。此外,在K-Means聚類時(shí),遠(yuǎn)離聚類中心的數(shù)據(jù)點(diǎn)會(huì)使聚類中心產(chǎn)生偏移,導(dǎo)致視覺(jué)詞匯的歧義性,即同一個(gè)視覺(jué)詞匯描述的特征點(diǎn)之間存在很大差異的現(xiàn)象。第二個(gè)問(wèn)題是算法時(shí)間復(fù)雜度較高。在視覺(jué)詞匯直方圖構(gòu)建階段,現(xiàn)行方法一般采取硬比對(duì)方式將圖像幀的局部特征點(diǎn)量化到視覺(jué)詞典中與之最近的單詞上去。顯然,視覺(jué)詞匯直方圖構(gòu)建的時(shí)間將隨著視覺(jué)詞典規(guī)模增大而線性增加,當(dāng)詞典規(guī)模過(guò)大時(shí),將很難實(shí)現(xiàn)實(shí)時(shí)的圖像識(shí)別。