■文/楊建方
淺談基于圖像識別技術(shù)的云報(bào)紙
■文/楊建方
在信息技術(shù)飛速發(fā)展的今天,互聯(lián)網(wǎng)新媒體作為一種新興傳播方式,如雨后春筍般迅速崛起?;ヂ?lián)網(wǎng)新媒體憑借著多元化、及時(shí)性、快速性、互動性、廣泛性等特點(diǎn),不斷沖擊傳統(tǒng)紙媒的發(fā)展。本文主要介紹圖像識別技術(shù)如何為傳統(tǒng)紙媒與互聯(lián)網(wǎng)新媒體牽線搭橋,使報(bào)紙的靜態(tài)內(nèi)容翩舞靈動,使有限的篇幅擴(kuò)充完善,使偏角的廣告立體呈現(xiàn),衍生出全新的商業(yè)模式。
圖像識別;云報(bào)紙;傳統(tǒng)紙媒;融合;應(yīng)用
在互聯(lián)網(wǎng)媒體異軍突起、傳統(tǒng)紙媒飽受沖擊的情況下,我們是否需要摒棄傳統(tǒng)紙媒,轉(zhuǎn)戰(zhàn)新興媒體呢?答案是否定的。在新媒體時(shí)代,各種信息良莠不齊,真假難辨,而紙媒多年發(fā)展的職業(yè)品性,使其對真實(shí)性的堅(jiān)守近乎苛刻。同時(shí)傳統(tǒng)紙媒發(fā)展至今,往往具有強(qiáng)大的采編隊(duì)伍作為支撐,而新興媒體雖有海量性、廣泛性等特點(diǎn),但其在原創(chuàng)性、深入報(bào)道上較傳統(tǒng)紙媒占劣勢。
綜合傳統(tǒng)紙媒和互聯(lián)網(wǎng)媒體的優(yōu)勢,兩者融合發(fā)展迫在眉睫?,F(xiàn)今大多數(shù)傳統(tǒng)紙媒仍然是將付費(fèi)閱讀、廣告的模式從紙上搬到網(wǎng)上,為了解決這種純粹的文字?jǐn)?shù)字化現(xiàn)狀,下面來介紹一下兩者深度融合的領(lǐng)路人之一(圖像識別技術(shù))及其融合新事物(云報(bào)紙)的概要和應(yīng)用。
1.1 什么是圖像識別技術(shù)
圖像識別技術(shù)是指通過圖像掃描、采集平臺獲取圖像信息,對圖像進(jìn)行預(yù)處理,去除無關(guān)信息,將原始圖像轉(zhuǎn)換成適于計(jì)算機(jī)可處理的圖像特征,最終通過對特征的計(jì)算、比較和分析,判斷出圖像的狀態(tài)或本質(zhì),得到最終的輸出結(jié)果。
1.1.1 圖像信息獲取
圖像信息獲取是指通過掃描圖像或捕捉屏幕圖像的方法,將原始圖像用圖像矩陣中的像素點(diǎn)表示,每個(gè)像素用紅(R)、綠(G)、藍(lán)(B)三基色的8位灰度值(0-255)表示并存儲。其中捕捉屏幕圖像包括鍵盤捕捉、軟件捕捉、視頻捕捉、相機(jī)拍攝、攝像機(jī)拍攝、網(wǎng)絡(luò)下載、制圖工具等。
1.1.2 圖像預(yù)處理
圖像預(yù)處理主要是為了消除圖像中的無關(guān)信息(干擾、噪聲、差異等),將原始圖像轉(zhuǎn)換成適于計(jì)算機(jī)處理的圖像特征??傮w來講,圖像預(yù)處理主要包括圖像的增強(qiáng)和圖像的復(fù)原[1]。圖像增強(qiáng)技術(shù)是指在圖像處理過程中將人們感興趣的圖像特征有選擇性地突顯出來,并削減或去除無關(guān)的信息,它主要包括灰度調(diào)整、平滑減噪、圖像銳化等。
1.1.3 圖像特征提取、分析
圖像特征提取旨在對圖像信息進(jìn)行整理、分析、歸納,提取能準(zhǔn)確反映圖像本質(zhì)的特征值,同時(shí)最大限度地簡化數(shù)據(jù),最終使這些特征值具備精簡性、完整性、準(zhǔn)確性、可測性。1.2 云報(bào)紙概述
云報(bào)紙是指利用圖像識別技術(shù),讀者通過智能移動終端設(shè)備拍攝報(bào)紙圖片、版面、標(biāo)題等信息的方式,打開云端對應(yīng)的多媒體互動信息。
2.1 融合現(xiàn)狀和缺陷
隨著互聯(lián)網(wǎng)的發(fā)展,人類在生產(chǎn)生活過程中,除了身臨其境的現(xiàn)實(shí)世界以外,還被虛擬世界所包圍,傳統(tǒng)紙媒作為現(xiàn)實(shí)世界的成員之一,如何改變兩者之間格格不入的窘境?當(dāng)下大部分媒體采用版面刊登超鏈接二維碼的方式,有些媒體還采用交互式報(bào)紙、采寫個(gè)性化報(bào)紙等方式,試圖填涂兩者之間浩瀚的鴻溝,然如泥神過江,自身難保。
二維碼不屬于報(bào)紙版面內(nèi)容,也不屬于廣告、新聞圖片范疇,它是強(qiáng)加給報(bào)紙的版面“補(bǔ)丁”,它雖然給讀者提供了豐富報(bào)紙內(nèi)容的“傳送門”,卻影響了報(bào)紙版面的美觀性和直觀性。
為了解學(xué)生對三稿式寫作教學(xué)模式的認(rèn)可度,明確他們的真實(shí)意見和態(tài)度,筆者使用李克特5級量表設(shè)計(jì)了調(diào)查問卷。問卷分為兩大部分,分別調(diào)研學(xué)生對句酷批改網(wǎng)作文反饋和三稿式寫作教學(xué)模式的態(tài)度和看法。調(diào)查于第十六周后測結(jié)束后的二十分鐘內(nèi)進(jìn)行,共收回有效問卷39份。之后筆者依據(jù)目的抽樣原則選取6名同學(xué)(優(yōu)秀、中等和較差各兩名)進(jìn)行了訪談。
交互式報(bào)紙以其昂貴的價(jià)格、復(fù)雜的工藝和未能解決批量生產(chǎn)等原因,使其在融合之路上“未引先迷”。
采寫個(gè)性化報(bào)紙需要復(fù)雜的技術(shù)、大量的采編人員,且市場小眾化、印刷復(fù)雜化。另外,讀者必須提前預(yù)告興趣內(nèi)容,使讀者和采編人員需要大量的時(shí)間開銷。
2.2 融合措施介紹——淺析圖像識別技術(shù)在云報(bào)紙平臺中的運(yùn)用
讀者使用智能終端設(shè)備(智能手機(jī)、PC等)的圖像識別工具,對傳統(tǒng)報(bào)紙、數(shù)字報(bào)紙等的圖片、版面、文字等進(jìn)行掃描或捕捉,將獲取的區(qū)域以圖像形式在終端處理和識別,最終得到訪問云報(bào)紙內(nèi)容的目的。本文以報(bào)紙核心內(nèi)容之一的文字為例,對于圖像識別技術(shù)在云報(bào)紙中如何穿針引線,發(fā)表一下個(gè)人對云報(bào)紙平臺的淺薄理解,如圖1為云報(bào)紙平臺文字識別結(jié)構(gòu)圖。
2.2.1 數(shù)據(jù)采集/存儲模塊
該模塊完成對圖像的獲取工作,通過對紙質(zhì)報(bào)紙掃描,或通過爬蟲技術(shù),對數(shù)字報(bào)紙定時(shí)采集和存儲,從而獲取研究樣本。存儲中由于有圖像文件需要處理,所以結(jié)合使用數(shù)據(jù)庫和文件系統(tǒng)的形式,采集的圖像直接保存在文件系統(tǒng)里,并利用數(shù)據(jù)庫存儲圖像的路徑、識別結(jié)果等,為生成字典打下基礎(chǔ)。訓(xùn)練樣本模塊與分類識別模塊描述類似,這里不再展開。
圖1 云報(bào)紙平臺文字識別結(jié)構(gòu)圖
2.2.2 圖像預(yù)處理模塊
該模塊主要完成對圖像的閾值分割(灰度化、二值化等)、邊緣提取和形態(tài)學(xué)處理三個(gè)環(huán)節(jié),然后利用提取出來的邊緣信息計(jì)算文字的形狀特征。
Gabor變換屬于加窗傅立葉變換,Gabor函數(shù)可以在頻域不同尺度、不同方向上提取相關(guān)特征。另外Gabor函數(shù)與人眼的生物作用相仿,被廣泛應(yīng)用于圖像紋理識別上。
該模塊將歸一化后的圖像與Gabor濾波器卷積從而得到Gabor特征。在圖像質(zhì)量較差的情況下,為了提高平臺的識別率,可引入一種特征加權(quán)的技術(shù)。此方法根據(jù)特征矢量中鄰近分量的離散程度對其本身進(jìn)行加權(quán),從而使離散程度相對較小的特征分量在分類中的作用得到加強(qiáng),并且使得離散程度相對較大的特征分量在分類中的作用得到減弱。[2]基本思路是將鄰近的特征抽取子窗口構(gòu)成一個(gè)特征加權(quán)組,在這個(gè)組內(nèi)按照相應(yīng)的規(guī)則,進(jìn)行權(quán)值計(jì)算,最后將求得的權(quán)值作用于該組內(nèi)的各個(gè)特征值。最終將Gabor變換后的結(jié)果輸入分類識別模塊。
2.2.4 分類識別模塊
該模塊使用libSVM或Matlab的SVM作為支持向量機(jī)的實(shí)現(xiàn),這里以libSVM加以闡述。平臺采用libSVM進(jìn)行訓(xùn)練和分類,選取國家一級字庫中的3755個(gè)常用漢字,以及二級字庫和部分低頻漢字,對于每個(gè)漢字,分別用m種常用字體和n個(gè)大小模板參數(shù)生成m×n個(gè)樣本,采用其中的(m-1)×n個(gè)作為訓(xùn)練樣本,提供給SVM作為學(xué)習(xí)過程的輸入向量。學(xué)習(xí)完成后,針對剩下的n個(gè)作為測試樣本的圖像進(jìn)行分類測試,從而實(shí)現(xiàn)文字識別。
3.1 云報(bào)紙?jiān)谝曨l中的應(yīng)用——云播
云播主要包括云直播和云點(diǎn)播兩部分,云會議和云教育是目前云播的重要體現(xiàn)形式。
云會議作為目前最先進(jìn)的通訊技術(shù)之一,使用戶擺脫了時(shí)間、地域的限制,通過網(wǎng)絡(luò)實(shí)現(xiàn)實(shí)時(shí)高清的遠(yuǎn)程會議和交流。云報(bào)紙作為宣傳系統(tǒng)的重要成員組成,以其廣泛傳播的性質(zhì),預(yù)報(bào)會議開始時(shí)間、地點(diǎn)、內(nèi)容、參會人員等,讀者僅需掃描報(bào)紙圖片即可準(zhǔn)時(shí)進(jìn)入會議現(xiàn)場,參會人員表達(dá)建議、媒體人員采寫稿件、受眾讀者發(fā)表評論,如臨其境。3.2云報(bào)紙?jiān)谛侣勚械膽?yīng)用——云新聞
云新聞是指基于云計(jì)算商業(yè)模式應(yīng)用的新聞網(wǎng)絡(luò)平臺服務(wù)。在云平臺上,所有的新聞供應(yīng)商、代理商、策劃服務(wù)商、戰(zhàn)略決策、價(jià)值管理、戰(zhàn)略投資、制作商、行業(yè)協(xié)會、管理機(jī)構(gòu)、行業(yè)媒體、法律結(jié)構(gòu)等都集中整合成資源池,各個(gè)資源相互展示和互動,按需交流,達(dá)成意向,達(dá)到放大企業(yè)的價(jià)值成長與基業(yè)常青的目的,從而降低成本,提高效率。[3]
3.3 云報(bào)紙?jiān)谏缃恢械膽?yīng)用——云社交
云社交的引入,報(bào)紙版面僅需保留姓名、性別、年齡、工作等基本信息即可,讀者一掃,便在云端展示對應(yīng)的詳細(xì)資料(即時(shí)QQ、MSN、微信、手機(jī)號碼等),相較于傳統(tǒng)報(bào)紙的社交更具及時(shí)性、直觀性、便利性、開放性、廣泛性。
3.4 云報(bào)紙?jiān)跔I銷策劃中的應(yīng)用——云營銷
云報(bào)紙下的云營銷(以下簡稱云營銷)依靠云端軟件、報(bào)紙、移動智能終端等主要媒介,通過網(wǎng)絡(luò)把靜態(tài)營銷轉(zhuǎn)換成在智能終端的實(shí)時(shí)參與。比如促銷單位發(fā)放的優(yōu)惠券刊登于報(bào)紙上,用戶掃描后直接進(jìn)入領(lǐng)取兌換,做到“見報(bào)即優(yōu)惠”。
3.5 云報(bào)紙?jiān)趶V告和消費(fèi)中的應(yīng)用——云廣告、云消費(fèi)
云報(bào)紙下的云廣告(以下簡稱云廣告)是基于云計(jì)算商業(yè)模式下的廣告服務(wù)平臺,通過智能終端掃描或捕捉報(bào)紙畫面,將靜態(tài)廣告以靜態(tài)或動態(tài)的多樣化形式呈現(xiàn)。
云報(bào)紙下的云消費(fèi)(以下簡稱云消費(fèi))突破傳統(tǒng)店鋪面積限制、陳列限制、庫存限制,突破時(shí)間與空間限制,突破商品與服務(wù)限制,通過智能終端掃描或捕捉報(bào)紙畫面,將產(chǎn)品或服務(wù)以貨幣形式展示給用戶,用戶通過云支付方式快捷安全地支付。
云廣告、云消費(fèi)作為云營銷的兩個(gè)重要分支,衍生出巨大的商機(jī)。
云報(bào)紙的運(yùn)作需要大量的采編人員和新媒體運(yùn)作人員,大家需要彼此互相支持、通力合作。
圖像識別技術(shù)作為當(dāng)前重要的計(jì)算機(jī)前沿技術(shù)之一,云報(bào)紙僅僅是其應(yīng)用領(lǐng)域的滄海一粟,作為一名報(bào)人,更作為一名技術(shù)工作者,需要更深入地挖掘探索,將其應(yīng)用到報(bào)業(yè)發(fā)展的各個(gè)領(lǐng)域。在互聯(lián)網(wǎng)時(shí)代,運(yùn)用圖像識別技術(shù),使萬物互聯(lián)、萬“像”互聯(lián)。
[1] 孫鳳杰,崔維新,張晉保,張旭東,肖學(xué)東.遠(yuǎn)程數(shù)字視頻監(jiān)控與圖像識別技術(shù)在電力系統(tǒng)中的應(yīng)用[J].電網(wǎng)技術(shù),2005,29(5):81-83.
[2] 汪馭超,曹嘉.基于Matlab分析的Gabor濾波技術(shù)和SVM在交通標(biāo)志識別中的應(yīng)用研究[J]. 公路交通科技(應(yīng)用技術(shù)版),2011(05):265-268.
[3] 萊蕪分類信息.洛陽g3云推廣服務(wù)中心 [EB]/[OL]. www. laiwunews.cn/xinxi/22238336.html,2016-07-09.
(作者單位:紹興日報(bào)社)
TN911.73
A
1671-0134(2017)04-073-02
10.19483/j.cnki.11-4653/n.2017.04.016