王樞昊,甘霖,蔡超
(海峽出版發(fā)行集團(tuán)有限責(zé)任公司 數(shù)字出版中心,福建 福州 350001)
隨著出版行業(yè)數(shù)字化轉(zhuǎn)型的加速發(fā)展,出版社對數(shù)字閱讀產(chǎn)品的生產(chǎn)投入逐年加大,加上移動互聯(lián)網(wǎng)技術(shù)的高速發(fā)展和智能移動終端的普及。以二維碼為入口的數(shù)字閱讀形態(tài)越發(fā)常態(tài)化,特別是近年來興起的以知識服務(wù)為理念的付費(fèi)閱讀浪潮,讓出版單位更加意識到通過二維碼接入數(shù)字閱讀已被現(xiàn)代主流讀者群體所接受和認(rèn)可。但是在內(nèi)容生產(chǎn)端,由于出版單位對二維碼及其關(guān)聯(lián)資源的生產(chǎn)和投放缺乏有效的技術(shù)管理,使其在數(shù)字閱讀領(lǐng)域的應(yīng)用存在一些弊端:一是紙質(zhì)出版物在市場上長時間流通,而出版單位缺乏專業(yè)、持續(xù)的互聯(lián)網(wǎng)內(nèi)容運(yùn)營,二維碼失效的問題相當(dāng)普遍;二是二維碼應(yīng)用過程中因網(wǎng)絡(luò)技術(shù)問題導(dǎo)致的內(nèi)容不安全時有發(fā)生,如域名盜用、DNS污染以及服務(wù)器攻擊等造成關(guān)聯(lián)內(nèi)容被篡改,出現(xiàn)信息偏差,誤導(dǎo)讀者;三是出版單位投放二維碼的行為比較隨意,通常只是解決一時之需,大量存在對已投放的二維碼管理缺失,關(guān)聯(lián)內(nèi)容資源存放過于分散,用戶掃碼行為無法跟蹤等情況。因此本文將針對出版資源管理與服務(wù)的特點(diǎn),提出基于二維碼及其活碼的內(nèi)容安全分發(fā)的系統(tǒng)解決方案。
二維碼可以分為堆疊式(行排式)二維條碼和矩陣式二維條碼。堆疊式(行排式)二維條碼形態(tài)上是由多行短截的一維條碼堆疊而成;矩陣式二維條碼以矩陣的形式組成,在矩陣相應(yīng)元素位置上用“點(diǎn)”表示二進(jìn)制“1”,用“空”表示二進(jìn)制“0”,“點(diǎn)”和“空”的排列組成代碼。[1]
圖1 常見的二維碼
二維碼中的QR碼,最早是由日本Denso公司于1994年9月研制的一種矩陣二維碼符號,它具有一維條碼所具有的識別功能以及其它二維條碼所具有的信息容量大、可靠性高、可表示漢字及圖象等各種文字信息、保密防偽性強(qiáng)等優(yōu)點(diǎn)。QR碼的“QR”是Quick Response 的縮寫。這種二維碼能夠快速讀取,與之前的條形碼相比,QR 碼能存儲更豐富的信息,包括對文字、URL 地址和其他類型的數(shù)據(jù)加密。QR碼具有很高的糾錯能力,所以QR碼圖像采集設(shè)備甚至能直接對液晶屏幕上顯示的QR圖像進(jìn)行掃描、識別。[2]
QR碼呈正方形,只存在黑色和白色兩種模塊。在正方形的4個角存在3個,印有較小的類似“回”字的的圖案,分別位于左上、右上、和左下角,如圖2所示。這 3個圖像的主要功能是為了幫助解碼軟件快速的定位二維碼的圖像區(qū)域,使得圖像采集器不需要精確的對準(zhǔn)QR碼,無論以任何角度掃描,QR碼仍可正確被讀取識別。
我們目前經(jīng)常見到的二維碼都是QR碼,因其快速響應(yīng)的特征已被廣泛使用,尤其是在移動互聯(lián)網(wǎng),二維碼更加被稱之為:新時代的“流量的入口”。所以我們習(xí)慣上把QR碼直接稱為二維碼。正因?yàn)榫哂猩鲜龅奶匦裕F(xiàn)在二維碼已經(jīng)被廣泛的應(yīng)用于包括圖書在內(nèi)的出版物中,成為實(shí)體商品連接網(wǎng)絡(luò)空間的橋梁和入口。
圖2 QR碼的組成部分
圖3 QR碼和一維碼的比較
當(dāng)前隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及二維碼識別算法的不斷優(yōu)化,出版物附帶光盤進(jìn)行數(shù)字內(nèi)容出版發(fā)行的方式已逐步被利用二維碼外鏈數(shù)字內(nèi)容進(jìn)行出版的模式所替代。將二維碼印刷在書、刊、報紙等出版物上分發(fā)出去?,F(xiàn)代讀者通過使用微信,QQ,支付寶等高裝機(jī)率應(yīng)用(Apps)的二維碼掃描功能,可以省去在移動設(shè)備上輸入URL地址的繁瑣過程,從而降低觀看數(shù)字內(nèi)容的門檻,真正實(shí)現(xiàn)的“一鍵觀看”。但是另一方面,出版社編輯缺乏計算機(jī)專業(yè)知識和技能,將出版物配套的數(shù)字內(nèi)容資源投放到互聯(lián)網(wǎng)上,并給予讀者良好的數(shù)字閱讀體驗(yàn)一直是一個難題。雖然市場上不乏有百度云、七牛云等公共云存儲運(yùn)營商,提供了較為豐富的網(wǎng)絡(luò)存儲服務(wù),但是對于一般的出版社編輯來說,仍舊存在不小的技術(shù)障礙。同時隨著數(shù)字內(nèi)容資源的不斷增加,出版單位對分散網(wǎng)絡(luò)資源的管理問題日益突出,加上出版社編輯普遍缺乏對已投放二維碼和數(shù)字資源的管理和運(yùn)營意識,因此研究和架構(gòu)業(yè)務(wù)針對性強(qiáng)的輔助服務(wù)系統(tǒng),為出版單位提供一套管理解決方案就顯得尤為迫切。
鑒于出版行業(yè)在數(shù)字內(nèi)容資源投放方面存在的上述問題,結(jié)合新聞出版廣電總局對出版業(yè)務(wù)的有關(guān)要求,我們提出了研發(fā)一套統(tǒng)一基于二維碼分發(fā)的出版資源管理與服務(wù)系統(tǒng)。該系統(tǒng)主要面向出版單位編輯人員,為他們提供便捷的數(shù)字內(nèi)容資源二維碼生成及管理解決方案。同時負(fù)責(zé)內(nèi)容審核及內(nèi)容運(yùn)營的人員可及時對出現(xiàn)問題的二維碼進(jìn)行處理。該系統(tǒng)按照出版業(yè)務(wù)特點(diǎn)解決出版物配套數(shù)字內(nèi)容資源的管理問題,簡化了編輯人員的操作復(fù)雜度,緩解了出版資源分散存儲的問題,將出版相關(guān)的圖、文、影、音、網(wǎng)絡(luò)試讀和互動數(shù)據(jù)進(jìn)行了有效組織。每項(xiàng)資源均能獨(dú)立訪問,并生成訪問二維碼,供出版印刷使用。此外,針對傳統(tǒng)出版物用戶畫像模糊的問題,系統(tǒng)增加了掃碼統(tǒng)計和分析模塊,可以快速獲取讀者的信息,為出版單位的社群運(yùn)營和內(nèi)容運(yùn)營提供精準(zhǔn)的數(shù)據(jù)支撐。
研發(fā)系統(tǒng)不僅提供出版資源存儲后生成固定二維碼的功能,還提供根據(jù)統(tǒng)一資源定位符(URL)生成“活碼”的特色功能。對于固定二維碼鏈接資源的管理,我們采用賬號實(shí)名制,做到“操作有痕,有跡可尋”,即編輯需要實(shí)名開通賬號才能使用,有助于出版單位發(fā)現(xiàn)問題內(nèi)容,查清問題根源。對于通過活碼跳轉(zhuǎn)的內(nèi)容管理,我們采用網(wǎng)頁抓取,網(wǎng)頁正文提取,關(guān)鍵詞提煉及敏感詞掃描等自然語言綜合分析方法,定時掃描“活碼”對應(yīng)的內(nèi)容資源。發(fā)現(xiàn)不安全的內(nèi)容時,責(zé)任編輯或內(nèi)容管理員能夠便捷地“切斷”活碼與該內(nèi)容之間的關(guān)聯(lián),以降低影響。
系統(tǒng)數(shù)據(jù)資源整體邏輯關(guān)系與一般的書目管理系統(tǒng)類似,按照圖書分類,書目信息,章節(jié)內(nèi)容,資源信息及輔助功能進(jìn)行建設(shè),參見圖4系統(tǒng)模塊示意圖。系統(tǒng)業(yè)務(wù)數(shù)據(jù)資源與用戶組及權(quán)限關(guān)聯(lián),即相同角色之間產(chǎn)生的數(shù)據(jù)互不可見,上一級用戶對下屬用戶的數(shù)據(jù)可視。出版物分類由系統(tǒng)管理員進(jìn)行操作,普通編輯沒有修改權(quán)限,編輯可以增加、刪除及修改歸屬于本人創(chuàng)建的相關(guān)內(nèi)容,包括書目信息、章節(jié)內(nèi)容、二維碼以及圖文影音等附屬數(shù)字資源。
圖4 系統(tǒng)的模塊示意圖
3.3.1 活碼原理
簡單來說,從普通二維碼到活碼,猶如就是古代刻板印刷術(shù)到活字印刷術(shù)的飛躍。活碼是二維碼的一種高級形態(tài),通過短網(wǎng)址指向保存在云端的信息?;畲a可以看成是系統(tǒng)對原資源的一種快捷表達(dá)方式。這樣將內(nèi)容存儲在云端,可以隨時更新、可跟蹤掃描、統(tǒng)計?;畲a可以表達(dá)圖片、視頻、大量文字內(nèi)容,同時圖案簡單易掃。缺點(diǎn)是掃描時必須聯(lián)網(wǎng)?;畲a比普通二維碼更靈活,同一個二維碼圖案可以變更不一樣的內(nèi)容,從宣傳推廣或者記錄保存的長遠(yuǎn)角度看,能適應(yīng)及時更新的需求。[3]
3.3.2 活碼應(yīng)用及構(gòu)建
目前活碼的應(yīng)用非常廣泛,特別是隨著網(wǎng)絡(luò)接入條件地不斷改善,隨時隨地接入網(wǎng)絡(luò)已不再困難。在出版行業(yè)中,活碼系統(tǒng)不僅適用于需要高可靠外鏈資源的情況,而且能夠彌合出版物與外鏈數(shù)字資源生產(chǎn)制作時間不同步的問題。
在研發(fā)系統(tǒng)中,活碼管理模塊與其他出版資源管理一致,配合短網(wǎng)址生成算法就可以將內(nèi)容資源生成“活碼”。
圖5 活碼生成編輯器
3.3.3 “活碼”內(nèi)容的監(jiān)控
針對“活碼”內(nèi)容關(guān)聯(lián)可變性較大的特性,結(jié)合出版業(yè)務(wù)要求,我們提出了使用網(wǎng)頁(內(nèi)容)抓取與內(nèi)容分析以及網(wǎng)頁縮略圖人工抽樣核查的方式,提升外鏈內(nèi)容的可靠性及可用性。研發(fā)系統(tǒng)的內(nèi)容分析模塊由網(wǎng)頁正文提取、關(guān)鍵字提煉和敏感詞掃描3個核心組件構(gòu)成。具體如下:
1.網(wǎng)頁正文提取中間件能夠?qū)崿F(xiàn)網(wǎng)頁內(nèi)容的精確分析,自動分辨出網(wǎng)頁是屬索引頁面還是內(nèi)容頁面。對于內(nèi)容頁面,能夠高效剔除HTML標(biāo)簽和導(dǎo)航、廣告等干擾性文字,返回實(shí)際有價值的正文內(nèi)容。
2.關(guān)鍵字提煉應(yīng)用了基于語義分析統(tǒng)計模型的文章關(guān)鍵詞提取中間件,能夠在全面把握文章主題的基礎(chǔ)上,提取若干個代表文章語義內(nèi)容的詞匯或短語。
3.敏感詞掃描組件,可以設(shè)置一組關(guān)鍵詞,用于自動識別掃描各類敏感詞的變體,如繁體形式、中間加各類干擾噪音。[4]
基于上述組件,我們利用爬蟲技術(shù)獲取活碼關(guān)聯(lián)網(wǎng)址鏈接的全文內(nèi)容,根據(jù)獲取的內(nèi)容提煉核心詞匯,并記錄在該活碼的附屬內(nèi)容中,相當(dāng)于給該活碼內(nèi)容打上了標(biāo)簽。同時獲取的內(nèi)容全文會通過敏感詞掃描處理,檢視是否存在敏感詞。系統(tǒng)發(fā)現(xiàn)涉及不安全內(nèi)容時會提出預(yù)警,并將預(yù)警信息推送給具有相應(yīng)權(quán)限的系統(tǒng)管理員和責(zé)任編輯,具體監(jiān)控流程如圖6所示。除上述機(jī)器篩查以外,研發(fā)系統(tǒng)還具備對活碼映射網(wǎng)址鏈接進(jìn)行快照的功能,定時將活碼對應(yīng)的內(nèi)容網(wǎng)頁快照保存在系統(tǒng)中,供管理人員快速檢視。該系統(tǒng)通過機(jī)器篩查和人工核查相結(jié)合的方式,大大增強(qiáng)了數(shù)字出版內(nèi)容的可控性,提升了數(shù)字內(nèi)容審校效率。
圖6 系統(tǒng)對活碼監(jiān)控流程
出版資源管理與服務(wù)系統(tǒng)已在多家出版單位上線運(yùn)行,后續(xù)我們計劃將該系統(tǒng)與現(xiàn)行的出版審校內(nèi)部業(yè)務(wù)系統(tǒng)進(jìn)行對接,進(jìn)一步理順業(yè)務(wù)關(guān)系,優(yōu)化系統(tǒng)功能,將審校完成的相關(guān)資源自動推送至研發(fā)系統(tǒng),同步自動返回二維碼,以減少編輯上稿操作。通過技術(shù)改良,一方面可以減輕編輯的工作量,提升用戶操作便捷度,另一方面延伸了出版生產(chǎn)管理,出版內(nèi)容從源頭到投放全流程均納入管理,進(jìn)一步提升的內(nèi)容生產(chǎn)安全。
通過對二維碼及其活碼特點(diǎn)的應(yīng)用,結(jié)合出版單位數(shù)字內(nèi)容資源相關(guān)的業(yè)務(wù)實(shí)際需求,我們組織研發(fā)了出版資源管理與服務(wù)系統(tǒng),為出版單位二維碼和數(shù)字內(nèi)容資源投放、統(tǒng)一管理提供了技術(shù)解決方案。該系統(tǒng)建立了對失效內(nèi)容快速修復(fù)、變更的機(jī)制,加強(qiáng)了內(nèi)容資源投放的安全性,完善了資源訪問的統(tǒng)計與分析,這有利于出版單位建立用戶畫像,提升數(shù)字內(nèi)容運(yùn)營能力。系統(tǒng)經(jīng)出版單位試用,并逐步改進(jìn),已成為促進(jìn)出版單位發(fā)展新興出版業(yè)務(wù)的重要支撐。