姜 波
(中文在線數(shù)字出版集團(tuán)股份有限公司,北京 100006)
近年來(lái),數(shù)字化迅速發(fā)展的同時(shí),面臨日益復(fù)雜的內(nèi)、外部環(huán)境。網(wǎng)絡(luò)上的數(shù)字內(nèi)容良莠不齊;邪教組織利用網(wǎng)絡(luò)文學(xué)、圖片、視頻、音頻等傳播手段,散布歪理邪說(shuō),宣揚(yáng)迷信、色情、暴力、兇殺;分裂主義分子利用互聯(lián)網(wǎng)及移動(dòng)互聯(lián)網(wǎng)媒介,煽動(dòng)民族分裂、危害國(guó)家統(tǒng)一;部分網(wǎng)站傳播大量庸俗、媚俗甚至格調(diào)低下的內(nèi)容而牟取利益。特別是在自媒體時(shí)代的網(wǎng)絡(luò)環(huán)境下,內(nèi)容的體量呈爆發(fā)式增長(zhǎng),內(nèi)容類(lèi)型日益多樣,內(nèi)容生產(chǎn)、傳播方式發(fā)生巨大改變,傳統(tǒng)的內(nèi)容審核、監(jiān)管方式耗費(fèi)的資源在大幅增長(zhǎng),但效率和效力卻難以提高。
目前各大網(wǎng)站的內(nèi)容審核,往往采用人工審核的形式,審核人員對(duì)內(nèi)容信息逐條進(jìn)行分析判斷,不管是效率還是準(zhǔn)確性都難以得到保證。在技術(shù)不斷成熟的今天,自然語(yǔ)言處理、圖像識(shí)別、聲紋識(shí)別等人工智能技術(shù)已在一些領(lǐng)域得到了運(yùn)用。人工智能技術(shù)的引入,可以徹底改變傳統(tǒng)的內(nèi)容審核形式,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)內(nèi)容信息的實(shí)時(shí)審核。無(wú)論是審核效率還是審核精度,都將得到極大提升。運(yùn)用大數(shù)據(jù)分析、人工智能技術(shù)對(duì)數(shù)字內(nèi)容審核、過(guò)濾方式進(jìn)行革新,將高科技與傳統(tǒng)編審機(jī)制進(jìn)行融合,將人力密集、腦力密集向創(chuàng)新密集、技術(shù)密集轉(zhuǎn)型升級(jí),是解決數(shù)字出版行業(yè)內(nèi)容過(guò)濾困境的有效途徑和必然發(fā)展趨勢(shì)。
本文主要介紹對(duì)圖文音視等不同內(nèi)容的審核過(guò)濾,基于大數(shù)據(jù)分析的內(nèi)容過(guò)濾平臺(tái)的流程和關(guān)鍵技術(shù),應(yīng)用于電子書(shū)、網(wǎng)絡(luò)文學(xué)、有聲讀物、影視、短視頻、直播平臺(tái)等數(shù)字出版產(chǎn)品的內(nèi)容審核環(huán)節(jié),成為人工審核的替代工具和重要輔助手段。
基于海量文本特征庫(kù)沉淀,搭配上百種文本識(shí)別策略模型,結(jié)合語(yǔ)義分析技術(shù),通過(guò)智能算法和實(shí)時(shí)更新的樣本庫(kù),可對(duì)文本內(nèi)容進(jìn)行識(shí)別以及色情程度量化,建立一個(gè)可自學(xué)習(xí)的系統(tǒng)。用戶使用系統(tǒng)進(jìn)行文本識(shí)別,系統(tǒng)就可以收集數(shù)據(jù)并不斷自我學(xué)習(xí),而且用戶使用得越多,系統(tǒng)就會(huì)越強(qiáng)大。理論上,經(jīng)過(guò)數(shù)據(jù)的積累以及長(zhǎng)時(shí)間的模型訓(xùn)練,識(shí)別成功率可以接近100%。
智能文本過(guò)濾系統(tǒng)會(huì)在審核服務(wù)結(jié)束后輸出負(fù)面指數(shù),負(fù)面指數(shù)越高,負(fù)面程度越大。
(1)關(guān)鍵詞庫(kù)建立與比對(duì)。關(guān)鍵詞過(guò)濾,也稱關(guān)鍵字過(guò)濾,指網(wǎng)絡(luò)應(yīng)用中,對(duì)傳輸信息進(jìn)行預(yù)先的程序過(guò)濾、嗅探指定的關(guān)鍵字詞,并進(jìn)行智能識(shí)別,檢查網(wǎng)絡(luò)中是否有違反指定策略的行為。
基于智能識(shí)別和關(guān)鍵詞庫(kù),實(shí)時(shí)檢測(cè)過(guò)濾垃圾信息。建立敏感內(nèi)容數(shù)據(jù)庫(kù)系統(tǒng),建立初期,由人工對(duì)敏感數(shù)據(jù)內(nèi)容庫(kù)(圖書(shū)、音頻、視頻等)進(jìn)行整理分類(lèi),形成初步敏感內(nèi)容數(shù)據(jù)庫(kù),主要包括敏感圖片、敏感音視頻、敏感圖書(shū)、敏感詞等,數(shù)據(jù)庫(kù)支持?jǐn)?shù)據(jù)的導(dǎo)入導(dǎo)出,支持人工編輯(增、刪、改、查),詞庫(kù)的建設(shè)與熱點(diǎn)抓取和輿情預(yù)警等分析功能相結(jié)合,敏感內(nèi)容庫(kù)可直接對(duì)待審核內(nèi)容進(jìn)行匹配,同時(shí)審核過(guò)程中發(fā)現(xiàn)的新內(nèi)容可以加入到敏感內(nèi)容庫(kù)。
(2)內(nèi)容語(yǔ)義分析。運(yùn)用自然語(yǔ)言處理(NLP)、數(shù)據(jù)挖掘等技術(shù),根據(jù)文本內(nèi)容的語(yǔ)境等要素分析和理解文本內(nèi)容的含義,并根據(jù)設(shè)定的過(guò)濾標(biāo)準(zhǔn),對(duì)內(nèi)容進(jìn)行合規(guī)性判斷,從而完成對(duì)內(nèi)容的審核過(guò)濾。在相同過(guò)濾標(biāo)準(zhǔn)的情境下,智能文本審核系統(tǒng)與人工審核結(jié)果高度一致,但在數(shù)據(jù)處理量少遠(yuǎn)高于人工,且具備自動(dòng)學(xué)習(xí)、穩(wěn)定輸出等特性。
音頻過(guò)濾系統(tǒng)運(yùn)用語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù),將音頻內(nèi)容轉(zhuǎn)換成文字信息,利用文本過(guò)濾系統(tǒng)進(jìn)行審核過(guò)濾。
主要應(yīng)用場(chǎng)景是針對(duì)語(yǔ)音為主的節(jié)目,比如網(wǎng)絡(luò)音視頻資源審核、網(wǎng)絡(luò)直播、談話聊天、脫口秀、在線廣播等。
音頻過(guò)濾的關(guān)鍵技術(shù)是以下幾種:①語(yǔ)音識(shí)別:準(zhǔn)確識(shí)別音頻的內(nèi)容、事實(shí)并將其轉(zhuǎn)化為文字。②語(yǔ)音預(yù)處理技術(shù):包括音頻編解碼、噪聲消除(軟件處理,硬件解決方案)、語(yǔ)音信號(hào)增強(qiáng)。③語(yǔ)義識(shí)別:對(duì)語(yǔ)音識(shí)別后的文本結(jié)果進(jìn)行分析,結(jié)合上下文,來(lái)判斷真實(shí)意圖。④語(yǔ)種識(shí)別、男女聲識(shí)別:識(shí)別方言、外語(yǔ)語(yǔ)種、發(fā)音人性別識(shí)別。⑤流媒體技術(shù):在實(shí)時(shí)音頻數(shù)據(jù)處理中,需要用到數(shù)據(jù)切分、數(shù)據(jù)緩存。⑥云平臺(tái)技術(shù):云服務(wù)架構(gòu)設(shè)計(jì)、服務(wù)模塊化整合、負(fù)載均衡等。⑦大數(shù)據(jù)技術(shù):海量數(shù)據(jù)存儲(chǔ)、訓(xùn)練樣本自動(dòng)提取、模型訓(xùn)練等。
圖片過(guò)濾系統(tǒng)是基于深度學(xué)習(xí)算法的智能審核方案,圖像識(shí)別引擎根據(jù)圖像的顏色、紋理等特征來(lái)對(duì)敏感圖像進(jìn)行過(guò)濾,這一過(guò)程會(huì)檢測(cè)肢體輪廓等關(guān)鍵特征信息,然后對(duì)檢測(cè)圖像特征與特征庫(kù)模型里面的特征相似度進(jìn)行匹配,給予待測(cè)圖像不同維度的權(quán)重值,以權(quán)重值最高的作為判定結(jié)果輸出。準(zhǔn)確識(shí)別圖片和視頻中的涉黃、涉暴、涉恐、政治敏感、微商廣告以及令人惡心等內(nèi)容,也能從美觀和清晰等維度對(duì)圖像進(jìn)行篩選,幫助規(guī)避審查風(fēng)險(xiǎn)的同時(shí)極大降低人工成本。并且,通過(guò)大數(shù)據(jù)持續(xù)訓(xùn)練、頻繁迭代,不斷構(gòu)建具有高層次表現(xiàn)力的模型,從而對(duì)高復(fù)雜度數(shù)據(jù)形成良好解讀。
主要用于:①色情識(shí)別。依托全網(wǎng)海量?jī)?yōu)質(zhì)數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)技術(shù),智能鑒別色情圖片內(nèi)容,為內(nèi)容產(chǎn)品保駕護(hù)航,遠(yuǎn)離違規(guī)風(fēng)險(xiǎn)。②暴恐識(shí)別。識(shí)別暴力、血腥場(chǎng)景及恐怖組織頭目、旗幟等涉嫌違禁的圖片和視頻內(nèi)容,降低應(yīng)用涉暴、涉恐風(fēng)險(xiǎn)。③政治敏感識(shí)別。識(shí)別政治人物與敏感政治事件場(chǎng)景、旗幟標(biāo)志等,幫助UGC、IM、BBS類(lèi)產(chǎn)品在敏感時(shí)期規(guī)避相關(guān)風(fēng)險(xiǎn)。④廣告檢測(cè)。智能檢測(cè)圖像中的文字、水印、二維碼、條形碼,檢測(cè)各種微商廣告,凈化應(yīng)用。⑤惡心圖像識(shí)別。準(zhǔn)確識(shí)別惡心、令人不適類(lèi)的圖像,包含解剖、昆蟲(chóng)類(lèi)、生理病變、會(huì)引起密集恐懼癥等的圖像。⑥用戶頭像審核。對(duì)用戶頭像進(jìn)行合規(guī)判斷,含人臉檢測(cè),涉黃、涉敏檢測(cè),廣告檢測(cè)等?,F(xiàn)已支持自定義設(shè)置審核規(guī)則。⑦圖像質(zhì)量檢測(cè)。圖像美觀度與清晰度識(shí)別,檢測(cè)圖像色彩、構(gòu)圖及是否存在模糊、失焦、噪點(diǎn)、鋸齒、馬賽克等情況。
視頻過(guò)濾系統(tǒng)為音頻過(guò)濾與圖片過(guò)濾系統(tǒng)兩者的結(jié)合,一方面利用自動(dòng)截屏技術(shù),抓取視頻關(guān)鍵幀,通過(guò)圖片過(guò)濾系統(tǒng)實(shí)現(xiàn)信息過(guò)濾。一方面結(jié)合音頻,綜合分析判斷。
在直播的時(shí)候,每個(gè)直播間會(huì)間隔一秒或幾秒采集一個(gè)關(guān)鍵幀,關(guān)鍵幀會(huì)發(fā)送到圖像識(shí)別引擎,引擎根據(jù)圖像的顏色、紋理等特征來(lái)對(duì)敏感圖像進(jìn)行過(guò)濾?;趫D像識(shí)別的視頻涉黃檢測(cè)準(zhǔn)確率可以達(dá)到99%以上,可以為視頻直播平臺(tái)節(jié)省70%以上的工作量。
該技術(shù)所涵蓋的研究?jī)?nèi)容非常廣泛,從研究成果的表現(xiàn)形式來(lái)說(shuō),可以分為三個(gè)層面:基礎(chǔ)技術(shù)層、應(yīng)用技術(shù)層和產(chǎn)品服務(wù)層。本項(xiàng)目主要運(yùn)用基礎(chǔ)技術(shù)層的技術(shù),運(yùn)用人工智能芯片、機(jī)器學(xué)習(xí)算法技術(shù),使機(jī)器對(duì)文字中的負(fù)面信息的識(shí)別率達(dá)到99%以上,在實(shí)際應(yīng)用中,可取代90%的人力。
基于深度全序列卷積神經(jīng)網(wǎng)絡(luò),將長(zhǎng)段音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù),并運(yùn)用自然語(yǔ)言處理技術(shù),將音頻的審核文字化,審核效率提高90%以上。
依托海量圖片樣本進(jìn)行深度識(shí)別訓(xùn)練,基于深度學(xué)習(xí)技術(shù),可以高效準(zhǔn)確地鑒別色情圖片、性感圖片、涉政圖片、恐暴圖片等,算法識(shí)別準(zhǔn)確率達(dá)到99.9%以上,遠(yuǎn)超人工識(shí)別水平,實(shí)際工作中可以取代90%人力,而且針對(duì)圖片自動(dòng)識(shí)別領(lǐng)域最難的擦邊球界定問(wèn)題,引擎采用了分離圖譜技術(shù),精準(zhǔn)識(shí)別。
本文主要介紹了在網(wǎng)站、廣告、新聞、電商、直播、社交、游戲、視頻、微博、微信等領(lǐng)域和傳播渠道,針對(duì)圖文音視多種類(lèi)型的內(nèi)容應(yīng)用技術(shù)手段進(jìn)行智能審核內(nèi)容把控的安全機(jī)制,為人工審讀提供幫助和輔助工作,極大減少了人工的工作,提高了工作效率。