李明軒
摘 要:隨著信息技術(shù)的應用,人工智能和多媒體技術(shù)已經(jīng)得到了蓬勃發(fā)展,通過現(xiàn)代多媒體技術(shù),人們能夠?qū)σ恍┰境橄蟮氖挛锞哂懈泳唧w的了解,通過人工智能,使得多媒體技術(shù)更加智能化。因此,本文主要闡述了人工智能技術(shù)在數(shù)字多媒體中的應用基礎(chǔ)和應用功能,并對數(shù)字化智能多媒體技術(shù)的進一步發(fā)展進行了展望。
關(guān)鍵詞:人工智能;數(shù)字化;多媒體;信息技術(shù)
中圖分類號:TP37-4 文獻標識碼:A 文章編號:1671-2064(2018)19-0042-02
近些年來隨著人工智能技術(shù)的研究與發(fā)展,人工智能正加速改變各個行業(yè)的發(fā)展方向,這其中多媒體技術(shù)將可能是受益最明顯的應用領(lǐng)域之一。神經(jīng)網(wǎng)絡相關(guān)算法問題得到解決,人工智能技術(shù)在最近幾年得到了快速的發(fā)展,而人工智能技術(shù)在多媒體領(lǐng)域的滲透,使這項技術(shù)獲得了新的突破。當下圖片、長視頻、短視頻、直播、AR等各種媒體形式占據(jù)著互聯(lián)網(wǎng),在媒體內(nèi)容和形式都非常豐富的今天,如何辨識、解析這些內(nèi)容,并通過人工智能反饋是目前所有科技巨頭關(guān)注的焦點,其中人工智能技術(shù)將在圖像識別、語音語義識別、同聲傳譯、字幕識別等多媒體應用場景有更深的應用與挖掘。
本文結(jié)合當下熱點問題—人工智能技術(shù),針對其在多媒體技術(shù)中的應用情況,闡述人工智能技術(shù)在多媒體領(lǐng)域的應用基礎(chǔ)和技術(shù)手段,并從人工智能分類功能和私有化應用角度進行了深入探討,以此拓展對信息技術(shù)的應用理解。
1 數(shù)字化智能多媒體技術(shù)基礎(chǔ)
通俗一點講,人工智能就是大數(shù)據(jù)+機器學習。這跟人的思維很像,當想要獲取知識的話,需要很多的原材料,比如通過觀察外邊的世界,去閱讀各種書籍,或者請教老師、他人等。對于計算機來說也是這樣的原理,它需要獲取大量的數(shù)據(jù)去做訓練,在大量數(shù)據(jù)里邊抽取出有用的信息,構(gòu)成它的知識庫。
1.1 多媒體數(shù)據(jù)是人工智能的基礎(chǔ)
數(shù)據(jù)是人工智能技術(shù)實現(xiàn)的基礎(chǔ),在多媒體技術(shù)平臺中,數(shù)據(jù)處理是如何操作的呢?首先,多媒體對象存儲、直播云、媒體工廠每天會產(chǎn)生大量的原始數(shù)據(jù),比如對象存儲每天新增的圖片會超過10億張,但是這些原始數(shù)據(jù)并不一定是對計算機友好的,例如直播數(shù)據(jù),里面有傳輸?shù)膮f(xié)議、音視頻的交錯,還有各種編碼在里面,這樣的原始刪去數(shù)據(jù)對機器學習來說是不友好的。就需要預處理的平臺對原始數(shù)據(jù)進行處理,譬如圖片壓縮、音頻提取與聲道、采樣率歸一化、視頻抽幀等,這些預處理的功能目前采用鏡像部署的方式在彈性計算平臺上運行計算,目前有的平臺可以做到超過10000個虛擬節(jié)點在做這個事情。
僅有數(shù)據(jù)還是不夠的,需要將數(shù)據(jù)打上標簽,讓計算機知道這個東西是什么,然后它通過數(shù)據(jù)標簽去訓練和學習,認識這一類的事物。目前打標簽有多種形式,如人工標注、關(guān)鍵字主動抓取等,對于難于標注的語音類的數(shù)據(jù),同時也會采用融合第三方的數(shù)據(jù)??梢?,數(shù)據(jù)是人工智能的基礎(chǔ),未來在人工智能這個領(lǐng)域,數(shù)據(jù)層面的競爭也將會非常激烈。
1.2 機器學習是智能多媒體的手段
人工智能的另外一個重要環(huán)節(jié)機器學習,它解決的主要是兩類問題,一是分類,二是回歸。
分類目前應用得比較廣泛,也相對成熟一些,如圖片的分類,給出一張圖片,識別這個圖片是小貓還是小狗;或是對文字內(nèi)容的分類,比如讓計算機去分析一篇文章到底是體育類的還是經(jīng)濟類的等等?;貧w則是數(shù)學的概念,它處理的問題也是偏數(shù)學方向的,輸入和輸出都是數(shù)字類型的。據(jù)了解,目前有些團隊在做類似股票預測的場景,像這種場景依賴的變量非常多,而且本身系統(tǒng)非常復雜,難度比較大。
2 人工智能在數(shù)字多媒體中的應用
在當下這個超級信息時代,分類和回歸在媒體方面的應用十分廣泛,如內(nèi)容審核、人臉識別、自動標簽、字幕識別、同聲傳譯等。
2.1 內(nèi)容審核
目前大多數(shù)的平臺對用戶都是開放的,用戶可以上傳圖片、視頻等。開放本身是好事,使得內(nèi)容更加豐富,但會涉及到很多網(wǎng)絡監(jiān)管問題,在國家和政府對網(wǎng)絡內(nèi)容的監(jiān)管要求越來越嚴格的背景下,很多平臺機構(gòu)會專門成立內(nèi)容審核部門,采用人工審核的方式,對用戶上傳內(nèi)容進行全量審核。這項工作如果完全依賴人力的話將是一項巨大的工程,且審核團隊的工作枯燥乏味。
目前,比如UCloud的UMAI平臺支持圖片與視頻的涉黃、暴力等內(nèi)容識別,通過調(diào)用UMAI接口來對內(nèi)容做預處理,可以將占比為絕大多數(shù)的正常內(nèi)容過濾掉,而只留下極少數(shù)判定為疑似不健康的內(nèi)容,需要審核團隊進行進一步的復查,這樣極大地減少了人工審核的工作量。
2.2 人臉識別
現(xiàn)在人工智能在人臉識別這塊應用較為廣泛,如身份認證、手機刷臉、系統(tǒng)登錄等;另外是人臉的搜索,比如在一段視頻里快速確定有沒有出現(xiàn)某個關(guān)鍵人物,或一個圖片集里有沒有包含這樣的人。人臉識別主要的流程一般如下,首先對這個圖片進行人臉的檢測,然后提取關(guān)鍵點,包括眼睛、鼻子、嘴巴、耳朵、輪廓等,切分處理以后,再給到卷積網(wǎng)絡提取特征,最后再做人臉識別,目前在公司考勤、政治任務識別方面已有相關(guān)的應用。
2.3 自動標簽
針對用戶自主上傳的圖片,自動標簽則發(fā)揮出重要作用。用戶在上傳圖片的時候,往往只會標注一到兩個關(guān)鍵詞,對圖片進行描述,而圖片里邊包含的大量其他的內(nèi)容和信息,是沒辦法檢索出來的,因為現(xiàn)在很多后臺的搜索是基于關(guān)鍵字的。通過計算機視覺的場景識別功能,可以很好地將圖片的隱藏信息挖掘出來,讓圖片有更多的關(guān)鍵字,能夠被更多的場景檢索出來,發(fā)揮其作用。
2.4 字幕識別
字幕識別的應用非常直接而實用,例如身份證、發(fā)票、名片的識別,可以減少手寫錄入的工作量,而類似視頻字幕識別這種,則可以幫助計算機更好地去理解視頻的內(nèi)容。
2.5 同聲傳譯
隨著企業(yè)走出國門的需要,利用人工智能實現(xiàn)同聲傳譯可以幫助跨國公司、員工進行不同語種間的交流。在視頻直播這一塊,可以在視頻直播傳輸前,把里面的音頻提取出來,做切片處理以后,把語音識別出來,經(jīng)過翻譯系統(tǒng)后輸出字幕并打上時間戳,播放終端拿到字幕和視頻數(shù)據(jù)后,做一次時間戳同步,在播放端進行展示。
當然,該系統(tǒng)的實現(xiàn)主要有兩個難點:一是它需要經(jīng)過兩次計算機的識別,第一次是語音的識別,第二次是翻譯,這會有一個誤差的累積;二是這種場景的實時性要求比較高,比如說字幕的翻譯有點滯后,視頻數(shù)據(jù)又需要比較低的延遲,這樣體驗會非常不好。
2.6 私有化部署
以上主要聚焦于公有多媒體技術(shù)云平臺的人工智能的應用,而實際上由于政策、保密等工作需要,有多媒體技術(shù)并不能直接存放到公共云平臺上,在內(nèi)部也有不少服務器、視頻采集設備等硬件資源,希望能夠直接利用上。針對這樣的需求,通常需要采用私有化部署的方案。
比如UCloud平臺是通過部署兩件事去實現(xiàn)私有化部署的方案:第一是實現(xiàn)云平臺組件化,平臺內(nèi)部可以集成很多種功能,比如直播、存儲、錄制、截圖等,將這些功能剝離開,做成各種組件的形式。這樣有一個好處,組件可以靈活搭配,用戶需要什么功能就部署什么組件,如果對某些功能有個性化需求,只要簡單修改對應組件的功能就可以了。第二是提供訓練好的模型,事先利用公共平臺數(shù)據(jù)訓練好的模型,并根據(jù)客戶需要部署到客戶的私有環(huán)境中進行應用。
實際上類似的私有化部署在自動考勤系統(tǒng)等場景已經(jīng)有成熟的應用,相關(guān)人工智能公司也在不斷挖掘更多可應用的場景,希望運用人工智能技術(shù)改變?nèi)粘5墓ぷ髋c生活方式。
3 結(jié)語
人工智能在多媒體技術(shù)的應用有著十分廣泛的空間,如智能數(shù)字化多媒體教學軟件的實現(xiàn),使得教學系統(tǒng)實現(xiàn)人性化,且具有更強的適應性,以及采用人工智能識別技術(shù)實現(xiàn)入侵系統(tǒng)的智能化管理,給社會管理提供智能技術(shù)手段。相信,隨著人工智能技術(shù)在數(shù)字化信息領(lǐng)域的不斷發(fā)展與深入應用,將會推動信息技術(shù)的快速革新,為社會技術(shù)進步帶來新的動力。
參考文獻
[1]黃夢.計算機多媒體音像壓縮技術(shù)的研究及應用前景探析[J].計算機光盤軟件與應用,2014,(4):207-207.
[2]人工智能與多媒體結(jié)合的產(chǎn)物—數(shù)字視頻入侵式報警系統(tǒng)[N].中國信息導報,1997.
[3]王立剛.關(guān)于智能多媒體教學軟件的研究[J].邊疆經(jīng)濟與文化,2006,(3):154-159.
[4]楊潤華,楊漢祥,謝錦平. 基于MPEG4的多用途智能多媒體監(jiān)控系統(tǒng)[J].電子技術(shù),2002,(11):30-34.