張震
(中國移動通信集團廣東有限公司深圳分公司,深圳 518048)
多媒體內容理解技術在電信行業(yè)中的應用
張震
(中國移動通信集團廣東有限公司深圳分公司,深圳 518048)
本文首先對多媒體內容理解技術進行概要介紹,然后重點結合電信行業(yè)實際情況,提出該技術在電信行業(yè)的具備較高商業(yè)價值的應用,最后介紹一種創(chuàng)新性的基于內容理解技術的商業(yè)搜索平臺。
內容理解;多媒體;電信業(yè)務
隨著信息時代的到來,尤其是21世紀過去的10年中,包括移動互聯(lián)網(wǎng)、3G通信、多媒體技術在內的信息技術的跨越式發(fā)展,不斷地推進我國信息化浪潮的前行。人們越來越感受到信息化帶來的好處,移動網(wǎng)絡高速普及,數(shù)字化內容海量增長,世界各地的人們盡情分享信息自由溝通。以圖像、視頻為代表的多媒體信息成為人們相互交互情感與服務的主要載體。以全球最大社交網(wǎng)站Facebook為例,該網(wǎng)站是美國排名第一的照片分享站點,每天上載超過850萬張照片,這些圖片以及視頻匯聚成為“海量”的多媒體信息庫。
以Baidu、Tencent為代表的國內互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)企業(yè)同樣匯聚了豐富多彩的多媒體信息。而以中國移動為主導的運營商企業(yè)自3G時代以來,已經(jīng)逐步向移動互聯(lián)方向轉型,代表舉措有大力發(fā)展互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)、建設Mobile Market(MM)平臺,以及發(fā)展“無線城市”商務及惠民應用商務平臺,這些舉措都取得了不錯的效果。然而面對業(yè)務大發(fā)展的盛景,其背后的合法性、合規(guī)性等信息安全問題以及潛在的業(yè)務發(fā)展瓶頸需要電信運營商提前深思。
首先,從合法性、合規(guī)性等信息安全角度考慮,在面向海量信息背景下,移動互聯(lián)網(wǎng)/電信用戶在獲取大量有用信息的同時也會遇到許多不良信息,比如淫穢色情文字、圖片、視頻尤為嚴重。針對這些不良信息如何在3G通信中進行有效攔截是運營商必須深入思考的問題。GPRS2.5G時代的攔截技術體系已經(jīng)不能滿足3G甚至4G時代的要求,亟需對不良信息的攔截體系進行全梳理、全規(guī)劃,采用新的攔截技術體系,以適應移動互聯(lián)新時代的發(fā)展需求。
其次,從信息的價值挖掘的角度考慮,在移動互聯(lián)這樣一個瞬息萬變的信息時代,信息即意味著財富,如何在最短時間內采用最有效的方式來從海里信息中獲取用戶最需要的、最有價值的信息,同樣值得運營商企業(yè)深思。在2G時代運營商企業(yè)主要的角色在于“通道”,然而在3G內容為王的時代,如果運營商安于在2G的角色,毫無疑問將會遇到各種利益的挫折。這需要運營商有實力、有技術去整合無序的、分散的、潛在價值的信息,使信息價值最大化、顯性化和個性化,為客戶提供最優(yōu)質的信息化服務。
本文針對上述問題,引入研究基于多媒體內容理解的技術[1],該技術融合了人工智能、機器學習、模式識別、信息檢索等信息化技術,是當今學術界的一個研究熱點,對解決運營商企業(yè)在3G時代的所提的上述部分困境有極大促進作用。
2.1 解析多媒體內容的含義
談及多媒體內容理解首先得了解什么叫多媒體的“內容”。通常情況下用戶習慣基于文本的方式用關鍵字及其組合來表達描述一個視覺概念。但詞語,描述的多義性和不精確性難以足夠形象和精準地描述所有事物:如“Apple”既可代表通常意義下的蘋果水果,但也可以是一臺蘋果牌的PC。
所以,當詞語難以足夠精確表達人們的多媒體視覺感知的時候,人們就嘗試用多媒體自身的內容屬性來表述其本身,如顏色、紋理、輪廓、空間關系等等。簡要介紹前兩者:
(1)顏色:是描述多媒體內容最為廣泛的視覺特征,顏色往往和多媒體中所包含的物體或場景十分相關。與其他的視覺特征相比,顏色特征對多媒體本身的尺寸、方向、視角的依賴性較小,從而具有較高的魯棒性。
(2)紋理:不僅反映多媒體灰度屬性值的統(tǒng)計信息,而且反映空間分布信息和結構信息。
上述顏色等信息通過數(shù)學表達的方式體現(xiàn)多媒體本質內容特征,從而避開了文字性表述的歧義性和非精確性,逐漸得到廣泛應用。
2.2 多媒體內容理解技術
多媒體內容理解技術是當前科研領域的一個研究熱點,諸多企業(yè)和科研單位都投入足夠的資源進行相關的研究,業(yè)內代表有微軟亞洲研究等企業(yè)科研機構以及哈工大等高校研究所。多媒體內容理解技術是基于多媒體內容特征進行數(shù)字化處理、變換的技術,該技術融合多種信息技術,從架構上可以分成三個階段[1]:內容提取,內容描述,和內容操作。
2.2.1 內容提取
多媒體內容提取包括對多媒體進行預處理及視覺內容特征提取。常用的預處理方法包括拉普拉斯變換等各種數(shù)學變換、分割等。多媒體提取的內容特征通常用數(shù)學表達式進行表示:假設特征向量的維度是N,則N維度空間中,每一個多媒體(視頻或者圖像等)被看作是向量空間中的一個點。這個點所具有的數(shù)學屬性則代表了多媒體的內容屬性。
2.2.2 內容描述
依照一定的規(guī)范和要求對多媒體內容特征進行描述。如JPEG圖像標準、MPEG專家組視頻標準等。
2.2.3 內容操作
多媒體內容操作是依照一定的算法(模式識別算法、神經(jīng)網(wǎng)絡算法等等)和流程對多媒體內容特征進行處理。如檢索、過濾、查詢等。以內容檢索為例,傳統(tǒng)的檢索方式主要基于文本匹配方法,實現(xiàn)的是點對點命中式檢索。而基于內容檢索是依據(jù)一定的準則進行內容的相似度計算。相似度計算可以采用不同的數(shù)學準則進行,如計算兩點之間的歐式距離,根據(jù)歐式距離所表征的相似度排序,排序越靠前,相似度越高。
上述是對多媒體內容理解技術的概要介紹,更為深入的解析可參考文獻[2~3]等。
如上所述,在移動互聯(lián)時代,尤其是3G時代的到來,運營商所運營的通信渠道充斥著淫穢色情等不良圖片與視頻。移動通信中的不良信息傳播具有多樣化和隱蔽化,即時通信工具的普及讓該應用成為新的傳播渠道。而以實現(xiàn)高速數(shù)據(jù)傳輸為核心的3G(TD-SCDMA、WCDMA、cdma2000)數(shù)字通信網(wǎng)絡的出現(xiàn),使得圖像、視頻流等多種媒體形式在即時通信中得到廣泛應用。通過分析圖片、視頻的內容,進行不良信息的精確識別與攔截,對打擊不良信息的傳播和保護青少年成長等方面具有積極的作用和深遠的意義。
廣東移動對多媒體承載的不良信息檢測與攔截問題進行了有益的嘗試和研究,提出了“基于內容理解的不良視頻及圖像快速識別算法”[4]。該算法研究如何快速的從視頻中自適應提取代表語義的關鍵幀圖像,對圖像自適應識別淫穢、反動信息等不良信息,完成對不良視頻及圖像信息過濾與攔截。針對視頻數(shù)據(jù)做到快速高效的關鍵幀提取以及圖像數(shù)據(jù)的單幀圖像提取,融合膚色區(qū)域檢測、多視角人臉檢測、敏感目標提取等技術手段,做到膚色區(qū)域跟蹤、敏感度判斷、圖像信息過濾等,最終實現(xiàn)不良信息的提取。圖1顯示了該技術的總體方案。
圖1 多媒體不良信息提取技術的總體方案
該項目技術應用到監(jiān)控彩信的不良信息,包括彩信中的黃色信息,圖片中的不良文字等,在彩信信息安全監(jiān)控方面起到了較好作用,減少了不良信息對客戶的影響。
深圳移動“無線城市”(wap.szicity.com)已經(jīng)吸引了眾多商家進駐,匯聚了大量產(chǎn)品的視頻、圖像、文字信息,形成一個分布式的海量產(chǎn)品數(shù)據(jù)庫。如何快速準確匹配消費者需求,并整合產(chǎn)品信息為消費者提供優(yōu)質的內容呈現(xiàn),是值得包括運營商在內各相關商家認真思考的問題。針對這個問題,我們提出了基于內容理解的商業(yè)搜索平臺項目。 研究從消費者的需求出發(fā),實現(xiàn)有別于傳統(tǒng)文字搜索的基于產(chǎn)品圖像搜索的視覺搜索機制,在該機制的商業(yè)導向中,消費者主動提供或選擇集中反饋其消費需求的產(chǎn)品圖像,以該圖像作為搜索的主體進行視覺內容匹配定位,從后臺產(chǎn)品數(shù)據(jù)庫中快速準確地找到客戶所需要的產(chǎn)品信息,同時,通過主動學習的方式記錄下消費者的主觀消費意愿,實現(xiàn)客戶消費習慣后臺分析與跟蹤。
為此,我們構建了基于內容理解技術的商業(yè)搜索平臺Photo2Buy,該平臺架構分為5個層面,如圖2所示。
圖2 基于內容理解技術的商業(yè)搜索平臺架構
4.1 圖像采集層
圖像數(shù)據(jù)采集源有兩種,一種是社區(qū)、論壇、網(wǎng)站類的大型圖像庫,例如移動139社區(qū),其中含有共享式的類別各異的圖像集合;另外一種是手機用戶直接上傳圖像到數(shù)據(jù)庫中心,例如手機用戶通過“彩信”的方式上傳圖像到既定的圖像數(shù)據(jù)中心。針對特殊商業(yè)價值的圖像來源,需要與相關合作單位進行合作獲取商品的最有價值的圖像。
4.2 特征提取層
實現(xiàn)圖像視覺特征的提取,如顏色特征、紋理特征,并對特征進行有效歸一組合,形成對圖像的唯一標識。
4.3 相似度計算層
基于相似度算法準則計算圖像在視覺空間中的相似度,及對圖像的內容進行計算,實現(xiàn)圖像相似度的比較。
4.4 產(chǎn)品信息關聯(lián)層
基于相似度比對結果與產(chǎn)品信息進行關聯(lián),如商品銷售商場、商品銷售價格、商品品質等綜合商品信息。
4.5 客戶信息交互層
客戶與平臺信息的交互,使得消費者能夠快速、便捷地找到自己心儀的商品,實現(xiàn)輕松購物。
本文介紹了多媒體內容理解技術在電信行業(yè)中的應用。首先對多媒體內容理解進行了介紹。重點是結合當前無線互聯(lián)時代、3G時代背景下,該技術在電信行業(yè)中的實際應用,如在不良信息檢測、識別,對于凈化移動互聯(lián)環(huán)境起到良好的作用。并提出一種創(chuàng)新性的基于內容理解技術的商業(yè)搜索平臺,能夠有效應用于移動商業(yè)環(huán)境中。不管是從信息安全角度、還是商業(yè)應用角度,多媒體內容理解技術均能與電信行業(yè)有效融合,并產(chǎn)生顯著效益。
[1] 劉忠偉, 章毓晉. 綜合利用顏色和紋理特征的圖像檢索[J].通信學報, 1999, 20(5): 36~40.
[2] Haralick R M, Shanmugam K, Dinstein I. Texture features for image classification. IEEE Transaction on Systems Man and Cybernetics, 1973,3(6): 610~621.
[3] Nguyen G P, Worring M, Arnold Smeulders W M. Similarity learning Via dissimilarity Space in CBIR. Proceedings of the 8th ACM international workshop on Multimedia Information Retrieval, 2006: 107~115.
[4] 廣東移動. 基于內容理解的不良視頻及圖像快速識別算法研究驗收報告.
Application of the content based multimedia understanding technology in telecommunications industry
ZHANG Zhen
(China Mobile Group Guangdong Co., Ltd. Shenzhen Branch, Shenzhen 518048, China)
This paper, firstly, gives an overview of the multimedia content understanding, and then focuses on the actual situation, combined with the telecommunications industry to put forward the technology in the telecommunications industry with high commercial value, and finally introduces an innovative understanding of technology, content-based business search platform.
content based multimedia understanding technology; multimedia; telecommunication
TN915
A
1008-5599(2012)11-0009-04
天津移動明年建成1253個TD-LTE基站
2012-09-10
作為中國移動13個啟動TD-LTE擴大規(guī)模試驗網(wǎng)建設的城市之一,天津市已經(jīng)啟動TD-LTE站點改造工作,預計將于明年年中完成擴大規(guī)模試驗測試工作。屆時,海河兩岸共計75km2的區(qū)域將率先享受到4G網(wǎng)絡帶來的高速上網(wǎng)體驗。
據(jù)了解,天津移動將承擔1253個TD-LTE基站的建設任務。根據(jù)前期數(shù)據(jù)流量分析和用戶需求,天津移動確定以海河兩岸共計75km2的區(qū)域作為本次TD-LTE試驗網(wǎng)覆蓋區(qū)域,主要包括高校、商業(yè)區(qū)、文化區(qū)等重點區(qū)域,地鐵、機場、火車站等重要交通樞紐及部分居民區(qū)等。