文/王生進(jìn)
在科幻電影里面,熒幕上的“終結(jié)者”不僅能從自己看到的畫面里檢索出有用的信息,還能梳理自己的記憶和邏輯,跟人類毫無障礙地交流,這種強(qiáng)烈的科技感讓人印象深刻。
反觀我們當(dāng)下很多智能技術(shù)和產(chǎn)品,智能化水平和科技感并不高,不論是智能音箱、人臉識別閘機(jī)、刷臉支付、巡邏機(jī)器人,還是送餐機(jī)器人,“感官”能力過于單一和簡單,多種感官能力僅僅是物理層面的疊加。對于智能機(jī)器來說,提高視覺、聽覺、觸覺等多種生物感官復(fù)合能力與信息復(fù)用能力,是增強(qiáng)智能化水平的一個(gè)重要研究方向,跨媒體智能便是其中的一項(xiàng)重要技術(shù)。
何為跨媒體智能?
我們?nèi)祟惪梢酝ㄟ^語言、文字、圖片等多種媒體形態(tài)接收到同樣一個(gè)信息。當(dāng)我們理解這個(gè)信息后,會從大腦中回想與之相關(guān)聯(lián)的多種記憶,這些記憶可能來自書籍、影視、交流、畫冊等多種載體。我們從不同時(shí)間維度的記憶里去思考、推理,得到另外一個(gè)信息,然后輕而易舉地把它寫出來、說出來,或用其他途徑將它反饋出來。在智能機(jī)器中,實(shí)現(xiàn)以上信息處理流程,便是跨媒體智能。
對于智能機(jī)器來說,上述的信息處理流程是在多元異構(gòu)的大數(shù)據(jù)里進(jìn)行信息的分析、識別、檢索和推理。實(shí)現(xiàn)這套流程需要依賴大量的人工智能技術(shù)、互聯(lián)網(wǎng)技術(shù),以及先進(jìn)硬件和系統(tǒng)的支持。清華大學(xué)在這方面做了深入的研究,清華大學(xué)電子系媒體大數(shù)據(jù)中心的人像態(tài)勢識別技術(shù),將人的像態(tài)、形態(tài)、神態(tài)、意態(tài)信息,通過AI算法進(jìn)行分析和提?。粓D像描述算法是機(jī)器自動對圖像生成描述文字,既可以實(shí)現(xiàn)圖像與文本信息之間的推理,又能改變圖像的存儲方式;數(shù)據(jù)服務(wù)平臺技術(shù)則是支持?jǐn)?shù)據(jù)存儲管理、推理演示、搜索引擎、行業(yè)技能知識存儲等功能;新型感知芯片是研究模擬生物皮膚的高靈敏度觸覺感知器件和芯片,構(gòu)建高精度的觸覺傳感器和電子皮等技術(shù)。而這些基于AI及大數(shù)據(jù)技術(shù),都是跨媒體智能的基礎(chǔ)。
基于這些技術(shù)的支持,跨媒體智能不僅僅是讓智能機(jī)器擁有更多的感官能力,更是打破這些能力之間的物理隔離,讓信息在更高維度層面進(jìn)行融合和復(fù)用,真正讓機(jī)器的感官能力“動起來”。
目前,跨媒體智能在行業(yè)內(nèi)也有著比較典型的應(yīng)用。落地在粵港澳大灣區(qū)的紫為云·清華AI使能平臺,正是依托清華AI技術(shù),成功推出多種跨媒體智能技術(shù)。平臺的大規(guī)模動態(tài)人員聚類系統(tǒng),可簡單理解為在海量圖像視頻數(shù)據(jù)中,提取人臉、人體、時(shí)間以及位置等信息,將這些信息進(jìn)行融合關(guān)聯(lián),能夠把側(cè)對攝像頭、佩戴口罩和頭盔、背光,以及低頭等復(fù)雜情況下的人員進(jìn)行識別,實(shí)現(xiàn)在開放環(huán)境中的身份確認(rèn)和檢索。交通違章廢片智能過濾系統(tǒng),是對交通場景中違章駕駛的抓拍照片或視頻,進(jìn)行人車物的定位識別和檢索,匯集車輛、車牌、駕駛員、紅綠燈、地標(biāo)、路標(biāo)、路樁、車道線、路況信息,以及地域性規(guī)則等信息,將這些交通信息進(jìn)行融合后,根據(jù)交通法律法規(guī)進(jìn)行推理,判斷車輛是否違章,輔助交警治理交通安全。
隨著這些跨媒體智能技術(shù)的應(yīng)用落地,科技正從方方面面改變著人們的生活。而當(dāng)下產(chǎn)學(xué)研各界也正致力于跨媒體智能技術(shù)的研究和突破,逐步打磨高維度與多維度的算法融合,著力實(shí)現(xiàn)類腦機(jī)器人的核心算法技術(shù)簇,將讓公眾享受更智能、更便捷和更安全的智能服務(wù)。