9月26日,以"共創(chuàng)產(chǎn)業(yè)智能新高度"為主題的多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體第二次會議在武漢召開,會上發(fā)布了由中國科學(xué)院自動化研究所、武漢人工智能研究院、華為技術(shù)有限公司牽頭的《多模態(tài)基礎(chǔ)大模型技術(shù)白皮書》。
“當前,人工智能正從單模態(tài)、有監(jiān)督學(xué)習(xí),邁向多模態(tài)、自監(jiān)督學(xué)習(xí)的時代。"中國科學(xué)院自動化研究所研究員、武漢人工智能研究院院長王金橋表示,"多模態(tài)人工智能的未來必將風(fēng)光無限?!?/p>
要了解多模態(tài)人工智能,首先需要明白何為模態(tài)。一般來說,每一種信息的來源或者形式,都可以稱為一種模態(tài)。人類在信息獲取、環(huán)境感知、知識學(xué)習(xí)與表達等方面都是采用多模態(tài)的輸入、輸出方式。比如尋找花朵,一般人們會采取視覺、嗅覺等多模態(tài)的方式來進行。“某種程度上說,多模態(tài)的輸入、輸出方式正是人類智慧的重要體現(xiàn)之一。”王金橋表示。
目前的網(wǎng)絡(luò)數(shù)據(jù)包括圖像、視頻、文字、音頻等不同模態(tài)。對于人工智能來說,要想更好地掌握、分析、利用網(wǎng)絡(luò)上的數(shù)據(jù),就需要能夠?qū)@些多模態(tài)的數(shù)據(jù)進行系統(tǒng)的統(tǒng)籌和分析。王金橋表示:“技術(shù)創(chuàng)新是推動多模態(tài)人工智能產(chǎn)業(yè)發(fā)展的重要動力之一。自20世紀70年代多模態(tài)學(xué)習(xí)起步以來,伴隨著近年來生成式預(yù)訓(xùn)練、基于Transformer的雙向編碼器表達等大規(guī)模預(yù)訓(xùn)練模型的快速涌現(xiàn),人工智能研究領(lǐng)域正在經(jīng)歷一場有監(jiān)督學(xué)習(xí)向無監(jiān)督學(xué)習(xí)條件下‘大數(shù)據(jù)+大模型’的大規(guī)模預(yù)訓(xùn)練范式轉(zhuǎn)變,多模態(tài)人工智能發(fā)展迎來了新的巔峰。”
近年來,多模態(tài)人工智能在場景泛化性、對數(shù)據(jù)的依賴性等方面都取得了巨大的技術(shù)突破。“多模態(tài)人工智能通過自監(jiān)督的學(xué)習(xí)方式對海量無標注數(shù)據(jù)進行學(xué)習(xí),同時面向特定任務(wù)場景進行小數(shù)據(jù)的標注學(xué)習(xí)和微調(diào)。相對于單模態(tài)人工智能,其對數(shù)據(jù)標注的依賴性降低了一個數(shù)量級以上?!蓖踅饦蛘f。
2017年,國務(wù)院制發(fā)《新一代人工智能發(fā)展規(guī)劃》,由人工智能技術(shù)引發(fā)的產(chǎn)業(yè)變革正在加速演進。如今,多模態(tài)人工智能產(chǎn)業(yè)正大步走向場景化、實用化。目前,模型參數(shù)與數(shù)據(jù)規(guī)模不再是各研發(fā)機構(gòu)的比拼重點,多模態(tài)人工智能產(chǎn)業(yè)正在走向場景應(yīng)用的新階段。例如,“全媒體多模態(tài)大模型”就是基于中國科學(xué)院自動化研究所“聞?!倍嗄B(tài)媒體大數(shù)據(jù)和“紫東太初”三模態(tài)大模型的技術(shù)積累,結(jié)合新華社全媒體的海量數(shù)據(jù)積累和媒體融合業(yè)務(wù)場景而建立的?!叭襟w多模態(tài)大模型”將加速推動人工智能在視頻配音、語音播報、標題摘要、海報創(chuàng)作等多元媒體業(yè)務(wù)場景的應(yīng)用。此外,在智慧城市、金融科技、民生服務(wù)等許多領(lǐng)域,多模態(tài)人工智能也有著廣闊的應(yīng)用場景。未來“多模態(tài)大模型+小模型”的模式或?qū)⒊蔀槎嗄B(tài)人工智能的主流,該模式可以有效解決需求碎片化、多樣化等問題。
(內(nèi)容來源:《科技日報》)