勒川
2023年,生成式AI的發(fā)展讓所有科技公司都仿佛站在“新起點(diǎn)”上,圍繞大模型展開了新應(yīng)用、新終端、新模式等變革。以李開復(fù)博士、李培根院士領(lǐng)銜二十位產(chǎn)學(xué)研行業(yè)專家探討分享自身進(jìn)展和獨(dú)特觀察,為大模型元年奉獻(xiàn)出精彩的年終總結(jié)。
2023年12月14日,由量子位主辦的MEET2024智能未來大會(huì)舉行。作為國內(nèi)最具影響力的智能商業(yè)峰會(huì),MEET大會(huì)繼續(xù)對(duì)智能科技的最新進(jìn)展進(jìn)行總結(jié)和展望。
2023年,生成式AI的發(fā)展讓所有科技公司都仿佛站在“新起點(diǎn)”上,圍繞大模型展開了新應(yīng)用、新終端、新模式等變革。與此同時(shí),與原有技術(shù)積累、行業(yè)Know-how如何結(jié)合,把握住“再出發(fā)”的機(jī)遇,也成為全產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型挑戰(zhàn)。
基于這樣的行業(yè)洞察,“新起點(diǎn)·再出發(fā)”成為本次大會(huì)主題詞,以李開復(fù)博士、李培根院士領(lǐng)銜二十位產(chǎn)學(xué)研行業(yè)專家在現(xiàn)場(chǎng)探討分享自身進(jìn)展和獨(dú)特觀察,為大模型元年奉獻(xiàn)出精彩的年終總結(jié)。
ChatGPT給予了高度的評(píng)價(jià):“看到AI技術(shù)在不同領(lǐng)域的應(yīng)用,真是讓人激動(dòng)不已!”
新思考,新趨勢(shì)
李開復(fù)??做真正有野心的開發(fā)者
創(chuàng)新工場(chǎng)董事長、零一萬物CEO李開復(fù)博士被《時(shí)代》雜志評(píng)選為2023年度全球25位“AI領(lǐng)袖”。創(chuàng)新工場(chǎng)塔尖孵化了AI?2.0公司零一萬物,其Yi系列大模型已經(jīng)交出了業(yè)界領(lǐng)先的成績。
李開復(fù)認(rèn)為,AI?2.0是有史以來最偉大的技術(shù)革命和平臺(tái)革命,不僅改寫所有的用戶界面和APP,更會(huì)穿透各行各業(yè)創(chuàng)造巨大的價(jià)值?!癆I?2.0帶來的平臺(tái)型的機(jī)會(huì)比PC、移動(dòng)互聯(lián)網(wǎng)時(shí)代大十倍?!碑?dāng)前,中國大模型賽道已經(jīng)進(jìn)入到了“百模大戰(zhàn)”階段,競(jìng)爭白熱化。從創(chuàng)業(yè)機(jī)會(huì)看,雖然大型預(yù)訓(xùn)練模型的創(chuàng)業(yè)窗口正在逐漸關(guān)閉,但在其他方面,如AI?2.0基礎(chǔ)設(shè)施和應(yīng)用方面,仍有很多機(jī)遇。
AI?2.0時(shí)代的APP將被注入超級(jí)智能,帶來全新的界面和用戶體驗(yàn),成長速度將會(huì)洗刷新的紀(jì)錄,會(huì)比移動(dòng)互聯(lián)網(wǎng)來得更兇猛,創(chuàng)造更多的價(jià)值,帶來更多的用戶?!罢嬲袎?mèng)想、有野心的開發(fā)者應(yīng)該去做AI-First、AI-Native這類應(yīng)用,這些應(yīng)用將能充分利用AI技術(shù),從而成為最偉大和最具商業(yè)價(jià)值的公司?!?/p>
其次,面對(duì)現(xiàn)在開閉源模型的激烈戰(zhàn)況,在李開復(fù)看來,二者的成長是一個(gè)延續(xù)的、你追我趕的事情,但是,“最終不會(huì)只有一家閉源的、偉大的GPT或大模型公司”。他預(yù)判,不包含大廠在內(nèi),中美相加最后將有五、六家大模型公司笑到最后。
李開復(fù)表示,并不是擅長所有人類做的事情才叫AGI(人工通用智能),只要在某些領(lǐng)域能比人類聰明100倍,這就是一個(gè)有價(jià)值的AGI。雖然無法評(píng)判AI什么時(shí)候能夠具有真正的情感比如愛和同理心等,但它在一些領(lǐng)域已經(jīng)比人類聰明100倍。面對(duì)AI?帶來的風(fēng)險(xiǎn)和挑戰(zhàn),他認(rèn)為,技術(shù)帶來的問題可以用技術(shù)來解決,同時(shí)輔以合理完善的法律法規(guī)來進(jìn)行AI治理,讓AI造福更多的人類。
李培根??意識(shí)流使人類不被AI所役
“制造業(yè)需要站在AI巨人的肩上實(shí)現(xiàn)突破”,這一點(diǎn)在李培根院士的演講中得以充分闡述。他認(rèn)為AI是一個(gè)既知道已知知識(shí)又可能生成新知識(shí)的“知識(shí)巨人”,而制造業(yè)要考慮的問題是如何充分利用AI進(jìn)行創(chuàng)新設(shè)計(jì),站在AI的肩上去洞察復(fù)雜的關(guān)聯(lián)。比如傳統(tǒng)的工業(yè)自動(dòng)化主要處理固定模式、確定性、有因果關(guān)系的問題。
然而,工程中實(shí)際上也存在大量不確定性、沒有固定模式、并非基于因果關(guān)系但存在復(fù)雜關(guān)聯(lián)的問題:知識(shí)可以看作是數(shù)據(jù)在時(shí)空中的關(guān)系。人類通常只能理解和認(rèn)知一些簡單的、線性的、低階關(guān)系,而高階關(guān)聯(lián)往往認(rèn)識(shí)不到,這就會(huì)掉入所謂“暗知識(shí)”的大海。但現(xiàn)在,有大數(shù)據(jù)、AI技術(shù)加持,我們可以站在AI巨人的肩上洞察復(fù)雜的關(guān)聯(lián)。
需要特別注意的是,李培根表示雖然機(jī)器在很多方面可以超越人類思維,但很難具有像人類那樣不可名狀的意識(shí)流?!耙庾R(shí)流”這一概念由美國心理學(xué)家威廉·詹姆斯提出:意識(shí)流像一條綿延不斷、不可分割的河流,人的意識(shí)由兩方面組成,一些是理性的、自覺的意識(shí),有一些是無邏輯的、非理性的無意識(shí)?!罢且庾R(shí)流使人類不至于被AI所役使,反而能夠利用AI增強(qiáng)自己的創(chuàng)造能力?!?/p>
歐陽萬里??“多快好省”地端出美味佳肴
上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家歐陽萬里分享了他們實(shí)驗(yàn)室在AI?For?Science的科研探索。他將AI?For?Science形容為美食烹飪,需要AI學(xué)者同自然科學(xué)家一起合作。如果把科學(xué)研究比作美食烹飪,實(shí)驗(yàn)數(shù)據(jù)相當(dāng)于優(yōu)質(zhì)食材,而AI?for?Science則讓科學(xué)家們能夠“多快好省”地端出美味佳肴。
為何從計(jì)算機(jī)視覺轉(zhuǎn)型做AI?For?Science?他表示有兩方面原因:一是問題本身很重要,二是問題本身很有趣。關(guān)于問題重要性上,在歐陽萬里看來,自然科學(xué)領(lǐng)域面臨著AI領(lǐng)域同樣的問題,甚至還更為嚴(yán)峻。
一方面是少標(biāo)注、少樣本的問題。例如獲得一個(gè)蛋白質(zhì)結(jié)構(gòu)所需的投入時(shí)間和資源巨大,可能一位學(xué)者投入一年時(shí)間才能獲取一個(gè)蛋白質(zhì)的結(jié)構(gòu),即一個(gè)樣本標(biāo)注。另一方面還會(huì)面臨數(shù)據(jù)表現(xiàn)形式多樣。自然科學(xué)從物理到生物到地球科學(xué),有不同的表現(xiàn)形式,從非常底層的原子表示、分子表示,有基因蛋白表示方式,如果來到地球科學(xué)又有大氣的表示。
表現(xiàn)形式本身多樣的形式下,怎么把數(shù)據(jù)處理好就是一個(gè)問題。既然如此那應(yīng)該如何解決呢?歐陽萬里結(jié)合自己研究團(tuán)隊(duì)成果做了進(jìn)一步解釋:在氣象方面,他們推出的全球中期天氣預(yù)報(bào)大模型風(fēng)烏,首次實(shí)現(xiàn)了在高分辨率上對(duì)核心大氣變量進(jìn)行超過10天的有效預(yù)報(bào)。風(fēng)烏突破了傳統(tǒng)預(yù)報(bào)方法瓶頸并獲得對(duì)氣象數(shù)據(jù)關(guān)系的強(qiáng)大擬合能力,僅需30秒即可生成未來10天全球高精度預(yù)報(bào)結(jié)果,在效率上大幅優(yōu)于傳統(tǒng)模型。
新應(yīng)用,新場(chǎng)景
方漢??造就真正的殺手級(jí)應(yīng)用
昆侖萬維董事長兼CEO方漢分享了昆侖萬維關(guān)于AGI的探索歷程。目前昆侖萬維已經(jīng)構(gòu)建出自己的六大AI業(yè)務(wù)矩陣,包括AI大模型、AI搜索、AI音樂、AI游戲、AI動(dòng)漫、AI社交。他認(rèn)為,擁有自己的模型生成能力和專有模型對(duì)于企業(yè)在AI領(lǐng)域的發(fā)展至關(guān)重要。目前公司已經(jīng)在國內(nèi)推出了面向C端的AI搜索產(chǎn)品,此外還計(jì)劃面向海外市場(chǎng)推出游戲、音樂、動(dòng)漫和社交方向的AI產(chǎn)品。
隨后他詳細(xì)談到了AI搜索、Agent以及端側(cè)推理這三大機(jī)遇。比如AI搜索,他認(rèn)為能大幅縮短用戶搜索時(shí)間并提高信息獲取質(zhì)量?!癆GI的真正表現(xiàn)形式是Agent,但目前像不少大模型API還是需要一定的門檻。這時(shí)候需要Agent,這種低代碼的、大模型的二次開發(fā)接口,讓所有用戶都能夠通過Agent讓大模型替自己做實(shí)際的工作以及更好地落地。”
方漢還提到了降低AI訓(xùn)練和推斷成本的途徑,包括技術(shù)迭代、內(nèi)容革命和端側(cè)推理。談及端側(cè)推理,他認(rèn)為這是個(gè)面向所有企業(yè)的機(jī)遇。只有“端側(cè)推理”才是最終的解決方案,才會(huì)造就真正殺手級(jí)應(yīng)用的產(chǎn)生。
目前大模型付費(fèi)模式只是過渡階段,隨著技術(shù)迭代、內(nèi)容革命和端側(cè)推理的實(shí)現(xiàn),AI大模型最終會(huì)真正實(shí)現(xiàn)免費(fèi)模式,也只有實(shí)現(xiàn)了免費(fèi)模式,C端應(yīng)用才會(huì)迎來真正的大爆發(fā)?!斑@一波AI一定是大潮將起,落地為王?!?/p>
王曉剛??智能汽車處在關(guān)鍵時(shí)間點(diǎn)
商湯聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛認(rèn)為,ChatGPT改變了人工智能新范式,給AI規(guī)模化產(chǎn)業(yè)應(yīng)用打開新道路。這過程最明顯感知到的是算力需求激增,2018年商湯花50億建AI大裝置,很多人不理解。但今天所有談到的大模型,都建立在強(qiáng)大軟硬件基礎(chǔ)設(shè)施系統(tǒng)能力基礎(chǔ)之上。
那么在大模型時(shí)代,又有什么樣的趨勢(shì)值得關(guān)注?王曉剛主要從智能座艙和智能駕駛兩個(gè)方面舉例。在智能座艙方面,他談到了未來可基于大語言模型能力構(gòu)建座艙大腦,控制艙內(nèi)各種軟硬件,并借助艙內(nèi)外傳感器去全方位感知環(huán)境和乘客,包括駕駛員的需求。從應(yīng)用層面來說,目前已經(jīng)可以看到的趨勢(shì),比如內(nèi)容生成、AI說明書、健康問診、旅游規(guī)劃等,這些都將座艙內(nèi)的智能化體驗(yàn)提升到新層次。
在智能駕駛方面,他主要談到了純視覺方向的發(fā)展趨勢(shì)。目前智能駕駛系統(tǒng)只有感知這部分用的是AI,其他很多都是基于手寫規(guī)則。但要想真正解決各種Corner?Case更多還是需要依賴數(shù)據(jù)驅(qū)動(dòng),通過大模型去做感知、融合、定位、決策、規(guī)控,將所有模塊串聯(lián)起來,然后覆蓋盡可能多的場(chǎng)景。
王曉剛對(duì)智能汽車未來進(jìn)行展望:未來一到兩年,智能汽車其實(shí)處在一個(gè)關(guān)鍵突破的時(shí)間點(diǎn)?!皩?shí)際上有三件事,一是端到端數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)駕駛,二是以大模型為核心、為基礎(chǔ)的座艙大腦的出現(xiàn),三是駕艙融合,所有座艙和駕駛的體驗(yàn)在同一顆芯片,同一個(gè)用戶上實(shí)現(xiàn),大幅降低成本和算力,在產(chǎn)品級(jí)實(shí)現(xiàn)更好的融合,實(shí)現(xiàn)更好的智能駕駛和座艙的智能化的體驗(yàn),所有這些都是以大模型為基礎(chǔ)的?!?/p>
馬艷軍??AI原生應(yīng)用發(fā)展迎來最好的時(shí)代
百度AI技術(shù)生態(tài)總經(jīng)理馬艷軍以文心一言為例,全面介紹了知識(shí)增強(qiáng)大語言模型,還介紹了圍繞大模型建設(shè)的生態(tài)以及未來發(fā)展趨勢(shì)。
馬艷軍指出,要提升大模型的效果,數(shù)據(jù)和對(duì)齊技術(shù)尤為重要:如何使用數(shù)據(jù),如何挖掘分析、合成、標(biāo)注、評(píng)估數(shù)據(jù),整個(gè)閉環(huán)非常關(guān)鍵。此外,他還從三個(gè)方面總結(jié)了大模型和此前AI領(lǐng)域其他技術(shù)突破的不同之處。首先是交互方式,“這次真正有了一個(gè)顛覆式變化”,未來的應(yīng)用是通過自然語言的提示詞來調(diào)動(dòng)原生AI應(yīng)用實(shí)現(xiàn)的。交互效果行不行,直接影響了技術(shù)的普及;第二是大幅降低了AI開發(fā)門檻,在這之前“要開發(fā)一個(gè)AI應(yīng)用要寫非常多的代碼”,基于大模型的應(yīng)用開發(fā)幾乎可以零代碼;最后大模型不僅對(duì)產(chǎn)業(yè)應(yīng)用有影響,也推動(dòng)了科研的AI?for?Science新趨勢(shì)。
在這幾點(diǎn)突破的驅(qū)動(dòng)下,馬艷軍表示AI原生應(yīng)用發(fā)展正迎來最好的時(shí)代,以大模型插件接入為基礎(chǔ)進(jìn)一步衍生出更強(qiáng)大的Agent智能體,基于這些能力將會(huì)催生更多的AI原生應(yīng)用,數(shù)字技術(shù)和實(shí)體世界加速連接與融合。
“訓(xùn)練大模型的挑戰(zhàn)很大,其中包括模型體積大,訓(xùn)練難度高;算力規(guī)模大,性能要求高;數(shù)據(jù)規(guī)模大,質(zhì)量參差不齊等。這些問題的存在,目前也對(duì)基礎(chǔ)軟硬件提出了更高的要求。”
李大海??大模型讓人和機(jī)器更加平等
面壁智能聯(lián)合創(chuàng)始人、CEO李大海認(rèn)為大模型要用在真實(shí)生產(chǎn)環(huán)境里,最關(guān)鍵的能力是邏輯推理,而面壁智能也著重在模型的邏輯推理能力方面進(jìn)行了攻關(guān)和提升。
李大海認(rèn)為,大模型是第四次技術(shù)革命,可以和工業(yè)革命、信息革命相提并論,這場(chǎng)革命將至少持續(xù)20—30年。“大模型像是汽車引擎,但還需要轉(zhuǎn)向系統(tǒng)、汽車底盤、內(nèi)飾等各種配件組裝起來,才能真正提供一個(gè)完整的汽車產(chǎn)品。所以智能體需要在大模型基礎(chǔ)上疊加更多能力才能實(shí)現(xiàn)更多應(yīng)用和想象空間。”
另外,當(dāng)更多單體智能開始協(xié)作之后,它們將能發(fā)揮出更大的生產(chǎn)力。這時(shí)候就形成了更高級(jí)的智能——群體智能。自然界中就有很多類似案例,比如蟻群、蜂群、魚群等,它們帶來比個(gè)體更高的智能表現(xiàn)。
基于這種思考,過去幾個(gè)月,面壁智能共發(fā)布了三個(gè)智能體框架:AgentVerse,內(nèi)部包含非常多專家的智能體通用平臺(tái);ChatDev,多智能體智協(xié)作開發(fā)平臺(tái);XAgent,綜合能力全面超越AutoGPT的超強(qiáng)單體智能應(yīng)用框架。目前,面壁智能的“大模型+Agent”技術(shù)已在金融、法律等場(chǎng)景都有落地。
未來是否會(huì)存在基于大模型的超級(jí)應(yīng)用呢?李大海認(rèn)為大模型技術(shù)帶來的最根本變化,是人與機(jī)器之間關(guān)系的變化:機(jī)器變得更像人,人和機(jī)器會(huì)更加平等。
李笛??AI下一階段更像“掃雷”游戲
小冰公司首席執(zhí)行官李笛的分享,從人們熱議的“人工智能著作權(quán)第一案”開始說起。乙某在文章中使用了一張圖片,而圖片由甲某用開源AI繪畫軟件生成。最后,法院判定乙某侵犯了甲某的知識(shí)產(chǎn)權(quán),支付了500元賠償費(fèi)用。
“500元的賠償費(fèi),可能是這張圖片目前為止在商業(yè)世界中,所能夠獲得最大的一筆回報(bào)了?!边@就引出一個(gè)話題點(diǎn)——AI在創(chuàng)造巨大的價(jià)值,但并不會(huì)收獲同等高的價(jià)值回報(bào)。李笛表示,其實(shí)這就是今天AI領(lǐng)域商業(yè)模式的困局之一。
過去一年,AI技術(shù)取得了巨大進(jìn)展,針對(duì)AI產(chǎn)品的偏見在迅速消融,李笛眼中,過去的一年是這個(gè)行業(yè)的黃金一年。具體來看:生成式AI模型效率提升巨大。幾年前,想要?jiǎng)?chuàng)造能夠一個(gè)能評(píng)價(jià)文章的AI-being時(shí),需要針對(duì)82類知識(shí)圖譜構(gòu)建它的三觀,要花費(fèi)約6個(gè)月時(shí)間,現(xiàn)在只需極短時(shí)間就可實(shí)現(xiàn)。
社會(huì)對(duì)AI的偏見正在消解,給予AI更大容錯(cuò)空間,有利于技術(shù)快速發(fā)展。但是,李笛觀察到,目前AI應(yīng)用普遍面臨商業(yè)化難題:一方面,現(xiàn)有API調(diào)用付費(fèi)模式難以體現(xiàn)AI系統(tǒng)的創(chuàng)造力價(jià)值。以文章寫作為例,AI完全取代撰稿員后獲得的市場(chǎng)規(guī)模非常有限;另一方面,多數(shù)垂直領(lǐng)域AI系統(tǒng)替代人工作后獲得的收入,與替代的商業(yè)價(jià)值嚴(yán)重不匹配。李笛認(rèn)為需要找到新的商業(yè)模式,讓AI系統(tǒng)能夠直接從內(nèi)容創(chuàng)造中獲得收益份額。
李笛強(qiáng)調(diào),AI仍處于技術(shù)創(chuàng)新高速迭代的階段,未來在他眼中不像是槍響后賽道確定的賽跑,更像是不知AI能力上限的“掃雷”游戲。這一階段,需要多樣化探索和寬容心態(tài),才能抓住近兩年巨大機(jī)遇,真正實(shí)現(xiàn)技術(shù)向應(yīng)用場(chǎng)景的轉(zhuǎn)化,改變?nèi)祟惿睢?/p>
楊銘??從業(yè)務(wù)和應(yīng)用緯度擁抱多模態(tài)大模型
科技是創(chuàng)造未來的核心動(dòng)力——螞蟻集團(tuán)研究員、百靈多模態(tài)大模型研發(fā)負(fù)責(zé)人楊銘一上臺(tái),就拋出了這句話。他表示,這是螞蟻集團(tuán)一直所堅(jiān)信的。在這句話的引領(lǐng)下,在過去一年,螞蟻集團(tuán)集中力量技術(shù)攻堅(jiān)交出了答卷:百靈語言大模型和多模態(tài)大模型。
螞蟻為什么需要多模態(tài)大模型?楊銘介紹,螞蟻具備豐富的多模態(tài)理解應(yīng)用場(chǎng)景,可以分為兩個(gè)維度來看。從業(yè)務(wù)緯度來看,有數(shù)字支付和數(shù)字金融;從應(yīng)用緯度來看,有圖文理解、視頻分析、圖像視頻內(nèi)容生成。為此,螞蟻集團(tuán)從無到有,收集了數(shù)十億張中英文圖文對(duì),通過無監(jiān)督學(xué)習(xí),訓(xùn)練出一個(gè)百億參數(shù)級(jí)別的圖文理解基礎(chǔ)大模型。
楊銘介紹,在圖文模型的基礎(chǔ)上,螞蟻衍生出了很多下游的垂類模型,包括將圖文理解模型應(yīng)用到圖文對(duì)話、視頻理解,以及文生圖、圖生圖等。有了圖文對(duì)話的能力,從應(yīng)用角度,螞蟻開始逐漸落地到業(yè)務(wù)領(lǐng)域。譬如,廣告內(nèi)容審核就是業(yè)務(wù)領(lǐng)域的典型場(chǎng)景。在圖文理解的基礎(chǔ)上,螞蟻引入了時(shí)序的建模,分析幀與幀之間的關(guān)系,理解運(yùn)動(dòng),從而能將圖文模型擴(kuò)展成視頻任務(wù)模型,支持視頻到文本的檢索、文本到視頻的檢索以及視頻內(nèi)容生成跟理解。
梁志輝??大模型時(shí)代讓所有人可被增強(qiáng)
360集團(tuán)副總裁、360大模型應(yīng)用負(fù)責(zé)人梁志輝認(rèn)為,大模型時(shí)代模型跟人的關(guān)系不是取代而是增強(qiáng)。所有人無論在日常辦公、企業(yè)營銷上,大模型能將人的閱讀、寫作、查找的速度大幅提升起來。
生成式AI或生成式大模型并非萬能,很多大模型現(xiàn)在還存在幻覺、缺乏行業(yè)知識(shí)、需要提示詞工程等挑戰(zhàn)。以提示詞工程這一點(diǎn)為例,首先,提示詞模板非常復(fù)雜,只有AI發(fā)燒友才有可能精通,這樣不利于大模型的推廣。其次,高質(zhì)量內(nèi)容很難靠大模型生成,要想推廣大模型就要揚(yáng)長避短。基于這種思考,他們選擇以一種全新的人機(jī)協(xié)同方式落地——讓大模型變成每個(gè)人的助手。
大模型的長處在于內(nèi)容生成和內(nèi)容理解。過去很長一段時(shí)間,看到很多聊天機(jī)器人的誕生。但這種機(jī)器人就像是小學(xué)生對(duì)大模型進(jìn)行催眠,告訴大模型現(xiàn)在是某個(gè)角色,并按套路提供答案;但它并不了解產(chǎn)品、公司以及協(xié)作方式。
梁志輝表示,我們希望讓大模型能夠像一個(gè)掌握多種技能、具備行業(yè)知識(shí),會(huì)使用多種工具的自主智能體Agent。這個(gè)Agent以整個(gè)互聯(lián)網(wǎng)做它的知識(shí)背景,能夠被訓(xùn)練,可以幫你查匯率、查天氣,甚至訂機(jī)票?;谇|大模型和Agent架構(gòu),梁志輝分享了他們現(xiàn)在關(guān)注的三大場(chǎng)景的應(yīng)用:智能營銷、智能辦公以及智能客服。
新終端,新交互
祝銘明??2024年XR技術(shù)熱度可能超過AI
“未來5年,希望把所有人的眼鏡換成智能眼鏡。”這就是Rokid創(chuàng)始人&CEO?Misa對(duì)不久的未來的堅(jiān)定展望。在演講中,Misa分享了他對(duì)AI與AR技術(shù)融合的看法,以及Rokid如何將這兩項(xiàng)技術(shù)結(jié)合在一起,打造新一代人機(jī)交互平臺(tái)。
2014年,Misa離開阿里巴巴,創(chuàng)立了Rokid。在他看來,AI和AR技術(shù)分別代表了對(duì)物理世界和數(shù)字世界的理解和交互能力,而他本人背負(fù)的使命,就是把AI和AR融合在一起,“融合成一件事情”。大家更容易被硬件抓住眼球,但實(shí)際上,Rokid不僅僅是一家眼鏡公司,而是一家致力于AI和AR人機(jī)交互的公司。
行業(yè)目前有兩條路線——一條是以Apple為代表的VST(Video?See?Through),是把用戶包裹在一個(gè)純粹的數(shù)字世界里,通過傳感器把物理世界數(shù)字化、在虛擬世界里重建;一條則是Rokid選擇的OST,更輕量化,在數(shù)字世界疊加真實(shí)世界,讓用戶用肉眼去感知。
Misa給出了自己的判斷:短期內(nèi),兩條路線沒有對(duì)錯(cuò),并將長期共存?!罢l是更好,誰不好,還是交給時(shí)間去解決?!盡isa最后表示,他相信2024年XR技術(shù)將取得更大的突破,熱度甚至可能超過AI。
周圍??攜手邁向智能體時(shí)代
2023年下半年開始,全球手機(jī)廠商紛紛加速,把大模型“塞”進(jìn)手機(jī)。以vivo為例,該公司的大模型戰(zhàn)略可總結(jié)為5點(diǎn):大而全、算法強(qiáng)、真安全、自進(jìn)化、廣開源。具體做法圍繞兩步走,一是大模型開發(fā),一是大模型落地。
vivo副總裁、OS產(chǎn)品副總裁、vivo?AI全球研究院院長周圍分享,藍(lán)心大模型包含十億/百億/千億三個(gè)參數(shù)量級(jí),共5款大模型。如今70億參數(shù)版本對(duì)外開源,130億版本在端側(cè)跑通。
大模型如此神奇,是因?yàn)樗鼘⑷祟悢?shù)千年的文明知識(shí)進(jìn)行了高維度的抽象,并壓縮成每個(gè)人都可以獲取的知識(shí)和信息。再來看大模型落地應(yīng)用方面,vivo的軟硬結(jié)合路線。硬件方面,和芯片廠商深度合作,加速大模型上手機(jī);軟件方面,推出多種應(yīng)用形式、并和底層系統(tǒng)深度融合,讓消費(fèi)者能更快上手體驗(yàn)。
但腳步不應(yīng)該在這里停滯。周圍透露道手機(jī)廠商更加關(guān)注大模型應(yīng)用給人帶來的實(shí)際體驗(yàn)如何,因此他認(rèn)為,大模型還要有像人類一樣的邏輯思維、情感和價(jià)值觀。在這一點(diǎn)上,最能完成體驗(yàn)閉環(huán)和商業(yè)閉環(huán)的場(chǎng)景就是落地在手機(jī)上,打造智能體。
欒劍??入口在硬件,粘性靠生態(tài)
在小米看來,大模型有三要素:大數(shù)據(jù)、大參數(shù)、大任務(wù)。這里面哪個(gè)才是大模型產(chǎn)生泛化能力的關(guān)鍵?小米集團(tuán)技術(shù)委員會(huì)AI實(shí)驗(yàn)室大模型團(tuán)隊(duì)負(fù)責(zé)人欒劍給出了他的觀點(diǎn):“我們覺得參數(shù)量并不是一個(gè)最關(guān)鍵的因素,小一點(diǎn)的模型也能產(chǎn)生泛化能力?!边@一觀點(diǎn),也體現(xiàn)在了小米對(duì)大模型研發(fā)的全過程中。
小米大模型的突破點(diǎn)不是“大”,而是輕量化和本地部署。欒劍表示,這和小米的特色有關(guān),小米有各種各樣的硬件設(shè)備,是全球最大的消費(fèi)級(jí)IoT平臺(tái),截至去年第三季度,聯(lián)網(wǎng)設(shè)備總量近7億,擁有5臺(tái)以上小米IoT設(shè)備的用戶數(shù)達(dá)到1370萬。小米的想法是把大模型當(dāng)作大腦,搭載到硬件設(shè)備中。
“小米特別關(guān)注的,并不是行業(yè)所說的通用大模型,也不是垂類大模型,而是場(chǎng)景大模型。從技術(shù)參數(shù)上來秀肌肉我覺得沒有什么意義了,接下來我們回歸到怎么把大模型用好?!毙∶走€要探索同場(chǎng)景多設(shè)備協(xié)同、跨場(chǎng)景設(shè)備。欒劍表示云邊端結(jié)合是將來發(fā)展很重要的一條路徑。
欒劍認(rèn)為大模型本身是一個(gè)入口,而跟操作系統(tǒng)深度融合,操作系統(tǒng)就是入口,歸根結(jié)底操作系統(tǒng)需要一個(gè)硬件。至于用戶粘性,要探索如何讓大模型無處不在地融入日常生活。
新模式,新機(jī)遇
顏辰巍??AI要落地在端側(cè),才能實(shí)現(xiàn)真正大爆發(fā)
高通技術(shù)公司產(chǎn)品管理高級(jí)副總裁顏辰巍帶來的思考是:AI最終要落地在端側(cè),才能實(shí)現(xiàn)真正大爆發(fā)。
為什么要在端側(cè)支持生成式AI,高通有三點(diǎn)考量。一是云端AI模型推理成本高昂,當(dāng)數(shù)十億用戶都在使用越加復(fù)雜的模型時(shí),云計(jì)算推理綜合成本會(huì)急劇增加,云經(jīng)濟(jì)難以支持生成式AI規(guī)模化擴(kuò)展;二是大量數(shù)據(jù)本身就發(fā)生在端側(cè),在終端側(cè)處理AI是最經(jīng)濟(jì)的,也能夠更好地保護(hù)用戶隱私;三是有些應(yīng)用場(chǎng)景可能沒有5G數(shù)據(jù)連接,比如在野外,車座艙里的司機(jī)與車交互的應(yīng)用。這時(shí)候就必須有本地計(jì)算能力。所以只有當(dāng)終端就能運(yùn)行基于AI大模型的用例時(shí),端側(cè)與云側(cè)能很好地結(jié)合,生成式AI才能大規(guī)模普及,發(fā)揮出所有的潛力。
為實(shí)現(xiàn)端側(cè)AI算力突破,顏辰巍介紹到高通近期發(fā)布的兩款專為生成式AI而打造的全新平臺(tái),面向PC的驍龍X?Elite和面向智能手機(jī)的第三代驍龍8。顏辰巍指出,第三代驍龍8能夠支持在終端側(cè)運(yùn)行高達(dá)100億參數(shù)的生成式AI模型,并以20?token/秒的速度運(yùn)行大語言模型,而驍龍X?Elite是高通公司迄今為止面向PC打造的最強(qiáng)計(jì)算處理器,支持在終端側(cè)運(yùn)行超過130億參數(shù)的生成式AI模型,憑借快達(dá)競(jìng)品4.5倍的AI處理速度,將繼續(xù)擴(kuò)大高通在AI領(lǐng)域的領(lǐng)先優(yōu)勢(shì)。
卞正達(dá)??AI大模型的挑戰(zhàn)與系統(tǒng)優(yōu)化
潞晨科技聯(lián)合創(chuàng)始人兼CTO卞正達(dá)介紹了大模型的時(shí)代背景,AI模型訓(xùn)練成本日益增長的趨勢(shì)。由此引入Colossal-AI框架,通過分布式算法來降低大模型的部署門檻和訓(xùn)練成本。
卞正達(dá)具體介紹整個(gè)框架的設(shè)計(jì)思路,主要包括三大核心技術(shù)。一是N維并行系統(tǒng)。卞正達(dá)團(tuán)隊(duì)發(fā)現(xiàn)此前市面上已有眾多并行技術(shù),但更多普通用戶拿到實(shí)際需求以后,很難選擇真正合適的并行方案,來轉(zhuǎn)化成實(shí)際落地的解決方案。由此,Colossal-AI框架的核心思路是把目前最高效的并行技術(shù)整合到一套系統(tǒng)里,根據(jù)不同用戶的需求選擇合適的并行方案,同時(shí)提供最高效的落地實(shí)現(xiàn)。
第二點(diǎn)是高效的內(nèi)存管理系統(tǒng)。卞正達(dá)表示,在深度學(xué)習(xí)訓(xùn)練中,計(jì)算較重的板塊集中于存儲(chǔ)開銷比較少的部分,反而存儲(chǔ)開銷比較大的部分都集中在優(yōu)化器的參數(shù)更新上。所以他們的思路是把冗余的存儲(chǔ)開銷放在比較便宜的存儲(chǔ)設(shè)備上,反映到Colossal-AI框架中,他們通過自適應(yīng)的管理系統(tǒng)實(shí)現(xiàn)更高效的管理參數(shù)的存放。
除此以外,Colossal-AI還實(shí)現(xiàn)了Chunk的管理系統(tǒng),為異構(gòu)的存儲(chǔ)也提供靈活管理。通過上述系統(tǒng)優(yōu)化,Colossal-AI框架大幅降低了部署AI大型模型的門檻,模型訓(xùn)練和推理速度都得到了提升。
吳韶華??算法與數(shù)據(jù)需要同步改進(jìn)
浪潮信息AI軟件研發(fā)總監(jiān)吳韶華,回顧了GPT-3到GPT-4/ChatGPT發(fā)生的重要變化。GPT-3是一種預(yù)訓(xùn)練大模型,直接通過提示詞來使用;而GPT-4則在預(yù)訓(xùn)練之外,引入了微調(diào)和強(qiáng)化學(xué)習(xí)等技術(shù),極大提升了模型的能力。
吳韶華分析認(rèn)為,從GPT-3到GPT-4訓(xùn)練模式的變化需要算法與數(shù)據(jù)的同步改進(jìn)。他拿實(shí)踐經(jīng)驗(yàn)來證明浪潮信息在這方面的思考:2021年9月,2457億參數(shù)的經(jīng)典Transformer結(jié)構(gòu)大模型源1.0發(fā)布,2023年9月,浪潮信息又新發(fā)布了源2.0。兩個(gè)版本的迭代的最主要改進(jìn),體現(xiàn)在三個(gè)方面——第一是算法的改進(jìn),第二是數(shù)據(jù)的改進(jìn),第三是計(jì)算的改進(jìn)。針對(duì)多元異構(gòu)芯片間P2P帶寬的極大差異,浪潮信息提出了一種非均勻流水并行的分布式訓(xùn)練方法,大幅減少對(duì)芯片間互聯(lián)帶寬的需求。
源2.0發(fā)布后,浪潮信息發(fā)布了“源2.0大模型共訓(xùn)計(jì)劃”。開發(fā)者可以將模型在應(yīng)用場(chǎng)景中的能力缺陷進(jìn)行反饋,浪潮信息研發(fā)團(tuán)隊(duì)將收集、清洗相關(guān)數(shù)據(jù)進(jìn)行模型增強(qiáng)訓(xùn)練,訓(xùn)練后的模型將持續(xù)開源。