孫媛媛
AI技術的創(chuàng)新迭代,將驅(qū)動虛擬人的應用場景進一步落地,為虛擬人行業(yè)發(fā)展帶來更多想象力和可能性。
虛擬數(shù)字人行業(yè)近年來發(fā)展迅速,其技術發(fā)展和市場需求基本圍繞兩點演變,一是視覺效果,二是交互體驗。用戶對于虛擬數(shù)字人的市場認可和消費意愿,使虛擬數(shù)字人強大的商業(yè)價值日益凸顯,加之國家相關產(chǎn)業(yè)政策明確表示對這一新興產(chǎn)業(yè)的支持,新老互聯(lián)網(wǎng)廠商紛紛加碼虛擬數(shù)字人市場,自2022年以來虛擬數(shù)字人的市場應用呈現(xiàn)爆發(fā)態(tài)勢。
即構科技2015年成立后,專注自研音視頻引擎,目前已成為全球知名的音視頻云服務商,多年來一直在深耕探索音視頻通信、實時互動、音視頻處理、AI算法等多方面的技術與能力,尤其在音視頻處理的底層技術方面具有天然技術優(yōu)勢,憑借多年沉淀下來的RTC能力,以及在移動端豐富的項目落地經(jīng)驗,可以穩(wěn)定保障生成式數(shù)字人的音視頻內(nèi)容畫質(zhì)高清、音質(zhì)無損,以及數(shù)字人直播的實時性體驗。即構科技創(chuàng)始人兼CEO林友堯表示,即構科技無論在AIGC還是在元宇宙中,最大的核心競爭力都是強調(diào)實時互動。
RTC技術實力加持令AI數(shù)智人快速落地
早在2019年,林友堯就觀察到在線互動的新需求,開始進行技術積累,包括AI算法、虛擬現(xiàn)實建模等。當看到元宇宙概念走紅時,林友堯感到興奮,因為元宇宙能更好地將公司積累的技術整合起來,讓技術有“用武之地”。
即構科技在AI領域早有沉淀,其數(shù)字人產(chǎn)品的核心技術——AI多模態(tài)生成算法,是基于視覺感知算法和音視頻生成算法以及NLP語義算法的多模態(tài)AI能力的融合,能夠有效促進產(chǎn)品在業(yè)務場景中的商業(yè)化落地,解決實際痛點。
從最基礎的“面部表情傳遞情感信息”這一基本場景嘗試重構溝通方式,經(jīng)過一年的研發(fā),在2022年即構科技推出了3D數(shù)字人產(chǎn)品——ZEGO?Avatar,通過對面部表情的高度還原、極低的延遲,實現(xiàn)了超情感表達。
同時,林友堯意識到,人人互動和人場互動是互聯(lián)網(wǎng)未來核心場景,重構這種場景,需要對場景抽象化,并實現(xiàn)高并發(fā)、低延遲的狀態(tài)同步?;诖?,即構科技推出了具備虛擬世界開發(fā)能力的產(chǎn)品——ZEGO?Metaworld。
今年以來,即構科技加碼數(shù)字人業(yè)務,從原先專注3D數(shù)字人,到2D、3D多線并舉,其中2D業(yè)務上線一站式數(shù)智人解決方案,應用于知識口播、金融、教育、營銷、企業(yè)內(nèi)訓等場景。
“即構數(shù)智人——即智”是即構科技最新打造的AI視頻生成應用,通過行業(yè)領先的人工智能、面部動態(tài)識別、聲音處理、實時互動技術、云計算技術為企業(yè)提供高效的短視頻營銷工具、虛擬直播、實時互動型數(shù)字人等一站式解決方案,可支持數(shù)智人形象定制、短視頻創(chuàng)作、數(shù)智人直播,為企業(yè)降本增效再提速。
即構數(shù)智人的表現(xiàn)效果,是外界最為關心的,也是即構科技著力打磨的地方。目前“即智”支持定制形象、背景、音色、語言。在平臺輸入內(nèi)容后,“即智”可自動進行語義理解,模仿真人表情與動作,并且根據(jù)同一段內(nèi)容,數(shù)智人可以每次演繹出不同效果,如同人類的“微表情”。
而通過“即智”數(shù)智人平臺,用戶只需要上傳一段5分鐘的本人錄制視頻,就可以1:1還原本人的聲音、形象,并且在平臺內(nèi)自由進行內(nèi)容創(chuàng)作或者進行直播,省去了內(nèi)容生產(chǎn)過程中的籌備、拍攝、剪輯過程,團隊可以將更多時間和精力專注在內(nèi)容質(zhì)量的打磨上,生產(chǎn)效率大大提高。
作為即構科技產(chǎn)業(yè)互聯(lián)網(wǎng)業(yè)務總裁,王文祥目前負責即構產(chǎn)業(yè)互聯(lián)網(wǎng)業(yè)務和創(chuàng)新業(yè)務,曾主導過即構RTI升級、即構元宇宙互動引擎等創(chuàng)新項目。在接受《小康》雜志、中國小康網(wǎng)采訪時,王文祥表示,目前能夠熟練運用短視頻及直播等營銷手段創(chuàng)造效益的企業(yè)并不多,究其原因,是主播人力成本、設備搭建成本、操作成本、試錯成本等支出較高,而數(shù)字人的出現(xiàn),恰好能解決這一痛點。越來越多企業(yè)開始探索數(shù)字人的智能交互體驗,為企業(yè)自身的運作降本增效。另外,在企業(yè)的數(shù)字化轉(zhuǎn)型過程中,數(shù)字人技術也被持續(xù)應用到如線下大屏、單向客服、數(shù)字教練、VolTel等場景中。
做垂直行業(yè)的數(shù)字人
近年來,AI數(shù)字人已逐漸成為各行業(yè)數(shù)字化應用的新風口,國內(nèi)外AI大模型的陸續(xù)出現(xiàn)、廣泛的應用前景以及來自政策層面的大力支持,使這一領域充滿想象空間。當AIGC時代來臨,哪些企業(yè)具有較早的技術積累和沉淀,哪些企業(yè)能夠迅速結(jié)合市場需求推出實用的產(chǎn)品和服務,哪些企業(yè)就掌握了該領域的發(fā)展先機。
即構科技在人人交互和人機交互領域里積攢經(jīng)驗,結(jié)合數(shù)智人和大語言模型,為垂直行業(yè)帶來全新的智能交互體驗,讓更多客戶體驗技術帶來的降本增效,通過“人格化的數(shù)智人”“行業(yè)垂直可控的數(shù)智人”這樣的方案,實現(xiàn)“有溫度的人機互動”。數(shù)字人和數(shù)智人,有一字之差,王文祥解釋說:“‘智是一種強調(diào),強調(diào)我們的數(shù)字人更加有智慧、有溫度?!?/p>
據(jù)了解,即構科技目前已為200多個國家/地區(qū)提供一站式音視頻云服務,音視頻技術已經(jīng)服務超過4000家客戶,創(chuàng)業(yè)八年多時間,公司全部客戶的流失率不到5%,其中大客戶的流失率更是幾乎為0。由于在行業(yè)內(nèi)有很多已經(jīng)落地的成功案例,針對不同行業(yè)的成熟落地方案,對于拓展數(shù)字人業(yè)務具有先發(fā)優(yōu)勢?;诒旧韺ι缃粖蕵贰⒔鹑?、醫(yī)療、教育等行業(yè)深刻的理解和服務,所以數(shù)字人的新業(yè)務也能夠更好地適應和響應客戶們的需求。
王文祥提到,“大模型有通用大模型,未來做大模型除了大廠之外,一些中小型廠商聚焦于做垂直領域的大模型也是非常有市場前景的。而對于即構來說,我們希望在應用這塊能夠賦能企業(yè)去真正地創(chuàng)造價值。因此,我們會注重具體行業(yè)的定制化需求,這是差異化的業(yè)務戰(zhàn)略?!?/p>
即構科技于今年推出的“即智”數(shù)智人平臺,其應用于金融領域,可通過“AI?bank”的模式,讓用戶體驗更有溫度更智慧化的業(yè)務辦理。針對如何防止黑產(chǎn)行業(yè)利用虛擬數(shù)字人進行騙貸騙保等痛點,則配套了金融反欺詐的解決方案。與此同時,即構數(shù)智人還可適配金融行業(yè)自建產(chǎn)品銷售網(wǎng)絡及內(nèi)部大型培訓等個性化需求,助力金融機構構建自有的私有化直播平臺。
“像銀行這種對安全有高要求的敏感行業(yè),數(shù)據(jù)、應用、本地化,都要按需定制,我們提供企業(yè)數(shù)字化能力的同時,也助力其保障數(shù)據(jù)安全?!蓖跷南橹赋?,即構科技的數(shù)字人擁有序列號可以溯源,如果被第三方非法使用,是可以被追溯到的?!拔覀冎鲃訐肀ПO(jiān)管,提前布局更安全合規(guī)的內(nèi)容。”
對于銀行業(yè)務咨詢等場景來說,需要解決的痛點是數(shù)字人的反饋是否足夠及時、數(shù)據(jù)是否足夠安全,比如客戶提出了問題,中后臺接收需要時間,接到問題后,語音轉(zhuǎn)化為文字,然后進入大模型或者人工后臺操作,這個過程要極致壓縮時間,令數(shù)字人的回答更實時,這就需要打造足夠詳細的數(shù)據(jù)庫以及提供穩(wěn)定的RTC通信能力。如果一個提問,客戶等待很久才能得到數(shù)字人的反饋,體驗就比較差。金融企業(yè)客戶通過接入即構科技提供的服務即可實現(xiàn)實時音視頻通信,尤其在弱網(wǎng)環(huán)境下仍然能夠獲得高質(zhì)量、穩(wěn)定性強的音畫,獲得流暢的溝通。
在確保信息安全方面,數(shù)字人接入如ChatGPT這樣通用開放的大模型語言體系客觀上存在一定風險。金融行業(yè)、法律行業(yè)的客戶嚴肅場景居多,如果數(shù)字人回答得不夠嚴謹就會觸發(fā)風險,在此基礎上,即構科技對數(shù)字人進行反復訓練,在通用的大模型內(nèi),對它進行垂直化、合規(guī)化?!白屛覀兊臄?shù)字人不光會說,還不瞎說,因此在訓練時會設置一些圍欄,只講涉及具體行業(yè)的核心部分,相關信息均經(jīng)過授權,非行業(yè)內(nèi)知識進行隔離處理?!蓖跷南楸硎?。
在數(shù)字化經(jīng)濟浪潮的沖擊下,金融行業(yè)紛紛布局數(shù)字化創(chuàng)新戰(zhàn)略,未來即構科技將以扎實的實時音視頻及?AI能力為基礎,持續(xù)為金融行業(yè)數(shù)字化的轉(zhuǎn)型注入活力。
數(shù)字人助企業(yè)出海
近日,數(shù)字文娛人工智能創(chuàng)新峰會在上海舉辦,各類人工智能在數(shù)字文娛領域的新應用在會上展出。在即構科技的展臺上,有精心布置的直播間、頗具親和力的帶貨主播、高效的產(chǎn)品介紹……而看似真人直播帶貨的場景,其實是人工智能構建出來的。
“我們最近用數(shù)字人嘗試了幾場直播,銷售數(shù)據(jù)還不錯。接下來,我們準備提升直播的互動性,從一場直播賣一款產(chǎn)品升級為賣多款產(chǎn)品?!蓖跷南楸硎?,數(shù)字人直播有兩個好處,一是數(shù)字人主播不需要停歇,二是節(jié)省直播場地等成本。以數(shù)字人為代表的人工智能在打破人力限制的同時,也突破了跨語種交流的壁壘。“人工智能使數(shù)字文娛產(chǎn)業(yè)的出海業(yè)務更順暢,實現(xiàn)破局新增長?!?/p>
面向全球市場的數(shù)字人是大模型的另一個應用方向?!斑@種數(shù)字人可以多語種、多形象、多場景定制,只要6分鐘至8分鐘就能生成一條播報視頻?!?/p>
今年5月,中哥文化貿(mào)易促進會在成都市舉行重要合作伙伴授牌儀式,同日,成都IN3咖啡工廠、成都叁叁叁文化科技有限公司、即構科技聯(lián)合推出的“哥倫比亞咖啡莊園企業(yè)代表與成都IN3咖啡工廠仿真人直播技術”正式亮相。
據(jù)了解,該款仿真人是由即構科技結(jié)合AIGC技術自研的“數(shù)智人產(chǎn)品”所打造而成的,以哥倫比亞托利馬大學負責人為原型,對其進行真人形象1:1克隆,隨后經(jīng)過人工智能訓練推理,令其動作自然且具備動態(tài)化的表現(xiàn)力以及多語言表達的功能。
仿真人能夠結(jié)合短視頻、直播等社交傳播方式,開創(chuàng)性地實現(xiàn)向全球咖啡愛好者傳遞哥倫比亞前沿咖啡文化、咖啡資訊與生產(chǎn)技術的目標,為哥倫比亞咖啡提供展示舞臺的同時,也為成都乃至中國咖啡產(chǎn)業(yè)鏈發(fā)展帶來更多機會。
此次咖啡工廠仿真人直播技術在IN3咖啡工廠店亮相,標志著中國西部地區(qū)最大的咖啡店在科技創(chuàng)新方面又邁出了新的一步,也將推動成都與“一帶一路”倡議響應國更多更好的交流合作,以此為契機進一步推動產(chǎn)業(yè)核心技術研發(fā),為培育新技術、新業(yè)態(tài)、新模式、新組織帶來新動能。
即構科技已經(jīng)為全球200多個國家和地區(qū)提供毫秒級的實時互動體驗,在泛互聯(lián)網(wǎng)賽道上擁有?70%?以上的行業(yè)頭部客戶。隨著國內(nèi)泛互聯(lián)網(wǎng)的發(fā)展,越來越多的企業(yè)將目光投向了海外市場,即構科技服務的大部分頭部客戶都走上了出海的征程,進一步實現(xiàn)全球化。