大模型和智能體技術的出現為媒體行業(yè)帶來前所未有的機遇和挑戰(zhàn)。媒體機構和媒體人如何在日常工作中,充分利用大模型技術之所長,提升自身生產效率、運營能力,繼而達到降本增效和提升競爭力、影響力的目標,需要不斷探索和創(chuàng)新。在此,騰訊結合自身實踐,共同探討如何讓AI與傳媒行業(yè)工作流程結合,實現在傳媒行業(yè)的真實落地。
一、人與AI協(xié)同的三個階段
在大模型或者說通用AI落地過程中,業(yè)界經歷三個階段。
第一個是ChatBot(智能聊天機器人)階段,也就是以對話機器人模式使用大模型。在日常AI能力使用中,如果我們向AI提出一個提示(Prompt),AI會按照你的要求給出結果,但結果是否準確,需要我們自己去判斷。由于大模型訓練過程中訓練數據質量不高,在推理過程中,每一步都是基于上下文按概率生成后續(xù)內容,所以模型很有可能在“一本正經地胡說八道”,也就是模型有幻覺。所以,對話機器人模式下,我們直接和大模型“打交道”,對模型的要求很高,在目前的技術水平下,生成內容僅供參考。
第二個是Copilot(智能輔助工具)階段,通俗地說是以副駕駛模式使用大模型。這種模式下,絕大部分都是使用專屬模型,在專門的場景下對業(yè)務提供輔助。比如,騰訊會議的“智能小助手”在會議過程中可以隨時幫助與會者記錄下來信息,隨時按需接受與會者咨詢,給出會議紀要、會議代辦、會議提醒等各種各樣的協(xié)助工作。
第三個是Agent(智能體)階段,也就是以智能體的方式使用大模型。很多人對智能體這個名詞有所不解,簡單定義一下,智能體就是一類應用,這類應用具有記憶能力,可以借助大語言模型強大語言理解能力、邏輯推理能力調用工具,幫助人類完成任務。這種模式下,智能體并不會局限于使用某一兩個或是某一兩種模型,而是綜合使用多個、多種大模型,通過大模型的理解能力, 理解人的意圖, 拆解工作任務,查找合適資料,按需調用不同工具,控制進度,完成工作后向人類反饋。這個過程中,不同大模型按需地發(fā)揮所長,協(xié)同完成一個特定任務。
從這里看,我們過去的大模型工作方式,基本上集中在第一個階段里面,所以我們都在為模型寫不出符合要求的稿件,自己寫不出優(yōu)秀的Prompt而焦慮。
二、騰訊大模型實踐
騰訊有自己的大模型——混元,這是一個純自研、冷啟動、純中文原生的自有知識產權大語言模型,通過一年多的努力,這個模型從稠密模型架構向稀疏化架構演進,采用專家混合模型(MoE)結構。這種架構下,模型系統(tǒng)內部由多個專家模型構成,不同專家模型擅長處理不同領域數據和任務。在做不同任務,處理不同輸入數據時,模型會將數據流路由給不同的專家模型來處理,在效果、效率、成本之間取得最佳平衡。
在過去一年里,騰訊600多個不同產品、不同業(yè)務與“混元”深度的融合,這種融合最終帶來實實在在的降本增效。
2024年上半年,騰訊發(fā)布了一個叫元寶的App,“元寶”的本質就是一個超級智能體,它可以幫你翻譯,可以幫你對某個長文進行深度分析歸納,可以以一個外教的身份幫你練習口語,也可以用“范閑”的身份陪你聊天打發(fā)時間。當我們要求元寶完成任意一份工作的時候,它大概率不會僅僅基于大模型的基底數據來完成。比如,我們詢問他某一個最新知識,它可能會通過搜索微信公眾號這種具有高質量數據內容的地方進行查詢,然后綜合后給出答案,同時告訴你這個信息來自什么地方,供你參考。如果你詢問他一道比較復雜的題目,它可能會將這個問題拆解為多個執(zhí)行步驟后,轉換為Python(編程語言)腳本、 SQL(結構化查詢語言)語句,然后讓對應的編譯器工具執(zhí)行后返回結果。
在內容領域,騰訊新聞App推出一個叫“新聞妹”的智能助手,它可以對長文進行總結,可以幫讀者朗讀新聞,也可以隨時地通過畫線回答讀者不了解的內容,還可以回答大家可能感興趣的關聯問題。這是大模型在內容場景的應用輔助。還有微信讀書,它可以通過AI問書、智能提綱等方式,輔助我們的閱讀。
從以上這些應用中能夠看出,大模型的幻覺也許是不可避免的,但是我們完全可以讓大模型發(fā)揮其所長,規(guī)避其短板,讓它為我們服務。
三、大模型的系統(tǒng)架構演進
1.大模型API直接調用
目前,在大部分媒體用戶腦海中,或者說在實際使用大模型中,使用的模式都是對話機器人模式,原因主要來自于傳統(tǒng)使用工具的習慣,也就形成一種AI使用定式——直接的API調用。這種模式是我們直接跟大模型打交道,直接去問模型、調模型API,我要做什么,模型生成什么。這種效果并不好,我們無法規(guī)避大模型的幻覺,大模型也不能隨時擁有最新最專業(yè)的知識儲備,我們也不能要求每一個使用工具的人都具備深度的提示詞優(yōu)化能力,產生最佳的結果。同樣,對于工具開發(fā)人員來說也很難,不同模型就要對接不同的API,效率很低,客戶難以實現“模型選擇的自由”。
2.使用與生成智能體
智能體(Agent)的出現,很好地解決了這些問題。首先,我們提供編輯的界面,內置調優(yōu)提示詞(Prompt),賦予每一個智能體以特定人設,告知它做事的方法、步驟,告知它在遇到什么問題的時候可以使用什么工具,賦予它長期記憶(向量數據庫)和短期記憶(上下文)的能力。編輯好后的智能體就能去分析和理解你要做的事情;用你教它的方式去把要求它做的事情拆解成不同的任務,逐步去執(zhí)行;以插件的形式去調用不同的完全開放的工具,等等。最后,將上述由工具和不同步驟執(zhí)行產生的內容,用大模型進行總結和歸納,產生結果。
因此,有了智能體工作范式,業(yè)務系統(tǒng)與模型對接就只需要用業(yè)務工具和智能體打交道,我們可以產出各種不同智能體,每個智能體具備不同能力。比如,有的擅長選題,有的擅長評論,有的擅長寫稿,有的擅長翻譯等。每個智能體理解和遵從使用者的指示,具備不同專業(yè)知識,可以調用不同工具,能夠幫我們很大程度規(guī)避大模型在幻覺、專業(yè)知識、知識更新、指令遵從等方面的弱點, 同時,讓上層業(yè)務在對接智能體的時候,可以使用同樣的對接方案,讓業(yè)務系統(tǒng)對接不再需要面對復雜接口。
3.應用智能體工作流
有了智能體以后,我們可以更方便地應用大模型的長處。大模型的長處在于能夠更好理解你的意圖,善于歸納總結。相反,其弱點在于它生成的不穩(wěn)定,它有幻覺,因此還不足以將其應用在生產力工具上。例如,中國有大量網文,有些網文不僅在國內很火,在海外也有很多粉絲,國內粉絲每天在催更,國外粉絲在催更的同時,還要催翻譯。早期翻譯,是由不同熱愛者自發(fā)、互助地在做,其結果必然導致翻譯的不穩(wěn)定。在大模型出現以后,所有人都在想,能不能夠用大模型去完成網文的翻譯。但在實踐中,直接使用大模型翻譯的結果并不好,因此,AI專家就用智能體工作流的方式。他們“成立”一個虛擬翻譯Agent公司,這個公司里面設置CEO、高級編輯、初級編輯、翻譯、本地文化專家、校對員等不同角色,每個角色都是一個智能體。這些智能體除了被賦予原有能力還會被賦予教育、國籍、文化等不同背景。同時,我們設定翻譯過程中必須遵循的規(guī)則,再進一步把翻譯的流程分成若干子階段,每一個智能體只完成某一部分工作,并把自己工作的結果交給下一步智能體來進行后續(xù)的動作。研發(fā)團隊對這個工作流的效果做了一個比較詳細的評估,評估結果是有60%以上人群認為,這個智能體工作流產生的翻譯結果強于或者至少不弱于人工翻譯。
綜上所述,智能體工作流其實與人類工作流程更加相近。它包含工具使用、系統(tǒng)性規(guī)劃、多智能體協(xié)作。具體應用到媒體的工作場景下,我們定制了諸多智能體工作流,能夠比較好地完成每一個崗位該完成的工作。例如,我們可以讓大模型幫編導產生一個專業(yè)節(jié)目設計,做腳本的細化和運鏡的細化;我們也可以讓大模型幫忙找選題并完成文稿,文稿生成以后,大模型還可以校對。有了智能體工作流,大模型將產生比簡單的提示詞對話模式更優(yōu)秀的效果,它產生的結果細節(jié)更豐富,劇情更連貫。同時,它的每一步還可以允許業(yè)務人員隨時地介入,隨時糾偏。
最終,我們的系統(tǒng)架構變成最頂層是工具,后面掛接智能體,智能體后面掛接智能體的平臺(包含智能體的編排平臺、調度平臺、工作流平臺等等),最后對接各類模型。模型可以是公有云上各家的通用模型,也可以是私有化部署的開源模型,未來更可能是針對我們行業(yè)專門精調的行業(yè)專屬模型。
四、總結
針對企業(yè)級的要求,我們需要一個“智能體編排調度平臺”, 它包含智能插件、倉庫、流程編排、畫布、智能體編輯器這一系列完整工具來完成上述的業(yè)務流程設計。同時,在日常工作中,我們既需要使用部署在媒體機構內網的私域的智能體,我們還需要自由串接部署在互聯網上的成熟公域智能體,我們可以采用數據連接器的方式,安全地把私域和公域智能體結合。同時,有了上述工具,媒體能夠更方便便捷地創(chuàng)建自己的智能體工作流,綜合利用大模型擅長的能力,高質量解決媒體業(yè)務中實際問題,提高工作效率,提升運營水平。W
(作者曾亮系騰訊云計算(北京)有限責任公司智慧傳媒行業(yè)技術總監(jiān))
責任編輯:田可心