姚前
大模型語料是指用于訓練和評估大模型的一系列文本、語音或其他模態(tài)的數據。語料規(guī)模和質量對大模型性能以及應用的深度、廣度有著至關重要的影響。當前行業(yè)大模型訓練語料存在覆蓋面不全、準確性不足、時效性不夠等問題,導致大模型通常難以達到預期目標。實踐經驗表明,即使模型參數量級有所下降,只要數據語料質量足夠高,其表現(xiàn)依然不俗。
為進一步提升大模型在行業(yè)的應用范圍和應用成效,需統(tǒng)籌行業(yè)力量搭建社區(qū)平臺,拓寬語料來源,構建語料標準規(guī)范,開展語料治理,保障語料安全,為大模型訓練及應用提供滿足業(yè)務場景需求,具備行業(yè)特性和標準化的高質量語料。
行業(yè)大模型語料是指用于訓練垂直領域大模型的數據集,通常包含自然科學、社會科學等通用語料和行業(yè)專用語料。以證券期貨行業(yè)為例,行業(yè)專用語料包括財經新聞、財務報告、法規(guī)文件、公開的交易數據等。通過收集和整理語料,可以訓練大模型理解和生成行業(yè)特定概念和知識,支持行業(yè)分析、預測和輔助決策等智能任務。
引入百科、書籍等通用語料,可使大模型在執(zhí)行行業(yè)特定任務時,減少對專業(yè)術語誤解的風險(如專業(yè)術語的非專業(yè)用法、術語的雙關語、與特定行業(yè)無關的上下文等),并且在面對跨領域的查詢或交流時,能提供更為準確和自然的響應。
引入行業(yè)專用語料,旨在豐富大模型對于行業(yè)特有詞匯、表達方式以及特定知識的理解,使模型能夠針對性地處理行業(yè)相關的復雜查詢,執(zhí)行精準的數據分析,以及更有效地支持輔助決策。此外,基于行業(yè)專用語料訓練的大模型在進行風險評估、預測、合規(guī)性檢查等任務時,能展現(xiàn)出更高的可靠性和適用性。
通常行業(yè)管理部門、經營機構以及信息技術服務商都會建設自身語料庫。一方面滿足行業(yè)知識整理、業(yè)務研究、合規(guī)風控等自身需求,另一方面可進一步加工成全新的數據資產、研究報告等,對外進行服務。不同的機構在語料庫建設方面的現(xiàn)狀以及面臨的問題均有所不同,且呈現(xiàn)出自身的特點。
管理部門在構建語料庫的工作中,挑戰(zhàn)主要在于數據集的規(guī)范和數據標準化,這是知識整理的基礎。其語料庫建設存在以下問題:1.數據分散:許多重要的數據散落在各業(yè)務系統(tǒng)中,重要信息和專家經驗無法得到有效沉淀,數據共享存在壁壘。2.數據異構:日常積累的大量文本數據,來自于不同的部門和層級,格式、結構和內容不盡相同。3.數據敏感:管理部門數據通常涉及大量敏感信息,在處理和存儲過程中必須確保安全合規(guī)。
經營機構語料庫涉及海量的結構化及非結構化數據,挑戰(zhàn)主要在于如何深度挖掘,以支持決策分析和客戶服務。其語料庫建設存在以下問題:1.處理難度大:來源于多渠道的經營和交易數據,格式、標準均不相同且模態(tài)多樣,難以有效整合。2.加工深度淺:經營機構的語料庫建設僅停留在表層信息,尚不涉及深層的語義理解和深度分析。3.隱私保護難:大模型語料涉及商業(yè)秘密及客戶敏感信息,在訓練和使用過程中經營機構須做好合規(guī)風控。
信息技術服務商擅長整合通用語料,在配合構建行業(yè)語料庫時面臨的主要挑戰(zhàn)是專業(yè)能力和服務質量。1.專業(yè)能力:信息技術服務商對行業(yè)語料的分類、分析和解讀需要行業(yè)知識,其專業(yè)能力嚴重影響語料庫的應用價值。2.服務質量:行業(yè)語料庫建設是一項持續(xù)迭代的工作,需要信息技術服務商提供長期的高質量服務。
此外,合成數據也是大模型訓練重要數據來源,在降低成本、提升數據質量、規(guī)避隱私問題等方面具有優(yōu)勢。如何探索行業(yè)數據合成的有效路徑,是行業(yè)語料庫建設的重大課題。
行業(yè)語料庫的構建與治理對于發(fā)展行業(yè)大模型,激活數據要素價值尤為關鍵。一個結構良好、內容優(yōu)質、管理規(guī)范的語料庫可以為行業(yè)參與者提供具備深度洞察力的知識庫,促進行業(yè)數字化轉型和高質量發(fā)展。具備公信力的語料庫需要行業(yè)共建共享,客觀上助推行業(yè)語料社區(qū)的建設和公共服務的發(fā)展。
語料決定了模型的訓練質量、性能表現(xiàn)以及應用領域的廣度與深度。語料庫建設除了考慮質量維度,還需關注開放程度。建設統(tǒng)一、開放、標準的行業(yè)大模型語料庫,有利于提高行業(yè)語料的利用效率和價值,促進行業(yè)大模型的訓練開發(fā),加速大模型的落地應用。
高質量語料應具備大規(guī)模、多樣性、真實性、連貫性、合法性和無偏見等特點。目前行業(yè)高質量語料相對缺乏,推動其建設是實現(xiàn)信息化向數字化、智能化轉型的重要之舉。
大模型語料通常需要跨機構、寬口徑數據,可能會涉及數據安全、隱私保護、知識產權等問題??商剿鞯谌綌祿泄艿确绞剑约せ顢祿貎r值,有效解決跨機構數據共享問題。
建設具備公信力的行業(yè)大模型語料庫是一項長期性、專業(yè)性的系統(tǒng)性工程,涵蓋基礎設施、公共服務平臺、行業(yè)規(guī)范標準、激勵機制等方面。在建設方法、實現(xiàn)路徑上需形成合力,多措并舉,久久為功(見圖)。
資料來源:作者整理
國際通用語料庫,如國外的The Pile、C4、Wikipedia(維基百科)等數據集,以及國內的“書生·萬卷”多模態(tài)預訓練語料、中國網絡空間安全協(xié)會發(fā)布的中文通用語料,都可作為建設行業(yè)大模型語料庫的基礎。為了擴大通用語料庫資源,要兼顧自立自強和對外開放,可考慮對Wikipedia、Reddit(美國娛樂、社交及新聞網站)等特定數據源建立過濾后的境內鏡像站點,供國內數據處理者使用。
實踐經驗表明,基于行業(yè)語料庫,重新訓練通用大模型,通用語料和專業(yè)語料規(guī)模配比通常約為1:1。因此,融合匯聚行業(yè)專用語料,加大語料供給,是行業(yè)大模型建設的前提。
一種有效思路是建設數據社區(qū),探索基于可信機構或基于可信技術的平臺,為數據主體提供托管服務。行業(yè)機構可利用托管數據,基于行業(yè)大模型做二次訓練或精調,以提升私有模型能力。托管的語料資產也可在社區(qū)范圍內有償交易,有序流轉。
語料加工處于大模型訓練開發(fā)的上游環(huán)節(jié),直接影響語料庫生產速度、適用范圍與質量水平。數據加工,特別是數據標注已形成產業(yè)化,行業(yè)信息技術服務商可在數據社區(qū)進行大規(guī)模、專業(yè)化數據加工與標注工作,促進行業(yè)語料庫的建設與規(guī)范。
語料安全是建設行業(yè)語料庫的“紅線”。要加強監(jiān)督,保障入庫數據內容合規(guī)、權益清晰。要完善法律法規(guī),優(yōu)化政策制度,以多種途徑與方式形成監(jiān)管合力,嚴防惡意篡改模型和滲入有害數據等行為。探索利用基于人類反饋的強化學習(RLHF)和可擴展監(jiān)督(Scalable Oversight)等技術方法,保證大模型的輸出符合人類價值觀,防止大模型生成有害內容。
行業(yè)語料庫的評測是進一步完善大模型能力的關鍵,既要在大模型訓練環(huán)節(jié)對語料庫的質量進行評價,也要通過應用成效評估語料庫對行業(yè)知識覆蓋的廣度和深度,不斷迭代,以達到更好的效果。
(編輯:張威)