徐乃帥
近兩年來,以ChatGPT為代表的AIGC(生成式人工智能)產品的出現(xiàn),引領了新一輪的科技熱潮。國內的互聯(lián)網科技企業(yè)緊跟潮流,紛紛推出各自研發(fā)的AIGC產品,目前已出現(xiàn)200多款大模型,形成了“百模大戰(zhàn)”的混沌之勢。
其中頗讓人關心的一個命題是,中文世界的AIGC產品何時能趕超西方,尤其在大語言模型這一領域,能否撼動當前ChatGPT一家獨大的地位?
今年3月9日,央視財經頻道《對話》欄目對百度董事長李彥宏進行獨家專訪。李彥宏表示,文心大模型在中文領域已經明顯超過了ChatGPT-4。然而此話一出,立刻引起了多方討論和質疑。
其中最具代表性的,是前搜狗CEO、百川智能創(chuàng)始人王小川在一次訪談中給出的看法:李彥宏對自己的產品有誤解,產生了一定“幻覺”;而另一個更廣泛的觀點則是,縱然文心大模型已經在中文某些特定的領域超過ChatGPT,也不值得國人感到驕傲,畢竟ChatGPT本就是一款以英語為主的產品。
英語是全球無可否認的世界語言,在政治、經濟、文化和科技等領域都被廣泛使用,這也使得大量的數據都以英語產生。這反映在不同語言AIGC的對比上,不僅意味著總數據量的差距,更體現(xiàn)在高質量訓練語料的差距。
業(yè)界普遍認為,中國的大模型發(fā)展要實現(xiàn)突破,必然要依賴于中文語料庫,而中文語料庫有著顯著的短板。從客觀視角來看,中文AIGC產品想要真正趕超ChatGPT,或有著相當長的一段距離。
語料,顧名思義,即語言的材料。
任何一款大語言模型,都需要對海量的、多樣性的語料進行充分學習,這是其輸出內容的基本素材,也是大數據時代人工智能的重要特征。
當然,這并不意味著只要搭建好框架,把足夠多的中文數據“填鴨式”地喂給AI,就能讓大模型“自學成才”。只有高質量的語料,才能訓練出一個優(yōu)質的模型。
諸如貼吧、微博等社交平臺上的交流內容,誠然具有一定的真實性和多樣性,能夠反映人們的日常語言習慣和表達方式,但另一方面也存在大量重復的同質化、無意義內容;各個小說網站上海量的文學創(chuàng)作,也同樣面臨此類問題,更何況此類語料庫往往還涉及隱私、版權等問題。
能夠被認為是高質量訓練語料的,一般認為包括了出版著作、文獻期刊、新聞報道、百科全書式知識等,已經被人工篩選檢驗過的文本類型。
而這些優(yōu)質文本,在投喂給AI之前,也仍需要對數據進行一定的“預處理”,使其成為結構化數據更便于AI識別?!邦A處理”的工作往往需要投入大量具有一定相關專業(yè)素養(yǎng)的人才去完成。因此這兩年來,廣州、杭州等一線城市“數據標注師”“AI訓練師”等崗位的招聘需求激增。
中文“數據標注師”的具體工作,包括清理無效字符、糾正病句錯字、對文本進行分詞,以及就內容進行主題、場景等方面的關鍵詞標注等。
相較于英語,中文的語法結構和表達方式存在很大差異,且存在大量的方言和口語變化,需要針對中文的特點進行專門的語料標注和整理工作—其中“分詞”正是“預處理”中最為繁瑣的一項。
只有高質量的語料,才能訓練出一個優(yōu)質的模型。
英文句子中的單詞,天然具有空格這一分隔符,而中文句子中沒有詞的界限,所以在進行中文自然語言處理之前,通常需要先進行“分詞”,即手動隔開基本詞匯。
隨著語言處理技術的發(fā)展,“分詞”大概率會變得不再必要。但就目前來說,仍需人類逐步教會AI如何有效識別中文語句中的信息。
實際上,包括語音、圖片等領域在內的“數據標注師”,目前已成為國內人工智能行業(yè)從業(yè)人數最多的一個群體,被稱為人工智能領域的“羅塞塔石碑”,正構筑著人工智能發(fā)展的底座。
而相較之下,英語世界很早就建成了不少系統(tǒng)化、優(yōu)質的語料庫。
2008年,美國楊百翰大學的語言學教授Mark Davies主持創(chuàng)立了美國當代英語語料庫(COCA)。作為當今世界上最大的在線免費英語平衡語料庫,COCA目前包含超過5.2億單詞的文本。最重要的是,COCA涵蓋了各種英語使用情境和地域,為AI的自然語言處理提供了寶貴的數據資源。
此外,國外還有英語國家語料庫(BNC)、喬治城大學多層語料庫(GUM)等多個英語大型語料庫,都已完成了基礎的整理和標注工作,無疑是為以ChatGPT為代表的大語言模型的發(fā)展提供了極佳的土壤。
在出版物權威數據庫方面,全球最大的三個數據庫社會引文數據庫(SCI)、社會科學引文數據庫(SSCI)和人文藝術引文索引數據庫(A&HCI)當中,超過90%的文章都是用英語發(fā)表的,這必然使得依賴英語訓練的大模型,更具有可信性和權威性。
由此看來,ChatGPT當下的領先,實則是理所應當。
去年12月,谷歌的大語言模型Gemini鬧出過一個離奇的笑話。
不需要任何前置對話,當用戶使用中文提問“你是誰”的時候,Gemini會回答自己是“文心一言”,一個由百度公司開發(fā)的語言模型,甚至會告知自己的創(chuàng)始人是李彥宏。
當用戶用英文提出同樣的問題時,Gemini給出的則是正常的回復。
很顯然,這大概率是由于谷歌把百度文心一言的輸出內容作為訓練數據,而數據清洗工作又不到位的結果。不過同時,這也帶出了另一個更嚴重的問題—互聯(lián)網上語料的相互污染。
有傳聞稱,目前各類內容平臺上的很多中文語料,都是由大模型生成的,或者至少寫了其中一部分,因此谷歌才會不慎“中招”。
2023年2月,美國華裔科幻文學家特德·姜發(fā)表文章稱:ChatGPT等大語言模型,實質是對互聯(lián)網語料庫的有損模糊壓縮。
按特德·姜的觀點,用大語言模型生成的文本來訓練新的模型,如同反復以JPEG格式存儲同一圖像,重復操作下去會丟失越來越多的信息—大語言模型生成的內容在互聯(lián)網上流傳得越多,真實的內容就越難以辨識,大模型對現(xiàn)實的認知會逐漸扭曲,“幻覺”現(xiàn)象就會越嚴重。
2023年6月,牛津、劍橋等高校的研究人員發(fā)表過一篇論文《遞歸之詛咒:用生成數據訓練會使模型遺忘》。論文用實驗結果證明,用AI生成數據訓練新的AI,最終會讓新的AI模型退化乃至崩潰。
而之所以會出現(xiàn)“AI生成數據訓練AI”的情況,根本原因在于數據量的不足。就連OpenAI都公開承認過訓練數據稀缺,已無法滿足ChatGPT饕餮般的胃口,甚至還因為部分訓練數據集涉及版權糾紛,而接連吃到官司。
用AI生成數據訓練新的AI,最終會讓新的AI模型退化乃至崩潰。
2023年4月28日,江西撫州大數據標注產業(yè)小鎮(zhèn),當地職業(yè)院校學生正在從事數據標注的學習和實踐
實際上,版權也是互聯(lián)網語料污染的另一個因素,即創(chuàng)作者為了抗爭“不正當”抓取數據的行為,故意設下了“圈套”。
如此情景,正是驗證了全國政協(xié)委員、知乎創(chuàng)始人周源在近期的兩會上所說的話:“我覺得今天構建‘水庫的工作大家都重視得不夠,反而比較看重怎么去打水的環(huán)節(jié),比如訓練模型怎么去進行數據和內容的爬取?!?/p>
倘若說,英文領域的大語言模型的發(fā)展,受到了訓練語料不足的掣肘,中文大模型面臨的形勢,只會更加嚴峻。
中文語料無論是“質”還是“量”,都遠遠比不上英文語料,而語料本身的污染,同樣是一個頗具挑戰(zhàn)性的命題。那么,難道說中文世界的AIGC產品,就沒有超越ChatGPT的可能了嗎?
或許換一種理解大語言模型的思路,就能獲得不同的答案。
大語言模型不一定非得成為“全知全能”的存在,而是可以深挖某個特定的垂直領域,“落地”到具體的“場景”里去檢驗自我,獲得不斷提升。
正如李彥宏提及文心大模型超過ChatGPT-4時所舉的例子,ChatGPT-4無法理解“沁園春”這一詞牌名,而“文心一言”可以作出一首漂亮的古詞—至少在寫詞這一領域,“文心一言”確實超越了ChatGPT。
目前,國內的工業(yè)、教育、醫(yī)療、政務等領域,都在進行著深層次的智能化變革,有著龐大的需求和優(yōu)渥的市場化氛圍,這或許能給部分體量“小而精”的語言模型一次彎道超車的契機。
至于綜合性大語言模型的發(fā)展,則仍需有良好的培育土壤。
2023年12月20日,中國網絡空間安全協(xié)會在北京發(fā)布了用于大模型的首批中文基礎語料庫,包括1億余條數據,500億個“Token”(文本處理的最小單位)。中文基礎語料庫的發(fā)布,象征著各界初步達成了協(xié)作的共識,而這僅僅只是一個開始,后續(xù)依然有漫長的道路要走。
目前,國內還有不少可以開發(fā)的大型語料庫,如中國期刊全文數據庫,收錄了7400余種各類期刊;如中國國家圖書館,有藏書3700萬冊;又如以北京語言大學的漢語語料庫(BCC)為代表的各大高校語料庫,該語料庫有150億字,包含了報刊、科技、古漢語等多領域的語料內容。
對此類中文語料內容進行系統(tǒng)性梳理和標注,需要花費大量的人力物力,難以憑借一家之力完成,不妨倡議共同開發(fā),創(chuàng)建一個能夠讓各方共享的大型語料庫。
這就需要由相關部門牽頭,從業(yè)界達成普遍共識、并建立規(guī)范化章程開始,強化數據安全和知識產權保護,逐步加快對高質量中文數據集的開發(fā)和利用,給中文語料的市場化流通提供一個更好的環(huán)境。
而另一種可能性則是,將來出現(xiàn)了一款能夠精準處理語料的大語言模型,協(xié)助人類從這項繁瑣的工作中獲得“解放”—當然在此之前,人類得想辦法不讓特德·姜的預言成真。
責任編輯吳陽煜 wyy@nfcmag.com