近年來,預(yù)訓(xùn)練語言模型的出現(xiàn)給自然語言處理領(lǐng)域帶來了一場變革,成為人工智能技術(shù)發(fā)展的前沿和熱點。大規(guī)模預(yù)訓(xùn)練可以有效緩解傳統(tǒng)技術(shù)在特征工程方面面臨的壓力。通過學(xué)習(xí)通用語言表示,模型具備了語言理解和生成能力,幾乎在所有自然語言處理任務(wù)上都取得了突破。因此,各類基準(zhǔn)測試任務(wù)的效果顯著提高,這展示了大規(guī)模預(yù)訓(xùn)練廣闊的應(yīng)用前景。龐大的參數(shù)規(guī)模使得模型具備了更強的能力,同時也對模型的構(gòu)建、訓(xùn)練和應(yīng)用落地提出了挑戰(zhàn)。自然語言處理的關(guān)鍵要素是什么?從多語言、知識和視覺等角度如何提高預(yù)訓(xùn)練模型的能力?規(guī)模龐大的模型如何進行高效訓(xùn)練?針對預(yù)訓(xùn)練語言模型研究中廣受關(guān)注的問題,本期專題的文章從不同方面論述自然語言處理預(yù)訓(xùn)練模型的研究進展及相關(guān)成果,希望能對讀者有所幫助。
《自然語言處理新范式:基于預(yù)訓(xùn)練模型的方法》一文介紹了自然語言處理技術(shù)的演化過程,指出自然語言處理主要靠知識、算法和數(shù)據(jù)來約束形式與意義的映射關(guān)系。大模型、大數(shù)據(jù)和大計算的充分使用,使大規(guī)模預(yù)訓(xùn)練語言模型在幾乎所有自然語言處理任務(wù)上的性能都有顯著提升。大規(guī)模預(yù)訓(xùn)練模型仍需解決模型的高效性、易用性、可解釋性、魯棒性以及推理能力等方面的關(guān)鍵問題,將繼續(xù)沿“同質(zhì)化”和“規(guī)模化”的道路發(fā)展。
《知識指導(dǎo)的預(yù)訓(xùn)練語言模型》一文提出以預(yù)訓(xùn)練語言模型為代表的深度學(xué)習(xí)仍然面臨可解釋性不強、魯棒性差等難題。如何將人類積累的豐富知識引入模型,是改進深度學(xué)習(xí)性能的重要方向。文章圍繞知識表示、知識獲取,以及知識在預(yù)訓(xùn)練語言模型中的應(yīng)用,系統(tǒng)地介紹了知識指導(dǎo)的預(yù)訓(xùn)練語言模型的最新進展與趨勢。
《知識增強預(yù)訓(xùn)練模型》一文提出預(yù)訓(xùn)練模型主要從海量未標(biāo)注、無結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí),這個過程缺少外部知識指導(dǎo),模型學(xué)習(xí)效率、模型效果和知識推理能力受到限制。文章從不同類型知識的引入、融合知識的方法、緩解知識遺忘的方法等角度,介紹了知識增強預(yù)訓(xùn)練模型的發(fā)展,并以知識增強預(yù)訓(xùn)練模型百度文心為例,介紹知識增強預(yù)訓(xùn)練模型的原理、方法及應(yīng)用。
《悟道·文瀾:超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型帶來了什么?》一文介紹了中國人民大學(xué)高瓴人工智能學(xué)院研究團隊在多模態(tài)預(yù)訓(xùn)練模型方面的研究進展。針對互聯(lián)網(wǎng)產(chǎn)生的圖文往往只有弱相關(guān)語義關(guān)系的特點,團隊提出了BriVL雙塔模型,利用億級互聯(lián)網(wǎng)圖文數(shù)據(jù)并通過自監(jiān)督任務(wù)來進行訓(xùn)練。團隊還提出了多語言多模態(tài)預(yù)訓(xùn)練單塔模型MLMM,可以跨語言跨模態(tài)學(xué)習(xí)通用常識。文章還討論了多模態(tài)預(yù)訓(xùn)練模型對文本編碼、圖像生成和圖文互檢等任務(wù)帶來的影響。
《鵬程·盤古:大規(guī)模自回歸中文預(yù)訓(xùn)練語言模型及應(yīng)用》一文介紹了以鵬城實驗室為首的團隊在鵬城云腦II上訓(xùn)練鵬程·盤古模型的工作。該模型具有2 000億參數(shù),基于TB級別的中文訓(xùn)練數(shù)據(jù),采用自動并行技術(shù)將訓(xùn)練任務(wù)擴展至4 096個處理器上。該模型在少樣本或零樣本情況下具有較優(yōu)性能,在大模型壓縮、提示微調(diào)學(xué)習(xí)、多任務(wù)學(xué)習(xí)及持續(xù)學(xué)習(xí)等方面也取得了很好的應(yīng)用效果。
《超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型M6的關(guān)鍵技術(shù)及產(chǎn)業(yè)應(yīng)用》一文介紹了阿里巴巴達摩院在多模態(tài)預(yù)訓(xùn)練模型方面的探索,重點聚焦于多模態(tài)表示學(xué)習(xí)和超大規(guī)模預(yù)訓(xùn)練模型的研究。文章提出了超大規(guī)模中文多模態(tài)預(yù)訓(xùn)練模型M6和參數(shù)規(guī)模從百億到十萬億的超大模型,介紹了M6模型的產(chǎn)業(yè)化落地情況及其大規(guī)模預(yù)訓(xùn)練平臺。
《高效訓(xùn)練百萬億參數(shù)預(yù)訓(xùn)練模型的系統(tǒng)挑戰(zhàn)和對策》一文介紹了清華大學(xué)計算機系研究團隊在國產(chǎn)E級高性能計算機上訓(xùn)練上百萬億參數(shù)的超大規(guī)模預(yù)訓(xùn)練模型所采用的系統(tǒng)優(yōu)化技術(shù),重點討論了在訓(xùn)練如此規(guī)模的預(yù)訓(xùn)練模型時遇到的幾個關(guān)鍵系統(tǒng)挑戰(zhàn),包括并行策略選取、數(shù)據(jù)存儲方式、數(shù)據(jù)精度選取,以及負載均衡的實現(xiàn)方式,并總結(jié)了針對上述挑戰(zhàn)的解決方法。
2022年2月19日