• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    自然語(yǔ)言處理技術(shù)發(fā)展

    2022-05-20 09:24:38王海寧WANGHaining
    中興通訊技術(shù) 2022年2期
    關(guān)鍵詞:剪枝算力向量

    王海寧/WANG Haining

    (英特爾(中國(guó))有限公司,中國(guó)北京100013)

    自然語(yǔ)言處理(NLP)是基于自然語(yǔ)言理解和自然語(yǔ)言生成的信息處理技術(shù)。這里的自然語(yǔ)言是指任何一種人類(lèi)語(yǔ)言,例如中文、英語(yǔ)、西班牙語(yǔ)等,并不包括形式語(yǔ)言(如Java、Fortran、C++等)。

    自然語(yǔ)言處理的歷史可以追溯到17世紀(jì)。那時(shí)萊布尼茨等哲學(xué)家對(duì)跨越不同語(yǔ)言的通用字符進(jìn)行探索,認(rèn)為人類(lèi)思想可以被歸約為基于通用字符的運(yùn)算。雖然這一觀點(diǎn)在當(dāng)時(shí)還只是理論上的,但卻為自然語(yǔ)言處理技術(shù)的發(fā)展奠定了基礎(chǔ)。

    作為人工智能的一個(gè)重要領(lǐng)域,當(dāng)代自然語(yǔ)言處理技術(shù)與人工智能技術(shù)的興起和發(fā)展是一致的。1950年,圖靈提出了著名的基于人機(jī)對(duì)話衡量機(jī)器智能程度的圖靈測(cè)試。這不僅是人工智能領(lǐng)域的開(kāi)端,也被普遍認(rèn)為是自然語(yǔ)言處理技術(shù)的開(kāi)端。20世紀(jì)50年代至90年代,早期自然語(yǔ)言處理領(lǐng)域的發(fā)展主要基于規(guī)則和專(zhuān)家系統(tǒng),即通過(guò)專(zhuān)家從語(yǔ)言學(xué)角度分析自然語(yǔ)言的結(jié)構(gòu)規(guī)則,來(lái)達(dá)到處理自然語(yǔ)言的目的。

    從20世紀(jì)90年代起,伴隨著計(jì)算機(jī)運(yùn)算速度、存儲(chǔ)容量的快速發(fā)展,以及統(tǒng)計(jì)學(xué)習(xí)方法的成熟,研究人員開(kāi)始使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法來(lái)處理自然語(yǔ)言任務(wù)。然而,此時(shí)自然語(yǔ)言的特征提取仍然依賴人工,同時(shí)受限于各領(lǐng)域經(jīng)驗(yàn)知識(shí)的積累。

    深度學(xué)習(xí)算法于2006年被提出之后,不僅在圖像識(shí)別領(lǐng)域取得了驚人的成績(jī),也在自然語(yǔ)言處理領(lǐng)域得到了廣泛應(yīng)用。不同于圖像的標(biāo)注,自然語(yǔ)言的標(biāo)注領(lǐng)域眾多并具有很強(qiáng)的主觀性。因此,自然語(yǔ)言處理領(lǐng)域不容易獲得足夠多的標(biāo)注數(shù)據(jù),難以滿足深度學(xué)習(xí)模型訓(xùn)練對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的需求。

    近年來(lái),GPT、BERT等預(yù)訓(xùn)練語(yǔ)言模型可以很好地解決上述問(wèn)題。基于預(yù)訓(xùn)練語(yǔ)言模型的方法本質(zhì)上是一種遷移學(xué)習(xí)方法,即通過(guò)在容易獲取、無(wú)需人工標(biāo)注的大規(guī)模文本數(shù)據(jù)基礎(chǔ)上依靠強(qiáng)大算力進(jìn)行預(yù)先訓(xùn)練,來(lái)獲得通用的語(yǔ)言模型和表示形式,然后在目標(biāo)自然語(yǔ)言處理任務(wù)上結(jié)合任務(wù)語(yǔ)料對(duì)預(yù)訓(xùn)練得到的模型進(jìn)行微調(diào),從而在各種下游自然語(yǔ)言處理任務(wù)中快速收斂以提升準(zhǔn)確率。因此,預(yù)訓(xùn)練語(yǔ)言模型自面世以來(lái)就得到了迅速發(fā)展和廣泛應(yīng)用,并成為當(dāng)前各類(lèi)自然語(yǔ)言處理任務(wù)的核心技術(shù)。

    1 語(yǔ)言表示的發(fā)展

    自然語(yǔ)言處理涉及眾多任務(wù)。從流水線的角度上看,我們可以將這些任務(wù)劃分為3類(lèi):完成自然語(yǔ)言處理之前的語(yǔ)言學(xué)知識(shí)建設(shè)和語(yǔ)料庫(kù)準(zhǔn)備任務(wù);對(duì)語(yǔ)料庫(kù)開(kāi)展分詞、詞性標(biāo)注、句法分析、語(yǔ)義分析等基本處理任務(wù);利用自然語(yǔ)言處理結(jié)果完成特定目標(biāo)的應(yīng)用任務(wù),如信息抽取、情感分析、機(jī)器翻譯、對(duì)話系統(tǒng)、意圖識(shí)別等。其中,將自然語(yǔ)言轉(zhuǎn)變?yōu)橛?jì)算機(jī)可以存儲(chǔ)和處理的形式(即文本的表示)是后續(xù)各類(lèi)下游自然語(yǔ)言處理任務(wù)的基礎(chǔ)和關(guān)鍵。

    字符串是最基本的文本表示方式,即符號(hào)表示。這種表示方式主要應(yīng)用在早期基于規(guī)則的自然語(yǔ)言處理方式中。例如,基于預(yù)定義的規(guī)則對(duì)句子進(jìn)行情感分析:當(dāng)出現(xiàn)褒義詞時(shí),句子表達(dá)正向情感;當(dāng)出現(xiàn)貶義詞時(shí),句子表達(dá)負(fù)向情感。顯然,這種使用規(guī)則的方式只能對(duì)簡(jiǎn)單的語(yǔ)言進(jìn)行分析處理,在遇到矛盾的情況下系統(tǒng)很可能無(wú)法給出正確的結(jié)論。

    以向量的形式表示詞語(yǔ),即詞向量,是廣泛應(yīng)用于目前自然語(yǔ)言處理技術(shù)中的表示方式。詞向量的表示有多種方式。其中,最簡(jiǎn)單的是基于詞出現(xiàn)次數(shù)統(tǒng)計(jì)的獨(dú)熱表示和詞袋表示。這類(lèi)表示方式的主要缺點(diǎn)在于,不同的詞需要用完全不同的向量來(lái)表示,維度高并且缺乏語(yǔ)義信息的關(guān)聯(lián),同時(shí)存在數(shù)據(jù)稀疏問(wèn)題。

    另外一大類(lèi)詞向量表示是基于分布式語(yǔ)義假設(shè)(上下文相似的詞,其語(yǔ)義也相似)的分布式表示。這種詞向量表示具體又可以分為3類(lèi):

    (1)基于矩陣的詞向量表示。該方法基于詞共現(xiàn)頻次構(gòu)建體現(xiàn)詞與上下文關(guān)系的(詞-上下文)矩陣。矩陣每行表示一個(gè)詞向量w。第j個(gè)元素w的取值可以是w與上下文的共現(xiàn)次數(shù),也可以由基于其共現(xiàn)概率進(jìn)行的點(diǎn)互信息(PMI)、詞頻-逆文檔頻率(TF-IDF)、奇異值分解(SVD)等數(shù)學(xué)處理來(lái)獲得。這種方法更好地體現(xiàn)了高階語(yǔ)義相關(guān)性,可解決高頻詞誤導(dǎo)計(jì)算等問(wèn)題。其中,上下文可以是整個(gè)文檔,也可以是每個(gè)詞。此外,我們也可以選取w w附近的N個(gè)詞作為一個(gè)N元詞窗口。

    (2)基于聚類(lèi)的詞向量表示。這類(lèi)方法通過(guò)聚類(lèi)手段構(gòu)建詞與上下文之間的關(guān)系。例如,布朗聚類(lèi)是一種基于N-gram模型和馬爾可夫鏈模型的自底向上的分層聚類(lèi)算法。在這種算法中,每個(gè)詞都在且僅在唯一的一個(gè)類(lèi)中。在初始的時(shí)候,每個(gè)詞均被獨(dú)立分成一類(lèi),然后系統(tǒng)將其中的兩類(lèi)進(jìn)行合并,使得合并之后的評(píng)價(jià)函數(shù)(用以評(píng)估n個(gè)連續(xù)的詞序列能否組成一句話的概率)達(dá)到最大值。系統(tǒng)將不斷重復(fù)上述過(guò)程,直至獲得期望的類(lèi)數(shù)量為止。

    (3)基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型,也稱(chēng)為詞嵌入表示。這類(lèi)方法將詞向量中的元素值作為模型參數(shù),采用神經(jīng)網(wǎng)絡(luò)結(jié)合訓(xùn)練數(shù)據(jù)學(xué)習(xí)的方式來(lái)獲得語(yǔ)言模型參數(shù)值。基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型具體又包括靜態(tài)語(yǔ)言模型和動(dòng)態(tài)語(yǔ)言模型。這兩種語(yǔ)言模型的區(qū)別在于:靜態(tài)語(yǔ)言模型通過(guò)一個(gè)給定的語(yǔ)料庫(kù)得到固定的表示,不隨上下文的變化而變化,例如Word2vec、GloVe和Fasttext模型;動(dòng)態(tài)語(yǔ)言模型由上下文計(jì)算得到,并且隨上下文的變化而變化,例如CoVe、ELMo、GPT和BERT模型。其中,基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型充分利用了文本天然的有序性和詞共現(xiàn)信息的優(yōu)勢(shì),無(wú)需人工標(biāo)注也能夠通過(guò)自監(jiān)督學(xué)習(xí)從文本中獲取語(yǔ)義表示信息,是預(yù)訓(xùn)練語(yǔ)言模型的重要基礎(chǔ),也是目前詞表示研究與應(yīng)用的熱點(diǎn)。

    2 預(yù)訓(xùn)練語(yǔ)言模型

    2.1 預(yù)訓(xùn)練語(yǔ)言模型基礎(chǔ)

    2003年,Y.BENGIO首次提出神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。2017年之前,在進(jìn)行自然語(yǔ)言處理時(shí)人們常用多層感知機(jī)(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),包括長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò),來(lái)構(gòu)建神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。由于每層都使用全連接方式,MLP難以捕捉局部信息。CNN采用一個(gè)或多個(gè)卷積核依次對(duì)局部輸入序列進(jìn)行卷積處理,可以比較好地提取局部特征。由于適用于高并發(fā)場(chǎng)景,較大規(guī)模的CNN模型經(jīng)過(guò)訓(xùn)練后可以提取更多的局部特征。然而,CNN卻難以捕獲遠(yuǎn)距離特征。RNN將當(dāng)前時(shí)刻網(wǎng)絡(luò)隱含層的輸入作為下一時(shí)刻的輸入。每個(gè)時(shí)刻的輸入經(jīng)過(guò)層次遞歸后均對(duì)最終輸出產(chǎn)生影響,這就像網(wǎng)絡(luò)有了歷史記憶一樣。RNN可以解決時(shí)序問(wèn)題和序列到序列問(wèn)題,但是這種按照時(shí)序來(lái)處理輸入的方式使得RNN很難充分利用并行算力來(lái)加速訓(xùn)練。LSTM是一種特殊的RNN,它對(duì)隱含層進(jìn)行跨越連接,減少了網(wǎng)絡(luò)的層數(shù),從而更容易被優(yōu)化。

    2017年,來(lái)自谷歌的幾位工程師在不使用傳統(tǒng)CNN、RNN等模型的情況下,完全采用基于自注意力機(jī)制的Transformer模型,取得了非常好的效果。在解決序列到序列問(wèn)題的過(guò)程中,他們不僅考慮前一個(gè)時(shí)刻的影響,還考慮目標(biāo)輸出與輸入句子中哪些詞更相關(guān),并對(duì)輸入信息進(jìn)行加權(quán)處理,從而突出重要特征對(duì)輸出的影響。這種對(duì)強(qiáng)相關(guān)性的關(guān)注就是注意力機(jī)制。Transformer模型是一個(gè)基于多頭自注意力機(jī)制的基礎(chǔ)模型,不依賴順序建模就可以充分利用并行算力處理。在構(gòu)建大模型時(shí),Transformer模型在訓(xùn)練速度和長(zhǎng)距離建模方面都優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型。因此,近年來(lái)流行的GPT、BERT等若干超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型基本上都是基于Transformer模型構(gòu)建的。Transformer模型整體架構(gòu)如圖1所示。

    圖1 Transformer模型架構(gòu)[7]

    自注意力機(jī)制的本質(zhì)是學(xué)習(xí)序列中的上下文相關(guān)程度和深層語(yǔ)義信息。然而,隨著輸入序列長(zhǎng)度的增加,學(xué)習(xí)效率會(huì)降低。為了更好地處理長(zhǎng)文本序列,Transformer模型又衍生出一些“變種”,例如Transformer-XL。Transformer-XL采用段級(jí)循環(huán)和相對(duì)位置編碼的優(yōu)化策略,將Transformer中固定長(zhǎng)度的輸入片段進(jìn)一步聯(lián)系起來(lái),具備更強(qiáng)的長(zhǎng)文本處理能力。

    2.2 大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型

    廣義預(yù)訓(xùn)練語(yǔ)言模型泛指經(jīng)過(guò)提前訓(xùn)練得到的語(yǔ)言模型。各類(lèi)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在理論上都可以做預(yù)訓(xùn)練處理。而目前自然語(yǔ)言處理領(lǐng)域常涉及的預(yù)訓(xùn)練語(yǔ)言模型,通常是指一些參數(shù)數(shù)量過(guò)億甚至超千億的大規(guī)模語(yǔ)言模型。這些模型的訓(xùn)練依賴強(qiáng)大算力和海量數(shù)據(jù)。典型的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型包括GPT系列、BERT、XLNet等。此外,這些模型的各種改進(jìn)模型也層出不窮。

    2.2.1 GPT系列

    2018年6月,OpenAI公司提出初代GPT模型,開(kāi)啟了具有“基于大量文本學(xué)習(xí)高容量語(yǔ)言模型”和“對(duì)不同任務(wù)使用標(biāo)注數(shù)據(jù)來(lái)進(jìn)行微調(diào)”兩個(gè)階段的自然語(yǔ)言處理預(yù)訓(xùn)練模型大門(mén)。GPT模型基于12層Transformer基礎(chǔ)模型構(gòu)建了單向解碼器,約有1.17億個(gè)參數(shù)。具體解碼器結(jié)構(gòu)、訓(xùn)練目標(biāo)和針對(duì)不同下游任務(wù)的輸入轉(zhuǎn)換如圖2所示。

    圖2 Transformer解碼器結(jié)構(gòu)和訓(xùn)練目標(biāo)(左)及針對(duì)不同下游任務(wù)的輸入轉(zhuǎn)換(右)[4]

    OpenAI公司在2019年2月進(jìn)一步提出GPT模型的升級(jí)版本,即GPT-2。由于擔(dān)心該技術(shù)可能會(huì)被惡意利用,研究團(tuán)隊(duì)并沒(méi)有對(duì)外發(fā)布預(yù)訓(xùn)練好的GPT-2模型,而是發(fā)布了一個(gè)小規(guī)模模型。GPT-2保留了GPT的網(wǎng)絡(luò)結(jié)構(gòu),直接進(jìn)行規(guī)模擴(kuò)張,即堆疊更多層的Transformer模型,并使用10倍于GPT模型的數(shù)據(jù)集進(jìn)行訓(xùn)練,參數(shù)數(shù)量超過(guò)15億。隨著規(guī)模的增加,GPT-2也獲得了更好的泛化功能,包括生成前所未有的高質(zhì)量合成文本功能。雖然在部分下游任務(wù)上尚未超過(guò)當(dāng)時(shí)的最優(yōu)水平,但是GPT-2證明了大規(guī)模預(yù)訓(xùn)練詞向量模型在遷移到下游任務(wù)時(shí),可以超越使用特定領(lǐng)域數(shù)據(jù)進(jìn)行訓(xùn)練的語(yǔ)言模型,并且在擁有大量(未標(biāo)注)數(shù)據(jù)和具備足夠算力時(shí),使下游任務(wù)受益于無(wú)監(jiān)督學(xué)習(xí)技術(shù)。

    GPT-3模型于2020年5月被提出,是目前最強(qiáng)大的預(yù)訓(xùn)練語(yǔ)言模型之一。GPT-3在GPT-2的基礎(chǔ)上進(jìn)一步進(jìn)行了規(guī)模擴(kuò)張,使用高達(dá)45 TB的數(shù)據(jù)進(jìn)行訓(xùn)練,參數(shù)數(shù)量高達(dá)1 750億。正是這樣巨大的網(wǎng)絡(luò)規(guī)模,才使得GPT-3模型在不進(jìn)行任何微調(diào)的情況下,可以僅利用小樣本甚至零樣本就能在眾多下游任務(wù)中超越其他模型。OpenAI公司雖未開(kāi)源GPT-3模型,但是提供了多種應(yīng)用程序接口(API)服務(wù)以供下游任務(wù)調(diào)用。

    2.2.2 BERT

    BERT是由谷歌公司于2018年10月提出的。與單向的GPT模型不同,BERT基于Transformer模型構(gòu)建了多層雙向編碼器。

    BERT模型包括兩個(gè)訓(xùn)練任務(wù):一個(gè)是掩碼語(yǔ)言模型(MLM),另一個(gè)是下一句預(yù)測(cè)(NSP)。MLM可以很好地解決雙向建模時(shí)逆序信息泄露的問(wèn)題;NSP則可以很好地理解兩段文本之間的關(guān)系,適用于完成閱讀理解或文本蘊(yùn)含類(lèi)任務(wù)。BERT的每個(gè)下游任務(wù)都采用相同的預(yù)訓(xùn)練模型架構(gòu)并使用預(yù)訓(xùn)練模型的參數(shù)來(lái)進(jìn)行初始化。BERT的預(yù)訓(xùn)練和微調(diào)過(guò)程如圖3所示。

    圖3 BERT的預(yù)訓(xùn)練和微調(diào)過(guò)程[5]

    BERT的設(shè)計(jì)團(tuán)隊(duì)按照模型規(guī)模的大小將BERT分為含有1.1億個(gè)參數(shù)的BERT和含有3.4億個(gè)參數(shù)的BERT,并與其他模型(包括GPT)進(jìn)行對(duì)比。對(duì)比結(jié)果表明,BERT模型在GLUE、SQuAD、SWAG的 11項(xiàng)NLP任務(wù)評(píng)估中全面刷新了最佳成績(jī)紀(jì)錄,甚至在SQuAD測(cè)試中超越了人類(lèi)。

    BERT模型是近年來(lái)NLP領(lǐng)域發(fā)展的一大里程碑。BERT陸續(xù)衍生出了許多優(yōu)化的模型。例如,顯著增強(qiáng)了長(zhǎng)文本理解能力的XLNet、占用更少存儲(chǔ)空間的ALBERT、具備更強(qiáng)大文本生成能力的BART、能夠?qū)W習(xí)視頻知識(shí)的VideoBERT等。這些模型推動(dòng)了NLP的快速發(fā)展。

    2.2.3 XLNet

    由于在預(yù)訓(xùn)練的輸入數(shù)據(jù)中人為地引入了掩碼,BERT模型忽略了被掩碼信息之間的依賴性。這將導(dǎo)致預(yù)訓(xùn)練數(shù)據(jù)與微調(diào)階段使用的真實(shí)數(shù)據(jù)之間產(chǎn)生微小差異。針對(duì)上述問(wèn)題,卡內(nèi)基梅隆大學(xué)和谷歌公司于2019年6月進(jìn)一步提出了一種基于Transformer-XL的自回歸語(yǔ)言模型,即XLNet模型。

    通過(guò)置換語(yǔ)言建模(PLM),XLNet對(duì)序列中輸入信息進(jìn)行排列重組,可實(shí)現(xiàn)雙向上下文的建模,并形成雙流自注意力機(jī)制,以解決由PLM重新排列所引入的位置信息混淆問(wèn)題。如圖4所示,XLNet用內(nèi)容流和查詢流兩種不同的掩碼矩陣來(lái)進(jìn)行預(yù)測(cè)。其中,內(nèi)容流用于保留詞的語(yǔ)義信息,可以看到詞本身;查詢流不能看到詞本身,用于保留詞的位置信息,僅在預(yù)訓(xùn)練階段使用。

    圖4 XLNet雙流自注意力機(jī)制[14]

    此外,由于XLNet使用Transformer-XL來(lái)替代Transformer,并將其作為特征提取器,因此XLNet擁有比BERT更強(qiáng)的長(zhǎng)文本理解能力。

    3 預(yù)訓(xùn)練語(yǔ)言模型優(yōu)化方向

    預(yù)訓(xùn)練語(yǔ)言模型在各類(lèi)NLP任務(wù)中的效果是顯而易見(jiàn)的。隨著參數(shù)規(guī)模的擴(kuò)大和訓(xùn)練數(shù)據(jù)的增加,預(yù)訓(xùn)練語(yǔ)言模型可以獲得更好的準(zhǔn)確性和泛化性。然而,這是以巨大算力支持為前提的,只有少數(shù)大公司才能夠承擔(dān)起這種高昂的算力成本。這個(gè)問(wèn)題在GPT-3模型的研發(fā)過(guò)程中表現(xiàn)得尤為突出。據(jù)報(bào)道,為了訓(xùn)練GPT-3模型,微軟在Azure云上構(gòu)建了一個(gè)包含1萬(wàn)個(gè)GPU、28.5萬(wàn)個(gè)CPU內(nèi)核和400 Gbit/s網(wǎng)絡(luò)連接的超級(jí)計(jì)算系統(tǒng)。其中,GPT-3訓(xùn)練一次的費(fèi)用約為460萬(wàn)美元。在這種情況下,進(jìn)一步發(fā)現(xiàn)、驗(yàn)證和解決模型的潛在問(wèn)題都非常困難。對(duì)此,微軟研發(fā)團(tuán)隊(duì)也認(rèn)為,當(dāng)系統(tǒng)出現(xiàn)Bug時(shí),他們也無(wú)法對(duì)模型進(jìn)行再訓(xùn)練。

    相應(yīng)地,預(yù)訓(xùn)練模型在應(yīng)用時(shí)也需要較大算力和內(nèi)存支持,往往需要多塊高端人工智能芯片或者服務(wù)器集群來(lái)支撐模型的部署。為了降低預(yù)訓(xùn)練模型的部署門(mén)檻,業(yè)界往往采用量化、剪枝、蒸餾等方法對(duì)模型進(jìn)行壓縮,以形成更加輕量化的預(yù)訓(xùn)練模型。

    (1)量化是指將模型參數(shù)轉(zhuǎn)換為更少比特?cái)?shù)來(lái)存儲(chǔ)和運(yùn)算,即將模型的精度降低。雖然量化損失了一定的精度,但是它在可接受的準(zhǔn)確率范圍內(nèi)能大大提升模型的訓(xùn)練和推理速度。例如,BF16是一種專(zhuān)為加速深度學(xué)習(xí)訓(xùn)練而設(shè)計(jì)的16位數(shù)字精度格式,在保留FP32(32位浮點(diǎn)數(shù))指數(shù)位數(shù)的同時(shí)減少了16位尾數(shù)位。將模型參數(shù)從FP32轉(zhuǎn)換為BF16后,模型可以在維持相近準(zhǔn)確率的同時(shí)實(shí)現(xiàn)訓(xùn)練速度的數(shù)倍提升。

    (2)剪枝是指去掉模型參數(shù)中冗余或者不重要的部分,即減少模型參數(shù)。具體來(lái)說(shuō),剪枝包括元素剪枝和結(jié)構(gòu)剪枝兩種方式。其中,元素剪枝是指去掉單個(gè)絕對(duì)值過(guò)小或者對(duì)模型影響過(guò)小的參數(shù);結(jié)構(gòu)剪枝是指去掉整塊模型結(jié)構(gòu),例如減少多頭注意力的數(shù)量,或者減少堆疊的Transformer塊數(shù)量等。

    (3)蒸餾是指較小規(guī)模的模型(稱(chēng)為學(xué)生模型)從較大規(guī)模的模型(稱(chēng)為教師模型)中學(xué)習(xí)知識(shí),并替代學(xué)生模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)知識(shí)的過(guò)程。典型的蒸餾模型包括DistilBERT、TinyBERT、MobileBERT等。這些模型與BERT模型的對(duì)比如表1所示。

    表1 蒸餾模型效果對(duì)比

    在上述優(yōu)化方法中,量化和剪枝是比較常用的方法。此外,還有其他比較成熟的優(yōu)化工具,例如TensorFlow Model Optimization、TensorFlow Lite、TensorRT、OpenVINO、PaddleSlim等。由于蒸餾的壓縮比更大,它可以和量化、剪枝疊加使用。

    4 結(jié)束語(yǔ)

    自然語(yǔ)言處理技術(shù)經(jīng)歷了近百年的發(fā)展。機(jī)器翻譯、智能客服、信息檢索與過(guò)濾、情感分析和文本生成等,在教育、醫(yī)療、司法、互聯(lián)網(wǎng)等行業(yè)中得到了廣泛的應(yīng)用。近年來(lái),預(yù)訓(xùn)練語(yǔ)言模型的提出和算力的快速提升,將自然語(yǔ)言處理技術(shù)的發(fā)展推向了新的高度,使自然語(yǔ)言處理技術(shù)在某些領(lǐng)域達(dá)到甚至超越了人類(lèi)水平。然而,目前大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型仍需要極大的算力支持,訓(xùn)練模型所需的成本仍然較高,能源消耗和碳排放也并不經(jīng)濟(jì),距離落地應(yīng)用尚有距離。因此,研發(fā)出更加輕量的預(yù)訓(xùn)練語(yǔ)言模型,是未來(lái)重要的發(fā)展方向。

    猜你喜歡
    剪枝算力向量
    多方求解智能時(shí)代算力挑戰(zhàn)
    這個(gè)第二不一般
    都市人(2023年11期)2024-01-12 05:55:06
    衛(wèi)星通信在算力網(wǎng)絡(luò)中的應(yīng)用研究
    中國(guó)電信董事長(zhǎng)柯瑞文:算力成為數(shù)字經(jīng)濟(jì)的主要生產(chǎn)力
    人到晚年宜“剪枝”
    向量的分解
    聚焦“向量與三角”創(chuàng)新題
    基于YOLOv4-Tiny模型剪枝算法
    剪枝
    向量垂直在解析幾何中的應(yīng)用
    马公市| 稻城县| 襄城县| 谢通门县| 房山区| 七台河市| 建德市| 红安县| 房山区| 察雅县| 衡水市| 股票| 苏尼特左旗| 盐津县| 鸡西市| 巴马| 尉犁县| 鲁甸县| 噶尔县| 黔西县| 大渡口区| 监利县| 修水县| 绥江县| 韶关市| 铁岭县| 沙雅县| 监利县| 青海省| 且末县| 嘉义市| 郓城县| 迭部县| 奉贤区| 新竹县| 盐山县| 正镶白旗| 五河县| 晋江市| 潢川县| 都江堰市|