關(guān)鍵詞:大語言模型;參數(shù)高效微調(diào);P-tuning;混合專家;多任務(wù)學(xué)習(xí)中圖分類號:TP18 文獻標(biāo)志碼:A 文章編號:1001-3695(2025)07-005-1956-08doi:10.19734/j.issn.1001-3695.2024.11.0484
Abstract:Large language model (LLM)has significantly improved performanceinreasoning and generation tasks.However, existing open-sourceLLMstillackssuffcientdomain-specificknowledgeandrequiresfine-tunngforspecializedtasks.Traditionalfine-tuningmethodsstruggletobalancelowcostandhigheficiencyinmuli-taskleaing.Toaddressthisisue,hispaperproposedaparameter-effcientfine-tuning framework namedPMoE.BasedontheP-tuning method,this framework introducedamixture-of-expertsmechanism toenhancemulti-task proessingwhilemaintaininglow-costtuning.Ineach Transformer modulelayer,PMoE constructed trainable expert modules toreplace the prompt modules in P-tuning and utilizedarouting mechanism todynamicallyalocatetasksbasedoninput task features.Aditionally,itdesignedtheexpert modulesinMoEto bedetachable,enabling modelreuseacrossdferent task scenariosandfurtherreducingcomputationalcosts.Experimentalresults demonstrate that PMoE achieves a 6.24% performance improvement over P-tuning on a Chinese medical dataset and exhibitssuperiorcapabilities inmulti-taskprocessngandtransferlearning,verifying itseficiencyandbroadapplicability.
Key words:large language model;parameter-effcient fine-tuning;P-tuning;mixture of experts;multi-task learning
0 引言
隨著大語言模型(largelanguagemodel,LLM)的不斷迭代更新,這些模型在推理和文本生成方面的能力得到了顯著增強。企業(yè)在下游任務(wù)處理中對LLM的引人日益增多,處理諸如文本分類、知識問答和text2seq(自然語言到數(shù)據(jù)庫語言轉(zhuǎn)換)等任務(wù),這一趨勢在醫(yī)療、金融、法律和教育等多個領(lǐng)域表現(xiàn)突出[1\~3]。盡管現(xiàn)有的自動化工具在一定程度上緩解了工作負擔(dān),但手工輸入和校對的需求仍然繁重,易發(fā)生錯誤且耗時較多。LLM可以進一步簡化這些流程,降低人工干預(yù)可能帶來的錯誤概率。在處理特定領(lǐng)域的術(shù)語時,現(xiàn)有工具在處理各個領(lǐng)域的專業(yè)術(shù)語和縮略語時常常存在精確性不足的問題,可能導(dǎo)致術(shù)語誤解和分類錯誤,采用更智能的LLM可以顯著提高術(shù)語處理的準確性。在知識傳播方面,盡管教育資源豐富,但如何將復(fù)雜的信息轉(zhuǎn)換為公眾易于理解的表達形式依然是一個挑戰(zhàn)。LLM可以促進信息的專業(yè)性和通俗性表達,有助于提升公眾的知識水平,促進技能普及。
在多個領(lǐng)域中部署大型語言模型時,通常面臨一個關(guān)鍵問題:現(xiàn)有開源LLM大多為預(yù)訓(xùn)練模型,其訓(xùn)練過程主要聚焦于通用性能的優(yōu)化。因此,在專業(yè)性較強的領(lǐng)域,這些模型往往表現(xiàn)出知識覆蓋的不足,需基于特定任務(wù)和數(shù)據(jù)集進行微調(diào)。微調(diào)過程中主要面臨兩個問題:a)微調(diào)任務(wù)問題。大型語言模型作為智能系統(tǒng)的基礎(chǔ),需要支持多個下游任務(wù),因此,必須針對多種類型的數(shù)據(jù)集進行微調(diào)。然而,隨著不同任務(wù)微調(diào)數(shù)據(jù)集的持續(xù)積累,模型在微調(diào)過程中的災(zāi)難性遺忘現(xiàn)象也隨之加劇,導(dǎo)致模型的通用性能嚴重下降。b)微調(diào)成本問題。由收稿日期:2024-11-27;修回日期:2025-02-14 基金項目:國家自然科學(xué)基金資助項目(62371245)
作者簡介:王浩(1999—),男,江蘇徐州人,碩士研究生,主要研究方向為大語言模型的微調(diào)以及RAG融合;王珺(1975—),女,副教授,主要研究方向為物聯(lián)網(wǎng)、邊緣計算、下一代網(wǎng)絡(luò)及人工智能;胡海峰(1973—),男(通信作者),教授,主要研究方向為人工智能應(yīng)用于無線網(wǎng)絡(luò)和生物信息等領(lǐng)域(huhf@njupt.edu.cn);周飛飛(1990-),女,碩士研究生,主要研究方向為大數(shù)據(jù)和AI智能運維、數(shù)據(jù)治理等;龔銳(1995—),女,碩士研究生,主要研究方向為點云深度學(xué)習(xí)、云原生等;張索非(1982—),男,主要研究方向為計算機視覺、實時物體跟蹤和基于深度學(xué)習(xí)的圖像處理。
于智能系統(tǒng)需不斷引入新任務(wù)和知識體系,每次更新迭代都需對大型語言模型進行參數(shù)更新以適應(yīng)新下游任務(wù)。傳統(tǒng)的全量微調(diào)方法在時間和成本方面的開銷極為顯著4,在一定程度上阻礙了系統(tǒng)的快速迭代。因此,考慮到上述兩個問題,尋求一種更高效的微調(diào)框架,以在低成本條件下提升多任務(wù)微調(diào)性能,以更好適應(yīng)各領(lǐng)域?qū)δP偷木唧w需求,并增強模型的持續(xù)學(xué)習(xí)與適應(yīng)能力。
近年來興起的基于混合專家(mixtureofexpert,MoE)5]架構(gòu)的大型語言模型可以有效解決上述的微調(diào)任務(wù)問題。該架構(gòu)通過不同的專家學(xué)習(xí)不同領(lǐng)域的知識,在推理時通過門函數(shù)平衡各個專家的貢獻,從而提升模型在多任務(wù)之間的泛化性能。然而,這些優(yōu)勢的實現(xiàn)以高算力需求為代價,其多個獨立的前饋神經(jīng)網(wǎng)絡(luò)專家層顯著增加了微調(diào)參數(shù)量,從而導(dǎo)致微調(diào)成本大幅提升。高效參數(shù)微調(diào)(parameter-efficient fine-tuning,PEFT)技術(shù),如LoRA[6和 P-tuning[7] ,能夠在下游任務(wù)的微調(diào)過程中,通過犧牲模型一定的通識性能來降低微調(diào)時間和成本。其中,P-tuning通過在每一層中增添可訓(xùn)練的提示詞來實現(xiàn)目標(biāo)輸出;LoRA則通過在自注意力模塊中的權(quán)重矩陣旁構(gòu)造可訓(xùn)練的低秩矩陣來改變模型輸出。這些方法在降低微調(diào)成本方面成效顯著,但在處理多任務(wù)方面卻暴露出如下三個問題:a)在多任務(wù)學(xué)習(xí)環(huán)境中,不同任務(wù)在微調(diào)過程中可能會相互干擾,進而影響學(xué)習(xí)效果;b)不同任務(wù)之間數(shù)據(jù)量的差異可能導(dǎo)致模型偏向于數(shù)據(jù)量較大的任務(wù);c)“曉曉板”效應(yīng)問題:模型在提升一個任務(wù)性能的同時,可能會犧牲另一個任務(wù)的性能[8]。因此,盡管當(dāng)前的微調(diào)技術(shù)在多任務(wù)和低成本方向上分別取得了一定進展,但仍無法同時兼顧微調(diào)的多任務(wù)和成本問題,在實際應(yīng)用中仍面臨多重技術(shù)和實現(xiàn)方面的挑戰(zhàn)。
基于混合專家架構(gòu)與高效微調(diào)技術(shù)中的P-tuning方法,本文提出了一種名為PMoE(P-tuningmixtureofexpert)的參數(shù)高效微調(diào)框架以解決多任務(wù)微調(diào)的效率瓶頸。該框架融合了P-tuning和MoE的核心優(yōu)勢,利用P-tuning來降低微調(diào)成本,并借助MoE的混合專家和路由機制提升模型在多任務(wù)學(xué)習(xí)中的效果,結(jié)合P-tuning的高效性與MoE的多任務(wù)處理能力,提升大語言模型的微調(diào)效率。具體而言,PMoE架構(gòu)在LLM的每層Transformer模塊前增加由可訓(xùn)練提示詞組成的專家模塊,在微調(diào)過程中凍結(jié)LLM原始權(quán)重,通過可訓(xùn)練專家模塊學(xué)習(xí)任務(wù)特定知識。為平衡各專家在任務(wù)中的學(xué)習(xí)效果,引人門函數(shù)調(diào)整分配權(quán)重。門函數(shù)設(shè)計包括all-router與each-router兩種形式。all-router將所有微調(diào)數(shù)據(jù)作為門函數(shù)的輸入,以使門函數(shù)學(xué)習(xí)多任務(wù)特征,在推理時生成合理的專家權(quán)重,通過實驗將其生成結(jié)果與傳統(tǒng)微調(diào)對比,突出PMoE框架的性能優(yōu)勢;each-router以單一任務(wù)的微調(diào)數(shù)據(jù)作為門函數(shù)輸入,通過多個門函數(shù),在訓(xùn)練中使其分別學(xué)習(xí)對應(yīng)任務(wù)特征,為PMoE框架的微調(diào)可拆卸性提供理論與架構(gòu)基礎(chǔ)。前者旨在凸顯PMoE的微調(diào)性能,后者則支持專家模塊的可拆卸性研究。
綜上所述,本文的主要貢獻如下:
a)提出了一種基于P-tuning的新型微調(diào)框架PMoE。該框架通過P-tuning降低微調(diào)成本,并結(jié)合MoE的混合專家與門函數(shù)(router)機制,顯著提升多任務(wù)學(xué)習(xí)性能。
b)設(shè)計了兩種以任務(wù)類型為驅(qū)動的門函數(shù):(a)all-router,用于突出PMoE框架的微調(diào)性能;(b)each-router,為PMoE在不同任務(wù)場景下的免訓(xùn)練模型部署提供了理論支持和研究方向。
c)基于中國醫(yī)學(xué)數(shù)據(jù)集開展了全面的多任務(wù)實驗,實驗結(jié)果驗證了PMoE框架在微調(diào)效率和多任務(wù)性能方面的優(yōu)越性。
1相關(guān)工作
1.1 混合專家模型
為應(yīng)對應(yīng)用場景增長引發(fā)的大模型參數(shù)與規(guī)模擴張對微調(diào)成本和效率的挑戰(zhàn),目前,許多大型語言模型逐步引入了混合專家模型。MoE基于集成學(xué)習(xí)的理念,使不同專家分別學(xué)習(xí)特定領(lǐng)域的知識,并通過門函數(shù)調(diào)節(jié)各專家在模型推理中的權(quán)重。QuocLe團隊9于2017年提出了一種新型的MoE層,通過引人稀疏性顯著提高了模型的規(guī)模和效率。同年,谷歌首次將MoE技術(shù)應(yīng)用于自然語言處理領(lǐng)域,通過在LSTM層之間加人MoE 模塊,提升了機器翻譯的性能。GShard[10]于2020 年率先將MoE技術(shù)應(yīng)用于Transformer架構(gòu),構(gòu)建了高效的分布式并行計算架構(gòu)。2022 年的 LIMoE[11] 是首個應(yīng)用稀疏混合專家模型技術(shù)的多模態(tài)模型,通過在前饋神經(jīng)網(wǎng)絡(luò)層構(gòu)造多個獨立的專家模塊,在訓(xùn)練和推理階段,僅選擇少量專家參與運算,從而提升模型的訓(xùn)練與推理效率。然而,即使如此,為了使每個專家的訓(xùn)練達到原模型的性能,仍需消耗大量算力資源以重新訓(xùn)練多個專家模塊,模型的參數(shù)規(guī)模也呈現(xiàn)出不可控的快速增長。
在MoE的微調(diào)領(lǐng)域,Dou等人[12]為減少專家訓(xùn)練過程中的參數(shù)量,采用了LoRA技術(shù)對已有專家模塊進行微調(diào),在微調(diào)時凍結(jié)稀疏混合專家模型的專家模塊,使用低秩矩陣作為可訓(xùn)練參數(shù)疊加在凍結(jié)的專家模塊上以實現(xiàn)微調(diào)效果。然而,即便如此,模型的改進仍然基于MoE架構(gòu),模型自身龐大的參數(shù)規(guī)模依然限制了LLM在下游任務(wù)場景中的部署。因此,亟需一種參數(shù)量可控的微調(diào)方法,以滿足多任務(wù)場景的實際需求。
1.2參數(shù)高效微調(diào)技術(shù)
參數(shù)高效微調(diào)技術(shù)旨在減少微調(diào)參數(shù)數(shù)量和計算復(fù)雜性,以提升LLM在新任務(wù)上的性能。Adapter微調(diào)[3率先提出了一種輕量級適配器模塊,該模塊以少量可訓(xùn)練參數(shù)實現(xiàn)了與對LLM頂層完整微調(diào)相當(dāng)?shù)男ЧoRA受LLM大參數(shù)模型中低內(nèi)在維度特性的啟發(fā),在每個密集層中增加兩個可訓(xùn)練的低秩矩陣。盡管LoRA在微調(diào)領(lǐng)域中表現(xiàn)出色,但在多任務(wù)微調(diào)中的表現(xiàn)較差,因為其參數(shù)更新針對所有任務(wù)統(tǒng)一進行,導(dǎo)致關(guān)鍵的任務(wù)特定信息無法被充分捕獲。
Prefix[14]和P-tuning微調(diào)通過為特定任務(wù)構(gòu)建虛擬令牌,在原始文本序列中添加可訓(xùn)練的連續(xù)提示,使優(yōu)化過程相比離散提示更加可行。然而,隨著多任務(wù)數(shù)據(jù)集規(guī)模增大,模型需更長的提示詞以擬合正確輸出,提示詞長度的不斷增加可能限制模型的可用序列范圍。近期,跨任務(wù)泛化研究提出了多種參數(shù)高效微調(diào)策略,以提升模型的多任務(wù)處理能力。然而,跨任務(wù)泛化研究的核心在于提升模型對未知領(lǐng)域的遷移能力,而本文關(guān)注的多任務(wù)微調(diào)側(cè)重于已知任務(wù)微調(diào)后的知識應(yīng)用能力,因此,這些方法在解決當(dāng)前問題時仍存在局限性??傊琇LM驅(qū)動的多場景部署中的多任務(wù)參數(shù)高效微調(diào)仍是一個未被充分探索的領(lǐng)域,本文的研究圍繞這一問題展開。
2PMoE參數(shù)高效微調(diào)框架實現(xiàn)方法
2.1 方法概述
圖1呈現(xiàn)了PMoE微調(diào)的總體框架,并重點通過自注意力層的內(nèi)部機制,詳細解析了微調(diào)流程。
該框架在 L 層Transformer的自注意力層中,以可訓(xùn)練的專家模塊 PMoEK 和 PMoE?V 替代了P-tuning中的可訓(xùn)練虛擬令牌。具體而言,在訓(xùn)練過程中,router負責(zé)將不同任務(wù)匹配到相應(yīng)的專家模塊。當(dāng)本層Transformer接收來自上一層的隱藏狀態(tài)(hidden-states)向量時,該向量被同時輸人到router和自注意力模塊。router利用傳入向量的任務(wù)標(biāo)識(task-id)信息生成權(quán)重向量,并將其傳遞給相應(yīng)的專家模塊。自注意力模塊則保持原有的參數(shù)矩陣 Wq?Wk 和 Wv 凍結(jié),并依次與隱藏狀態(tài)向量相乘,生成自注意力計算所需的查詢( )鍵 (K) 和值( ΩV) 向量。隨后,專家模塊 PMoEκ 和 PMoE?V 與router生成的權(quán)重向量相乘,并附加在 K 和 u 向量的前端,以實現(xiàn)對自注意力模塊的微調(diào)。
在參數(shù)高效微調(diào)方面,本文參考了P-tuning的策略,在每個自注意力模塊的 K 和 V 向量前增設(shè)可訓(xùn)練的 PMoEK 和 PMoE?V 凍結(jié)預(yù)訓(xùn)練模型參數(shù)的同時,通過訓(xùn)練少量參數(shù)有效學(xué)習(xí)下游任務(wù)。在混合專家方面,在模型的每一層構(gòu)建可訓(xùn)練的 PMoEK 和 PMoE?V 作為專家均衡學(xué)習(xí)多任務(wù)知識。每個向量由若干專家參數(shù)加權(quán)構(gòu)成,加權(quán)所需的權(quán)重由門函數(shù)提供。這種設(shè)計使PMoE框架在保持低微調(diào)成本的同時,充分發(fā)揮了混合專家模型的優(yōu)勢,有效提升了模型在多任務(wù)環(huán)境中的性能。
2.2 PMoE框架下的專家實現(xiàn)
P-tuning作為一種參數(shù)高效微調(diào)方案,其低成本微調(diào)的有效性已在大語言模型領(lǐng)域得到驗證。自注意力模塊的運算過程可抽象為函數(shù) y=F(ax+b) ,其中: F 表示自注意力運算, x 為模塊的輸入, a 和 b 為 F 中可訓(xùn)練的參數(shù)。P-tuning從本質(zhì)上是對 x 進行處理,如下所示。
其中:可訓(xùn)練參數(shù) P0 在模型中實際拼接于自注意力模塊的 K 、V 向量前,將 F 應(yīng)用于自注意力機制的公式[15表示為
其中:符號 表示可訓(xùn)練參數(shù) Pk 與 Pv 沿序列長度維度拼接,而非簡單相加。拼接了
的 K 向量經(jīng)過轉(zhuǎn)置和softmax運算后與拼接了 Pv 的 ν 向量相乘,保證了輸入輸出維度上的不變。該結(jié)構(gòu)調(diào)整在維持原始數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,引人新的可訓(xùn)練參數(shù),從而改變自注意力模塊的輸出,實現(xiàn)微調(diào)效果。
在醫(yī)療領(lǐng)域的多任務(wù)微調(diào)中,使用傳統(tǒng)的P-tuning方法時,需針對所有任務(wù)更新可訓(xùn)練參數(shù),可能導(dǎo)致任務(wù)共享與數(shù)據(jù)集不平衡等問題,混合專家(MoE)模型通過專屬專家模塊學(xué)習(xí)各下游任務(wù)的特定知識,能夠有效捕捉微調(diào)數(shù)據(jù)的多樣性。因此,本框架引人了MoE混合專家的理念,構(gòu)建 N 個可訓(xùn)練的P 作為專家,用 {Ei}i=1N 表示,每個專家可進一步拆解為作用于自注意力模塊的 K,V 向量前的兩個參數(shù),單層自注意力模塊的輸出attention (Q,K,V)j 表示為
(Q,K,V)j=
其中: Qj?Kj 和 Vj 表示自注意力模塊的第 j 層輸入 x 經(jīng)過凍結(jié)的權(quán)重矩陣 Wq?Wk 和 Wv 的輸出結(jié)果; Pki 和 Pvi 表示第 i 個專家 Pi 在 Kj 和 Vj 前所拼接的可訓(xùn)練參數(shù); ωji 表示當(dāng)前 j 層第 i 個專家的權(quán)重,該權(quán)重由訓(xùn)練后的門函數(shù)接收不同輸入動態(tài)生成,其主要功能是平衡專家間的權(quán)重分配,在均衡各專家利用率的同時,避免任務(wù)共享沖突。下一節(jié)將詳細介紹兩種門函數(shù)的功能及其實現(xiàn)方式。
PMoE框架下專家模塊的具體實現(xiàn)如圖2所示,圖中以不同顏色表示8個專家。其中 Wo 表示一個連接層,用于改變自注意力計算后的輸出向量(attentionoutputs)的維度。所有專家的權(quán)重均與門函數(shù)(router)輸出的權(quán)重相乘,經(jīng)過加權(quán)后作為最終的 Pk 和 Pv 參與到自注意力模塊的計算之中。
為了確保與基線P-tuning微調(diào)技術(shù)的實驗具有可比性,對PMoE專家的線性層維度進行了調(diào)整,以確保雙方可訓(xùn)練的參數(shù)量均占總參數(shù)量的 1.85%±0.05% 。
2.3 PMoE框架下的門函數(shù)實現(xiàn)
本節(jié)將深人闡述兩種門函數(shù):all-router(所有微調(diào)任務(wù)數(shù)據(jù)作為輸人)和each-router(單一微調(diào)任務(wù)數(shù)據(jù)作為輸人)的部署位置及實現(xiàn)流程。
2.3.1all-router的實現(xiàn)原理
all-router是一種部署在模型Transformer層外的門函數(shù),由三個線性層和一個激活函數(shù)組成。前兩個線性層和激活函數(shù)用于提取輸入特征并生成專家權(quán)重,第三個線性層負責(zé)生成路由噪聲,以提升路由決策的魯棒性。門函數(shù) R 在訓(xùn)練時接收輸入 h ,分別輸出 N 個專家權(quán)重 ωj ,其中 j∈[0,N-1] ,權(quán)重可以表示為
ωj=softmax(R?h)
為均衡各專家對不同任務(wù)數(shù)據(jù)的學(xué)習(xí)程度,門函數(shù)接收任務(wù)類型(task-id)標(biāo)簽,利用標(biāo)簽生成專家掩碼,以先驗方式指導(dǎo)權(quán)重生成的分布規(guī)律,確保每個任務(wù)數(shù)據(jù)優(yōu)先被一個專家學(xué)習(xí),通過損失函數(shù)對權(quán)重生成過程進行約束,門函數(shù)的損失函數(shù)定義如下:
其中: T 表示目標(biāo)專家掩碼,該損失函數(shù)在訓(xùn)練階段幫助門函數(shù)學(xué)習(xí)不同任務(wù)的數(shù)據(jù)特征,以便在推理階段實現(xiàn)對專家權(quán)重的均衡作用。BCE(binary-cross-entropy)表示二元交叉熵函數(shù),公式如下:
BCE(x,y)=-[xlog(y)+(1-x)log(1-y)]
其中: Ψx 為真實標(biāo)簽(0或 1)sy 為預(yù)測概率,在式(5)中分別指代目標(biāo)專家掩碼 T 和專家權(quán)重 ωj 。
圖3展示了一個由3個專家模塊、3層Transformer和1個門函數(shù)(router)組成的訓(xùn)練與推理框架示例。當(dāng)初始層的隱藏狀態(tài)(hidden-states)傳入時會同時復(fù)制給router和layerO(第0層Transformer),router接收隱藏向量后生成對應(yīng)專家權(quán)重 ωj j∈[0,2] 。其中, E(x,y) 表示專家 x 的第 y 層參數(shù), x,y∈[0 2]。路由權(quán)重 ωj 作用于所有部署在layer0的專家參數(shù) Pk0 ,其計算公式為
3個專家加權(quán)后的參數(shù)作為當(dāng)前層的微調(diào)參數(shù) P60 和 Pv0 拼接在當(dāng)前層自注意力模塊內(nèi)的 K,V 向量前,layerO接收到Pk0?Pv0 后會與傳入的隱藏向量運算,生成的輸出作為下一層layer1的輸入,逐層傳遞直至模型的最后一層。
在訓(xùn)練階段,router同時接收隱藏向量與任務(wù)標(biāo)簽(task-id),通過式(5)生成交叉熵損失,并通過反向傳播調(diào)整門函數(shù)的輸出權(quán)重,使其趨近伯努利分布,從而使專家對任務(wù)的學(xué)習(xí)更具專一性。該配置確保整個模型僅使用唯一門函數(shù),以有效控制參數(shù)大小對模型優(yōu)化的影響。
2.3.2each-router的實現(xiàn)原理
如圖4所示,each-router與all-router相比,根據(jù)任務(wù)類型選擇完全獨立的門函數(shù)(router)和專家參與當(dāng)前批次訓(xùn)練。門函數(shù) Rj 和專家 Ej 的數(shù)量始終一一對應(yīng),并且 j 隨著新任務(wù)類型的引入而自適應(yīng)增加,確保相同任務(wù)類型的數(shù)據(jù)集始終由唯一的門函數(shù)和專家組處理。在訓(xùn)練階段當(dāng)輸入(inputs)經(jīng)過編碼層(embedding)變?yōu)殡[藏向量傳給 Rj 時,任務(wù)標(biāo)簽(task-id)同時傳人,作為式(5)的一部分參與損失函數(shù)計算,損失函數(shù)確保當(dāng)前門函數(shù) Rj 與當(dāng)前專家 Ej 之間的唯一匹配。與 Rj 相匹配的專家 Ej 接收到隱藏向量后,生成拼接至 K,V 向量前的 Pk0 和 Pv0 參與后續(xù)的自注意力運算。專家參數(shù)權(quán)重的更新由模型輸出與標(biāo)簽(labels)之間的交叉熵損失決定,門函數(shù)與專家的損失函數(shù)被統(tǒng)一求和,通過反向傳播確保推理階段門函數(shù)的單一選擇性能。推理階段,門函數(shù) Rj 根據(jù)輸入的不同任務(wù)類型的隱藏向量選擇對應(yīng)的專家 Ej 生成 K,V 向量前的 P60 和 Pv0 。
由于輸入是以單詞(token)為基礎(chǔ)組成的特征向量,不同下游任務(wù)數(shù)據(jù)集之間存在大量重復(fù)的單詞,從而降低了router生成權(quán)重的精確性。為實現(xiàn)高效專家選擇,設(shè)計了一種針對token的篩選模型,該模型需要對門函數(shù)生成的權(quán)重進行篩選,選擇出貢獻度較高的單詞(token),從而確定最適合當(dāng)前任務(wù)的專家模塊[16]。門函數(shù) Rj 生成的篩選后的專家權(quán)重 ωj 如下:
其中: M 表示輸入向量 h 的token總數(shù); α 表示選取的token數(shù)在總數(shù) M 中的占比,一般取值為0.5,具體數(shù)值由多任務(wù)場景下數(shù)據(jù)集特征決定。篩選貢獻度較高的token是基于token生成專家權(quán)重的離散性特征,由高到低排序選取前 α×100% 個貢獻度高的token作為有效token;加權(quán)平均所選token的專家權(quán)重以選擇前top ??k 個專家模塊被激活,其中, top-k 表示參與推理的專家數(shù)量,默認值為1。隨后加載選中專家的微調(diào)參數(shù)以執(zhí)行推理任務(wù),推理過程中,某些問題特征可能跨越多個任務(wù)類型,門函數(shù)生成的權(quán)重會由多個專家參數(shù)共同組成,此方式能夠融合多個專家的優(yōu)勢,增強知識共享能力。
本文在訓(xùn)練階段通過任務(wù)類型離散化每組門函數(shù)和專家,旨在探索PMoE微調(diào)的可拆卸性。在部署環(huán)境中,算力限制以及類似P-tuning和LoRA等高效參數(shù)微調(diào)技術(shù)的時間與成本需求,特別是在多場景、多任務(wù)和低時延的LLM應(yīng)用中,微調(diào)任務(wù)數(shù)量及每任務(wù)的數(shù)據(jù)集規(guī)模進一步增加了難度??刹鹦缎訮MoE的核心優(yōu)勢是每組門函數(shù)和專家模塊僅需訓(xùn)練一次,即可在不同任務(wù)中實現(xiàn)“一訓(xùn)多用”。盡管訓(xùn)練與推理分離的架構(gòu)可能降低推理階段的擬合能力,其目標(biāo)是盡量降低性能損失,實驗結(jié)果和分析將在3.2.4節(jié)詳細闡述,以驗證該方法在實際應(yīng)用中的有效性與優(yōu)勢。
2.4PMoE微調(diào)實現(xiàn)流程
圖5展示了PMoE微調(diào)框架的總體實現(xiàn)流程,涵蓋模型從輸入到輸出的完整過程。PMoE的混合專家與門函數(shù)部署于每層Transformerblock中,并作用于每層的自注意力運算階段。
模型接收下游任務(wù)輸入后,首先通過編碼層生成句向量序列(token-id),隨后進人Transformerblock層,并逐層進行運算。在每一層中,輸人會同時傳到router和向量 Q,K 和 V 的權(quán)重矩陣,router根據(jù)輸人為每個專家生成對應(yīng)的權(quán)重,權(quán)重疊加后的專家會拼接到權(quán)重矩陣生成的 K 和 V 向量前,與 向量一同參與自注意力計算,計算結(jié)果作為下一層的輸入依次傳遞,最終生成模型的輸出。訓(xùn)練過程中,每層router生成交叉熵損失,模型經(jīng)過所有Transformer層后,預(yù)測值與標(biāo)簽生成交叉熵損失,將兩部分損失求和并通過反向傳播更新專家與門函數(shù)參數(shù)。
3 實驗結(jié)果與分析
本文實驗以醫(yī)療領(lǐng)域中應(yīng)用大型語言模型為背景,旨在驗證PMoE框架在該領(lǐng)域的實際有效性。通過中國醫(yī)學(xué)數(shù)據(jù)集開展全面實驗,評估PMoE在醫(yī)學(xué)文本分類與知識問答任務(wù)中的表現(xiàn)。實驗結(jié)果表明,PMoE在性能上顯著優(yōu)于傳統(tǒng)P-tuning微調(diào)方法,不僅在精度上有明顯提升,還在多任務(wù)學(xué)習(xí)中展現(xiàn)出更強的魯棒性和更高的效率。
3.1 實驗設(shè)置
3.1.1數(shù)據(jù)集
本次實驗的醫(yī)療數(shù)據(jù)源于PromptCBLUE中國多任務(wù)醫(yī)學(xué)數(shù)據(jù)集[17],該數(shù)據(jù)集由天池競賽平臺首次發(fā)布,涵蓋16個不同的醫(yī)療領(lǐng)域任務(wù),如醫(yī)學(xué)命名實體識別和診斷報告生成等。為適配大模型微調(diào)任務(wù),每個任務(wù)經(jīng)過文本處理,轉(zhuǎn)換為純文本格式以便調(diào)用。受計算能力限制,本次實驗僅選取8個醫(yī)療任務(wù),首先對8個任務(wù)進行數(shù)據(jù)清洗,去除重復(fù)樣本及超過語言模型輸入最大token數(shù)限制的樣本,隨后對實體識別和文本分類任務(wù)進行模版匹配,通過模版引導(dǎo)大語言模型以規(guī)定句式作答,從而便于實驗結(jié)果評分[18]。具體任務(wù)分類及數(shù)據(jù)信息如表1所示。
3.1.2數(shù)據(jù)集的預(yù)處理
隨著智能醫(yī)療系統(tǒng)的廣泛部署,各類醫(yī)療數(shù)據(jù)進行大型語言模型微調(diào)前,需進行適當(dāng)?shù)母袷綐?biāo)準化[19]。醫(yī)療任務(wù)通常分為實體識別、文本分類和文本問答三個主要類別。具體而言,實體識別任務(wù)從文本中提取醫(yī)療領(lǐng)域的名詞性實體;文本分類任務(wù)根據(jù)醫(yī)療綱要將文本歸類為具體的病理條目;文本問答任務(wù)基于文本生成滿足特定要求的回答[20]
在實際微調(diào)中,文本問答任務(wù)通常無須特別處理,因為模型輸入的問題已包含所需內(nèi)容與具體要求,僅需執(zhí)行續(xù)寫功能。然而,實體識別和文本分類任務(wù)通常需根據(jù)具體需求制定模板,以提取關(guān)鍵信息三元組。此方法通過將任務(wù)數(shù)據(jù)處理為結(jié)構(gòu)化提取任務(wù),提高生成結(jié)果的準確率。圖6展示了CMeIE醫(yī)療數(shù)據(jù)集實體關(guān)系提取的預(yù)處理流程。預(yù)處理時,通過提示詞模板將原始數(shù)據(jù)合并后發(fā)送至LLM,LLM根據(jù)指令生成關(guān)系三元組,隨后通過腳本拼接生成最終結(jié)果。表2提供了其他相關(guān)模板的詳細信息。
3.1.3 實驗基線
本實驗針對未微調(diào)的LLM、微調(diào)后的LLM和多任務(wù)微調(diào)的LLM三種基線展開測試,其中多任務(wù)微調(diào)是基于本文提出的PMoE參數(shù)高效微調(diào)框架。未微調(diào)的LLM選擇ChatGPT[21]和ChatGLM3-6b進行few-shot實驗,通過附加2\~3個情境事例作為prompt參考獲取輸出評分;微調(diào)后的LLM以P-tuning為基線,設(shè)置兩種微調(diào)方式:全部任務(wù)同時輸入(P-tuning-all)和每任務(wù)單獨輸人(P-tuning-single),用于分析“蹺曉板”效應(yīng)的影響;多任務(wù)微調(diào)的LLM采用PMoE框架,基于門函數(shù)分類設(shè)置PMoE-all-router(共用一個門函數(shù))和PMoE-each-router(每任務(wù)獨立門函數(shù))兩種實驗基線。
3.1.4其他實驗細節(jié)
受算力資源限制,所有實驗均在1塊A800顯卡上進行,該顯卡顯存為80GB,因此實驗中的batch-size上限為2。實驗運行環(huán)境包括PyTorch2.1.2和Python3.10.13。由于PMoE框架建立在P-tuning的基礎(chǔ)上,所以選擇最先應(yīng)用P-tuning技術(shù)的ChatGLM3- ?6b[22] 作為本次實驗的基礎(chǔ)模型,此外還有如下實驗細節(jié)需要補充:
a)模型層數(shù):本次實驗全部采用ChatGLM3-6b所有層數(shù),共28個Transformer層進行PMoE架構(gòu)的部署與實驗。b)專家數(shù)量為8;專家的pre_seq_len參數(shù)設(shè)置為20;模型輸入輸出長度為:2048/1024,batch_size為2,訓(xùn)練輪次為2。c)其他默認參數(shù)如下:門函數(shù)線性層參數(shù):(4096,1024)(1024,8);專家線性層參數(shù):(14336,512)\(512,14336)。
3.1.5評分指標(biāo)
本次實驗的所有模型出評分均在LongBench平臺上完成[23],該平臺提供了完善的評測代碼和指標(biāo)體系,本次實驗主要采用Rouge-zh-score(基于Rouge文本相似度的中文評分)和Qa-fl-zh-score(基于問答準確率的中文評分)作為評分標(biāo)準,實驗數(shù)據(jù)集的評測指標(biāo)如表3所示。
3.2 實驗結(jié)果分析
3.2.1PMoE與基線的微調(diào)結(jié)果及分析
如表4所示,所有實驗方案的可訓(xùn)練參數(shù)量占比統(tǒng)一為1.85%±0.05% ,平均得分表明,PMoE框架下的高效微調(diào)結(jié)果優(yōu)于其他方法。粗體表示當(dāng)前數(shù)據(jù)集的最高指標(biāo),下同。
未微調(diào)的LLM(ChatGPT和ChatGLM3-6b)在專業(yè)領(lǐng)域任務(wù)中的性能顯著低于微調(diào)后的模型,凸顯下游任務(wù)微調(diào)的必要性。其中,ChatGPT整體優(yōu)于ChatGLM3-6b,尤其在MedDG數(shù)據(jù)集上的對話推理任務(wù)中表現(xiàn)突出,表明超大參數(shù)模型在推理能力上的優(yōu)勢。
微調(diào)后的LLM中,P-tuning-single在CHIP-CDN、CHIP-MDCFNPC和CHIP-CTC數(shù)據(jù)集上的獨立得分高于P-tuning-all,表明“蹺曉板\"效應(yīng)在P-tuning微調(diào)中依然存在。然而,在其他數(shù)據(jù)集中,P-tuning-all得分高于P-tuning-single,顯示多任務(wù)微調(diào)的知識共享優(yōu)勢??傮w上,P-tuning在8個數(shù)據(jù)集上的平均得分均高于未微調(diào)的 LLM 。
基于PMoE框架的LLM(PMoE-all-router),通過結(jié)合MoE混合專家理念與門函數(shù)的均衡能力,在性能上較P-tuning-all提升約 6.24% 。在8個微調(diào)任務(wù)中,有6個任務(wù)明顯優(yōu)于P-tuning-all,同時在除CMeIE數(shù)據(jù)集外的任務(wù)中得分均高于P-tuning-single,這表明PMoE-all-router的性能無論從多任務(wù)綜合角度還是單一任務(wù)角度均較基線有顯著提升。PMoE框架通過門函數(shù)和專家機制有效利用知識共享來彌補“曉蹺板”效應(yīng)帶來的性能損失,緩解了多任務(wù)學(xué)習(xí)對模型性能的負面影響,展現(xiàn)出顯著的性能優(yōu)勢。
3.2.2門函數(shù)與專家參數(shù)消融實驗結(jié)果及分析
圖7展示了門函數(shù)與專家參數(shù)在消融實驗中的表現(xiàn),實驗以PMoE-all-router微調(diào)為基礎(chǔ),展示了控制門函數(shù)或?qū)<覅?shù)時,另一參數(shù)變化對平均得分的影響。圖中,橫軸表示當(dāng)前消融對象的可變參數(shù)占總模型參數(shù)的比重,縱軸表示實驗平均得分。其中,紅點代表3.2.1節(jié)中PMoE-all-router的實驗結(jié)果,門函數(shù)與專家參數(shù)量之和的占比控制在 1.90% (見電子版)。
其中圖7(a)將專家參數(shù)恒定在 1.84% ,通過兩倍縮放比例調(diào)整門函數(shù)參數(shù)比重。實驗結(jié)果表明,門函數(shù)參數(shù)量對微調(diào)得分有顯著影響,微調(diào)性能與門函數(shù)線性層堆疊數(shù)呈正相關(guān),但性能提升迅速達到上限,這是由于簡單的線性層加激活函數(shù)的構(gòu)造形式在8個任務(wù)的訓(xùn)練數(shù)據(jù)中存在擬合上限,在實際應(yīng)用中,應(yīng)根據(jù)多任務(wù)的區(qū)分度合理設(shè)置門函數(shù)權(quán)重。
圖7(b)中,門函數(shù)的參數(shù)量固定為 0.06% ,并采用兩倍縮放比例調(diào)整專家參數(shù)的比重。實驗結(jié)果表明,與門函數(shù)相比,專家參數(shù)占比對微調(diào)平均得分的影響較小,其平均得分的變化范圍相對較為有限,這是由于當(dāng)前專家參數(shù)量已滿足訓(xùn)練集需求。綜上所述,在具體應(yīng)用中,門函數(shù)參數(shù)權(quán)重的設(shè)置應(yīng)得到更多重視。
3.2.3不同專家個數(shù)的消融實驗結(jié)果及分析
在保證門函數(shù)加專家的參數(shù)總量為 1.90% 的條件下,通過調(diào)整專家個數(shù)以研究其對PMoE參數(shù)高效微調(diào)框架性能的影響,基于PMoE-all-router微調(diào)框架(該框架下門函數(shù)唯一),實驗結(jié)果如圖8所示。
從圖8可以看出,當(dāng)專家數(shù)從2逐步增加到8時,平均得分呈現(xiàn)出逐漸上升的趨勢。這是由于在相同參數(shù)總量的限制下,多個專家能夠更有效地學(xué)習(xí)不同類型的任務(wù)知識。然而,當(dāng)專家數(shù)量超過8時,性能得分開始下降。這是因為在保證相同參數(shù)總量的前提下,增加專家數(shù)量需要降低每個專家線性層的維度,從而削弱每個專家的擬合能力。因此,在實驗中,專家數(shù)量應(yīng)與微調(diào)數(shù)據(jù)集中任務(wù)的數(shù)量相匹配,以實現(xiàn)最佳微調(diào)性能。
3.2.4PMoE基于each-router的可拆卸性實驗結(jié)果及分析
拆卸性PMoE的核心優(yōu)勢在于為不同下游任務(wù)分別進行一次性門函數(shù)與專家訓(xùn)練,訓(xùn)練完成后,可獨立保存針對不同任務(wù)的若干組門函數(shù)與專家,LLM可根據(jù)任務(wù)場景動態(tài)加載或卸載門函數(shù)與專家,滿足多任務(wù)需求。在新任務(wù)場景下,僅需為新任務(wù)單獨訓(xùn)練門函數(shù)與專家,無須重新微調(diào)全部下游任務(wù)。
實驗首先比較了PMoE-each-router微調(diào)與P-tuning微調(diào)在新任務(wù)場景下的訓(xùn)練開銷,由于實驗中的門函數(shù)構(gòu)造較為簡單,難以充分區(qū)分相似句子之間的細微差別,所以,為兼顧推理性能與可拆卸性,剔除了文本與其他數(shù)據(jù)集極為相似的CHIP-CDEE和IMCS-V2-MRG數(shù)據(jù)集。實驗中,用新增訓(xùn)練數(shù)據(jù)集模擬新的任務(wù)場景需求,分別用A\~F字母表示6個不同的數(shù)據(jù)集,其實驗結(jié)果如圖9所示。
圖9中,橫軸表示數(shù)據(jù)集從A到F逐步堆疊參與訓(xùn)練,縱軸以小時為單位表示訓(xùn)練時間。圖9顯示,PMoE-each-router微調(diào)框架的訓(xùn)練時間不隨數(shù)據(jù)集堆疊而增加,其訓(xùn)練時間僅與數(shù)據(jù)集大小相關(guān)。新增數(shù)據(jù)集時,僅需訓(xùn)練新增部分,無須從頭訓(xùn)練全部數(shù)據(jù)集。相比之下,P-tuning微調(diào)(黃色)因數(shù)據(jù)集堆疊導(dǎo)致訓(xùn)練時間持續(xù)增長(見電子版),這是因為P-tuning每次都需從頭訓(xùn)練。PMoE-each-router框架顯著降低訓(xùn)練開銷,完美適配不同下游任務(wù)場景的LLM部署,為LLM微調(diào)的廣泛應(yīng)用提供技術(shù)支持。
此外,通過評分實驗對比了PMoE-each-router框架與Ptuning微調(diào)的性能差異,實驗結(jié)果如表5所示,其中 α 為2.3.2節(jié)所提到的篩選模型可變參數(shù)。平均結(jié)果顯示,當(dāng) α=0.5 時,可拆卸性PMoE的性能比P-tuning微調(diào)略低 1.34% ;在 α= 0.375時PMoE-each-router達到最佳微調(diào)效果,在6個數(shù)據(jù)集上的平均得分要比P-tuning微調(diào)性能僅低 0.59% ;當(dāng) α 繼續(xù)降低時,篩選模型的準確度開始下降,導(dǎo)致模型微調(diào)性能下降。PMoE-each-router與P-tuning的微調(diào)差距源于門函數(shù)訓(xùn)練與推理階段分離導(dǎo)致的模型推理誤差,即當(dāng)不同多任務(wù)數(shù)據(jù)輸人大語言模型時,門函數(shù)可能誤判相似但不屬于同一任務(wù)的數(shù)據(jù)向量,而生成錯誤專家權(quán)重,導(dǎo)致模型輸出誤差。這一誤差在可接受范圍內(nèi),因為可拆卸PMoE加載微調(diào)模塊時無須重新訓(xùn)練,顯著節(jié)省了終端模型在時間與空間上的算力資源,提高了終端模型在不同場景中的適應(yīng)能力。 α 的最佳取值取決于實際應(yīng)用場景中多任務(wù)微調(diào)數(shù)據(jù)集的特征差異,理論上并無確定的最佳值。具體到醫(yī)療領(lǐng)域微調(diào)任務(wù),可拆卸性PMoE在6個任務(wù)中,雖有4個任務(wù)表現(xiàn)低于P-tuning-all,但有2個任務(wù)優(yōu)于P-tuning,這一現(xiàn)象表明,盡管可拆卸性PMoE在推理階段存在一定性能損失,但權(quán)重的不確定性分布使其在調(diào)用專家時仍能體現(xiàn)多任務(wù)知識共享的優(yōu)勢。
的分類能力,在實際應(yīng)用中,可通過增加額外的線性層和激活函數(shù),以增強其處理輸入數(shù)據(jù)的能力。此外,門函數(shù)可結(jié)合先進神經(jīng)網(wǎng)絡(luò)技術(shù)(如Transformer機制)進一步提升性能。也可采用基于BERT的分類模型[24],模型在處理自然語言數(shù)據(jù)方面的高效性已被廣泛驗證。將微調(diào)后的BERT模型作為門函數(shù)的一部分,可顯著提升模型理解復(fù)雜語句及文本細微差異的能力,本次實驗需將微調(diào)參數(shù)量控制在與P-tuning-all相同的范圍以便進行性能比較,因此,上述改進方案在實際應(yīng)用場景中仍需進一步研究與完善,可以預(yù)見,隨著門函數(shù)性能的提升,可拆卸性PMoE的整體性能將進一步優(yōu)化。
3.2.5PMoE框架在不同LLM上的遷移效果對比
為評估PMoE高效微調(diào)框架對P-tuning微調(diào)在不同LLM模型中表現(xiàn)的影響,進行了PMoE在不同模型中遷移效果的實驗對比。結(jié)果表明,PMoE框架繼承了P-tuning微調(diào)的通用性,在4個開源LLM上,PMoE對8個醫(yī)療數(shù)據(jù)集的微調(diào)其性能平均提升 4.47% ,具體實驗結(jié)果如表6所示。
表6PMoE在不同LLM下的遷移性能
本次PMoE遷移實驗選取了4個開源模型,并盡量保證參數(shù)量一致以便于比較。實驗結(jié)果顯示,由于模型基礎(chǔ)性能存在差異,P-tuning實驗的得分有所不同,除Qwen-7B模型外,各模型得分差異較小。引入PMoE微調(diào)框架后,專家參數(shù)量根據(jù)模型總參數(shù)量自適應(yīng)匹配來去除不同模型參數(shù)量下的專家參數(shù)量對模型性能的影響,由于模型架構(gòu)略有區(qū)別,導(dǎo)致了對P-tuning微調(diào)的改善程度有所波動。實驗結(jié)果表明,PMoE高效微調(diào)框架在多數(shù)模型中表現(xiàn)出穩(wěn)定的通用性。
3.2.6不同數(shù)據(jù)集下的專家參數(shù)分布實驗結(jié)果及分析
圖10展示了4個數(shù)據(jù)集上8個專家的權(quán)重分配比例,門函數(shù)對指定數(shù)據(jù)的所有輸出權(quán)重求和并歸一化,生成每個專家在當(dāng)前數(shù)據(jù)集上的分配比例。門函數(shù)在訓(xùn)練時通過引入任務(wù)類型(task-id)作為引導(dǎo),并通過交叉熵損失函數(shù)對生成的路由權(quán)重進行約束,從而使每個專家專注于特定的任務(wù)數(shù)據(jù)集。門函數(shù)通過均衡分配專家模塊,專家在多任務(wù)數(shù)據(jù)中表現(xiàn)出各自的傾向性,降低了多任務(wù)微調(diào)中的沖突。此外,每個專家不僅學(xué)習(xí)了主要數(shù)據(jù)集的知識,還獲得了其他數(shù)據(jù)集的部分知識,這也反映了專家在推理時的知識共享能力。
3.2.7PMoE微調(diào)框架的應(yīng)用實例
PMoE微調(diào)框架具備優(yōu)異的多任務(wù)微調(diào)性能,可作為強化大語言模型的理想微調(diào)方法。本文提出的PMoE微調(diào)框架已在江蘇省電信的運維項目中成功應(yīng)用,該項目依托大語言模型,將自然語言翻譯為執(zhí)行指令。模型通過調(diào)用數(shù)據(jù)庫并執(zhí)行相關(guān)操作,以完成多個下游任務(wù)。開源模型ChatGLM3-6b在自然語言翻譯任務(wù)中的專業(yè)詞匯識別,以及數(shù)據(jù)處理中的專有名詞識別與存儲方面,難以滿足實際需求,因此需對基座模型在多任務(wù)場景下進行專業(yè)性微調(diào)。根據(jù)具體任務(wù)類型構(gòu)建了若干數(shù)據(jù)集,采用PMoE微調(diào)框架,對基座模型ChatGLM3-6b進行多任務(wù)場景下的專業(yè)性微調(diào),顯著提升了基座模型在運維領(lǐng)域的專業(yè)性能。數(shù)據(jù)集制作方式及微調(diào)參數(shù)與上述實驗一致,微調(diào)后的模型通過LongBench平臺進行評分,評分用于衡量模型對運維領(lǐng)域?qū)I(yè)知識的掌握能力,具體結(jié)果如圖11所示。
圖中橫軸表示ChatGLM3-6b模型在LongBench平臺下的兩種指標(biāo),縱軸表示歸一化后的平均得分(見電子版)。圖中顯示,基座模型(藍色)因缺乏運維領(lǐng)域的專業(yè)知識,在微調(diào)前難以完成專業(yè)性較強的下游任務(wù)。這凸顯了微調(diào)在提升大語言模型實際應(yīng)用能力中的重要性。ChatGLM3-6b在P-tuning(橙色)和PMoE(黃色)得分對比顯示,PMoE在實際應(yīng)用中,尤其是多任務(wù)場景下,整體優(yōu)于傳統(tǒng)微調(diào)方法。
4結(jié)束語
本文提出了一種基于參數(shù)高效微調(diào)P-tuning的新型框架PMoE。該框架繼承了P-tuning微調(diào)的高效性,在每層Trans-former前引入可訓(xùn)練的專家模塊,顯著降低了微調(diào)參數(shù)成本。此外,通過結(jié)合MoE的混合專家與門函數(shù)(router)機制,PMoE在多任務(wù)場景中充分利用專家模塊的知識共享與任務(wù)適應(yīng)能力,大幅提升了微調(diào)性能。
本文還初步研究了PMoE在不同場景下的可拆卸性與靈活部署。訓(xùn)練階段通過綁定專家模塊與router模塊,使PMoE在推理階段可根據(jù)需求動態(tài)加載或卸載相應(yīng)的門函數(shù)與專家模塊,顯著提升模型在多任務(wù)場景下微調(diào)的靈活性。
未來研究可著重于進一步優(yōu)化門函數(shù)性能,并重新設(shè)計門函數(shù)與專家模塊的參數(shù)權(quán)重及其在Transformer層中的部署位置,以提升PMoE在多任務(wù)處理中的適用性與穩(wěn)定性,進而推動大語言模型在更多領(lǐng)域的廣泛應(yīng)用。
參考文獻:
[1]Zhao Zihuai,F(xiàn)anWenqi,Li Jiatong,etal.Recommender systemsin theera oflargelanguagemodels(LLMs)[J].IEEETranson KnowledgeandDataEngineering,2024,36(11):6889-6907.
[2]WangLei,Ma Chen,F(xiàn)eng Xueyang,et al.A survey on largelanguage model based autonomous agents[J].Frontiers of Computer Science,2024,18(6):186345.
[3] HadiMU,Qureshi R,ShahA,etal.A surveyon large language models:applications,challenges,limitations,and practical usage[EB/ OL].(2023-07-10).https://www.techrxiv.org/doi/full/10.36227/ techrxiv.23589741.v1.
[4]GallifantJ,F(xiàn)iskeA,LevitesSYA,etal.PeerreviewofGPT-4 technicalreport and systemscard[J].PLoS Digital Health,2O24,3(1): e0000417.
[5]楊程,車文剛.基于多門混合專家網(wǎng)絡(luò)的情感分析與文本摘要多 任務(wù)模型[J].現(xiàn)代電子技術(shù),2024,47(1):94-99.(Yang Cheng, CheWengang.Multi-task model for sentiment analysis and text summarizationbased on multi-gate mixture of experts network[J].ModernElectronicsTechnology,2024,47(1):94-99.)
[6]HuEJ,ShenYelong,WallisP,etal.Lora:low-rankadaptation of large language models[EB/OL]. (2021). https://arxiv.org/abs/ 2106.09685.
[7]Liu Xiao,Ji Kaixuan,F(xiàn)u Yicheng,et al. P-tuning v2 prompt tuning can be comparable to fine-tuning universally across scales and tasks [EB/OL].(2021-03-20). https://arxiv.org/abs/2110.07602.
[8]Li Xiao,Ji Kaixuan,F(xiàn)u Yicheng,et al. Dice lossfor data-imbalanced NLP tasks[EB/OL].(2020-08-29).htps://arxiv.org/abs/1911. 02855.
[9]Shazeer N,Mirhoseini A,Maziarz K,et al. Outrageously large neural networks:thesparsely-gated mixture-of-experts layer [EB/OL]. (2017-01-23).https://arxiv.org/abs/1701.06538.
[10]Lepikhin D,Lee H,Xu Yuanzong,et al. GShard;scaling giantodels with conditional computation and automatic sharding[EB/OL]. (2020-06-30). https://arxiv.org/abs/2006.16668.
[11]Mustafa B,Riquelme C,Puigcerver J,et al. Multimodal contrastive learning with LIMoE: the language-image mixture of experts[C]// Procof the36th International Conference on Neural Information Processing Systems. Cambridge,MA:MIT Press,2022:9564-9576.
[12] Dou Shihan, Zhou Enyu,Liu Yan,et al. LoRAMoE: revolutionizing mixture of experts for maintaining world knowledge in language model alignment[EB/OL]. (2024-03-08). https://arxiv.org/abs/2312. 09979.
[13] Zhang Renrui,Han Jiaming,Liu C,et al.LLaMA-adapter: fficient fine-tuning oflanguagemodelswithzero-initatention[EB/OL]. (2023-03-28). https://arxiv.org/abs/2303.16199.
[14]Li X L,Liang P. Prefix-tuning:optimizing continuous prompts for generation[EB/OL].(2021-01-01).https://arxiv.org/abs/2101. 00190.
[15]Vaswani A,Shazeer N,ParmarN,etal.Attention isall you need [C]//Proc of the31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017: 6000-6010.
[16]Wang Junke,Yang Xitong,Li Hengduo,et al.Efficient video Transformers with spatial-temporal token selection[C]//Proc of European Conference on Computer Vision. Cham:Springer Nature Switzerland, 2022:69-86.
[17] Zhu Wei, Wang Xiaoling, Zheng Huanran,et al. PromptCBLUE: a Chinese prompt tuning benchmark for the medical domain[EB/OL]. (2023-10-22) . https://arxiv. org/abs/2310.14151.
[18]孫麗萍,童子龍,錢乾,等.基于醫(yī)療臨床數(shù)據(jù)的兩階段專業(yè)級大 語言模型微調(diào)[J].計算機應(yīng)用研究,2024,41(10):2906-2910. (Sun Liping,Tong Zilong,Qian Qian,et al. Two-phases fine-tuning of professional large language model via clinical data[J]. Application Research of Computers,2024,41(10) :2906-2910.)
[19]Wu Chengyan,Lin Zehong,F(xiàn)ang Wenlong,et al. A medical diagnostic assistant based on LLM[C]//China Health Information Processing Conference.Singapore:Springer Nature Singapore,2O23:135-147.
[20]顏見智,何雨鑫,駱子燁,等.生成式大語言模型在醫(yī)療領(lǐng)域的潛 在典型應(yīng)用與面臨的挑戰(zhàn)[J].醫(yī)學(xué)信息學(xué)雜志,2023,44(9): 23-31.(Yan Jianzhi,HeYuxin,Luo Ziye,et al.Generativelarge language models in the medical domain:potential and typical applications and challenges[J].Journal of Medical Informatics,2023,44(9): 23-31.)
[21] Liu Xiao,Zheng Yanan,Du Zhengxiao,etal. GPT understands,too [J]. Al Open,2024,5:208-215.
[22]Zeng Aohan,Liu Xiao,Du Zhengxiao,et al. GLM-13OB:an open bilingual pre-trained model[EB/OL].(2022-10-05). htps://arxiv. org/ abs/2210. 02414.
[23]Bai Yushi,Lyu Xin,Zhang Jiajie,et al.LongBench:abilingual,multitask benchmark for long context understanding[EB/OL].(2023-08- 28).https://arxiv.org/abs/2308.14508.
[24]Devlin J,Chang Mingwei,Lee K,et al. BERT: pre-training of deep bidirectional Transformersfor language understanding[EB/OL]. (2018-10-11).https://arxiv.org/abs/1810.04805.