中圖分類號(hào):TP182 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)12-0123-06
Prompt Engineering Evaluation of Large Language Model for the TelecommunicationsDomain
FAN Wenbin1, WANG Yanyan1, WANG Yingying1, XU Yin1, SONG Qi2 (1.KnowledgeComputing InteligenceLaboratory,GuoChuang CloudTechnologyCo.,Ltd.,Hefei3oo88,China; 2.SchoolofComputerScienceandTechnologyUniversityofScienceandTechnologyofChina,Hefei23o027,China)
Abstract: A prompt evaluation system of Large Language Model (LLM) forthe telecommunications domain is proposed toadresste isuesofincomplete evaluationofpromptparameters inpromptengineeringresearchand thelackofconsideration forthecomplexityinrealproductionsenariosofevaluationmethod.Tothisend,fivedatasets inthe telecommunications domainareconstructed,coveringthree majortasksofsntimenttextclasification,customersrvice intentrecogniionnd knowledge-basedquestionanswering.Subsequentlypromptparametersarecategorized intofourdimensionsofole,lngth, tone,andorder,andthe impactofthesediferentdimensionsontheperformanceofsixLLMsissystematicallyevaluated.The researchresults indicatethata well-esigned promptcansignificantlyimprovemodel performanceonthethreemajortasks inthe telecommunications domain.
Keywords: Large Language Model; prompt enginering; model performance optimization; telecommunication domain; Jatural Language Processing
0 引言
近年來(lái),人工智能技術(shù)迅猛發(fā)展,其中大語(yǔ)言模型(LargeLanguageLodels,LLMs)作為自然語(yǔ)言處理領(lǐng)域的核心技術(shù),受到了廣泛關(guān)注。大語(yǔ)言模型如GPT-4等,依靠龐大的訓(xùn)練數(shù)據(jù)和復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠生成高度流暢且富有邏輯性的自然語(yǔ)言文本。這些模型在自動(dòng)寫作、翻譯、對(duì)話系統(tǒng)、文本摘要等各種應(yīng)用場(chǎng)景中展現(xiàn)出強(qiáng)大的性能[1-2]。
在電信行業(yè),智能化服務(wù)的需求日益增長(zhǎng),尤其是在客服自動(dòng)化、故障診斷、用戶意圖識(shí)別等領(lǐng)域。例如,在客服自動(dòng)化中,大語(yǔ)言模型通過(guò)理解用戶的查詢并生成準(zhǔn)確的回答,有助于提升服務(wù)效率和用戶滿意度。然而,模型在處理行業(yè)特有術(shù)語(yǔ)或復(fù)雜的用戶查詢時(shí)往往面臨挑戰(zhàn),如語(yǔ)境理解不足和響應(yīng)不精確的問(wèn)題。故障診斷場(chǎng)景中,模型需要準(zhǔn)確解析技術(shù)性語(yǔ)言,提供針對(duì)性的解決方案,這對(duì)提示詞的設(shè)計(jì)提出了更高要求。用戶意圖識(shí)別則要求模型能夠在多樣化的交互中準(zhǔn)確捕捉用戶的需求,以實(shí)現(xiàn)更為個(gè)性化的服務(wù)。
提示詞工程(PromptEngineering)是通過(guò)設(shè)計(jì)和調(diào)整輸入提示,優(yōu)化大語(yǔ)言模型生成輸出的過(guò)程。提示詞的質(zhì)量和設(shè)計(jì)直接影響大語(yǔ)言模型的性能和輸出質(zhì)量[3-5]。隨著大語(yǔ)言模型在實(shí)際應(yīng)用中的廣泛使用,如何高效地設(shè)計(jì)和調(diào)整提示詞以獲得最佳輸出,成為研究人員和從業(yè)者關(guān)注的熱點(diǎn)[。關(guān)于提示詞測(cè)評(píng)的研究,已有一些工作探討了不同提示詞對(duì)模型表現(xiàn)的影響。例如,Schick等[]將輸入示例重新表述為完形填空風(fēng)格的短語(yǔ),以幫助語(yǔ)言模型理解給定的任務(wù)。
Gao等[采用自動(dòng)選擇標(biāo)簽詞和自動(dòng)生成模板設(shè)計(jì)提示詞,動(dòng)選擇標(biāo)簽詞通過(guò)在預(yù)訓(xùn)練語(yǔ)言模型的詞匯表中搜索最合適的詞來(lái)構(gòu)建標(biāo)簽詞映射;自動(dòng)生成模板則使用T5模型自動(dòng)生成多樣化的模板,以適應(yīng)不同的任務(wù)需求。Li等提出了一種前綴微調(diào)的方法,通過(guò)凍結(jié)預(yù)訓(xùn)練語(yǔ)言模型的參數(shù),僅優(yōu)化一個(gè)小的、任務(wù)特定的連續(xù)向量(稱為前綴),從而顯著降低提示詞的成本效益。Sheng等[]設(shè)計(jì)包含不同人口統(tǒng)計(jì)群體的提示詞模板,通過(guò)標(biāo)注分?jǐn)?shù)和構(gòu)建自動(dòng)分類器,更準(zhǔn)確地檢測(cè)和減輕語(yǔ)言生成模型中的偏見(jiàn)。這些研究為理解和優(yōu)化提示詞的設(shè)計(jì)提供了重要見(jiàn)解。
盡管目前的研究確實(shí)促進(jìn)了提示詞工程領(lǐng)域的發(fā)展,但其關(guān)注點(diǎn)大多在于優(yōu)化特定類型的提示詞,缺乏不同參數(shù)的全面評(píng)估。此外,現(xiàn)有的評(píng)估方法未充分考慮實(shí)際應(yīng)用場(chǎng)景復(fù)雜性和多樣性。因此,提出面向電信領(lǐng)域的大模型提示詞測(cè)評(píng)體系,將提示詞參數(shù)細(xì)分為四個(gè)維度:角色、篇幅、語(yǔ)氣和順序,并定義了電信領(lǐng)域常見(jiàn)的三種應(yīng)用場(chǎng)景:情感文本分類、客服意圖識(shí)別以及知識(shí)問(wèn)答,基于以上場(chǎng)景構(gòu)建了5大數(shù)據(jù)集,共計(jì)2291條數(shù)據(jù),其中包括2個(gè)開(kāi)源數(shù)據(jù)集和3個(gè)私域數(shù)據(jù)集。主要測(cè)評(píng)的大語(yǔ)言模型包括:通義千問(wèn)、GLM、Gamma、百川、Internlm共6個(gè)大模型。最后,評(píng)估了各種LLMs在各個(gè)數(shù)據(jù)集上的表現(xiàn),通過(guò)對(duì)不同提示詞參數(shù)的細(xì)致調(diào)整,發(fā)現(xiàn)模型的性能在多個(gè)任務(wù)上有顯著的提升。
1提示詞測(cè)評(píng)基準(zhǔn)
1.1 整體框架
電信領(lǐng)域的提示詞測(cè)評(píng)基準(zhǔn)如圖1所示。由圖1可知,整個(gè)測(cè)評(píng)體系分為零樣本(zero-shot)和少樣本(few-shot)兩個(gè)層次,并將提示詞測(cè)評(píng)任務(wù)從簡(jiǎn)單到困難分為3個(gè)子任務(wù):情感文本分類,客服意圖識(shí)別以及知識(shí)問(wèn)答。
在提示詞的構(gòu)建中,采取基于策略的設(shè)計(jì)方法。首先,通過(guò)深入分析電信領(lǐng)域案例與用戶查詢,提煉出提示詞模板。隨后,利用大語(yǔ)言模型從真實(shí)查詢數(shù)據(jù)中自動(dòng)抽取關(guān)鍵信息,生成具體化的提示詞。為確保提示詞的有效性和廣泛適用性,將角色、篇幅、語(yǔ)氣和順序作為關(guān)鍵考量因素。選取這四個(gè)關(guān)鍵因素的原因如下:
1)角色的確定性。提示詞中的角色決定了生成文本的視角和信息交流方式。例如,在電信客服領(lǐng)域,客服坐席人員與電信客戶的對(duì)話將更加側(cè)重于解決技術(shù)問(wèn)題和更專業(yè)的提供客戶服務(wù)支持。Brown 等[1]討論了模型如何通過(guò)理解不同角色之間的對(duì)話來(lái)提高語(yǔ)言理解能力。Holtzman等[]也探索了在對(duì)話生成中角色選擇對(duì)模型生成結(jié)果的影響。
2)篇幅的影響。提示詞的篇幅直接影響模型理解和生成的復(fù)雜性。較長(zhǎng)的提示詞通常提供更多的上下文和信息,有助于生成更豐富和詳細(xì)的回復(fù)。Brown等[研究了不同長(zhǎng)度提示詞對(duì)模型生成文本流暢性和準(zhǔn)確性的影響。Holtzman等[11]也探討了過(guò)長(zhǎng)或過(guò)短的提示詞如何影響生成文本的一致性和信息準(zhǔn)確性。對(duì)于電信行業(yè)的應(yīng)用,信息的詳細(xì)程度直接影響解決問(wèn)題的能力。較長(zhǎng)的提示詞可能提供更多上下文,有助于模型更好地理解和回答復(fù)雜的查詢,盡管它也可能引入噪聲。為了評(píng)估長(zhǎng)度變化對(duì)性能的影響,將特別關(guān)注提示詞中正向信息的質(zhì)量。
3)語(yǔ)氣的調(diào)整。提示詞的語(yǔ)氣可以是正式的、友好的、強(qiáng)硬的,等等。不同的語(yǔ)氣會(huì)影響模型生成的風(fēng)格和表達(dá)方式。Hu等[12]也討論了如何通過(guò)設(shè)計(jì)不同語(yǔ)氣的提示詞來(lái)影響生成文本的情感表達(dá)和信息傳遞效果。
4)順序的不同。在few-shot的情況下,在輸入提示詞時(shí)會(huì)給予大模型一些示例,示例與任務(wù)的順序也是會(huì)對(duì)LLMs的回答具有一定的影響性。如Radford等[13]提出,調(diào)整示例的順序可以改變模型對(duì)于特定任務(wù)的處理方式,有時(shí)能夠提高任務(wù)的解決效率和準(zhǔn)確性。這表明,通過(guò)精心設(shè)計(jì)輸入示例的順序,可以優(yōu)化模型的輸出結(jié)果。
1. 2 數(shù)據(jù)集構(gòu)建
基于特定電信領(lǐng)域,構(gòu)建了5個(gè)主要的數(shù)據(jù)集,涵蓋了共計(jì)2291個(gè)文本,包括情感分類、意圖識(shí)別以及知識(shí)問(wèn)答,這些任務(wù)代表了電信領(lǐng)域中大模型的三種典型應(yīng)用場(chǎng)景:
1)情感文本分類。電信行業(yè)中處理大量的客戶反饋和評(píng)論,情感分析能夠幫助公司理解客戶的滿意度和情感傾向,從而優(yōu)化服務(wù)和產(chǎn)品。
2)客服意圖識(shí)別。這是電信行業(yè)自動(dòng)化客服系統(tǒng)中的核心任務(wù),能夠幫助系統(tǒng)準(zhǔn)確理解用戶的具體需求,從而提供針對(duì)性的解答和服務(wù)。
3)知識(shí)問(wèn)答。在提供客戶支持時(shí),快速準(zhǔn)確地回答技術(shù)和服務(wù)相關(guān)問(wèn)題對(duì)于提升客戶滿意度至關(guān)重要,這要求模型能夠快速準(zhǔn)確抽取和利用知識(shí)庫(kù)中的信息。
數(shù)據(jù)集的開(kāi)源數(shù)據(jù)包括GLUE-SST2、CSDS-IR,分別有872條情感文本和1000條客服文本,私域數(shù)據(jù)集包括CTIR,CTT和IAKQA,其中IAKQA為客服場(chǎng)景知識(shí)問(wèn)答數(shù)據(jù)集,包含54條問(wèn)答任務(wù),其余為客服意圖識(shí)別數(shù)據(jù)包含365條客服場(chǎng)景文本,具體數(shù)據(jù)集信息如表1所示。其中私域數(shù)據(jù)集來(lái)自電信領(lǐng)域,根據(jù)真實(shí)業(yè)務(wù)場(chǎng)景,由業(yè)務(wù)人員整理的客服意圖識(shí)別和知識(shí)問(wèn)答數(shù)據(jù)。這些數(shù)據(jù)集的收集和整理,旨在為提示詞設(shè)計(jì)在電信領(lǐng)域的研究與應(yīng)用提供更加真實(shí)的實(shí)驗(yàn)場(chǎng)景。
表1數(shù)據(jù)集介紹
1.3評(píng)估大模型選取
實(shí)驗(yàn)主要對(duì)國(guó)內(nèi)知名且規(guī)模相近的開(kāi)源LLMs展開(kāi)評(píng)估,涵蓋Qwen、Baichuan和ChatGLM等。考慮到實(shí)驗(yàn)的可行性,選取了參數(shù)量基本相當(dāng)?shù)奶囟P桶姹?,具體的模型信息如表2所示。
表2測(cè)評(píng)大模型選取
2提示詞測(cè)評(píng)基準(zhǔn)
在大語(yǔ)言模型的提示詞工程中,評(píng)估不同提示詞的效果至關(guān)重要。本節(jié)將通過(guò)確定主要評(píng)價(jià)指標(biāo),并討論這些指標(biāo)的含義及具體測(cè)評(píng)方法,構(gòu)建完整的評(píng)估體系,并對(duì)測(cè)評(píng)結(jié)果進(jìn)行分析。
2. 1 實(shí)驗(yàn)設(shè)置
2.1.1 環(huán)境設(shè)置
實(shí)驗(yàn)環(huán)境基于兩塊GPUA100( 40GB 內(nèi)存)搭建而成。在實(shí)驗(yàn)過(guò)程中,為確保結(jié)果具有一般性,對(duì)每個(gè)數(shù)據(jù)集均進(jìn)行三次重復(fù)測(cè)試。對(duì)于few-shot設(shè)置,從每個(gè)任務(wù)的驗(yàn)證集中隨機(jī)抽取5個(gè)樣本作為上下文示例。
2.1.2 評(píng)價(jià)指標(biāo)
在評(píng)估提示詞的測(cè)評(píng)結(jié)果時(shí),主要考慮評(píng)估時(shí)間(time)以及以下幾個(gè)關(guān)鍵指標(biāo):
1)準(zhǔn)確性(Accuracy)。指模型在特定任務(wù)中生成響應(yīng)的正確率。
2)F1分?jǐn)?shù)。一種統(tǒng)計(jì)度量,用于評(píng)估二元分類模型的準(zhǔn)確性,特別適用于類別不平衡的情況。它是精確率和召回率的調(diào)和平均值,二者為評(píng)估分類模型的重要指標(biāo)。
3)Rouge-L (Recall-oriented Understudy forGisting Evaluation -Longest Common Subsequence)。用于評(píng)估自然語(yǔ)言生成或機(jī)器翻譯的質(zhì)量,特別在摘要和文本生成任務(wù)中應(yīng)用。它通過(guò)計(jì)算生成文本和參考文本之間的最長(zhǎng)公共子序列(LCS)來(lái)衡量相似度。本文使用該指標(biāo)評(píng)估知識(shí)問(wèn)答任務(wù)的表現(xiàn)。
4)平均值(Average)。用于將各個(gè)任務(wù)上測(cè)評(píng)指標(biāo)結(jié)果取均值。
2.2 實(shí)驗(yàn)結(jié)果
2.2.1 zero-shot實(shí)驗(yàn)結(jié)果分析
在zero-shot的層次下,由于提示詞中不涉及示例,因此僅評(píng)估角色、篇幅和語(yǔ)氣這三個(gè)維度對(duì)多個(gè)LLMs在不同提示詞下任務(wù)表現(xiàn)。zero-shot實(shí)驗(yàn)結(jié)果如表3所示,整體來(lái)看,角色、篇幅和語(yǔ)氣對(duì)大部分模型都有一定的性能提升作用。具體而言,在提示詞中增加角色對(duì)于ChatGLM3-6B、Qwen1.5-7B-Chat、Qwenl.5-14B-Chat模型有一定的促進(jìn)作用,最高提升 2% ;增加篇幅對(duì)于ChatGLM3-6B、Qwen1.5-14B-Chat、Yi-6B-Chat模型的性能也有所提高,準(zhǔn)確率最高提升 2% ;施加語(yǔ)氣對(duì)Qwenl.5-14B-Chat、Internlm-7B-Chat、Baichuan2-7B-Chat、Yi-6B-Chat模型的性能均有提升,最高準(zhǔn)確率提升 3% ??傮w而言,盡管不同提示詞對(duì)不同模型的適配性有所差異,但大模型(如Qwen1.5-14B-Chat)通常能從不同提示詞中獲得性能提升。表明模型能力越強(qiáng),越能有效理解提示詞,從而更好地提升任務(wù)表現(xiàn)。
表3zero-shot實(shí)驗(yàn)結(jié)果
2.2.2few-shot實(shí)驗(yàn)結(jié)果分析
在few-shot的層次下,由于數(shù)據(jù)集IAKQA沒(méi)有示例的情況,因此實(shí)驗(yàn)只涉及電信領(lǐng)域的客服意圖識(shí)別和情感文本分類。在加入示例后,將分析示例和任務(wù)提示的順序?qū)δP捅憩F(xiàn)的影響。在其他維度中,均默認(rèn)為示例 + 任務(wù)的形式,順序維度為任務(wù) + 示例。few-shot實(shí)驗(yàn)結(jié)果如表4所示。
表4few-shot實(shí)驗(yàn)結(jié)果
(續(xù)表)
由于示例的加入導(dǎo)致較長(zhǎng)的提示輸入,由表4可知,在較長(zhǎng)的提示詞下,角色、篇幅和語(yǔ)氣對(duì)大模型的性能提升更為顯著。例如,Qwen1.5-7B-Chat和Baichuan2-7B-Chat的提升均超過(guò) 10% 。這可能是由于模型的參數(shù)量較小,在加入角色語(yǔ)氣等因素后引入了額外的上下文信息,使得模型對(duì)于提示詞的響應(yīng)更好,能夠注意到長(zhǎng)提示中的關(guān)鍵信息,從而使其完成任務(wù)更加出色,更好地理解交互的具體背景。除此之外這些因素對(duì)于其他模型也有提升,更能說(shuō)明其有效性。針對(duì)ChatGLM3-6B、Yi-6B-Chat這兩個(gè)模型,順序維度的綜合指標(biāo)都有所降低,分析其原因可能是由于模型性能并不突出,過(guò)多的示例加入使得模型學(xué)習(xí)示例產(chǎn)生了過(guò)擬合的情況。
2.3 實(shí)驗(yàn)結(jié)果討論
上述實(shí)驗(yàn)結(jié)果展示了提示詞工程設(shè)計(jì)在LLMs在中的應(yīng)用,特別是關(guān)于提示詞設(shè)計(jì)參數(shù)如角色、篇幅、語(yǔ)氣和順序?qū)δP托阅艿挠绊憽Mㄟ^(guò)對(duì)不同提示詞參數(shù)的細(xì)致調(diào)整,發(fā)現(xiàn)模型的性能在多個(gè)任務(wù)上有顯著的提升,這一點(diǎn)在電信領(lǐng)域情感文本分類、客服意圖識(shí)別和知識(shí)問(wèn)答任務(wù)中得到了驗(yàn)證。此外,實(shí)驗(yàn)數(shù)據(jù)表明,優(yōu)化后的提示詞能夠有效減輕模型的偏見(jiàn),提升輸出的準(zhǔn)確性和相關(guān)性。實(shí)驗(yàn)結(jié)果顯示,一些簡(jiǎn)單任務(wù)的提示上篇幅和語(yǔ)氣的加入通常能提高模型的準(zhǔn)確率,當(dāng)具有較長(zhǎng)的示例及指令時(shí),對(duì)于提示詞的關(guān)鍵任務(wù)可以引入語(yǔ)氣或增加其長(zhǎng)度使得模型能夠更好地讀取和理解指令,從而提升模型性能。
本實(shí)驗(yàn)設(shè)計(jì)仍存在一些限制。首先,實(shí)驗(yàn)主要依賴于預(yù)定義的幾種提示詞修改策略,難以涵蓋所有能影響模型性能的潛在提示詞特性。其次,數(shù)據(jù)集的選擇也可能影響了實(shí)驗(yàn)的普遍性,因?yàn)椴煌I(lǐng)域據(jù)集可能對(duì)提示詞的敏感性有不同的反應(yīng)。特別對(duì)于一些的簡(jiǎn)單的任務(wù),即使在提示詞中引入一些可以提升其性能的因素,但這僅局限于提示工程上,對(duì)于模型的性能提升十分有限,從上述實(shí)驗(yàn)結(jié)果中可以看出,一般有提升僅有 1%~3% 左右。鑒于上述結(jié)果和限制,未來(lái)的研究可以在以下幾個(gè)方向進(jìn)行擴(kuò)展:首先,探索更多維度的提示詞設(shè)計(jì),如情感色彩、復(fù)雜性和具體任務(wù)相關(guān)性。其次,可以在更多樣化的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以驗(yàn)證優(yōu)化的提示詞是否在不同類型的語(yǔ)言任務(wù)中同樣有效。此外,自動(dòng)化提示詞生成技術(shù)的開(kāi)發(fā)將是一個(gè)重要的研究方向,這有助于降低人工設(shè)計(jì)提示詞的工作量,并可能提高模型的適應(yīng)性和靈活性。
3結(jié)論
在本文中,深入探討了LLMs及其在提示詞工程中的應(yīng)用,揭示了一系列重要的發(fā)現(xiàn)和發(fā)展趨勢(shì)。研究結(jié)果表明,通過(guò)加入語(yǔ)氣或角色的提示詞,可以顯著提升模型在多種任務(wù),如情感文本分類、電信運(yùn)營(yíng)商意圖識(shí)別和知識(shí)問(wèn)答等方面的表現(xiàn)。這種優(yōu)化不僅提高了模型的響應(yīng)質(zhì)量,而且在一定程度上減輕了模型偏見(jiàn),提升了輸出的準(zhǔn)確性和相關(guān)性。與完整的模型重訓(xùn)練相比,提示詞優(yōu)化展示了更低的資源消耗和更快的實(shí)施效率,為資源有限的應(yīng)用場(chǎng)景提供了實(shí)際可行的解決方案。此外,這種方法的廣泛適用性使其能夠有效服務(wù)于電信客服,醫(yī)療和客戶服務(wù)等多個(gè)領(lǐng)域,顯示出其應(yīng)用潛力。
下一步,提示詞工程的發(fā)展將深入挖掘模型對(duì)復(fù)雜語(yǔ)境和隱含意圖的理解能力,進(jìn)一步提高模型在復(fù)雜交互場(chǎng)景中的表現(xiàn);發(fā)展自動(dòng)化生成高效提示詞的技術(shù),以減少人工干預(yù),提高系統(tǒng)的可擴(kuò)展性和靈活性;如加入知識(shí)圖譜,思維鏈等,以適應(yīng)多樣化的交互需求。通過(guò)這些研究,提示詞工程不僅能夠提升模型的輸出質(zhì)量,還有望推動(dòng)智能系統(tǒng)在更廣泛領(lǐng)域的實(shí)用化。
參考文獻(xiàn):
[1]BROWNT,MANNB,RYDERN,etal.Language
Models Are Few-Shot Learners [J].Advances in Neural
Information Processing Systems,2020,33:1877-1901.
[2] RADFORD A,WU J,CHILD R,et al. Language
ModelsAreUnsupervised MultitaskLearners[EB/OL].[2024-
09-16].https://cdn.openai.com/better-language-models/language_
models_are_unsupervised_multitask_learners.pdf9.
[3] LIUP,YUANW,F(xiàn)UJ,et al.Pre-Train,Prompt,
andPredict:A Systematic Survey ofPromptingMethodsin
Natural Language Processing[J].ACM Computing Surveys,
2023,55(9):1-35.
[4]許志偉,李海龍,李博,等.AIGC大模型測(cè)評(píng)綜述:
使能技術(shù)、安全隱患和應(yīng)對(duì)[J].計(jì)算機(jī)科學(xué)與探索,2024,18(9):2293-2325.
[5]李毅,李浩,許驍哲,等.CFB:金融領(lǐng)域大模型評(píng)
估方法[J].計(jì)算機(jī)科學(xué)與探索,2024,18(12):3272-3287.
[6]孫柏林.大模型評(píng)述[J].計(jì)算機(jī)仿真,2024,41(1):
1-7+24.
[7] SCHICK T,SCHUTZE H. Exploiting Cloze-Questions
forFew-Shot Text Classification and Natural Language Inference
[J/OL].arXiv:2001.07676[cs.CL]. (2020-01-21) [2024-09-16].
https://arxiv.org/abs/2001.07676.
[8]GAOT,F(xiàn)ISCHA,CHEND.MakingPre-trained
Language Models Better Few-Shot Learners [C]//Proceedings of
the59th Annual Meetingof the Association for ComputationalLinguisticsand the 1lth International Joint Conference onNaturalLanguage Processing(Volume 1:Long Papers).ACL,2021:3816-3830.
[9]LIXL,LIANG P.Prefix-Tuning:Optimizing ContinuousPrompts for Generation [C]//Proceedings of the 59th AnnualMeeting oftheAssociation for ComputationalLinguisticsandthe 1lth International Joint Conference on Natural LanguageProcessing (Volume 1:Long Papers).ACL,2021:4582-4597.[10] SHENGE,CHANGKW,NATARAJANP,etal. The Woman Worked as a Babysitter:On Biases in LanguageGeneration [C]//Proceedings of the 2019 Conference on EmpiricalMethods in Natural Language Processing and the 9th InternationalJoint Conference on Natural Language Processing (EMNLP-IJCNLP).Hong Kong:ACL,2019: 3407-3412.
[11]HOLTZMANA,BUYSJ,DUL,etal.TheCurious Case of Neural Text Degeneration [C]//InternationalConference on Learning Representations.New Orleans:ICAL,2019:1-16.
[12] HU Z,YANG Z,LIANG X,et al. Toward ControlledGeneration of Text[C]//International Conference on MachineLearning.Sydney:PMLR,2017:1587-1596.
[13] RADFORD A,WU J,CHILDR, et al. LanguageModels Are Unsupervised Multitask Learners[EB/OL].[2024-09-16].https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.
作者簡(jiǎn)介:范文斌(1990—),男,漢族,安徽黃山人,實(shí)驗(yàn)室執(zhí)行主任,本科,研究方向:大模型應(yīng)用技術(shù)、智能軟件;通信作者:王顏顏(1992—),女,漢族,安徽淮南人,中級(jí)職稱,博士,研究方向:知識(shí)計(jì)算、自然語(yǔ)言處理、大模型;汪盈盈(1999—),女,漢族,安徽安慶人,碩士在讀,研究方向:自然語(yǔ)言處理、大模型;許銀(1998一),女,漢族,安徽合肥人,碩士,研究方向:知識(shí)圖譜、自然語(yǔ)言處理;宋騏(1990一),男,漢族,安徽合肥人,中國(guó)科學(xué)院技術(shù)大學(xué)特任教授,博士,研究方向:圖數(shù)據(jù)庫(kù)及圖數(shù)據(jù)挖掘。