Abstract:First,a manual instruction setcontaining a body description set and a list of instruction examples is constructed as the initial input for the instruction pool.Then,input the instructions from the instruction pool into the large model to generate a number of machine-generated instructions corresponding to their corpora,the generated corpora are refined with text correction to obtain the desired polysemy example sentence corpus. Finaly,the edit distance algorithm is used to remove the weight of machine instructions,and the spectral clustering algorithm is used to cluster the candidate machine instructions,thereby achieving automated generation of machine instructions.By updating the instruction pool, iterative generation of the polysemy example sentence corpus is realized. The results show that the constructed polysemy example sentence dataset and its corresponding large model machine instruction set exhibit good linguistic diversity and content diversity. The constructed polysemy example sentence dataset meets the needs of second language learners in terms of sentence length,sentiment,vocabulary difficulty standard level ,and topics. Keywords:large language model; instruction generation; polysemy; example sentence generation; ChatGPT
中文作為一種復(fù)雜的語言,具有豐富的多義詞現(xiàn)象,即一個字或一個詞有多個不同的意義。對于漢語二語學(xué)習(xí)者而言,理解和運用多義詞是一個難點。在詞匯學(xué)習(xí)和閱讀理解中,學(xué)習(xí)者需準(zhǔn)確理解多義詞在具體語境中的意義,逐步培養(yǎng)推測詞義和理解句意的能力,以避免多義詞可能帶來的歧義和語言交際上的誤解。與此同時,隨著語料庫語言學(xué)的興起,語料庫在漢語作為第二語言教學(xué)領(lǐng)域中的作用也日益顯現(xiàn)。語料庫可以提供大量真實語言使用的例句和語境,幫助學(xué)習(xí)者更好地理解多義詞在不同語境中的用法和含義。因此,高質(zhì)量的多義詞資源建設(shè)日益受到關(guān)注。然而,目前對于帶有多義詞義項標(biāo)注的語料庫研究還相對較少,特別是多義詞例句語料庫需要進(jìn)一步研究,以提供更多高質(zhì)量的多義詞資源供學(xué)習(xí)者和教師使用。
近年來,大語言模型(LLM)領(lǐng)域?qū)崿F(xiàn)了突破性的進(jìn)展,如GPT- 3[1] 、LLaMa[2]等模型在自然語言任務(wù)中表現(xiàn)出卓越的性能。通過適當(dāng)?shù)奈⒄{(diào)指令,可以有效地引導(dǎo)這些模型產(chǎn)出預(yù)期的響應(yīng),進(jìn)而在低資源領(lǐng)域的零樣本生成任務(wù)中實現(xiàn)質(zhì)量的顯著提升。這一方法為解決多義詞語料不足的問題提供了新的思路。然而,目前許多LLM都嚴(yán)重依賴人工指令,并需要經(jīng)過大量手動調(diào)試才能得到一組好的指令數(shù)據(jù)集。這種人工構(gòu)建指令數(shù)據(jù)集的過程既耗時又耗力,并且可能受到人類主觀偏見和誤差的影響。為了克服這些限制,自動化生成指令的框架成為當(dāng)前研究的熱點。針對這一問題,學(xué)者們已提出一些自動化生成指令的方法,但這些方法仍有不足之處。一是自動化生成指令的方法通常是基于模型的反饋進(jìn)行迭代更新的,但它們往往沒有將領(lǐng)域知識融入迭代邏輯設(shè)計中,導(dǎo)致生成的指令缺乏可解釋性;二是這些方法通常使用模型生成結(jié)果的質(zhì)量作為評價標(biāo)準(zhǔn),而沒有直接對生成的指令進(jìn)行評估,忽略了指令語義對自動化生成的促進(jìn)作用。基于此,本文提出一種面向多義詞例句語料生成的大模型微調(diào)指令自動化生成框架。
1相關(guān)工作
1. 1 多義詞語料研究
一詞多義是世界不同語言在各個歷史時期都普遍存在的現(xiàn)象。多義問題一直都是語言學(xué)家關(guān)注的問題[3]。其中,較為典型的是基于詞典的多義詞研究,多集中于對詞典義項設(shè)置的研究或比較不同時期漢語詞典中多義詞的義項異同。胡長虹[4比較了《國語辭典》和《現(xiàn)代漢語詞典》中1450個常用多義動詞,發(fā)現(xiàn)與《國語辭典》相比,《現(xiàn)代漢語詞典》義項的增加是主流,詞義有復(fù)雜化趨勢。周娟[5比較了《現(xiàn)代漢語詞典》2002年的增補(bǔ)本和 2005年的第5版,發(fā)現(xiàn)多義詞義項發(fā)生了義項增加、義項減少、義項分立和義項合并4個方面的變化。陳國華等6分析了《漢語大詞典》義項失序的問題。
此外,將計算機(jī)技術(shù)、自然語言處理技術(shù)、大數(shù)據(jù)與人工智能引人多義詞語料研究也成為當(dāng)前研究的熱點。李安[7以《現(xiàn)代漢語分類詞典》義類體系為基礎(chǔ),通過計算語義相似度,測量多義詞義項的語義距離,并把多義詞義項之間的關(guān)系分為跨義類、同義類和近義類3種關(guān)系類型。Lopez-Arevalo 等[8]采用 WordNet 獲取歧義詞匯真實語義的方法,實現(xiàn)在特定領(lǐng)域中的詞義消歧。Al-Saiagh 等[9]提出一種模擬退火和粒子群優(yōu)化混合的啟發(fā)式算法,將改進(jìn)的Lesk方法作為混合粒子群優(yōu)化算法的目標(biāo)函數(shù),度量歧義詞匯在不同語義類下的概率。Rahman等[10提出一種基于語義擴(kuò)展知識進(jìn)行詞義消歧的方法,并將其應(yīng)用于文本查詢中。通過對輸入文本進(jìn)行語義擴(kuò)展來選擇歧義詞匯的正確含義,從而獲得與輸入文本相關(guān)的文本信息。
綜上所述,前沿技術(shù)在研究詞義消歧方面取得了顯著進(jìn)展。然而,對于多義詞語料庫研究,特別是關(guān)于多義詞例句語料庫的研究仍然較少。
1. 2 LLM微調(diào)指令自動化生成
微調(diào)指令是一種明確且規(guī)范的指導(dǎo)語句,用于引導(dǎo)模型的行為,以實現(xiàn)特定任務(wù)或目標(biāo)。微調(diào)指令提供了一種自然且直觀的方式,使人類可以與大型語言模型進(jìn)行交互和使用。自動化生成LLM微調(diào)指令的研究可以分為以下3個領(lǐng)域。
1)基于模板和規(guī)則的微調(diào)指令生成。根據(jù)任務(wù)類型和數(shù)據(jù)格式設(shè)計固定的指令模板,并將任務(wù)和數(shù)據(jù)的具體信息填人模板中,以生成相應(yīng)的微調(diào)指令。例如,Wang 等[1]提出 Super-NaturalInstruc-tions,其中,包含多個自然語言處理任務(wù)和數(shù)據(jù)集的指令,它們使用簡單的指令模板,如“給出一個句子,判斷情感傾向\"或“給出兩個單詞,判斷它們是否同義”,以生成不同任務(wù)的指令。這種方法直觀而簡單,但可能缺乏靈活性和創(chuàng)造性,無法涵蓋更復(fù)雜和多樣的任務(wù)場景。 Xu 等[12]提出 Evol-Instruct 方法,旨在增強(qiáng)大型語言模型遵循復(fù)雜指令的能力。
2)基于思考鏈的微調(diào)指令生成。利用LLM自身的知識和推理能力,生成一系列相關(guān)的問題和答案,形成思考鏈,再將思考鏈作為微調(diào)指令來引導(dǎo)語言模型完成目標(biāo)任務(wù)。如Liu等[13]引人邏輯鏈思維的微調(diào)指令數(shù)據(jù)集LogiCoT,有效提高了GPT-4在復(fù)雜推理任務(wù)上的性能。此外,Zelikman 等[14]提出 STAR 技術(shù),該技術(shù)在一個循環(huán)中生成一步一步的解釋,以提高LLM在復(fù)雜推理任務(wù)上的性能。這種方法具有較強(qiáng)的創(chuàng)造性,但難以控制思考鏈的長度和復(fù)雜性,并且可能需要大量的計算資源和時間來生成思考鏈。
3)基于迭代學(xué)習(xí)的微調(diào)指令生成。利用LLM自身的反饋信息來不斷優(yōu)化指令,根據(jù)歷史的輸入輸出數(shù)據(jù)和誤差信息修正和優(yōu)化控制指令。例如,Wang 等[15]提出了 Self-Instruct,它通過從LLM自身生成大量的指令、輸入和輸出樣本,并對其進(jìn)行篩選和修正,再使用這些樣本來微調(diào)原始的語言模型。此外,Zhou等[16]提出一種自動生成和選擇指令的自動提示框架,展示了LLM在生成指令方面強(qiáng)大的能力。然而,基于迭代學(xué)習(xí)的方法依賴于模型的自我生成能力和反饋信息,可能在生成過程中面臨指令精確性不高的問題。
1.3 ChatGPT語料生成
近年來,使用ChatGPT生成高質(zhì)量且多樣化的語料已成為一種新穎而有效的方法。這種方法能夠擴(kuò)展語料庫的規(guī)模,提供更多樣的訓(xùn)練數(shù)據(jù),并涵蓋更廣泛的領(lǐng)域和話題,從而提升自然語言處理模型的性能和適用性。這種技術(shù)對于改進(jìn)文本生成任務(wù)、對話系統(tǒng)和語言理解等領(lǐng)域具有重要意義。利用 ChatGPT生成語料,研究人員和開發(fā)者可以更好地訓(xùn)練和優(yōu)化模型,使其在不同應(yīng)用場景下表現(xiàn)出更強(qiáng)的語言生成能力和適應(yīng)性。這種方法的發(fā)展將為自然語言處理領(lǐng)域帶來更廣闊的可能性,并推動其在實際應(yīng)用中的進(jìn)一步發(fā)展。 Xu 等[17提出一種自聊天方法,通過引導(dǎo)ChatGPT從對話數(shù)據(jù)集中隨機(jī)抽取問題或關(guān)鍵句子作為核心話題,生成大量數(shù)據(jù)。
然而,鑒于ChatGPT的通用領(lǐng)域特性,現(xiàn)有的語料生成研究和應(yīng)用主要集中在通用常識領(lǐng)域。因此,如何使ChatGPT適應(yīng)特定語料領(lǐng)域的垂直性成為中文語料生成的主要挑戰(zhàn)。迄今為止,尚未見利用ChatGPT生成多義詞例句語料生成的研究。
2面向多義詞例句的大模型微調(diào)指令自動化生成框架
面向多義詞例句的大模型(大語言模型)微調(diào)指令自動化生成框架包括人工指令集構(gòu)建、指令生成與語料修正、基于編輯距離相關(guān)的機(jī)器指令去重、基于譜聚類的機(jī)器指令示例采樣4個步驟。面向多義詞例句的大模型微調(diào)指令自動化生成框架,如圖1所示。
2.1 人工指令集構(gòu)建
人工指令集為引導(dǎo)大語言模型生成創(chuàng)新且多樣化的指令提供上下文示例,構(gòu)建生成多義詞例句語料的人工指令集 。其中, If 為人工指令主體描述集,
,每個組份
對應(yīng)著不同的指令生成限制描述,限制描述來源于領(lǐng)域垂直性約束知識,如多義詞例句語料的情感、詞性、語法結(jié)構(gòu)、釋義、長度、數(shù)量等多維度約束; Iu"為人工指令示例列表,其組合限制描述中的領(lǐng)域垂直性約束知識構(gòu)建出指令,作為指令范例。以“阿姨”這個詞的指令示例為例,“生成包含‘阿姨'這個詞的7個例句。其中,這個詞在句子中的詞性為名詞,且這個詞的釋義為‘對跟自己母親同輩、年紀(jì)也差不多的女性的稱呼。認(rèn)識的或不認(rèn)識的都可以用’。生成的例句長度不要超過15個字,帶有負(fù)面的情感色彩且定中結(jié)構(gòu)。不要回答除答案以外的其他內(nèi)容”。
人工指令集用于指令池(Istbase)的初始化。指令池是大模型的輸入端,由 If 和動態(tài)可變的指令示例列表 (Is 兩部分組成。初始化時,指令池中的指令示例列表 Is 為人工指令示例列表 Iu 。在后續(xù)的迭代輪次中,指令池內(nèi)的指令示例列表將由模型生成的機(jī)器指令不斷更新。
2.2 指令生成和語料修正
大語言模型獲取指令池進(jìn)行生成任務(wù),其生成結(jié)果不僅包括多義詞例句語料,還包括機(jī)器指令,即輸出是多份的機(jī)器指令-生成語料 (im,d)= LLM(Istbase)。其中, im 為LLM生成的機(jī)器指令; d 為LLM生成的多義詞例句語料。
為了確保生成的多義詞例句語料符合中文教學(xué)要求,使用例句長度控制、語法修正、句子詞匯難度控制3個指標(biāo)進(jìn)行修正,以保留有效的語料。
1)例句長度控制。例句長度的控制是為了確保生成的例句語料適用于中文教學(xué)場景而進(jìn)行的重要步驟。設(shè)定一個最大長度閾值 gmax ,以確保例句在所需范圍內(nèi)。如果例句超過了最大閾值 gmax ,會將該機(jī)器指令-多義詞例句樣本對舍棄。這是為了確保例句的緊湊性和易讀性,避免過長的例句導(dǎo)致學(xué)習(xí)者難以理解或吸收。這有助于提高例句的可讀性和可理解性,為學(xué)習(xí)者提供更好的學(xué)習(xí)體驗和教學(xué)效果。例句長度 (ld) 控制的計算公式為
fldgt;gmax,drop
2)語法修正。語法修正是確保生成的機(jī)器指令與例句語料在語法上正確的關(guān)鍵步驟。采用 HanLP 的語法分析工具分析和糾正例句語料中存在的語法錯誤,如不完整的句子結(jié)構(gòu)和拼寫錯誤等。通過該工具的應(yīng)用,能有效識別并修正這些語法問題,確保例句語料在語法上的準(zhǔn)確性和合理性。首先,將例句語料輸入HanLP的語法分析器,該工具能夠?qū)渥舆M(jìn)行細(xì)粒度的分析,包括例句語料的語法錯誤,如不完整的句子、錯別字等?;谶@些分析結(jié)果,能夠檢測到不符合語法規(guī)則的句子,并進(jìn)行相應(yīng)的修正。語法修正過程能夠有效地提高例句語料的語法正確性,使生成的機(jī)器指令更加準(zhǔn)確和可理解。
3)句子詞匯難度控制。句子難度控制是避免生成的例句語料中使用過于復(fù)雜或晦澀的詞匯,以減少讀者的認(rèn)知負(fù)擔(dān),提高句子的可讀性和流暢性。首先,將生成的例句語料進(jìn)行分詞。然后,將分詞后形成的詞匯進(jìn)行詞匯等級檢測。最后,統(tǒng)計句子中域外詞數(shù)量的占比。如果占比超過了最大閾值 ?max ,會將該機(jī)器指令-多義詞例句樣本對舍棄。句子詞匯難度控制過程能夠有效地控制例句語料的難度,使生成的機(jī)器語料更加符合學(xué)習(xí)者的閱讀水平。句子詞匯難度的計算公式為
New/ldgt;pmax,drop
式(2)中: New 為句子中域外詞的數(shù)量。
通過上述方法對生成的多義詞例句語料進(jìn)行修正,最終可得修正的多義詞例句語料 dtec ,將其進(jìn)一步送入修正機(jī)器指令-生成語料數(shù)據(jù)庫。
2.3基于編輯距離算法的機(jī)器指令去重
為了增強(qiáng)指令池的示例指令,減少機(jī)器指令-生成語料數(shù)據(jù)庫中修正機(jī)器指令的差異性和冗余性,采用基于編輯距離算法進(jìn)行機(jī)器指令的采樣。該算法通過衡量修正機(jī)器指令與指令池示例指令之間的編輯距離,將編輯距離最小的修正機(jī)器指令作為采樣結(jié)果。首先,將修正機(jī)器指令-生成語料數(shù)據(jù)庫和指令池中的指令示例轉(zhuǎn)化為字符串。然后,利用編輯距離算法計算修正機(jī)器指令與指令池指令示例之間的編輯距離,以及修正生成語料與修正機(jī)器指令-生成語料數(shù)據(jù)庫中語料之間的編輯距離,即兩個字符串之間相互轉(zhuǎn)化所需的最小編輯操作次數(shù)。最后,通過加權(quán)求和計算,依此篩選合適的機(jī)器指令。
2.4基于譜聚類算法的指令示例采樣
為了系統(tǒng)化地降低候選指令集中的冗余性,提高數(shù)據(jù)處理的效率,采用譜聚類算法對候選機(jī)器指令列表中的機(jī)器指令進(jìn)行聚類和采樣。
首先,通過向量化器(Vec)將機(jī)器指令示例轉(zhuǎn)化為特征向量,再進(jìn)行候選機(jī)器指令示例特征向量之間的相似度計算,使用余弦相似度進(jìn)行計算,從而構(gòu)建相似度矩陣,即
式(3)、(4)中: :Vim,Vim+1 均為通過平均池化獲取的修正機(jī)器指令的向量; s 為候選機(jī)器指令示例的相似度矩陣。
然后,針對 s ,基于無向圖來計算候選機(jī)器指令示例的度矩陣 (D) ,即
將 s 減去度矩陣,可得拉普拉斯矩陣 (L) ,即
對拉普拉斯矩陣使用指數(shù)函數(shù)eigen進(jìn)行特征分解,得到特征向量,并將其作為新的特征表示。
最后,將新的特征向量輸入 K -means聚類算法中進(jìn)行聚類操作。為了使每個樣本到其所屬簇中心點的距離最小,定義目標(biāo)函數(shù) J 為
式(7)中: Ci 為第 i 個簇; xj 為 Ci 的某一點; μi 為 Ci 的中心點; K 等于指令池中指令示例列表的大小。
通過最小化目標(biāo)函數(shù),得到每個簇的中心點。計算 Ci 簇內(nèi)每個樣本與中心點 μi 的距離,找到離中心點 μi 最近樣本 xrepi ,將其作為 Ci 簇的代表性樣本加入聚類候選機(jī)器指令列表 T?m-K ,計算過程為
對 K 個聚類簇分別進(jìn)行計算,得到聚類候選機(jī)器指令列表 T?m-K 。此外,為了逐漸降低人工介入對指令自動生成過程的影響,采用逐步減少人工示例指令的權(quán)重的方法,逐漸增加機(jī)器指令的影響。具體而言,引入一個衰減率參數(shù)(取值范圍為 ),用于調(diào)整指令池中示例指令的減弱幅度。通過衰減率參數(shù)的計算,確定指令池中需要減弱的指令數(shù)量,并隨機(jī)移除相應(yīng)數(shù)量的指令。然后,從候選機(jī)器指令的聚類列表中隨機(jī)選擇與減弱數(shù)量相當(dāng)?shù)闹噶?,并將其添加到指令池中進(jìn)行更新,更新公式為
Nn=(1-αn)×Nn-1,
式(9)中: Nn 為第 n 輪指令池指令示例列表規(guī)模; Nn-1 為第 n-1 輪的衰減個數(shù); αn 為第 n 輪的衰減率。
3多義詞例句語料庫構(gòu)建
為了驗證提出的面向多義詞例句的大模型微調(diào)指令自動化生成框架的有效性,將ChatGPT(gpt-3.5-turbo)作為大語言模型。
3.1 實驗設(shè)置
3.1.1領(lǐng)域垂直性知識約束的設(shè)置在使用面向多義詞例句語料生成的大模型微調(diào)指令自動化生成框架生成多義詞例句語料過程中,設(shè)置等級標(biāo)準(zhǔn)多義詞詞表、語法結(jié)構(gòu)、例句長度等領(lǐng)域垂直性約束。
針對多功能的外國人學(xué)漢語詞典《學(xué)漢語詞典》,采用版面分析與正則匹配方法抽取每個多義詞的詞條信息,包括詞、拼音、詞性、義項編號、義項、例句集等詞匯要素,形成結(jié)構(gòu)化的學(xué)漢語多義詞詞表,共包含11864個詞條。針對《國際中文教育中文水平等級標(biāo)準(zhǔn)》(以下簡稱《等級標(biāo)準(zhǔn)》) 1~4 級中的每個詞匯,抽取在學(xué)漢語詞典數(shù)據(jù)集的詞性、釋義等信息,形成 1~4 級標(biāo)準(zhǔn)多義詞詞表 GS- poly,即該詞表的每個詞為多義詞,且每個詞都屬于《等級標(biāo)準(zhǔn)》中的范疇,具有 1~4 級標(biāo)準(zhǔn)等級詞匯要素信息。 1~4 等級標(biāo)準(zhǔn)多義詞詞表GS_poly共包含728多義詞,2475條詞條信息。例如,GS_poly 中多義詞[安定]有2個義項,因此,包含2個詞條信息,具體為{[‘安定’,‘形容詞',‘生活、情緒等平靜,沒有不安’」,[安定’,‘動詞’,‘使人的情緒平靜’]}。
3.1.2人工指令集構(gòu)建在使用基于大型模型微調(diào)的自動指令生成框架生成多義詞例句語料時,構(gòu)建一個包含10個組份的人工指令集合 。人工指令主體描述集,如表1所示。人工指令示例列表,如表2所示。
保生成的指令具有多樣性和適應(yīng)性。此外,設(shè)計規(guī)范還有助于模型生成符合預(yù)期的指令和多義詞例句語料。人工指令示例列表 Iu 由5個不同的指令示例組成,這些示例涵蓋了情感、詞性、語法結(jié)構(gòu)、釋義、長度、數(shù)量等多個方面。
3.1.3多義詞例句語料的后處理為了生成符合中文教育場景需求的多義詞例句語料,對生成的多義詞例句語料進(jìn)行精細(xì)數(shù)據(jù)后處理。在分析生成的原始例句數(shù)據(jù)集后,觀察到以下3個問題:1)語料格式多樣性,由于ChatGPT的不可控性,生成的語料除文本格式外,還包括了JSON格式的數(shù)據(jù);2)回復(fù)內(nèi)容冗余性,由于ChatGPT的交互模式特點,生成的語料可能包含與例句無關(guān)的回復(fù);3)例句的重復(fù)性,在多次迭代生成多義詞例句語料時,可能出現(xiàn)生成相同例句的情況。為了應(yīng)對這些問題,首先,刪除非文本格式的噪聲數(shù)據(jù);然后,移除與例句無關(guān)的回復(fù);最后,篩選出生成語料中的重復(fù)例句。通過上述數(shù)據(jù)后處理工作,最終獲得約24萬條高質(zhì)量且符合國際中文教育標(biāo)準(zhǔn)的多義詞例句語料。
3.2多義詞例句語料的評估指標(biāo)
為了評估生成的多義詞例句質(zhì)量,設(shè)置的客觀指標(biāo)為平均字?jǐn)?shù)、情感指數(shù)、《等級標(biāo)準(zhǔn)》詞匯難度四配度、《等級標(biāo)準(zhǔn)》主題匹配度。
平均字?jǐn)?shù)是多義詞例句語料的總字?jǐn)?shù)除于例句語料的句子數(shù)量,平均字?jǐn)?shù) (Nave,w) 的計算公式為
式(10)中: Nt,w 為例句語料的總字?jǐn)?shù); Ns 為例句語料的句子數(shù)量。
情感指數(shù)是指帶有正面和負(fù)面情感例句語料的數(shù)量總和在例句語料的句子數(shù)量中的占比。采用百度AI開放平臺的情感傾向分析API對生成的例句語料進(jìn)行情感檢測,情感指數(shù) (E) 的計算公式為
式(11)中: Ns,pos 為正面情感的例句語料的數(shù)量; Ns,neg 為負(fù)面情感的例句語料的數(shù)量。
《等級標(biāo)準(zhǔn)》詞匯難度匹配度式是指多義詞等級與該多義詞例句語料中詞匯最高等級之間一致的程度。首先,對該例句語料進(jìn)行分詞,并統(tǒng)計該例句中詞匯的最高等級;然后,判斷例句中詞匯的最高等級是否與該多義詞等級一致;最后,將符合該條件的例句語料數(shù)量除以例句語料的數(shù)量,可得《等級標(biāo)準(zhǔn)》詞匯難度匹配度 (Md ),其計算公式為
代(12)中: Ns,d 為滿足條件的例句數(shù)量(即例句中最高等級與詞匯等級標(biāo)準(zhǔn)一致的例句數(shù)量)。
《等級標(biāo)準(zhǔn)》主題匹配度是指多義詞等級與該多義詞例句語料所對應(yīng)主題等級之間一致的程度?!兜燃墭?biāo)準(zhǔn)》主題匹配度 (Mt )的計算公式為
式(13)中: Nt 為例句語料中多義詞等級與主題等級一致的例句數(shù)量。
主題等級表,如表3所示。多義詞語料主題是從百度AI開放平臺中的文章分類API中獲取的,文本通過映射方法將百度主題集(26種)與《等級標(biāo)準(zhǔn)》等級主題集進(jìn)行對應(yīng),從而獲取多義詞例句語料的主題等級?!兜燃墭?biāo)準(zhǔn)》主題匹配度指標(biāo)用于考察多義詞等級與多義詞語料的主題等級的一致性。
3.3多義詞例句語料結(jié)果與分析
針對最終獲得的約24萬條多義詞數(shù)據(jù)集進(jìn)行分析。將該多義詞例句數(shù)據(jù)集與《學(xué)漢語詞典》等級多義詞例句數(shù)據(jù)集的差異進(jìn)行展示?!秾W(xué)漢語詞典》等級多義詞例句數(shù)據(jù)集是由學(xué)漢語多義詞詞表中匹配標(biāo)準(zhǔn)等級 1~4 級得到,包含728個 1~4 級多義詞,2475條詞條信息,形成6299個多義詞例句。3.3.1多義詞例句的主觀指標(biāo)評價引人人工評估,其評估結(jié)果具有主觀性,設(shè)計的主觀指標(biāo)包括表達(dá)流暢度和傾向性。表達(dá)流暢度指例句的流暢性、易理解性和語言表達(dá)的地道程度;傾向性指例句是否遵循通常的中文常識和實際教學(xué)場景的規(guī)范。
從該多義詞例句數(shù)據(jù)集中隨機(jī)選擇200個例句樣本,并請3位中文教育領(lǐng)域?qū)<疫M(jìn)行評估。每個例句樣本由3位專家獨立評估,評分范圍為 1~5(1 表示較差,5表示優(yōu)秀)。最后,將3位專家的評分取平均值作為最終的評估結(jié)果。
例句語料流暢度和傾向性的評估結(jié)果分別為4.9、4.7。通過面向多義詞例句的大模型微調(diào)指令自動化生成框架生成的多義詞例句語料在各個評估指標(biāo)上都表現(xiàn)良好,這說明生成的例句語料能夠符合中文教育需求,同時也能滿足不同教育自然語言處理任務(wù)的數(shù)據(jù)需求。
3.3.2多義詞例句的客觀指標(biāo)評價通過客觀指標(biāo)比較不同數(shù)據(jù)集之間的差異,結(jié)果如表4所示。
由表4可知:大模型生成等級多義詞例句數(shù)據(jù)集的《等級標(biāo)準(zhǔn)》詞匯覆蓋度、例句長度、《等級標(biāo)準(zhǔn)》詞匯難度匹配度符合國際中文教學(xué)要求;與其他例句數(shù)據(jù)集相比,大模型生成等級多義詞例句語料具有更高的《等級標(biāo)準(zhǔn)》主題匹配度,說明利用大模型能實現(xiàn)低資源領(lǐng)域語料的構(gòu)建。
4結(jié)論
構(gòu)建人工指令集作為指令池的初始化輸人,并利用大語言模型生成多條機(jī)器指令及其對應(yīng)的語料。通過文本修正和長度修正以及句子詞匯難度控制,獲取更符合要求的多義詞語料。采用編輯距離算法和譜聚類算法進(jìn)行機(jī)器指令采樣和聚類,實現(xiàn)機(jī)器指令的自動化生成。通過使用ChatGPT(gpt-3.5-turbo)模型,成功地生成了約12200條機(jī)器指令和24萬條多義詞例句文本。指令集涵蓋了涉及多義詞例句的不同任務(wù)。生成的多義詞例句數(shù)據(jù)集具有較好的語言多樣性和內(nèi)容多樣性。通過客觀指標(biāo)和專家主觀評價,驗證了生成的多義詞語料的質(zhì)量和契合度,表明其能滿足中文學(xué)習(xí)者的學(xué)習(xí)需求。因此,利用大模型進(jìn)行低資源領(lǐng)域語料構(gòu)建具有可行性。
參考文獻(xiàn):
l]BROWN T,MANN B,RYDER N,etal.Language models are few-shot learners[J].Advances in Neural Informatior Processing Systems,2020,33:1877-1901.
[2] TOUVRON H,LAVRIL T,IZACARD G,et al. Llama: Open and effcient foundation language models[EB/OL]. (2023-02-27)[2024-12-24]. https: //arxiv. org/abs/2302.13971.
[3] 趙顏利,董博,雷燕.我國語義標(biāo)注領(lǐng)域研究現(xiàn)狀分析[J].福建師范大學(xué)學(xué)報(自然科學(xué)版),2020,36(4):17-24,36. DOI:10.12046/j. issn.1000-5277.2020. 04.003.
[4] 胡長虹.《國語辭典》和《現(xiàn)代漢語詞典》常用多義動詞義項處理對比研究[D].煙臺:魯東大學(xué),2013.
[5] 周娟.《現(xiàn)代漢語詞典》新舊版本多義詞義項變化計量研究[D].南寧:廣西大學(xué),2011.DOI:10.7666/d.y1952844.
[6] 陳國華,李申.《漢語大詞典》義項失序問題研究[J].辭書研究,2015(1):10-18.DOI:10.3969/j.issn.1000-6125. 2015.01.002.
[7] 李安.多義詞義項的語義關(guān)系及其對詞義消歧的影響[J].語言文字應(yīng)用,2014(1):29-37.
[8] LOPEZ-AREVALO 1,SOSA-SOSA V J,ROJAS-LOPEZ F,et al. Improving selection of synsets from WordNet for domain-specific word sense disambiguation[J].Computer Speech amp; Language,2017,41:128-145.DOI:10.1016/j. csl. 2016.06.003.
[9]AL-SAIAGH W,TIUN S,AL-SAFFAR A,et al. Word sense disambiguation using hybrid swarm intellgence approach[J].PloS One,2018,13(12) :e0208695.DOI:10.1371/journal. pone.0208695.
[10]RAHMAN N,BHOGESWAR B.Improvement of query-based text summarization using word sense disambiguation [J].Complex amp; Intelligent Systems,2020,6:75-85.DOI:10.1007/s40747-019-0115-2.
[11]WANG Yizhong,MISHRA S,ALIPOORMOLABASHI P,et al.Super-NaturalInstructions: Generalization via declarative instructions on 1600+ NLP tasks[EB/OL].(2022-04-16)[2024-12-24]. https:// arxiv.org/abs/2204. 07705.
[12]XU Can,SUN Qingfeng,ZHENG Kai,et al. Wizardlm: Empowering large language models to folow complex instructions[EB/OL]. (2023-04-24)[2024-12-24]. https: //arxiv.org/abs/2304.12244.
[13]LIU Hanmeng,TENG Zhiyang,CUI Leyang,et al.Logicot:Logicalchain-of-thought instruction-tuning data collection with GPT-4[EB/OL].(2023-10-28)[2024-12-24]. https://arxiv.org/abs/2305.12147.
[14]ZELIKMAN E,WU Yuhuai,MUJ,et al.Star: Bootstrapping reasoning with reasoning[J]. Advances in Neural Information Processing Systems,2022,35:15476-15488.
[15] WANG Yizhong,KORDI Y,MISHRA S,et al.Self-instruct: Aligning language models with self-generated instructions[EB/OL]. (2022-12-21)[2024-12-24].https:// arxiv.0rg/abs/2212.10560.
[16]ZHOU Yongchao,MURESANU A I,HAN Ziwen,et al.Large language models are human-level prompt engineers [EB/OL].(2022-11-03)[2024-12-24].https://arxiv.org/abs/2211.01910.
[17]XU Canwen,GUO Daya,DUAN Nan,et al.Baize: An open-source chat model with parameter-eficient tuning on self-chat data[EB/OL]. (2023-04-03)[2024-12-24]. https://arxiv.org/abs/2304. 01196.
(責(zé)任編輯:錢筠 英文審校:陳婧)