趙天銳
摘要:機(jī)器學(xué)習(xí)在諸多學(xué)科領(lǐng)域的定量分析中都已經(jīng)顯現(xiàn)出了巨大價(jià)值。本文借助sklearn機(jī)器學(xué)習(xí)庫,以韓國國立國語院2015年發(fā)布的《新詞調(diào)查報(bào)告書》中收錄的新造詞為對象,根據(jù)報(bào)告中出現(xiàn)的分類標(biāo)準(zhǔn)為詞匯建立特征矩陣。而后運(yùn)用多種機(jī)器學(xué)習(xí)算法進(jìn)行特征選擇,最終篩選出對韓國語新造詞詞義理解影響較強(qiáng)的因素。實(shí)驗(yàn)結(jié)果表明:如果該詞為派生詞或外來詞,該詞呈現(xiàn)低透明度的概率更高。
關(guān)鍵詞:韓國語;機(jī)器學(xué)習(xí);新詞;邏輯回歸;隨機(jī)森林
中圖分類號(hào):TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)04-0204-03
Abstract: Machine learning has shown great value in quantitative analysis in many disciplines. This article uses the sklearn machine learning library provided by Python to build a feature matrix for the vocabulary based on the newly coined words included in the "New Word Survey Report" issued by the National Academy of Korean Language in 2015. Then, a variety of machine learning algorithms are used for feature selection, and finally the factors that have a strong influence on the understanding of the meaning of new Korean words are screened out. The experimental results show that if the word is a derived word or a foreign word, the word has a higher probability of showing low transparency.
Key words: Korean; machine learning; new words; logistic regression; random forest
1 引言
新造詞研究一直是韓國語詞匯學(xué)研究的重要領(lǐng)域,長期以來許多國內(nèi)外學(xué)者對收集到的韓國語新詞或流行語進(jìn)行歸類分析,從形態(tài)結(jié)構(gòu)、語言來源等方面進(jìn)行歸納總結(jié),以探索新造詞生成的內(nèi)在規(guī)律。雖然相關(guān)研究取得了豐富的成果,但對新造詞的分析存在一定的局限。
首先,研究范圍不明晰。在韓國語中”???”,”??”,”???”,”???”等都可以表示“新詞”這個(gè)概念。許多關(guān)于韓國語新詞的研究是新詞或者流行語,但從流行語興起到湮滅,其經(jīng)歷的時(shí)間往往很短,難以對詞匯進(jìn)行長期研究。因此本文選擇韓國國立國語院發(fā)布的《新造詞調(diào)查報(bào)告書》(下簡稱《報(bào)告書》)中的新造詞作為研究對象,一是清楚界定詞匯的選擇范圍,二是得到韓國國立國語院收錄的詞匯具有一定的權(quán)威性,有使用時(shí)間長,影響范圍廣的特點(diǎn)。其次,對韓國語新詞的分析多采用傳統(tǒng)語言學(xué)中音韻學(xué)、詞匯學(xué)和形態(tài)學(xué)等視角,定性分析較多,定量分析較少。過往研究常把重心放在分類和列舉方面,對分類結(jié)果的利用缺乏關(guān)注。因此本文選擇利用《報(bào)告書》中的分類標(biāo)準(zhǔn),探討各分類對該詞匯理解難度,即透明度的影響。
隨著機(jī)器學(xué)習(xí)方法的逐步發(fā)展完善,各學(xué)科在進(jìn)行定量分析時(shí)都可以借助已經(jīng)封裝好的機(jī)器學(xué)習(xí)工具,達(dá)到在本領(lǐng)域進(jìn)行數(shù)據(jù)處理的目的。本文選擇基于Python開發(fā)的機(jī)器學(xué)習(xí)庫sklearn,采用嵌入法進(jìn)行特征選擇,最終篩選出對新造詞透明度影響最大的特征。在機(jī)器學(xué)習(xí)算法的選擇上,本文選擇邏輯回歸和隨機(jī)森林作為特征選擇所用的算法。和深度學(xué)習(xí)相比,傳統(tǒng)機(jī)器學(xué)習(xí)算法擁有更強(qiáng)的解釋性,因此更適合對特征的重要性進(jìn)行探究,而sklearn庫中的邏輯回歸和隨機(jī)森林作為經(jīng)典算法,可以方便地調(diào)用接口查看特征在模型中的貢獻(xiàn)度,為本文的實(shí)驗(yàn)提供了便利。同時(shí)兩種算法相互驗(yàn)證,可以增強(qiáng)實(shí)驗(yàn)的可靠性。本文首先篩選《報(bào)告書》中的收錄詞匯,根據(jù)分類,用獨(dú)熱編碼建立特征矩陣,再對所得到的詞匯根據(jù)理解難易程度分為高透明度詞匯和低透明度詞匯,分別用1和0作為兩類詞匯的標(biāo)簽。然后,將特征矩陣和標(biāo)簽帶入模型訓(xùn)練,得到使模型分類準(zhǔn)確率最高的特征子集。最后,將子集中的特征按參數(shù)絕對值/特征重要性排序。
2 研究綜述
在對韓國語新詞展開的研究中,大多數(shù)是對新詞本身進(jìn)行研究。在國內(nèi),王志國在《關(guān)于韓國語新詞構(gòu)造的研究》一文當(dāng)中以音韻變化、形態(tài)變化和其余變化三類來總結(jié)韓國語新詞的生成方式;孟麗在《淺談韓國新詞的特點(diǎn)》一文中提到韓國語新詞類型時(shí)也是主要從詞的結(jié)構(gòu)和形態(tài)進(jìn)行分類和列舉;李得春在《世紀(jì)之交韓國語新詞中的漢字詞》一文中從詞性、語言來源角度出發(fā),對韓語新詞中的漢字詞進(jìn)行了系統(tǒng)的統(tǒng)計(jì)和列舉;此外,姬旭在《反映社會(huì)現(xiàn)象的韓國語新詞特點(diǎn)研究》中,針對不同的社會(huì)領(lǐng)域?qū)n國新詞進(jìn)行了梳理??梢钥闯?,對新詞的研究主要是描述詞匯本身的形態(tài),辨析詞匯的語源,盡管存在部分統(tǒng)計(jì)方面的研究,但更多是止于統(tǒng)計(jì)而不進(jìn)行分析。
韓國國內(nèi)對新詞的研究也一直在進(jìn)行,???從連語的角度對韓國語新詞進(jìn)行了研究,他認(rèn)為能被承認(rèn)的新詞多是以連語的形式使用,并且提出新造詞和慣用語具有很強(qiáng)的互通性;而???以網(wǎng)絡(luò)新詞為主要的分析對象,分析了詞匯的音韻學(xué)、形態(tài)論和語義論特征,并按照詞匯的透明性和兼容性又進(jìn)行了分類和舉例。因此在對韓國語新詞的研究也更關(guān)心分類和舉例,期望通過總結(jié)對新詞誕生的條件進(jìn)行探究。
3 基于機(jī)器學(xué)習(xí)的韓國語新造詞透明度探究
本文的總體思路是:先對《報(bào)告書》中收錄的詞條進(jìn)行篩選,然后根據(jù)其中提供的四種分類標(biāo)準(zhǔn)對每個(gè)詞進(jìn)行編碼,建立特征矩陣,最后將詞語送入模型進(jìn)行特征選擇,并對特征選擇的結(jié)果進(jìn)行可視化展示。
3.1 獨(dú)熱編碼(one-hot encoding)
《報(bào)告書》中提到了詞匯四方面的特征,分別是:詞性、語言來源、構(gòu)詞方式和所屬領(lǐng)域。這四種特征都屬于內(nèi)部無法計(jì)算,也無法比較大小關(guān)系的變量。如其中講到的詞性一共有:名詞、動(dòng)詞、副詞和形容詞四類,無法說“名詞+動(dòng)詞=形容詞”或者“名詞>動(dòng)詞”,所以選擇獨(dú)熱編碼對其進(jìn)行數(shù)字化是較為合適。那么四個(gè)詞性向量化的結(jié)果就是名詞(1, 0, 0, 0),動(dòng)詞(0, 1, 0, 0),副詞(0, 0, 1, 0),形容詞(0, 0, 0, 1)。以此類推,對剩下三種特征也進(jìn)行獨(dú)熱編碼,最終每個(gè)新詞都會(huì)以26位向量的形式出現(xiàn)在特征矩陣當(dāng)中。因?yàn)樯婕暗奶卣鞑⒉欢?,所以不?huì)產(chǎn)生維度災(zāi)難,同時(shí)較大限度保留了原特征的信息。最終特征矩陣如下圖所示:
3.2 邏輯回歸模型
邏輯回歸是機(jī)器學(xué)習(xí)領(lǐng)域常用的分類模型,其本質(zhì)是:假設(shè)數(shù)據(jù)服從某種分布,然后使用極大似然估計(jì)去推導(dǎo)參數(shù)。目前在工業(yè)界邏輯回歸主要用來解決二分類問題,其同Adaline自適應(yīng)算法類似,都是通過在線性回歸外套用sigmoid函數(shù)找到分類超平面。在機(jī)器學(xué)習(xí)領(lǐng)域,二元邏輯回歸的損失函數(shù)為:
在得到損失函數(shù)之后,可以通過梯度下降等方式求出最合適的參數(shù)向量,從而得到損失函數(shù)的最小值。在實(shí)際的應(yīng)用當(dāng)中,為了防止模型的過擬合,常常使用添加正則項(xiàng)的方式對參數(shù)項(xiàng)進(jìn)行限制,L1范式就是正則項(xiàng)的一種,其表現(xiàn)為參數(shù)向量中每個(gè)參數(shù)絕對值之和。sklearn庫中的加入L1范式的損失函數(shù)為:
其中J(θ)是之前的損失函數(shù),C是用來控制正則化的超參數(shù),n是特征總數(shù)。加入了L1范式的損失函數(shù)在進(jìn)行訓(xùn)練時(shí)可以將參數(shù)向量中的某些參數(shù)降為0,即實(shí)現(xiàn)特征選擇,所以本文采用加入了L1范式的邏輯回歸模型。
3.3 隨機(jī)森林模型
隨機(jī)森林模型是一種集成的強(qiáng)學(xué)習(xí)模型,其集成的基本學(xué)習(xí)器是樹模型。集成模型通常都是考慮多個(gè)評估器的建模結(jié)果,匯總后得到綜合結(jié)果,以此來獲得比單個(gè)模型更好的表現(xiàn)。該模型既能被用來解決分類問題,也能被用來解決回歸問題,能在運(yùn)算量沒有顯著提高的前提下提高預(yù)測精度。若待預(yù)測的變量為離散型變量,則隨機(jī)森林的最終結(jié)果為多數(shù)樹模型的分類結(jié)果; 若待預(yù)測的是連續(xù)型變量,則隨機(jī)森林的最終結(jié)果是所有樹模型得到結(jié)果的平均值。隨機(jī)森林中為了讓各個(gè)基分類器不同,盡可能地選取不同的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,而sklearn中的參數(shù)bootstrap,就是代表這種有放回的隨機(jī)采樣技術(shù)。
和邏輯回歸不同,樹模型的建立不具備復(fù)雜的數(shù)學(xué)過程,其建模過程中涉及到運(yùn)算的只是各葉子節(jié)點(diǎn)的分類標(biāo)準(zhǔn),在sklearn庫中可以通過設(shè)置參數(shù)以使用交叉熵或者基尼系數(shù)來作為葉子節(jié)點(diǎn)的分類標(biāo)準(zhǔn)。但這并不影響隨機(jī)森林在訓(xùn)練過程中的高準(zhǔn)確率,同時(shí)作為樹模型的集成,隨機(jī)森林也具備查看各特征重要性的接口,所以本文將其作為特征選擇的算法之一。隨機(jī)森林工作流程如下圖所示:
3.4 嵌入法(embedded)
本文采用嵌入法進(jìn)行特征選擇。嵌入法是一種讓算法決定使用哪些特征的方法,即特征選擇和算法訓(xùn)練同時(shí)進(jìn)行。在使用嵌入法時(shí),先使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù),根據(jù)權(quán)值系數(shù)從大到小選擇特征。這些權(quán)值系數(shù)往往代表了特征對于模型的某種貢獻(xiàn)或某種重要性,比如決策樹和樹的集成模型中的feature_importances_屬性,可以表示各個(gè)特征對樹的建立的貢獻(xiàn),基于這種貢獻(xiàn)的評估找出對模型建立最有用的特征。同理,在使用添加L1 范式的邏輯回歸時(shí),某些權(quán)值系數(shù)會(huì)逐漸趨近于零,這些權(quán)值參數(shù)對應(yīng)的特征對模型的貢獻(xiàn)度不高,而對于權(quán)值參數(shù)不為零的特征,參數(shù)的絕對值越大,證明其對模型的貢獻(xiàn)度越高。嵌入法的工作流程如圖4所示:
4 實(shí)驗(yàn)結(jié)果分析
本文將轉(zhuǎn)換后的特征矩陣帶入模型,使用嵌入法進(jìn)行特征選擇。雖然兩種模型的原理不同,但將最終得到的結(jié)果進(jìn)行對比驗(yàn)證,可以看出對標(biāo)簽影響最大的特征是什么,即詞性、構(gòu)詞方式、語言來源和所屬領(lǐng)域分別會(huì)對韓國語新詞的透明度產(chǎn)生多大的影響。而且因?yàn)樗脜?shù)都是具體數(shù)值,所以可以進(jìn)行可視化處理。最終邏輯回歸得到的權(quán)值參數(shù)和隨機(jī)森林得到的重要性程度如下表所示:
從實(shí)驗(yàn)結(jié)果來看,經(jīng)過邏輯回歸的特征選擇,原有的26個(gè)特征剩下9個(gè),而隨機(jī)森林篩選過后剩下10個(gè),數(shù)量大致相同,其中重復(fù)的特征有6個(gè),超過半數(shù)。從中可以得到如下結(jié)論:
1)韓國語新詞透明度的影響因素是可以通過量化手段進(jìn)行分析的,本文的研究具備一定的合理性;
2)“接尾詞”是影響《報(bào)告書》中新詞透明度的重要因素,兩個(gè)模型篩選出的特征都包含它并給予最高權(quán)重;
3)兩個(gè)模型選擇出的特征當(dāng)中按重要性程度排序,前四名特征中有三項(xiàng)是重復(fù)的,分別是“接尾詞”“外來詞”和“縮略詞”;而且這三項(xiàng)因素的數(shù)值加和都超過了剩下因素的加和,可以說明這三項(xiàng)對新詞透明度影響較大。
從本文研究方法的最終結(jié)果反觀本文的研究方法,可以得到以下不足之處:
1)實(shí)驗(yàn)的樣本較少,缺乏普遍性。由于本文只是篩選了《報(bào)告書》中符合條件的單詞,所以樣本包含的單詞數(shù)量較少,所得結(jié)論可靠性尚需進(jìn)一步驗(yàn)證;
2)在進(jìn)行特征選擇時(shí),直接選擇《報(bào)告書》中給予的分類當(dāng)作特征來源,這是為了保證結(jié)論的可解釋性,但如果在特征矩陣中加入新特征,可能會(huì)得到新的結(jié)論;
3)在實(shí)驗(yàn)的過程中,采取兩種算法對比驗(yàn)證的策略。但實(shí)際上也有其他機(jī)器學(xué)習(xí)算法能解決分類問題并進(jìn)行特征選擇,未來可以使用更多算法進(jìn)行驗(yàn)證。
5 結(jié)語
本文用基于機(jī)器學(xué)習(xí)的方式篩選影響韓國語新詞透明性的因素。從結(jié)果來看,收到了一定效果,得到了具體研究結(jié)論和可供支持的實(shí)驗(yàn)數(shù)據(jù)。同時(shí)本文方法在細(xì)節(jié)處理上還有待優(yōu)化,可以從樣本擴(kuò)充、特征提取、算法選擇等方面進(jìn)一步提升實(shí)驗(yàn)的可靠性和結(jié)果的適用性。
此外,就以往對韓國語新詞的研究而言,本文是方法論層面的嘗試,最重要的是將較為前沿的量化分析方法和傳統(tǒng)的韓國語詞匯學(xué)知識(shí)進(jìn)行結(jié)合。傳統(tǒng)的語言學(xué)知識(shí)用新方法進(jìn)行度量,這可以提升語言學(xué)研究的科學(xué)性,也是未來的研究趨勢和方向。
參考文獻(xiàn):
[1] 王志國. 關(guān)于韓國語新詞構(gòu)造的研究[J]. 韓國語教學(xué)與研究,2018(3):11-15.
[2] 孟麗. 淺談韓語新詞的特點(diǎn)[J]. 科教文匯(上旬刊),2010(7):129-131,135.
[3] 李得春. 世紀(jì)之交韓國語新詞中的漢字詞[J]. 民族語文,2004(5):50-55.
[4] 姬旭. 反映社會(huì)現(xiàn)象的韓國語新詞特點(diǎn)研究[D]. 延邊大學(xué),2016.
[5] 李航. 統(tǒng)計(jì)學(xué)習(xí)方法[M]. 2版.北京:清華大學(xué)出版社:北京,2019:67-109.
[6] ?????.? 2014? ?? ?? ???[R].2015.
[7] ???. ??? ??? ?? ??[J].2011.
[8] ???. ??? ???? ??? ???[J].2018.
【通聯(lián)編輯:王力】