柏藝珊++黃展原
摘 要 自然語言處理技術(shù)在快速發(fā)展中,為人們的生活帶來了一定的便捷。監(jiān)督學(xué)習(xí)方法在自然語言處理技術(shù)發(fā)展過程中起到了推動型作用,但是監(jiān)督學(xué)習(xí)方法在落實過程中對于有關(guān)資料的依賴性較高,非常容易出現(xiàn)標注預(yù)料缺乏的問題。在這種情況下,半監(jiān)督學(xué)習(xí)就是一種最為的選擇。半監(jiān)督學(xué)習(xí)主要是對于標記數(shù)據(jù)與無標記數(shù)據(jù)同時進行應(yīng)用,這樣能夠充分利用標記數(shù)據(jù),進而推動自然語言處理技術(shù)的發(fā)展。
【關(guān)鍵詞】半監(jiān)督學(xué)習(xí) 跨語言詞性標注 主動學(xué)習(xí)
半監(jiān)督學(xué)習(xí)是近幾年機器學(xué)習(xí)領(lǐng)域內(nèi)最為熱點的一個課題,主要就是對于標記數(shù)據(jù)與無標記數(shù)據(jù)利用進行分析研究,進而獲得比原有有監(jiān)督學(xué)習(xí)方法更加優(yōu)良的功能。半監(jiān)督學(xué)習(xí)理念只從推出之后,科研人員研究了較多的方法,但是現(xiàn)在實際應(yīng)用過程中還是存在較多并未標注的數(shù)據(jù),在標注數(shù)據(jù)獲取上面具有較高的難度,未標記數(shù)據(jù)數(shù)量遠遠超過標記數(shù)據(jù)數(shù)量。就以生物學(xué)角度而言,科研人員在蛋白質(zhì)結(jié)構(gòu)分析上面可以花費多年的研究時間,其中無標記樣本數(shù)量占據(jù)大部分。
1 基于主動學(xué)習(xí)的半監(jiān)督支持向量機研究與應(yīng)用
1.1 半監(jiān)督支持向量機的定義
半監(jiān)督支持向量機是一種具有代表性的半監(jiān)督機器學(xué)習(xí)算法,是支持向量機算法內(nèi)的一個分支結(jié)構(gòu)。分類準測也就是對于最大與最小風(fēng)險數(shù)值對于標準進行檢測。半監(jiān)督支持向量機與聚類假設(shè)十分吻合,聚類假設(shè)主要表示在將分類界面內(nèi)的數(shù)據(jù)最大程度進行分析之后,所劃分得到的區(qū)域。
1.2 最優(yōu)化方法
半監(jiān)督支持向量機在對于最優(yōu)化目標尋找過程中,只有一個目的就是對于非凸優(yōu)化問題進行分析,大部分科研人員在研究過程中都是應(yīng)用求近似解的方式,通過迭代的形成,逐漸尋找到優(yōu)化目標。在對于非凸優(yōu)化問題計算過程中,最為主要的限制因素就是半監(jiān)督支持向量機。本文在最優(yōu)化方法分析研究過程中,利用平均隨機梯度下降的方法進行分析。
隨機梯度下降算法是隨機近似算法被的重要組成部分,在機器學(xué)習(xí)結(jié)構(gòu)內(nèi)應(yīng)用十分廣泛,例如支持向量機。隨機梯度下降算法應(yīng)用最為主要的一個優(yōu)勢就是能夠?qū)τ跈?quán)重向量進行在線更新。
就隨機近似算法理論而言,在實際應(yīng)用過程中無法計算到最佳結(jié)果,但是伴隨著近幾年科研人員對其深入性研究分析,科研人員研究發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)在保證充足的情況下,在迭代計算過程中,隨機梯度下降類算法能夠計算得出最優(yōu)結(jié)果。這個發(fā)現(xiàn)對于開展大規(guī)模訓(xùn)練活動而言,對于整個活動開展具有促進性意義。平均隨機梯度下降與原有隨機梯度下降在應(yīng)用效果上面相比較,所具有的收斂速度更加快速,計算穩(wěn)定性也得到了顯著提高。
正常情況下,對于樣本進行梯度計算求和結(jié)果,等同于每次對于樣本的隨機性選擇,對于梯度進行計算,權(quán)重也能夠在線更新。
2 基于圖的半監(jiān)督算法在自然語言處理中的應(yīng)用
近幾年,科研人員對于圖的半監(jiān)督算法給與了較高的關(guān)注,主要原因是由于圖的半監(jiān)督算法與一般假設(shè)相比較,應(yīng)用更加便捷,解釋十分容易,在應(yīng)用的領(lǐng)域內(nèi)都取得了良好的效果。但是,圖的半監(jiān)督算法在應(yīng)用過程中十分繁瑣,同時由于計算流程屬于直推式的,這樣也就表示在對于測試集更換之后,需要重新進行計算。圖的半監(jiān)督算法在小數(shù)據(jù)集上面雖然取得了一定成果,但是在大規(guī)模數(shù)據(jù)上面應(yīng)用還存在一定不足?;趫D的半監(jiān)督算法在自然語言處理中應(yīng)用,主要原因有兩個,分別是復(fù)雜度較高與計算代價。
2.1 基于圖的半監(jiān)督算法
基于圖的半監(jiān)督算法在實際應(yīng)用過程中,就是將樣本內(nèi)全部數(shù)據(jù)構(gòu)建成為一個相似性較高的圖,圖上面所具有的每一個點都能夠代表一個樣本內(nèi)的數(shù)據(jù),兩個節(jié)點之間的間距一般情況下標示樣本之間所具有的相似度,表示出兩個樣本之間所具有的關(guān)聯(lián)。在對于相似性進行定義過程中,主要有兩種方法,年分別是高斯核與K緊鄰。
2.2 NLP任務(wù)中圖算法數(shù)據(jù)稀疏問題的解決方法
2.2.1 詞向量簡介
近幾年,詞向量在自然語言內(nèi)得到了顯著關(guān)注。詞向量主要是在深度學(xué)習(xí)算法之后計算得出,詞向量應(yīng)用到自然語言處理領(lǐng)域內(nèi),最為關(guān)鍵的一個技術(shù)就是詞語用法。
在自然語言處理領(lǐng)域內(nèi),統(tǒng)計方法已經(jīng)成為主流方法,自然語言問題在轉(zhuǎn)變?yōu)闄C器學(xué)習(xí)問題的時候,首先就需要應(yīng)用數(shù)學(xué)符號對于自然語言問題進行表示。
在詞向量沒有產(chǎn)生之前,自然語言處理應(yīng)該最為廣泛的方式為one-hot,這種表示方法主要就是將自然語言轉(zhuǎn)變?yōu)閛/l向量,向量的長度就是詞語長短。
2.2.2 詞匯化特征與詞向量特征的使用方式
在對于詞匯化特征與詞向量特征使用方式分析研究過程中,就以詞性標注任務(wù)作為研究對象,對于詞向量特征怎樣提高標準精確性進行分析研究。
在自然語言處理領(lǐng)域內(nèi),最為基礎(chǔ)性技術(shù)就是詞性標注,為每個詞匯標注針對性信息。正常情況下,在對于詞性標注過程中,可以將其看成序列標注問題,部分科研人員還將其看成分類問,本文在分析研究中,就將其看稱為分類問題。要是文內(nèi)一共具有n個詞性,在對于每一個詞進行標注過程中,一共能夠劃分為n類,這樣詞性標注就能夠成為一個多分類問題。在對于不同分類問題解決過程中,很多現(xiàn)有機器學(xué)習(xí)模型都能夠得到有效應(yīng)用。
3 結(jié)論
機器學(xué)習(xí)方法在自然語言處理過程中已經(jīng)得到了廣泛應(yīng)用,半監(jiān)督算法在自然語言基礎(chǔ)性問題處理上面得到了廣泛應(yīng)用,例如詞性標注等,取得了顯著成績。原有監(jiān)督算法在實際應(yīng)用過程中對于標注資料具有較高的依賴性,但是標注預(yù)料對于人力資源需求數(shù)量較高,進而造成標注語料在擴展上面存在較大難度。半監(jiān)督算法就是在這種條件之下產(chǎn)生,已經(jīng)成為機器學(xué)習(xí)領(lǐng)域內(nèi)的主要發(fā)展趨勢,主要是就是將標記數(shù)據(jù)與無標記數(shù)據(jù)進行利用,進而對于全部數(shù)據(jù)進行有效利用。
參考文獻
[1]T?ckstr?m O,Mc Donald R,Uszkoreit J.Cross-lingual word clusters for direct transfer of linguistic structure[C]//Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Association for Computational Linguistics,2012:477-487.
作者單位
對外經(jīng)濟貿(mào)易大學(xué) 北京市 100029