黃春
摘 ? 要:隨著科學(xué)技術(shù)的發(fā)展進(jìn)步,機(jī)器學(xué)習(xí)方法在自然語言處理領(lǐng)域已經(jīng)得到了廣泛的普及與應(yīng)用。半監(jiān)督算法作為其中一項(xiàng)重要方法,具有更一般的假設(shè),方法更加直觀,解釋性好,因此在自然語言處理中有著廣泛的應(yīng)用。本文以半監(jiān)督算法在自然語言處理中的應(yīng)用為研究對(duì)象,首先分析了半監(jiān)督算法在自然語言處理中應(yīng)用必要性,隨后探討分析了半監(jiān)督算法的一些具體應(yīng)用方式。
關(guān)鍵詞:半監(jiān)督算法 ?自然語言處理 ?應(yīng)用
中圖分類號(hào):TP391 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):1674-098X(2019)02(c)-0131-02
通過總結(jié)半監(jiān)督算法在自然語言處理中的應(yīng)用,對(duì)于促進(jìn)半監(jiān)督算法推廣應(yīng)用普及具有重要的意義。
1 ?必要性分析
有監(jiān)督學(xué)習(xí)算法是當(dāng)下自然語言處理中應(yīng)用的一種主流算法,該方法在句法分析、詞性標(biāo)注等方面均有著良好的應(yīng)用效果,在機(jī)器翻譯、情感分析等領(lǐng)域葉達(dá)到了非常高的水準(zhǔn)。此外,有監(jiān)督學(xué)習(xí)算法在其他領(lǐng)域中也有著非常重要的應(yīng)用,有效推動(dòng)了諸如圖像處理識(shí)別、垃圾郵件識(shí)別等領(lǐng)域的發(fā)展。但該方法在實(shí)際應(yīng)用時(shí)也有著一定的局限性,例如需要依賴大量的標(biāo)注數(shù)據(jù),而這些數(shù)據(jù)標(biāo)注工作通常需要相關(guān)人員采取人工方式進(jìn)行,因此工作量較大,耗費(fèi)時(shí)間人力成本較高。當(dāng)遇到標(biāo)注語料缺乏問題,將會(huì)嚴(yán)重限制該方法應(yīng)用效果。另一方面,在我國自然語言組成中,有很多少數(shù)民族語言,例如壯語、蒙語、藏語等,這些語言應(yīng)用相對(duì)較為“小眾”,語料資源比較匱乏,因此嚴(yán)重限制了有監(jiān)督學(xué)習(xí)算法在這些語言中的應(yīng)用。此外,即使針對(duì)一些應(yīng)用比較廣的語言,例如漢語、英語等,在某些實(shí)際應(yīng)用中也會(huì)出現(xiàn)標(biāo)語語料獲取難度大等問題,同樣嚴(yán)重應(yīng)用效果。以構(gòu)建統(tǒng)計(jì)句法分析應(yīng)用樹庫為例,該任務(wù)由于難度較大,當(dāng)前只有漢語與英語有專門的大規(guī)模標(biāo)注樹庫(賓州樹庫),而阿拉伯語與俄語雖然實(shí)際應(yīng)用范圍也比較廣,但由于標(biāo)注樹庫規(guī)模較小,有監(jiān)督學(xué)習(xí)算法對(duì)于這些語言句法分析依然難以得到有效應(yīng)用?;诖?,為使得語料匱乏的自然語言處理任務(wù)問題得到妥善解決,有必要對(duì)半監(jiān)督算法進(jìn)行研究分析。半監(jiān)督算法作為當(dāng)下機(jī)器學(xué)習(xí)語言的重要方法,主要研究如何同時(shí)利用標(biāo)記數(shù)據(jù)與無標(biāo)記數(shù)據(jù)獲得更好的語言學(xué)習(xí)性能,達(dá)到滿意的應(yīng)用效果。
2 ?半監(jiān)督算法在自然語言處理中的應(yīng)用
2.1 應(yīng)用于無向圖建立
半監(jiān)督算法在實(shí)際的語言處理過程中,無法直接訓(xùn)練出固定的模型。原因在于面對(duì)大量任務(wù)同時(shí)存在的情況,該算法需要對(duì)文檔中詞匯的特征進(jìn)行逐一提取,難度較大。為避免出現(xiàn)數(shù)據(jù)稀疏問題,在應(yīng)用該算法進(jìn)行知識(shí)檢索過程時(shí),需要圍繞全部數(shù)據(jù),建立一個(gè)無向圖。具體而言,每一個(gè)數(shù)據(jù)點(diǎn)都各自由一個(gè)點(diǎn)來代表,若兩點(diǎn)之間具有一定相似性,則利用連接線來具體體現(xiàn)。然后通過設(shè)置X,用于表示無向圖中連接線的權(quán)值矩陣,其中針對(duì)數(shù)據(jù)點(diǎn)j與數(shù)據(jù)點(diǎn)k之間連接線權(quán)值,用xjk表示。若上述兩點(diǎn)之間不存在連接線,那么xjk=0。我們可以假設(shè)鄰近數(shù)據(jù)點(diǎn)為L,數(shù)據(jù)點(diǎn)k在數(shù)據(jù)點(diǎn)j的鄰近區(qū)域中,那么可得xjk=1。我們通過利用高斯核的方式對(duì)上述關(guān)系進(jìn)行核對(duì)并描述,可得出如下結(jié)論:
在上述分析的基礎(chǔ)之上,在流形條件下,引入半督學(xué)習(xí)算法。流形條件具體是指:當(dāng)數(shù)據(jù)樣本的數(shù)據(jù)復(fù)雜度較高時(shí),將這些復(fù)雜的數(shù)據(jù)在數(shù)據(jù)復(fù)雜度較低樣本中來進(jìn)行存儲(chǔ)的一種條件?;诖?,若該條件假設(shè)成立,那么在實(shí)際進(jìn)行自然語言處理時(shí),即使面對(duì)數(shù)據(jù)復(fù)雜度相對(duì)較低的空間,也能夠?qū)崿F(xiàn)知識(shí)的有效檢索??偟膩碚f,通過應(yīng)用半監(jiān)督學(xué)習(xí)算法,可以有效降低自然語言處理各種局限性的影響,尤其是針對(duì)數(shù)據(jù)復(fù)雜度過高的局限性,可有效改善這一局限性問題,彰顯了半監(jiān)督算法的應(yīng)用優(yōu)勢(shì)。
2.2 應(yīng)用標(biāo)記傳播法降低自然語言處理知識(shí)檢索的難度
標(biāo)記傳播算法是一種比較典型的半監(jiān)督學(xué)習(xí)算法,該算法對(duì)流形假設(shè)進(jìn)行了充分的利用。主要是在所有樣本的基礎(chǔ)之上,通過構(gòu)建K近鄰圖或完全圖,對(duì)于圖中標(biāo)注樣本標(biāo)簽而言,可以使其在未標(biāo)注樣本之上進(jìn)行傳遞。如果兩個(gè)樣本點(diǎn)之間有著較高的相似度,則說明越容易傳播。在上述過程中,有標(biāo)注數(shù)據(jù)標(biāo)簽會(huì)保持不變,而未標(biāo)注數(shù)據(jù)標(biāo)簽則會(huì)不間斷地進(jìn)行更新。借助該方法,可以有效簡化無向圖,降低在自然語言處理過程中知識(shí)檢索的復(fù)雜度與難度,提高處理效果。
基于上述的分析可知,通過應(yīng)用流形假設(shè),在實(shí)際進(jìn)行數(shù)據(jù)處理分析的過程中,能夠有效獲取與數(shù)據(jù)樣本相關(guān)的鄰近區(qū)域的圖譜。并且針對(duì)獲取的無向圖來說,也有著非常高的完整性,更有利于處理效果提升。與此同時(shí),在圖中,我們還可以做出如下假設(shè),在所有數(shù)據(jù)樣本中,存在一部無數(shù)標(biāo)注數(shù)據(jù)樣本,這些樣本標(biāo)簽可以傳遞到其余數(shù)據(jù)樣本中。如果數(shù)據(jù)樣本有著非常高的相似度,那么在實(shí)際進(jìn)行樣本傳遞時(shí),難度將會(huì)大大降低,并且在傳遞過程中,樣本的標(biāo)簽也不會(huì)發(fā)生變化。但對(duì)于無標(biāo)注數(shù)據(jù)樣本而言,自身標(biāo)簽會(huì)完成數(shù)據(jù)更新。在實(shí)際進(jìn)行無向圖建立過程中,針對(duì)兩個(gè)數(shù)據(jù)點(diǎn)而言,他們的相似度可以進(jìn)行自定義設(shè)置,針對(duì)數(shù)據(jù)樣本之間的標(biāo)簽傳遞,也可以進(jìn)行標(biāo)簽傳遞概率矩陣的構(gòu)建,設(shè)置矩陣大小可用如下公式表示:,結(jié)果可得:
我們可以通過利用上述方法,來完成無向圖的構(gòu)建,具體步驟如下。
(1)進(jìn)行數(shù)據(jù)輸入:假設(shè)全部數(shù)據(jù)樣本構(gòu)成了一個(gè)集合,用E表示,在該集合中,包含三個(gè)子集合,一是由標(biāo)記數(shù)據(jù)構(gòu)成的集合,用M表示,二是由為標(biāo)記的數(shù)據(jù)組成的集合,用V表示,三是由不同數(shù)據(jù)類別屬性構(gòu)成的集合,我們用D表示。
(2)以自定義的數(shù)據(jù)樣本之間的相似度計(jì)算方式為依據(jù),完成數(shù)據(jù)樣本的無向圖,的構(gòu)建,具體可表示為,從中可以獲得對(duì)應(yīng)相似度矩陣,具體可用X表示。
(3)立足于數(shù)據(jù)樣本標(biāo)簽傳遞過程進(jìn)行計(jì)算,可以獲得傳遞概率矩陣,具體用U表示。
(4)以數(shù)據(jù)樣本標(biāo)簽傳遞概率為依據(jù),來對(duì)標(biāo)簽數(shù)據(jù)之和加以計(jì)算,并更新對(duì)應(yīng)的數(shù)據(jù)概率分布,具體應(yīng)用公式如下:
(5)圍繞已經(jīng)明確有標(biāo)注的數(shù)據(jù)樣本,需要對(duì)該數(shù)據(jù)點(diǎn)概率值進(jìn)行初始化設(shè)置,然后不斷重復(fù)(3),直至該公式滿足收斂條件。
在上述應(yīng)用半監(jiān)督算法進(jìn)行基于自然語言處理的數(shù)據(jù)知識(shí)檢索過程中,我們可以作出如下假設(shè):首先是時(shí)間復(fù)雜性取值大于了,同時(shí)對(duì)于標(biāo)記傳播方法而言,在具體進(jìn)行自然語言知識(shí)檢索過程中,采用的是直推方式,在每次進(jìn)行知識(shí)檢索,需要重新對(duì)算法進(jìn)行相應(yīng)的測試,因此在實(shí)際應(yīng)用過程中,需要在較短時(shí)間內(nèi)將樣本中主題詞完成提取,使得自然語言處理計(jì)算的復(fù)雜性得到有效降低。
3 ?結(jié)語
綜上所述,半監(jiān)督算法作為機(jī)器學(xué)習(xí)算法的重要組成部分,在自然語言基礎(chǔ)性問題處理上發(fā)揮著重要的作用。在原本使用的監(jiān)督算法中,由于其實(shí)際應(yīng)用有著諸多局限性,比如對(duì)于標(biāo)注資料依賴性較高,需要耗費(fèi)大量的人力物力資源等,整體應(yīng)用成本比較高昂,并且對(duì)于標(biāo)注資源需求數(shù)量較高,并不適合一些“小眾”語言學(xué)習(xí)應(yīng)用,同時(shí)在標(biāo)注語料擴(kuò)展方面難度也比較大。而半監(jiān)督算法出現(xiàn),則有效彌補(bǔ)了上述缺陷,已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)主流發(fā)展方向之一,通過對(duì)標(biāo)記數(shù)據(jù)與無標(biāo)記數(shù)據(jù)進(jìn)行綜合利用,從而有效提升整體數(shù)據(jù)的有效利用性。
參考文獻(xiàn)
[1] 朱曉光.基于半監(jiān)督學(xué)習(xí)的微博情感分析方法研究[D].山東財(cái)經(jīng)大學(xué),2014.
[2] 周鑫.半監(jiān)督算法在自然語言處理中應(yīng)用的研究[D].哈爾濱工業(yè)大學(xué),2014.
[3] 柏藝珊,黃展原.自然語言處理中半監(jiān)督算法的應(yīng)用[J].電子技術(shù)與軟件工程,2017(2):156.