• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      藏文詞向量技術(shù)研究綜述

      2021-05-23 09:30:24索朗拉姆群諾
      電腦知識(shí)與技術(shù) 2021年11期
      關(guān)鍵詞:自然語言處理藏文

      索朗拉姆 群諾

      摘要:當(dāng)前伴隨社會(huì)的發(fā)展,此時(shí)在NLP中也普遍使用到了深度學(xué)習(xí)。截至目前,很多學(xué)者都將對深度學(xué)習(xí)模型以及詞向量相融合進(jìn)行了相關(guān)的研究和分析。由于藏文涵蓋了豐富的信息,在藏文詞向量的研究工作中有很大的作用,且藏文詞向量問題將能更深層次地解決藏文句法和語義等問題,因此藏文詞向量方面惡的研究工作是非常有意義的。文章首先對藏文字(詞)的構(gòu)建做了詳細(xì)敘述,然后較全面地闡述了藏文詞向量技術(shù)研究。本文的最后環(huán)節(jié)就是最后對于未來藏文詞向量技術(shù)方面的進(jìn)步提供一些本人的建議和看法。

      關(guān)鍵詞:自然語言處理;詞向量;藏文

      中圖分類號:TP183? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號:1009-3044(2021)11-0226-03

      Survey of the Research on Tibetan Word Vector Technology

      SUO Lang La Mu,QUN Nuo

      (Tibet University, School of Information Science and Technology, Lhasa 850000, China)

      Abstract: With the development of society, deep learning is also widely used in NLP. Up to now, many scholars have conducted relevant research and analysis on deep learning model and word vector fusion. Since Tibetan contains a wealth of information, it plays an important role in the study of vector of Tibetan words, and the vector of Tibetan words can solve the syntactic and semantic problems in a deeper level, so the research on vector of Tibetan words is of great significance. This paper first gives a detailed description of the construction of Tibetan words and then describes the research on vector technology of Tibetan words in a comprehensive way. The last part of this paper is to provide some Suggestions and views on the future progress of Vector technology of Tibetan words.

      Key words:natural language processing;word vector;tibetan

      在處理自然語言過程中,最為基礎(chǔ)的處理單元指的就是詞,以詞向量為觀察對象其被稱作是詞嵌入,這本身也作為機(jī)內(nèi)表示形式的一種,為了能夠讓計(jì)算機(jī)更好且便捷的理解,這種表示方法主要進(jìn)行自然語言任務(wù)處理的關(guān)鍵工具。由于研究進(jìn)程的持續(xù)邁進(jìn),此時(shí)詞向量不單單只是使用到了自然語言處理方面,其本身也會(huì)在其他不同的領(lǐng)域所應(yīng)用。

      如果想要對藏文自然語言進(jìn)行很好的研究和處理,那么就一定要涉及到藏文詞向量。假如想要使得自然語言直接被計(jì)算機(jī)所理解,語言以數(shù)字的形式表達(dá)出來,方便計(jì)算機(jī)理解,而最直接的方法是詞語映射到一個(gè)向量空間中,用向量來表示詞語的信息,而詞向量是在NLP領(lǐng)域中重要的基礎(chǔ),它有利于我們研究情感、句法、語義等方向進(jìn)行分析,所以在研究工作中分析詞向量是非常關(guān)鍵和重要的。

      通過對傳統(tǒng)詞表示方法進(jìn)行分析和理解能夠看出,其方法包含了獨(dú)熱表示,而使用到的原理就是借助某個(gè)僅包含0 以及 1 的向量來對某個(gè)詞進(jìn)行表示,這個(gè)向量的維數(shù)是詞典中詞的數(shù)目[1]。one-hot表達(dá)不能判斷語義相似度,單詞關(guān)系是垂直關(guān)系,在兩個(gè)向量中看不到兩個(gè)詞之間的關(guān)系,并且兩個(gè)詞始終是獨(dú)立的; 100維度的one-hot表示法做多可以表達(dá)100個(gè)不同的單詞,因此,存在高維度容易數(shù)據(jù)稀疏性之類的問題。隨著深度學(xué)習(xí)技術(shù)發(fā)展,學(xué)者們開始用神經(jīng)網(wǎng)絡(luò)方法表示詞向量,該方法解決了傳統(tǒng)獨(dú)熱表示帶來的問題,由此獲得的詞向量本身具備詞以及詞之間所呈現(xiàn)出的語義關(guān)聯(lián)性,針對相似詞其自身的向量也同樣具有某種程度上的相似性,其可以將反義詞以及一次多義方面的問題進(jìn)行有效的解決。自然語言處理目前存在很多歧義,要消除這些歧義要依靠詞與詞之間的語義關(guān)系,捕獲更多詞與詞之間的關(guān)系,以此來輔助解決歧義問題。

      1 研究現(xiàn)狀

      在國內(nèi),很早就研究了漢文、英文的詞向量,其也在處理自然語言詞向量方面取得了不錯(cuò)的成果,本文將近幾年的研究成果做了綜述。在2014年的時(shí)候,著名學(xué)者楊陽等在研究的過程中創(chuàng)新型的借助統(tǒng)計(jì)方法來對新詞進(jìn)行辨別,隨后也借助了詞向量來對所有詞之間的關(guān)聯(lián)性進(jìn)行挖掘。最后將以詞向量為基礎(chǔ)的情感詞發(fā)現(xiàn)方法提出[2]。2016年馮艷紅等人[3]在借鑒他人形成的特征的基礎(chǔ)上,加入詞向量與領(lǐng)域術(shù)語之間的相似度特征,利用詞向量技術(shù)得到文本特征向量。2018年王喬樂等人將神經(jīng)網(wǎng)絡(luò)語言模型 NNLM引入到中文分詞和詞向量訓(xùn)練中,提出了一種基于神經(jīng)網(wǎng)絡(luò)的詞向量訓(xùn)練模型[1]。在2018年的時(shí)候,學(xué)者茍瀚文等人在研究的過程中借助詞向量對句子完成了相關(guān)相似度分析工作。這對之后的工作起到了借鑒作用[4]。他們將單詞向量和WCos公式聯(lián)系了傳統(tǒng)詞語與詞之間語義優(yōu)點(diǎn)。在2019年的時(shí)候,學(xué)者陰愛英等人將以fast test模型為基礎(chǔ)的詞向量表示算法進(jìn)行改良,這樣一來不但能夠?qū)哂邢嗨普Z義詞進(jìn)行預(yù)測,同時(shí)還能夠?qū)⑾嗨圃~所出現(xiàn)的預(yù)測問題很好的解決。如此使得精準(zhǔn)率得以提升[5]。2019年馬力等人研究了基于單詞向量的文本分類[6]。文章利用深度學(xué)習(xí)工具Word2vec訓(xùn)練的單詞之間的語義關(guān)系,將其應(yīng)用于傳統(tǒng)的特征選擇過程,利用大規(guī)模語料庫來訓(xùn)練高質(zhì)量的單詞向量,并提出了一種基于單詞向量的改進(jìn)的特征選擇算法。在2019年的時(shí)候,學(xué)者王恒升[7]基于大量分析和研究的基礎(chǔ)上將skip-gram模型進(jìn)行改進(jìn)。

      藏文詞向量表示方法的研究比起漢文、英文,還處于起步階段。早在2004年,我國就開始涉足藏語詞向量的研究工作。在2017年的時(shí)候,學(xué)者珠杰等人[8]借助深度學(xué)習(xí)方法來對藏文進(jìn)行細(xì)致的研究。同年學(xué)者鄭亞楠等人[9]借助詞向量將詞性標(biāo)注問題進(jìn)行了處理,最終獲得了很好的效果。詞向量模型可以用于情感分類任務(wù)當(dāng)中,2017年巴桑卓瑪?shù)热艘栽~向量法為基礎(chǔ),對藏語情感詞典的構(gòu)建進(jìn)行了研究[10]。2018年才智杰從藏文字構(gòu)建分解、藏文文本分詞、藏文詞向量評測和藏文詞向量表示等四個(gè)方面研究了藏文詞向量表示的關(guān)鍵技術(shù),該文章基于英漢詞向量評估集的構(gòu)建方法,建立了藏語詞向量評估集的構(gòu)建方法,選擇使用現(xiàn)在最佳效果的詞向量表示模型Glove、CBOW和Skip-gram模型,對于藏文詞的向量進(jìn)行了創(chuàng)建,同時(shí)對于并詞向量表示方面所取得的成績還是非常不錯(cuò)的[11]。根據(jù)藏文字構(gòu)建為理論依據(jù),以構(gòu)件為單位用向量表示藏文音節(jié)向量,這個(gè)方法避免了分詞操作的錯(cuò)誤,同時(shí)把組成詞的每個(gè)藏文字的一維向量作為列可以直接得到藏文詞的向量模型[12]。2019年龍從軍本文研究了基于詞向量的藏語語義相似詞知識(shí)庫的構(gòu)建[13]。他們基于藏語音節(jié)和單詞計(jì)算了詞向量,構(gòu)建了藏語語義相似詞知識(shí)庫,取得了良好的效果。2019年李琳[14]等人研究了基于詞向量特征的藏語謂語動(dòng)詞短語識(shí)別模型,對于此文的訓(xùn)練詞向量一共用了兩個(gè)模型,一個(gè)是用了CBOW模型,還有一個(gè)是Skip-gram模型,最終的結(jié)果證明,詞向量特征基于CBOW模型訓(xùn)練的,再識(shí)別模型想過方面提升的非常明顯。

      2 藏文字(詞)構(gòu)件研究

      對于藏語來說其就是拼音型的字符,是30個(gè)輔音、4個(gè)元音還有標(biāo)點(diǎn)符號等所直接組成。

      在藏文中有18785個(gè)藏文字,藏文的30個(gè)基字可以單獨(dú)成字,也可以通過前后添加其他成分構(gòu)成藏文字,因此這30個(gè)輔音字母的生成極為重要。另外三個(gè)上加字(?、?、?)添加在基字上符合藏文文法書寫的一共有33個(gè),四個(gè)下加字(?、?、?、?)中除去(?)加在基字下面的一共有24個(gè),在藏文中三重疊加的字符有14個(gè),五個(gè)前加字(?、?、?、?、?)只能加在受限制的基字前面,藏字由前加字加基字所直接生成的有48個(gè),前加字+基字+下加字以及前加字+上加字+基字的藏字有57個(gè),再添加下加字中除去的?的組合字14個(gè),以上221個(gè)字符作為藏文的基礎(chǔ)字且受到嚴(yán)格的文法限制,藏文中的四個(gè)元音可以加在任何的藏文基礎(chǔ)字上面,生成了884個(gè)藏字,基礎(chǔ)字添加后加字時(shí),添加的除?以外的9個(gè)后進(jìn)行了加字,如此基礎(chǔ)字+元音+后加字的字有9945個(gè)字,根據(jù)以上的數(shù)據(jù)總共生成11050個(gè)字。藏文中還有兩個(gè)是需要進(jìn)行的再后加字(?、?),其中的?只能放在后加字?、?、?的后面,再后加字?只能加在后加字?、?、?、?的后面,這樣就產(chǎn)生了18785個(gè)所有藏文字符。

      對于每一個(gè)藏字來說,其構(gòu)成主要如下:基字和前加字,還有上下加字以及后和再后加字,最后還有元音搭配,并且藏字搭配遵循嚴(yán)格的文法規(guī)則,這就使得藏字的組成具有一定的限制條件,通過這些限制條件,可以將每個(gè)藏字進(jìn)行拆解并識(shí)別構(gòu)件。藏文字符最多由7個(gè)組成部分,例如:???????? = ? + ? + ? +? +?+ ?+ ? + ?。它是根據(jù)相應(yīng)的代碼存儲(chǔ)在計(jì)算機(jī)中的,而?????在藏文中可以單獨(dú)成字也有嚴(yán)格的語法限制,后面的???沒有受語法限制,因此符合藏文文法書寫的數(shù)量是一定的。受限制的221個(gè)藏文基礎(chǔ)字,然后符合藏文字符結(jié)構(gòu)的基礎(chǔ)上生成了全藏字,對于受限制藏文字符最為關(guān)鍵的后面,直接加上元音,然后再后加字,接著再后加字,最終生成18785個(gè)藏字。對于藏字構(gòu)件的長度來說,是不等長的,1-7個(gè)構(gòu)件可以組成一個(gè)藏字,除了兩個(gè)特殊字(????和????)以外,這兩個(gè)特殊字含有再下加字的構(gòu)件,它可以橫向拼寫,也可以縱向拼寫,其中基字(30個(gè)輔音)是每個(gè)藏字的必不可少的構(gòu)件,同樣30個(gè)輔音單獨(dú)構(gòu)成藏字,其中有4個(gè)是無法構(gòu)成藏字的。按照不一樣長度構(gòu)件的藏字,其中有一個(gè)字符可以直接構(gòu)成的輔音字母達(dá)到30個(gè);兩個(gè)字符的有4種不同的結(jié)構(gòu);三個(gè)字符的有12種結(jié)構(gòu);四個(gè)字符的14種結(jié)構(gòu);五個(gè)字符的有11種結(jié)構(gòu);1六個(gè)字符的有5個(gè)結(jié)構(gòu);七個(gè)字符的有一種結(jié)構(gòu),一共有這么多種藏字結(jié)構(gòu)。藏文詞是由字組成,具有語義信息的詞才是一個(gè)正確的藏文詞。

      藏文詞向量表示可以將組成藏文詞的每個(gè)藏文字的向量作為列,得到藏文詞向量,所有藏字用7行18785列的矩陣表示,詞與向量是一種映射關(guān)系,例如:?????????????????。

      ?????????????????用7行4列的矩陣[30300000127112620000133010010002]表示:

      藏文字是有最多7個(gè)構(gòu)件構(gòu)成的,比如:???????? = ? + ? + ? +? +?+ ?+ ? + ?除去特殊藏字外,7個(gè)構(gòu)件用一維向量表示{a1,a2,a3,a4,a5,a6,a7},以構(gòu)件形式映射到向量集A中,具體每個(gè)構(gòu)件映射的向量以及向量的取值范圍如下表:

      在構(gòu)件藏文字向量的基礎(chǔ)上表示需要研究藏文字(詞)構(gòu)件。

      3 藏文詞向量技術(shù)研究

      藏文詞向量技術(shù)的研究相對于其他技術(shù)還處于起步階段,要想研究藏文詞向量,首先,要了解藏文字(詞)的構(gòu)建;第二,需要分詞處理藏文的文本,畢竟對于藏文詞向量來說,其處理是以詞作為單位的,不論是語法的分析還是及其的翻譯等等都被會(huì)分詞的準(zhǔn)確率所直接影響。最后,分詞完了之后,可以通過向量來表示詞語。

      基于自然語言方面的處理領(lǐng)域,詞向量方法用于文本分類、情感分析和句子(文本)相似度計(jì)算。到現(xiàn)在為止,所謂的詞向量方法分布表示技術(shù)就是對于一個(gè)詞就采取一個(gè)向量來進(jìn)行表示,進(jìn)而將語義距離基于詞和詞之間的就可以核算出來,進(jìn)而將一些稀疏和高維以及離散等相關(guān)問題就可以進(jìn)行解決,然而在速度上分布式表示訓(xùn)練詞向量還是比較慢的,增加新的語料庫存在困難,不容易擴(kuò)展短語、句子的表示,因此,很多研究者采用神經(jīng)網(wǎng)絡(luò)方法進(jìn)行詞向量技術(shù)的研究,且已經(jīng)取得了一定成效。2013年Google公司推出一款對詞向量進(jìn)行訓(xùn)練的工具開源式的并且是面向大眾的,其名字叫作Word2vec,其核心特征就是全部詞語均已經(jīng)采用的是向量化,如此詞和詞二者的語義關(guān)系就可以理解,同時(shí)對于詞語上下文的相關(guān)信息還可以進(jìn)行捕捉。那么其所涵蓋的訓(xùn)練模式有兩種[14],分別是CBOW和Skip-gram模型,CBOW模型是將周邊的詞向量進(jìn)行相加,進(jìn)而會(huì)得到中心詞的向量,直接去掉了隱藏層,加速了訓(xùn)練速度且用低維的實(shí)數(shù)向量來藏文詞語。然而,Skip-Gram模型與CBOW模型正好是反著來的,這個(gè)是要求預(yù)測中間詞,如此就可以將量變的向量進(jìn)行獲取。而CBOW和Skip-gram模型對于全文的信息以及詞的順序進(jìn)行考慮,因而就將新的詞向量的表示方法進(jìn)行了提出即Glove,在此不做具體的描述。

      但是對于藏文詞的向量研究成果方面目前還是比較欠缺的,2018年的時(shí)候,才智杰作為一名知名的教授,將藏文詞向量表示是在藏文構(gòu)件的字信息以及藏文字向量進(jìn)行融合的基礎(chǔ)上進(jìn)行了提出,每個(gè)藏文字對應(yīng)7個(gè)分量的一維向量,同時(shí)將已經(jīng)組成詞的每個(gè)藏文字的一維向量作為列可以得到藏文詞的向量模型。在本文中已經(jīng)把這個(gè)模型和Skip-gram、CBOW和Glove開始了對比,同時(shí)還和字符信息以及藏文字符向量都進(jìn)行了結(jié)合,模型由藏文詞向量進(jìn)行表示的可能性進(jìn)行了改進(jìn)。還利用藏文拼寫原則,基于規(guī)則約束得到藏文字符的向量,是一種很好的藏文拼寫糾錯(cuò)方法。研究者們對于藏文詞向量進(jìn)行研究的時(shí)候主要就是對藏文自身的特征進(jìn)行了結(jié)合,而藏文最基本的組成單元是構(gòu)件,對于藏文詞向量進(jìn)行表示的方法目前已經(jīng)提出,其中的一個(gè)叫做多基元的聯(lián)合訓(xùn)練模型,多基元是指藏文的構(gòu)件、字以及詞的聯(lián)合。在漢文、英文方面有很多詞向量評測集,而藏文也是才智杰教授首次建立了詞向量評測集,且效果良好。相對于漢文、英文的詞向量研究,我們認(rèn)為藏文詞向量方面下一步可以開展以下文體的研究:1)可以把語言學(xué)方面的知識(shí),如藏文句法的語法規(guī)則以及動(dòng)詞、名詞等的信息融入到詞向量的學(xué)習(xí)過程中,提高藏文詞向量的研究成果;2)神經(jīng)網(wǎng)絡(luò)的表示研究僅限于詞向量方面,還需要結(jié)合藏文自身特點(diǎn)用已經(jīng)有的藏文詞向量表示技術(shù)運(yùn)用到藏文句子或段落的向量表示,采取遞歸神經(jīng)網(wǎng)絡(luò),深入遞歸組合了詞向量,進(jìn)而就獲取到了句子的向量表示;3)對于句子向量來說,其就是一個(gè)最核心的技術(shù)在對于一義多詞以及一詞多義問題的解決方面,如果一個(gè)唯一的詞向量代表了一個(gè)詞,那么針對一詞多義的問題就是無法解決的,因此,繼續(xù)研究解決一詞多義的問題是非常必要的;4)存在新出現(xiàn)的詞沒有向量表示。

      4 結(jié)語

      本文較詳細(xì)地闡述了藏文字(詞)的構(gòu)建和藏文詞向量技術(shù)。針對目前藏文詞向量研究技術(shù)現(xiàn)狀及詞向量技術(shù)的發(fā)展,我們給出了四點(diǎn)可做研究的問題,并將在今后的研究工作中結(jié)合藏文本身的特點(diǎn),采用神經(jīng)網(wǎng)絡(luò)方法進(jìn)行改進(jìn)和擴(kuò)充藏文詞向量工作。

      參考文獻(xiàn):

      [1] 王喬樂.中文分詞和詞向量[J].中國新通信,2018,20(23):192-193.

      [2]楊陽,劉龍飛,魏現(xiàn)輝,等.基于詞向量的情感新詞發(fā)現(xiàn)方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(11):51-58.

      [3] 馮艷紅,于紅,孫庚,等.基于詞向量和條件隨機(jī)場的領(lǐng)域術(shù)語識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2016,36(11):3146-3151.

      [4] 茍瀚文,茍先太.基于詞向量的詞語間離和句子相似度分析[J].科學(xué)技術(shù)創(chuàng)新,2018(33):55-56.

      [5] 陰愛英,吳運(yùn)兵,鄭一江,等.基于fastText模型的詞向量表示改進(jìn)算法[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,47(3):314-319.

      [6] 馬力,李沙沙.基于詞向量的文本分類研究[J].計(jì)算機(jī)與數(shù)字工程,2019,47(2):281-284,303.

      [7] 王恒升,劉通,任晉.基于領(lǐng)域知識(shí)的增強(qiáng)約束詞向量[J].中文信息學(xué)報(bào),2019,33(4):37-47.

      [8] 珠杰,李天瑞.深度學(xué)習(xí)模型的藏文人名識(shí)別方法[J].高原科學(xué)研究,2017,1(1):112-124.

      [9] 鄭亞楠,珠杰.基于詞向量的藏文詞性標(biāo)注方法研究[J].中文信息學(xué)報(bào),2017,31(1):112-117.

      [10] 巴桑卓瑪,李苗苗,高定國.基于詞向量的藏文情感詞典的構(gòu)建方法研究[J].電子技術(shù)與軟件工程,2017(20):132-134.

      [11] 才智杰.藏文詞向量表示關(guān)鍵技術(shù)研究[D].西寧:青海師范大學(xué),2018.

      [12] 才智杰,孫茂松,才讓卓瑪.藏文詞向量相似度和相關(guān)性評測集構(gòu)建[J].中文信息學(xué)報(bào),2019,33(7):81-87,100.

      [13] 龍從軍,周毛克,劉匯丹.基于詞向量的藏文語義相似詞知識(shí)庫構(gòu)建[J].中文信息學(xué)報(bào),2020,34(10):33-38,50.

      [14] 李琳,趙維納,澤旺寬卓.基于詞向量特征的藏語謂語動(dòng)詞短語識(shí)別模型[J].電子技術(shù)與軟件工程,2019(4):242-243.

      【通聯(lián)編輯:唐一東】

      猜你喜歡
      自然語言處理藏文
      敦煌本藏文算書九九表再探
      西藏研究(2021年1期)2021-06-09 08:09:38
      西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      基于條件隨機(jī)場的藏文人名識(shí)別研究
      談編譯出版《西藏七大藝術(shù)集成志書》藏文版的必要性
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      藏文音節(jié)字的頻次統(tǒng)計(jì)
      現(xiàn)代語境下的藏文報(bào)刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
      詞向量的語義學(xué)規(guī)范化
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      绥阳县| 丘北县| 蕲春县| 香港| 潮州市| 台南县| 河东区| 高雄县| 慈溪市| 南昌市| 启东市| 三都| 广饶县| 南汇区| 扎鲁特旗| 安溪县| 阳春市| 嘉鱼县| 定南县| 聂拉木县| 安西县| 宁化县| 微博| 舒兰市| 武陟县| 成安县| 正定县| 德州市| 固原市| 探索| 连江县| 盈江县| 来凤县| 宁蒗| 囊谦县| 邵东县| 香港 | 定陶县| 柞水县| 江安县| 玉田县|