• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向手語信息處理的維吾爾文本采集的研究

      2019-06-15 03:31:35艾山江·亞生阿里甫·庫爾班張丹丹
      現(xiàn)代電子技術(shù) 2019年12期
      關(guān)鍵詞:深度學(xué)習(xí)

      艾山江·亞生 阿里甫·庫爾班 張丹丹

      摘 ?要: 從自然語言處理以及深度學(xué)習(xí)的基本理念、原則出發(fā),為基于中國手語的維吾爾文本信息處理研究提供數(shù)據(jù)資源,為面向手語信息的手語合成研究,為手語新聞文本編輯研究提供科學(xué)依據(jù),對(duì)維吾爾文本進(jìn)行自動(dòng)分詞、自動(dòng)分句研究,并利用Word2Vec方法進(jìn)一步建立文本詞元庫,通過這樣保證訓(xùn)練語料的多元化及通用性。最后,利用詞干提取方法以及分割字母的方式將維吾爾文本信息轉(zhuǎn)換成手語文本信息,并在此基礎(chǔ)上初步采集面向手語信息處理的維吾爾文本信息。實(shí)驗(yàn)表明該研究達(dá)到了預(yù)期目標(biāo)。

      關(guān)鍵詞: 深度學(xué)習(xí); Word2Vec方法; 手語合成; 文本詞元庫; 詞干提取; 字母分割

      中圖分類號(hào): TN912.34?34; TP311.1 ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)12?0136?04

      Abstract: Proceeding from the basic concepts and principles of natural language processing and deep learning, research on automatic word and sentence segmentation is conducted for the Uyghur text, so as to provide data resources for Uyghur text information processing research based on Chinese sign language, and scientific basis for research on sign language synthesis and sign language news text editing based on sign language information. The Word2Vec method is used to further establish the text word element library, so as to ensure the diversity and universality of training corpus. The Uyghur text information is converted into the sign language text information by using the methods of word stem extraction and letter segmentation. On this basis, the Uyghur text information based on sign language processing is initially collected. The experimental results show that the research can achieve the expected research goal.

      Keywords: deep learning; Word2Vec method; sign language synthesis; text word element library; word stem extraction; letter segmentation

      0 ?引 ?言

      聾啞人(聽障人)是一個(gè)特殊的“少數(shù)民族”[1]。手語是聾啞人學(xué)習(xí)、生活及更好地融入主流社會(huì)的一種特殊交際工具,并且被越來越多的人了解和應(yīng)用。21世紀(jì)以來,我國語言文字資源建設(shè)逐步向?qū)S眯偷恼Z料庫方向發(fā)展,蒙、藏、維等少數(shù)民族語言語料庫、地方方言有聲數(shù)據(jù)庫等成為語言資源建設(shè)研究的重點(diǎn)。目前我國高度重視針對(duì)手語方面的研究工作。

      由于基于中國手語的其他少數(shù)民族自然手語的文本信息采集研究剛剛起步,在這種情境下,將面臨很多新的問題和新的挑戰(zhàn)。如語料庫的詞匯量不夠全面,手語文本處理技術(shù)不夠標(biāo)準(zhǔn),手語文本信息不夠全面等。

      本文為解決上述敘述的幾個(gè)問題,以及為手語合成研究[2]、手語新聞文本編輯研究[3]提供可靠數(shù)據(jù)依據(jù),對(duì)于維吾爾文本進(jìn)行分詞、分句研究,與此同時(shí),利用 Word2Vec方法擴(kuò)大訓(xùn)練文本范圍,進(jìn)一步采用詞干提取方法、分割字母方法對(duì)原文本進(jìn)行手語研究,最后采集中國手語的文本信息。

      此研究的提出對(duì)于自然手語文本處理研究[4]、深度學(xué)習(xí)[5]、機(jī)器學(xué)習(xí)[6]、自然語言文本挖掘[7]等方面有一定的現(xiàn)實(shí)意義。

      1 ?中國手語及維吾爾自然手語

      1.1 ?手勢(shì)語

      眾所周知,手語作為一門共同語言,不同手語語言的手勢(shì)語保持著一個(gè)完整的通用性結(jié)構(gòu)。我國廣大少數(shù)民族手語研究中的手勢(shì)語皆來源于中國手語中的手勢(shì)語。基于中國手語的維吾爾自然手語是在中國手語的基礎(chǔ)上,按照常用、公用、標(biāo)準(zhǔn)化、基礎(chǔ)性和科學(xué)性五個(gè)原則建立的維吾爾語手勢(shì)語和手指語。從手語構(gòu)成要素上分析,基于中國手語的維吾爾自然手語是由手指語、手勢(shì)詞匯和語法規(guī)則三個(gè)主要因素構(gòu)成。從手語動(dòng)作類型上分析,基于中國手語的維吾爾自然手語詞匯包括單手手勢(shì)語詞匯及雙手手勢(shì)語詞匯。例如“Oqush tarihi”(學(xué)歷)為典型的雙手手勢(shì)語,其手語詞的表示過程大約由4個(gè)連續(xù)的動(dòng)作結(jié)合組成。值得強(qiáng)調(diào)的是,基于中國手語的維吾爾自然手語的手勢(shì)語是來自于中國手語中的手勢(shì)語,因此本研究的主要研究參考依據(jù)為中國手語。雙手手勢(shì)語圖如圖1所示。

      圖1 ?雙手手勢(shì)語圖

      下面要討論手語中的單手手勢(shì)語。單手手勢(shì)語也作為手語的主要組成部分,它的整個(gè)動(dòng)作表示是通過用單手的方式表示的。如“Ashqazan”(胃)作為單手手勢(shì)語,其手語詞的表達(dá)過程和組成結(jié)構(gòu)截然不同。僅用右手放至身體的胃部,用一個(gè)單一的動(dòng)作即可表示出“Ashqazan”(胃)的手語。單手手勢(shì)語如圖2所示。

      圖2 ?單手手勢(shì)語

      1.2 ?手指語

      上述已討論了關(guān)于手勢(shì)語方面的基本概念,下面要進(jìn)一步討論關(guān)于手指語方面的主要理念內(nèi)容。所謂的手指語是在面向手語信息處理中不可缺少的手語組成部分。手指語與手勢(shì)語是不同的概念,凡是我國所有的手勢(shì)語均來源于中國手語的手勢(shì)語,而手指語則是根據(jù)不同語言的基本特征而有所不同。以基于中國手語的維吾爾手語為例,在維吾爾語中,一般的情況下,大部分詞匯是由詞干和附加成分(詞綴)組成。詞干是由手勢(shì)語來表示,而附加成分則是通過手指語來表示。因此,在基于中國手語的維吾爾自然手語中,維吾爾語中的32個(gè)字母均為表示上述已提及的手指語。維吾爾手指語如表1所示。

      表1 ?維吾爾手指語

      2 ?訓(xùn)練文本的搜集

      詞匯和句子是作為文本語料的重要組成部分,需要進(jìn)行海量的搜集。詞匯是手語文本語料庫收錄的日常交流中較通用性的詞匯。詞匯可分為核心詞匯和非核心詞匯兩大類。核心詞匯指使用頻率頗高而且具有具體性的詞匯,而非核心詞匯則與核心詞匯恰恰相反。上述已闡述的維吾爾語手語詞典中的維吾爾手勢(shì)語均為屬于核心詞匯,而剩下的詞匯便屬于非核心詞匯。至于句子搜集的必要性,可以進(jìn)一步研究難度稍微大的研究對(duì)象以便提升研究效果。

      至于分詞研究,目前自動(dòng)切分的有若干種切分方法,其中以空格為單位的分詞法是既常用又傳統(tǒng)的分詞法之一。鑒于維吾爾語的特性與研究目的需求,且便于詞匯研究,本文仍然采用空格分詞方法。分句是以復(fù)句為單位,以自然語言學(xué)的基本理念、規(guī)則為科學(xué)依據(jù),以文本處理以及數(shù)據(jù)挖掘的基本概念為指導(dǎo),采用維吾爾語中的具有表示一條完整的句子的標(biāo)點(diǎn)符號(hào)來進(jìn)行分句。圖3為自動(dòng)分詞、分句的描述結(jié)構(gòu)圖。

      由圖3可知,自動(dòng)分詞以及分句是整個(gè)研究的首要工作,因此要保證訓(xùn)練文本采集分析的完整性、客觀性、準(zhǔn)確性。那么下面需要嚴(yán)格遵守自然語言處理中文本處理的基本原則,在計(jì)算機(jī)科學(xué)及語言科學(xué)理念的指導(dǎo)下進(jìn)行切分詞和分句研究。

      圖3 ?訓(xùn)練文本采集描述圖

      3 ?基于Word2Vec方法的詞元庫的建立

      Word2Vec方法是用來重構(gòu)語義上下文的算法,它將詞匯空間映射到一個(gè)高維實(shí)向量空間中。此系列算法非常注重詞匯的上下文和語義,因此有別于傳統(tǒng)NLP領(lǐng)域中將詞匯看作是原子對(duì)象的做法,因而在NLP中取得了突破性的成功,而且被廣泛應(yīng)用。Word2Vec模型是根據(jù)文章中每個(gè)詞的上下關(guān)系,把每個(gè)詞的關(guān)系映射到同一坐標(biāo)系下,構(gòu)成一個(gè)大矩陣,反映每個(gè)詞的關(guān)系。這些詞的關(guān)系是通過上下文相關(guān)得出來的,具有前后序列性,因此對(duì)它再做一些相似詞或者詞語的擴(kuò)展都有很好的效果。具體來說,“某個(gè)語言模型”指的是“CBOW”和“Skip?gram”。COBW和Skip?gram訓(xùn)練模型圖如圖4所示。

      圖4 ?COBW和Skip?gram訓(xùn)練模型圖

      連續(xù)Bag?of?Words (COBW):從上下文來預(yù)測(cè)一個(gè)文字。Skip?Gram:從一個(gè)文字來預(yù)測(cè)上下文。下面進(jìn)行基于Word2Vec文檔語義分析。假設(shè)本文希望找到某一個(gè)詞匯的相似詞匯列表。CBOW(Continuous Bag?of?Words Model)是一種根據(jù)上下文的詞語預(yù)測(cè)當(dāng)前詞語的出現(xiàn)概率的模型。其是已知上下文,估算當(dāng)前詞語的語言模型,學(xué)習(xí)目標(biāo)是最大化對(duì)數(shù)似然函數(shù):

      式中,w表示語料庫C中任意一個(gè)詞。從圖4可以看出:CBOW輸入層是上下文的詞語的詞向量;投影層對(duì)其求和,所謂求和,就是簡單的向量加法;輸出層輸出最可能的w。由于語料庫中詞匯量是固定的[C]個(gè),所以上述過程其實(shí)可以看作一個(gè)多分類問題。給定特征,從[C]個(gè)分類中挑一個(gè),獲取兩個(gè)詞的相似度并獲取相似度列表。

      給定兩個(gè)詞匯W1和W2,S=similarity(W1,W2),0≤S≤1為W1和W2的相似度。S=1為最相似,S=0為最不相似。在實(shí)驗(yàn)中,設(shè)定:Word1=“Adem”(人);Words2=[“Haywan(動(dòng)物)”,“Ademlerni(人+ni)”,“ademlerden(人們+din)”,“Ademdin(人+din)”,“Tor(網(wǎng)絡(luò))”,“Ashpez(廚師)”]。

      表2 ?遍歷結(jié)果

      由實(shí)驗(yàn)數(shù)據(jù)可知,6個(gè)實(shí)驗(yàn)對(duì)象中只有3個(gè)對(duì)象與Word1的信息較為相似,故相似度也同步較高。其中,第2、第3、第4詞匯的詞干是同一個(gè)詞,即“Adem”(人),剩下的部分都是附加成分部分。因此,通過利用Word2Vec方法來擴(kuò)大訓(xùn)練文本語料的范圍及數(shù)量。Word2Vec方法的應(yīng)用是在此研究中具有較為客觀的實(shí)際應(yīng)用價(jià)值。

      4 ?手語文本信息的采集研究

      上述已經(jīng)對(duì)于基于中國手語的維吾爾自然手語的基本概念進(jìn)行了簡單的描述,下面將根據(jù)上述的訓(xùn)練文本語料進(jìn)行進(jìn)一步的手語文本處理研究。本文主要采用詞干提取方法將句子轉(zhuǎn)換成維吾爾語中的字母,通過該方法初步實(shí)現(xiàn)手勢(shì)語、手指語的分開研究。手語文本語料采集研究主要步驟如下:

      1) 對(duì)訓(xùn)練文本語料進(jìn)行文本處理研究,即基于詞干提取方法的信息處理研究以及以分割字母的方式將維吾爾文本中的附加成分信息轉(zhuǎn)換成維吾爾手指語信息。

      2) 將上述已得到的文本信息與手勢(shì)語信息進(jìn)行匹配。

      3) 將步驟2)和步驟3)結(jié)合在一起之后得到一個(gè)手語文本信息。在此信息中,有兩種信息,分別為數(shù)字和英文字母,其中數(shù)字表示手勢(shì)語信息,英文字母表示手指語。

      總之,本次研究中,通過以上3個(gè)步驟初步實(shí)現(xiàn)了手語文本信息的采集研究。本研究的主要實(shí)現(xiàn)結(jié)果如圖5所示。在此值得提及的是,其手語文本信息為將來的面向信息處理的手語合成研究提供了較為良好的數(shù)據(jù)資源以及信息依據(jù),將來的研究者可以根據(jù)此手語文本信息結(jié)果進(jìn)行進(jìn)一步的手語合成研究。

      圖5 ?手語文本信息結(jié)果圖

      5 ?結(jié) ?語

      本文從計(jì)算機(jī)科學(xué)與語言學(xué)的角度闡述了關(guān)于基于中國手語的維吾爾自然手語的概念及采集素材語料方法。通過建立文本訓(xùn)練詞元庫來擴(kuò)大訓(xùn)練文本語料的范圍、數(shù)量。在建立詞元庫時(shí),利用目前在自然語言處理、深度學(xué)習(xí)、機(jī)器翻譯、文本挖掘等領(lǐng)域中常用的以及比較受歡迎的Word2Vec方法來實(shí)現(xiàn)詞元庫的建立。最后,采用詞干提取方法以及分割字母的方式對(duì)文本信息進(jìn)行手勢(shì)語與手指語的分開研究,并在此基礎(chǔ)上初步采集了面向手語信息處理的維吾爾文本信息。結(jié)果表明,本研究為聾啞人在以后的生活、學(xué)習(xí)、工作等各方面都起到積極的應(yīng)用性作用。然而,目前手語研究中依然存在一些缺陷及不足之處,此缺陷需要不斷的創(chuàng)新及探索。因此在新時(shí)代要以新的狀態(tài)、新的方法去完善此方面的研究方法及技術(shù)。

      注:本文通訊作者為阿里甫·庫爾班。

      參考文獻(xiàn)

      [1] 李恒.手語語言學(xué)方法論研究綜述[J].中國特殊教育,2012(6):22?26.

      LI Heng. A review of the researches into the methodology of sign language [J]. Chinese journal of special education, 2012(6): 22?26.

      [2] 張寧生.手語翻譯概論[M].鄭州:鄭州大學(xué)出版社,2009.

      ZHANG Ningsheng. General introduction to sign language translation [M]. Zhengzhou: Zhengzhou University Press, 2009.

      [3] 李斌.用ELAN建設(shè)單點(diǎn)方言多媒體語料庫[J].方言,2012(2):178?190.

      LI Bin. Construction of single?point dialect multimedia corpus using ELAN [J]. Dialect, 2012(2): 178?190.

      [4] 葛銳.漢語分詞技術(shù)初探[J].軟件,2013,34(3):140?141.

      GE Rui. Preliminary study on Chinese word segmentation [J]. Computer engineering & software, 2013, 34(3): 140?141.

      [5] 趙小兵,張志平,田寄遠(yuǎn).現(xiàn)代漢語基本詞匯自動(dòng)識(shí)別方法研究[M].北京:中央民族大學(xué)出版社,2012.

      ZHAO Xiaobing, ZHANG Zhiping, TIAN Jiyuan. Research on automatic recognition method for basic vocabulary of modern Chinese [M]. Beijing: China Minzu University Press, 2012.

      [6] 阿里甫·庫爾班,吾買爾江·庫爾班,尼加提·阿不都肉蘇力.維吾爾語框架語義知識(shí)庫的概念設(shè)計(jì)[J].中文信息學(xué)報(bào),2010,24(4):114?118.

      Alifu Kuerban, Wumaierjiang Kuerban, Nijat Abdurusul. Conceptual design of Uyghur FrameNet [J]. Journal of Chinese information processing, 2010, 24(4): 114?118.

      [7] 倪訓(xùn)博,趙德斌,高文,等.非特定人手語數(shù)據(jù)生成及其有效性檢測(cè)[J].軟件學(xué)報(bào),2010,21(5):1153?1170.

      NI Xunbo, ZHAO Debin, GAO Wen, et al. Data generation and its validity inspection of signer?independent sign language [J]. Journal of software, 2010, 21(5): 1153?1170.

      [8] 易曉芳,卡米力·木依丁,艾斯卡爾·艾木都拉.基于分段式前景涂抹和背景細(xì)化的文本行分割[J].計(jì)算機(jī)工程,2013,39(5):204?208.

      YI Xiaofang, KAMIL Moydin, ASKAR Hamdulla. Text line segmentation based on segmented foreground daub and background thinning [J]. Computer engineering, 2013, 39(5): 204?208.

      [9] 朱蘭,袁保社,余偉.基于滴水算法的印刷體維吾爾文切分方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015(7):107?110.

      ZHU Lan, YUAN Baoshe, YU Wei. Segmentation method of printed Uyghur based on drop fall algorithm [J]. Computer technology and development, 2015(7): 107?110.

      [10] QIU L K, HU H L, WU Y F. Corpus?based method for differentiating genuine and spurious combinational ambiguity [J]. ICIC express letters, 2013, 7(4): 1437?1441.

      [11] MASAKI M, MASAO U. Compound word segmentation using dictionary definitions: extracting and examining of word constituent information [J]. ICIC express letters?Part B Applications, 2012, 3(3): 667?672.

      [12] ZHENG H T, KANG B Y, KIM H G. Exploiting noun phrases and semantic relationships for text document clustering [J]. Information sciences, 2009, 179(13): 2249?2262.

      [13] LIU J Y, LIU Y. Resolution to combinational ambiguity of Chinese word segmentation [C]// Proceedings of International Conference on E?learning, E?Business, Enterprise Information Systems, and E?Government. Hong Kong: IEEE, 2009: 141?145.

      [14] GE Chunbao, CHEN Yiqiang, YIN Baocai, et a1. A new method for motion retargeting for the hand gesture [J]. Chinese journal of computers, 2006, 29(10): 1850?1855.

      [15] RYU J, KOO H I, CHO N I. Word segmentation method for handwritten documents based on structured learning [J]. IEEE signal processing letters, 2015, 22(8): 1161?1165.

      [16] KAVALLIERATOU E. Word segmentation using Wigner?Ville distribution [C]// Proceedings of 13th International Conference on Document Analysis and Recognition. Tunis: IEEE, 2015: 701?705.

      猜你喜歡
      深度學(xué)習(xí)
      從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
      面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
      基于自動(dòng)智能分類器的圖書館亂架圖書檢測(cè)
      搭建深度學(xué)習(xí)的三級(jí)階梯
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
      利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
      考試周刊(2016年94期)2016-12-12 12:15:04
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      桃园县| 怀仁县| 濮阳县| 府谷县| 光泽县| 右玉县| 黄山市| 阿坝| 奈曼旗| 邳州市| 密山市| 巴楚县| 南陵县| 石棉县| 崇州市| 闽清县| 宿迁市| 保靖县| 茶陵县| 喀什市| 芜湖市| 鹰潭市| 长子县| 交城县| 云安县| 方山县| 河北省| 梓潼县| 兴安县| 玉门市| 江源县| 城固县| 镇赉县| 营口市| 娄底市| 平邑县| 陕西省| 什邡市| 唐河县| 朔州市| 武义县|