• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Langid的語(yǔ)種識(shí)別研究

    2018-10-31 10:31:54徐立城
    關(guān)鍵詞:語(yǔ)音識(shí)別

    徐立城

    摘 要:語(yǔ)音識(shí)別技術(shù)飛速發(fā)展,在現(xiàn)實(shí)生活中扮演著越來(lái)越重要的角色,語(yǔ)音識(shí)別簡(jiǎn)單來(lái)說(shuō)是讓計(jì)算機(jī)理解人的語(yǔ)音,它有兩大研究領(lǐng)域:語(yǔ)種識(shí)別和說(shuō)話人識(shí)別。本文圍繞語(yǔ)種識(shí)別展開,語(yǔ)種識(shí)別(Language Identification,LID),是指計(jì)算機(jī)通過理解和識(shí)別過程判定輸入語(yǔ)音的語(yǔ)種。本論文并通過兩個(gè)不同類型的實(shí)驗(yàn),來(lái)研究語(yǔ)種識(shí)別問題,例如Langid工具包的使用。語(yǔ)種識(shí)別,在多語(yǔ)音語(yǔ)言識(shí)別系統(tǒng)中扮演著重要的角色,在語(yǔ)言翻譯、手寫體文字識(shí)別、鍵盤輸入、信息發(fā)現(xiàn)和挖掘系統(tǒng)等研究領(lǐng)域都有應(yīng)用,其發(fā)展非常迅速。

    關(guān)鍵詞:語(yǔ)音識(shí)別;語(yǔ)種識(shí)別;Langid等

    中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

    1 語(yǔ)音識(shí)別發(fā)展概述

    語(yǔ)音識(shí)別是一門包羅萬(wàn)象學(xué)科,其涉及很多不同的領(lǐng)域,其中就包括語(yǔ)言學(xué)、聲學(xué)、統(tǒng)計(jì)學(xué)和人工智能等,也被稱為自動(dòng)語(yǔ)音識(shí)別。它的目標(biāo)是把人類的語(yǔ)音中的詞匯內(nèi)容在計(jì)算機(jī)顯示為計(jì)算機(jī)可讀的信息,由計(jì)算機(jī)加以識(shí)別。語(yǔ)音識(shí)別技術(shù)如果與其他自然語(yǔ)言處理技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜但卻方便的應(yīng)用,例如將機(jī)器翻譯和語(yǔ)音合成相結(jié)合得到語(yǔ)音翻譯。

    由于語(yǔ)音識(shí)別在各個(gè)方面的重要意義和巨大優(yōu)勢(shì),不少公司投入大量人力物力進(jìn)行研究。隨著siri、Google Now、百度語(yǔ)音、微軟Corrtana等相關(guān)產(chǎn)品的橫空出世,同時(shí)在服務(wù)提供商和設(shè)備廠商的共同推動(dòng)下,現(xiàn)在幾乎身邊所有新推出的移動(dòng)設(shè)備都會(huì)包括語(yǔ)音識(shí)別這一功能。

    2 語(yǔ)種識(shí)別研究的目的及意義

    隨著科技水平的提高,互聯(lián)網(wǎng)的發(fā)展帶來(lái)了巨大的語(yǔ)言文字信息,網(wǎng)頁(yè)文本的數(shù)據(jù)量也在與日俱增,與此同時(shí)語(yǔ)言也漸漸出現(xiàn)了多種混合的現(xiàn)象。語(yǔ)種識(shí)別系統(tǒng)可以把大量重復(fù)煩瑣的勞動(dòng)交給機(jī)器來(lái)處理,節(jié)約了人力、物力,提高了工作效率。語(yǔ)種識(shí)別的研究側(cè)重于對(duì)算法和模型進(jìn)行改進(jìn)和優(yōu)化,其主要方法是通過語(yǔ)言學(xué)和機(jī)器學(xué)習(xí)的方法。概率統(tǒng)計(jì)的方法或信息論的方法也被大量采用,在實(shí)際中的語(yǔ)音識(shí)別方法得到較為成功的應(yīng)用。例如HMM,GMM等,正是由于這些方法的出現(xiàn)對(duì)語(yǔ)音識(shí)別走向?qū)嶋H應(yīng)用具有極大的推進(jìn)作用。例如在國(guó)際酒店中,前臺(tái)客服在接到客人電話前,要先進(jìn)行語(yǔ)種識(shí)別,然后才分配給相應(yīng)的客服,提高了溝通效率。

    3 語(yǔ)種識(shí)別的研究方法

    3.1 語(yǔ)種識(shí)別基本流程

    語(yǔ)種識(shí)別的一般流程分為訓(xùn)練和識(shí)別兩個(gè)階段,如圖1所示,在訓(xùn)練階段,將不同語(yǔ)言的語(yǔ)音音頻輸入系統(tǒng)中,然后進(jìn)行特征提取,得到一組特征向量序列,根據(jù)特定的訓(xùn)練算法,然后得到一個(gè)或多個(gè)參考模型,并保存下來(lái)。在識(shí)別階段,對(duì)測(cè)試語(yǔ)音進(jìn)行特征提取,然后將這些特征同模型庫(kù)中的模型進(jìn)行比對(duì),并計(jì)算得出一個(gè)相似性得分。最后根據(jù)經(jīng)過判決模塊的判決規(guī)則,由相似性得分即可得到識(shí)別的語(yǔ)言種類。

    3.2 語(yǔ)種識(shí)別的方法

    3.2.1 利用LDA文本對(duì)多語(yǔ)種識(shí)別進(jìn)行研究

    首先是偽訓(xùn)練過程,我們需要先從互聯(lián)網(wǎng)上獲取或者直接使用已經(jīng)存在的語(yǔ)料庫(kù),然而這些數(shù)據(jù)來(lái)源都不能直接用來(lái)構(gòu)建N-gram計(jì)數(shù)。在實(shí)際操作中我們對(duì)語(yǔ)料中的標(biāo)點(diǎn)符號(hào)、數(shù)字、大小寫等字符進(jìn)行一些處理。根據(jù)需要保留一些有助于語(yǔ)種識(shí)別的符號(hào)并刪掉一些相對(duì)于語(yǔ)種識(shí)別來(lái)說(shuō)無(wú)關(guān)緊要的符號(hào)。得到預(yù)處理過的數(shù)據(jù)以后,選擇可靠性高的語(yǔ)言模型工具生成1-5元的N-gram計(jì)數(shù)文件。得到N-gram計(jì)數(shù)文件的過程就是提取語(yǔ)料特征的過程。接著對(duì)數(shù)據(jù)集進(jìn)行Collapsed Gibbs采樣直到其收斂并更新LDA模型的參數(shù)。

    第二階段為語(yǔ)種識(shí)別階段。首先對(duì)測(cè)試文本也做特征提取工作,根據(jù)需要保留一些有助于語(yǔ)種識(shí)別的符號(hào)并刪掉一些相對(duì)于語(yǔ)種識(shí)別來(lái)說(shuō)無(wú)關(guān)緊要的符號(hào)。然后將抽取出的1-5元N-gram計(jì)數(shù)文件通過Collapsed Gibbs抽樣直到其收斂,就可以得出主題分布,即語(yǔ)種分類結(jié)果,如圖2所示。

    3.2.2 全局背景模型(UBM)

    GMM-UBM在說(shuō)話人識(shí)別系統(tǒng)中已經(jīng)得到了廣泛的應(yīng)用,在語(yǔ)言識(shí)別系統(tǒng)中,GMM-UBM模型是一個(gè)與語(yǔ)言無(wú)關(guān)的背景模型,利用語(yǔ)言識(shí)別種的無(wú)關(guān)信息訓(xùn)練得到一個(gè)語(yǔ)言全局背景模型。圖3是一個(gè)基于GMM-UBM的語(yǔ)言辨識(shí)系統(tǒng)框圖。

    給定了訓(xùn)練UBM模型的各種語(yǔ)言的數(shù)據(jù)后,有多種方法可以用來(lái)得到最終的模型,最簡(jiǎn)單的方法是EM算法來(lái)訓(xùn)練UBM模型。由于訓(xùn)練的是與語(yǔ)言無(wú)關(guān)的UBM模型,每種語(yǔ)言識(shí)別的耗時(shí)大約1h。

    4 語(yǔ)種識(shí)別實(shí)驗(yàn)

    4.1 語(yǔ)種識(shí)別的理論基礎(chǔ)

    4.1.1 條件概率和全概率

    4.1.2 貝葉斯公式

    在條件概率和全概率的基礎(chǔ)上,很容易推導(dǎo)出貝葉斯公式:

    看上去貝葉斯公式只是把A的后驗(yàn)概率+A的邊緣概率的組合表達(dá)形式,因?yàn)楹芏喱F(xiàn)實(shí)問題中P(A|B)或很難直接觀測(cè)但是P(B|A)和P(A)卻很容易測(cè)得,利用貝葉斯公式可以方便我們計(jì)算很多實(shí)際的概率問題。

    4.2 小文本語(yǔ)種識(shí)別實(shí)驗(yàn)

    用python進(jìn)行實(shí)驗(yàn),這些文本中有不同的語(yǔ)種,通過程序來(lái)判斷語(yǔ)種的概率,例如一種語(yǔ)言(unknown)與de的相似度是0.4,與en的相似度是0.95;取其中的最大值,表示該文本語(yǔ)en類似,從而縮小了范圍。反過來(lái)unknown與de的0.6的概率不同,與en的不同的概率是0.05。也可以得出該文本語(yǔ)接近en。以此類推,可以得到各語(yǔ)種之間的相似度或差異性。未知語(yǔ)種減去已知語(yǔ)種可得差異性概率,概率最小的,該已知語(yǔ)種就是輸入文本的語(yǔ)種。不同多語(yǔ)種根據(jù)程序進(jìn)行分類。最后可根據(jù)自己的想法決定格式,最終得到分類后語(yǔ)種的排序?;诖耍M(jìn)行了小文本語(yǔ)種識(shí)別的實(shí)驗(yàn),可以很隨心所欲得到程序中已有語(yǔ)種的句子或段落。其不足之處在于首先該實(shí)驗(yàn)對(duì)概率的統(tǒng)計(jì)較為煩瑣;其次是它實(shí)驗(yàn)范圍較窄,因?yàn)槭切∥谋緦?shí)驗(yàn),所以程序中可識(shí)別的語(yǔ)言較少,不能對(duì)所有語(yǔ)種進(jìn)行分類和識(shí)別;在文字?jǐn)?shù)量多的情況下進(jìn)行語(yǔ)種識(shí)別的,而文字較少準(zhǔn)確度不高,例如一個(gè)單詞可能會(huì)出現(xiàn)在不同的語(yǔ)種中,只是其意思不一樣。該實(shí)驗(yàn)在可規(guī)定語(yǔ)種分類后的格式這一點(diǎn)上還是可圈可點(diǎn)的。

    4.3 多語(yǔ)種識(shí)別實(shí)驗(yàn)

    由于上一個(gè)實(shí)驗(yàn)有一些不足之處,此實(shí)驗(yàn)將對(duì)不足之處進(jìn)行改善,還是利用python對(duì)不同語(yǔ)種進(jìn)行識(shí)別。按照程序步驟,先新建myfile文件,在其中輸入需要識(shí)別的文字,用python打開文件,利用Langid工具包里的classify函數(shù)對(duì)輸入文本的語(yǔ)種進(jìn)行識(shí)別,此程序是對(duì)輸入數(shù)據(jù)一行一行的讀,可直接將想要的語(yǔ)種表達(dá)在另一文件夾中。

    Langid工具包在語(yǔ)種識(shí)別中廣泛應(yīng)用,該工具包可以識(shí)別出來(lái)97種語(yǔ)種,通過classify函數(shù)可以將輸入文本與Langid已有標(biāo)簽的97種語(yǔ)種進(jìn)行比對(duì),然后將相似度最大的語(yǔ)種標(biāo)簽作為輸入文本的語(yǔ)種。舉個(gè)簡(jiǎn)單的例子,例如字符串string為“Hello world!”, 然后調(diào)用classify(string),即可識(shí)別出輸入文本的語(yǔ)種為英語(yǔ)。

    結(jié)語(yǔ)

    本文的研究工作主要集中在如何利用python對(duì)多語(yǔ)種進(jìn)行分類處理和語(yǔ)種識(shí)別。第一,詳細(xì)闡述了多項(xiàng)式貝葉斯分類模型和條件概率、全概率的公式,為構(gòu)建多語(yǔ)種識(shí)別系統(tǒng)打下堅(jiān)實(shí)的理論基礎(chǔ)。根據(jù)不同的任務(wù)要求,使用合適的語(yǔ)種識(shí)別系統(tǒng),對(duì)不同的材料進(jìn)行實(shí)驗(yàn)。第二,通過兩組實(shí)驗(yàn)驗(yàn)證挑選了Langid工具構(gòu)建了多語(yǔ)言分類模型,并詳細(xì)分析了實(shí)驗(yàn)結(jié)果,最終得出結(jié)論。

    課題的研究需要大量地閱讀國(guó)內(nèi)外文獻(xiàn),研究公式定律背后的意義,同時(shí)也需要注意總結(jié)和歸納。將實(shí)驗(yàn)過程中的想法變成程序使計(jì)算機(jī)代替我來(lái)處理大規(guī)模數(shù)據(jù)的學(xué)習(xí)和識(shí)別任務(wù)。還做了大量的實(shí)驗(yàn)進(jìn)行比對(duì)測(cè)試分析。這些工作使我在面對(duì)問題時(shí)變得更耐心仔細(xì),會(huì)細(xì)致地考慮在工作中可能出現(xiàn)的各種問題。通過不斷的操作,使我對(duì)python的操作更加熟悉,為以后的工作奠定了基礎(chǔ)。

    參考文獻(xiàn)

    [1]蔣兵.語(yǔ)種識(shí)別深度學(xué)習(xí)方法研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2015.

    [2]賈曉茹.基于LDA的文本多語(yǔ)種識(shí)別研究[D].中國(guó)海洋大學(xué), 2014.

    [3]索宏彬,李明,呂萍,等.一種基于帶語(yǔ)言模型并行音節(jié)解碼器的語(yǔ)種識(shí)別系統(tǒng)[C]//全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì),2007.

    [4]王昊,李思舒,鄧三鴻.基于N—Gram的文本語(yǔ)種識(shí)別研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013(4):54-61.

    猜你喜歡
    語(yǔ)音識(shí)別
    空管陸空通話英語(yǔ)發(fā)音模板設(shè)計(jì)與應(yīng)用
    通話中的語(yǔ)音識(shí)別技術(shù)
    面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
    淺析智能語(yǔ)音技術(shù)及其應(yīng)用
    語(yǔ)音識(shí)別的SVM模型選擇分析
    農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書功能分析與實(shí)現(xiàn)
    基于LD3320的非特定人識(shí)別聲控?zé)粝到y(tǒng)設(shè)計(jì)
    航天三維可視化系統(tǒng)中語(yǔ)音控制技術(shù)的研究與應(yīng)用
    基于語(yǔ)音識(shí)別的萬(wàn)能遙控器的設(shè)計(jì)
    基于語(yǔ)音技術(shù)的商務(wù)英語(yǔ)移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
    金寨县| 龙游县| 合阳县| 孟连| 吴旗县| 丽江市| 瓦房店市| 胶南市| 通辽市| 开平市| 罗田县| 太康县| 来凤县| 修文县| 湖南省| 永顺县| 孝义市| 当涂县| 盐亭县| 寻乌县| 夏津县| 祁东县| 武功县| 册亨县| 澄城县| 邹城市| 霞浦县| 句容市| 科技| 文昌市| 鹿泉市| 平泉县| 永济市| 庆城县| 清涧县| 璧山县| 宣威市| 平乡县| 南丹县| 康定县| 登封市|