羅國(guó)強(qiáng) 方斌 李家華
摘要:AI技術(shù)的問世為現(xiàn)代社會(huì)經(jīng)濟(jì)帶來了較大的進(jìn)步與發(fā)展,現(xiàn)階段語音識(shí)別技術(shù)在準(zhǔn)確率以及速度上還需要進(jìn)一步完善,而深度學(xué)習(xí)依舊停留在理論層面的研究,未應(yīng)用到實(shí)際產(chǎn)品中。另外,深度學(xué)習(xí)技術(shù)可以將云計(jì)算和數(shù)據(jù)資源整合到一起,提高對(duì)數(shù)據(jù)資源的識(shí)別速度和精確性。為了促使語音識(shí)別技術(shù)朝向更高層次發(fā)展,需要從語音收集與特征篩選、模擬訓(xùn)練和語音識(shí)別兩方面進(jìn)行。
關(guān)鍵詞:AI技術(shù);語音識(shí)別技術(shù);現(xiàn)狀;途徑
中圖分類號(hào):TP18;TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)12-0224-01
0 引言
在現(xiàn)代科學(xué)技術(shù)水平不斷提升的背景下,社會(huì)的科技實(shí)力逐步增強(qiáng),促進(jìn)著我國(guó)社會(huì)慢慢的朝向智能化方向發(fā)展,智能領(lǐng)域包含的內(nèi)容豐富多彩,機(jī)器學(xué)習(xí)就是其中的一種,并成為了智能領(lǐng)域研究的關(guān)鍵項(xiàng)目,在促進(jìn)我國(guó)智能領(lǐng)域的發(fā)展上也起到了重大的作用。目前,科學(xué)家在語言識(shí)別以及互聯(lián)網(wǎng)搜索等項(xiàng)目上取得了較大的突破,在依托AI技術(shù)的幫扶下,可以達(dá)到機(jī)器與人類的語言交流以及汽車自動(dòng)駕駛的層面,同時(shí)在不斷發(fā)展的背景下,機(jī)器人慢慢的具備了人類無法達(dá)到的功能。為了更好的促進(jìn)AI技術(shù)的發(fā)展,必須要加強(qiáng)對(duì)語音識(shí)別技術(shù)的研究,本文從AI技術(shù)背景下語音識(shí)別技術(shù)研究現(xiàn)狀與途徑,以此為語音識(shí)別技術(shù)的進(jìn)一步發(fā)展提供幫助。
1 基于AI技術(shù)的語音識(shí)別技術(shù)研究現(xiàn)狀
在20世紀(jì)50年代中后期,AI技術(shù)也稱為人工智能技術(shù)正式被人類提出來,并在當(dāng)時(shí)引發(fā)了相當(dāng)大的反響,許多科學(xué)家以及專家學(xué)者都參與到機(jī)器模擬智能方面的研究上,與此同時(shí)AI技術(shù)依據(jù)自身獨(dú)特的優(yōu)勢(shì)在各個(gè)行業(yè)領(lǐng)域中獲得廣泛應(yīng)用,推動(dòng)著許多行業(yè)領(lǐng)域的改革創(chuàng)新,也促進(jìn)著社會(huì)經(jīng)濟(jì)的快速發(fā)展,特別是對(duì)語音識(shí)別技術(shù)的研發(fā)。
1.1 語音識(shí)別技術(shù)理論層面的研究
現(xiàn)階段,我國(guó)的科學(xué)技術(shù)實(shí)力得到較大的增強(qiáng),以往比較陳舊的語言識(shí)別技術(shù)已經(jīng)不能夠滿足現(xiàn)代社會(huì)的發(fā)展速度,盡管現(xiàn)在許多智能終端設(shè)備上都帶有語音識(shí)別功能,能夠完成人類與機(jī)器之間的信息交流,但是語音識(shí)別的準(zhǔn)確率以及速度還有待加強(qiáng),而目前的語音識(shí)別算法與相關(guān)技術(shù)已經(jīng)很難再繼續(xù)發(fā)展[1]。在這樣的背景下,深度學(xué)習(xí)成為了語音識(shí)別技術(shù)進(jìn)一步發(fā)展的重要方式,能夠像人類大腦一樣進(jìn)行模式學(xué)習(xí)以及信息感知等,并且具備了大量的理論研究。然而,深度學(xué)習(xí)大多停留在理論階段,還沒能廣泛的應(yīng)用到實(shí)際產(chǎn)品中。為了解決這一的問題,促進(jìn)理論和產(chǎn)品的相互融合,更好的滿足現(xiàn)代社會(huì)發(fā)展的需求,必須要加強(qiáng)語言識(shí)別功能中關(guān)鍵部位的研發(fā),如語音信號(hào)產(chǎn)生與傳播等,從而促進(jìn)語音識(shí)別技術(shù)能夠獲得更好的發(fā)展[2]。
1.2 語音識(shí)別技術(shù)應(yīng)用方面的研究
伴隨著我國(guó)科學(xué)技術(shù)水平以及互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,促使我國(guó)逐漸的從信息化社會(huì)過渡到智能化社會(huì),加強(qiáng)語音智能技術(shù)的研究也是時(shí)代發(fā)展的必然需求,能夠很好的滿足人類的使用需求,幫助人們可以從多種方式與手段得到初始語音信息。對(duì)現(xiàn)有的關(guān)于語音識(shí)別技術(shù)的研究進(jìn)行整合,大部分研究項(xiàng)目都處于理論辯證階段與簡(jiǎn)單算法方面,從而很難真正發(fā)揮出數(shù)據(jù)資源的優(yōu)勢(shì)?,F(xiàn)如今隨著深度學(xué)習(xí)技術(shù)的應(yīng)用,可以很好的將云計(jì)算和數(shù)據(jù)資源整合到一起,從而提高對(duì)數(shù)據(jù)資源的識(shí)別速度和精確性,使得語音資源能夠得到較好的應(yīng)用,并促使語音識(shí)別技術(shù)能夠朝向更高層面發(fā)展。
2 AI技術(shù)背景下語音識(shí)別途徑
2.1 語音收集與特征篩選
系統(tǒng)在進(jìn)行語音信息資源的收集過程中,需要經(jīng)歷采樣與端點(diǎn)測(cè)試兩個(gè)環(huán)節(jié)。首先,采樣環(huán)節(jié)通常是依托聲卡來實(shí)現(xiàn)對(duì)語音信息資源的歸納與整合,并將收到的信息進(jìn)行相應(yīng)的處理使之呈現(xiàn)出數(shù)字化形態(tài)[3]。其次,端點(diǎn)測(cè)試環(huán)節(jié)通常是對(duì)語音信息出現(xiàn)的初始與末尾階段進(jìn)行核實(shí),是進(jìn)行信息資源處理前的重要準(zhǔn)備工作。一般情況下端點(diǎn)檢測(cè)功能的實(shí)現(xiàn)是基于能量與過零率相聯(lián)系的算法方式。此外,要確保語音識(shí)別系統(tǒng)能夠正常工作,還必須要解決信息特征篩選問題,信息特征篩選結(jié)果的準(zhǔn)確性以及篩選速度直接影響到語音識(shí)別的精確性和效率,這是因?yàn)橹挥袑?shí)現(xiàn)了信息特征的精準(zhǔn)篩選才能夠?qū)嫶蟮恼Z音信息進(jìn)行區(qū)分,提取出有用的信息,同時(shí)將不完整、無用的信息排除掉,從而確保語音信息資源采集環(huán)節(jié)的有序運(yùn)行[4]。
2.2 模擬訓(xùn)練和語音識(shí)別
在這個(gè)部分重點(diǎn)涉及到兩個(gè)方面的內(nèi)容,分別是訓(xùn)練以及識(shí)別。首先訓(xùn)練是根據(jù)系統(tǒng)的要求選擇一項(xiàng)適宜的識(shí)別路徑,并通過訓(xùn)練和聚類的措施來得到這些漢字的相關(guān)信息,同時(shí)將這些信息資源作為初始應(yīng)用值儲(chǔ)存到系統(tǒng)中。在進(jìn)行數(shù)據(jù)信息辨別時(shí),必須要將待辨別的漢字資源存儲(chǔ)到系統(tǒng)文件中,以此來建立參考模板資源庫(kù)。其次識(shí)別主要是將需要進(jìn)行識(shí)別的文字和參考模板數(shù)據(jù)庫(kù)中的文字信息進(jìn)行比對(duì),并根據(jù)比對(duì)的相似度確定被識(shí)別文字的內(nèi)容,目前主要有三種識(shí)別方式[5]:以模擬訓(xùn)練階段獲取的語言信息為基礎(chǔ)并存儲(chǔ)到系統(tǒng)中,當(dāng)要進(jìn)行文字識(shí)別時(shí),選取計(jì)分與距離最小的文字;利用計(jì)分求法的途徑將需要識(shí)別的文字信息通過態(tài)圖模型開展計(jì)算,從而得到輸出概率;根據(jù)語言特征的差異性進(jìn)行適宜的劃分,然后對(duì)每個(gè)區(qū)域特征中的平均值進(jìn)行計(jì)算。
3 結(jié)語
綜上所述,AI技術(shù)的應(yīng)用對(duì)促進(jìn)我國(guó)社會(huì)經(jīng)濟(jì)快速發(fā)展具有重要作用,必須要加強(qiáng)智能機(jī)器人技術(shù)的研發(fā),并推廣到語音識(shí)別等領(lǐng)域研究中,促進(jìn)語音識(shí)別技術(shù)的創(chuàng)新與進(jìn)步,最終帶動(dòng)社會(huì)各行各業(yè)的革新。
參考文獻(xiàn)
[1] 房愛東,張志偉,崔琳,等.基于人工智能的語音識(shí)別系統(tǒng)及應(yīng)用研究[J].宿州學(xué)院學(xué)報(bào),2019,34(08):62-65.
[2] 王婉琦.人工智能在語言服務(wù)業(yè)中的應(yīng)用現(xiàn)狀與前景研究[J].南方論刊,2018(05):22-23.
[3] 何波.基于單片機(jī)的人工智能語音識(shí)別機(jī)器人的設(shè)計(jì)分析[J].電子世界,2018(08):72+74.
[4] 陳凱泉,沙俊宏,何瑤,等.人工智能2.0重塑學(xué)習(xí)的技術(shù)路徑與實(shí)踐探索——兼論智能教學(xué)系統(tǒng)的功能升級(jí)[J].遠(yuǎn)程教育雜志,2017,35(05):40-53.
[5] 胡郁,袁春杰,王瑋.人工智能技術(shù)在傳媒領(lǐng)域的應(yīng)用——以智能語音技術(shù)為例[J].新聞與寫作,2016(11):15-17.
Research Status and Approaches of? Speech Recognition Technology under the Background of? AI Technology
LUO Guo-qiang1,F(xiàn)ANG Bin2,LI Jia-hua1
(1.College of? Information Engineering, Guangzhou Vocational and Technical University of? Science and Technology, Guangzhou? Guangdong? 510550;2.School of? Information Engineering, Guangzhou City Construction College,Guangzhou Guangdong? 510925)
Abstract:The advent of AI technology has brought great progress and development to modern society and economy. At this stage, speech recognition technology needs to be further improved in terms of accuracy and speed. Deep learning still stays at the theoretical level and has not been applied to actual products. in. In addition, deep learning technology can integrate cloud computing and data resources to improve the speed and accuracy of identifying data resources. In order to promote the development of speech recognition technology to a higher level, it needs to be conducted from two aspects: speech collection and feature screening, simulation exercises, and speech recognition.
Key words:AI technology; speech recognition technology; status quo; way