何婉榕
摘 要:伴隨著我國社會經(jīng)濟的不斷進步,科學技術水平越來越高,信息化的人工智能技術得以應運而生,尤其是其中的語音識別技術已經(jīng)成為人工智能領域當中一項不可分割的重要組成部分,被廣泛運用在各行各業(yè)當中。為此,本文將通過對人工智能的關鍵要素進行簡單分析,結合語音識別技術的具體內涵及相關原理,以傳媒領域為例,著重圍繞人工智能與語音識別技術進行分析研究。
關鍵詞:人工智能;語音識別技術;傳媒領域;具體運用
0 引言
自從物聯(lián)網(wǎng)出現(xiàn)以來,一直是社會大眾廣泛關注的焦點,而作為與其他事物進行有效鏈接的關鍵,人工智能以及語音識別技術也同樣掀起了一股全新的關注熱潮。人工智能也正在逐漸同各行各業(yè)相互融合,其中以語音識別技術為代表,在我國教育、醫(yī)療、家居、金融等各領域當中均能夠看見語音識別技術的“身影”。而隨著近些年來我國傳媒領域的不斷發(fā)展,人工智能與語音識別技術也同樣得到了廣泛運用。
1 人工智能的關鍵要素分析
作為計算機科學的一大分支,人工智能簡單來說就是模擬人類思維意識的信息過程,并產(chǎn)生出一種全新的、能夠做出類似人類思考及反應的智能機器。而包括機器人、語音識別、圖像識別等在內的各領域均屬于人工智能的研究范圍,本文將對構成人工智能的三大要素進行簡要分析。
1.1 深度神經(jīng)網(wǎng)絡
深度神經(jīng)網(wǎng)絡被看做是統(tǒng)計模式識別中的一個分支,但當前其已經(jīng)逐漸同互聯(lián)網(wǎng)和IT產(chǎn)業(yè)進行有機融合,并逐漸成為人工智能的關鍵核心。其作為一種感知智能模型能夠對生物視覺皮層當中負責識別的腹側通路進行高度模擬,同時使用成千上萬各神經(jīng)元與突出連接權參數(shù),使其與皮層功能柱等生物系統(tǒng)不斷趨近。在大數(shù)據(jù)以及GPU計算硬件的幫助下,能夠自動提取原始數(shù)據(jù)中的分層特征,從而為人工智能的深入發(fā)展奠定良好基礎。
1.2 大數(shù)據(jù)
大數(shù)據(jù)簡單來說就是一個龐大的數(shù)據(jù)集合,通過借助云計算優(yōu)化整合、分析處理海量的信息數(shù)據(jù),完成對傳統(tǒng)數(shù)據(jù)研究及應用的深化。當前,大數(shù)據(jù)的數(shù)據(jù)量已經(jīng)升級至PB甚至達到EB級別,數(shù)據(jù)來源越來越廣泛、類型也越來越多,同時其高速的處理速度以及較高的安全性和可靠性也成為大數(shù)據(jù)的強大優(yōu)勢。在人工智能當中,大數(shù)據(jù)與深度神經(jīng)網(wǎng)絡同樣發(fā)揮著至關重要的基礎作用。
1.3 漣漪效應
漣漪效應具體而言指的就是每一位用戶的個人經(jīng)驗、知識數(shù)據(jù)等能夠在互聯(lián)網(wǎng)以及移動網(wǎng)絡的強勢介入下加入到人工智能技術研究當中。譬如說在最初的語音識別系統(tǒng)當中,其實際真實率只有半成左右,但在系統(tǒng)上線運行的過程當中不斷有用戶貢獻出相關數(shù)據(jù)信息,就像水波紋擴散一般幫助系統(tǒng)進行不斷地優(yōu)化和完善,從而有效推動人工智能的可持續(xù)發(fā)展。
2 語音識別技術的簡要概述
2.1 具體內涵
語音識別技術也常常被人們稱之為自動語音識別,旨在利用案件、二進制編碼等將人類語音中的詞匯及內容轉換為計算機可讀輸入。目前該項技術主要包括了語音撥號及導航、室內設備控制、語音文檔檢索等,而將其與機器翻譯、語音合成等其他相關自然語言處理技術相互結合之后能夠構建出例如語音到語音翻譯的更為復雜的應用。
2.2 技術原理
首先,語音識別技術需要提取語音的特征參數(shù),也就是語音信號中的有效數(shù)據(jù)信息,之后與語音基音、鼻輔音的元音、頻譜,擦音的頻譜等重要參數(shù)進行充分結合,使其能夠完全匹配音頻模型或模式。而人工智能網(wǎng)絡、動態(tài)時間規(guī)整技術以及HMM模型技術則構成了完整的音頻訓練模型。人工智能網(wǎng)絡可以模擬人類的大腦活動,并能夠完成語言學習、判斷、概括等功能,從而使得語音識別能夠更加智能化。而動態(tài)的時間規(guī)整技術則能夠統(tǒng)一音頻口令的時間特征,并維持口令單詞時間軸走向的穩(wěn)定性,使口令特征完全匹配于模型特征,進一步提高語音識別的準確性和有效性[1]。
3 人工智能與語音識別技術的具體運用——以傳媒領域為例
3.1 提升采編效率
以專門用于整理錄音的轉寫平臺為例,記者將一小時音頻上傳五分鐘后即可收到轉寫文本,而這將比手動聽打方式整理錄音的效率高出整整47倍。通過使用語音識別技術,記者只需在聽審系統(tǒng)當中預先設置好禁忌詞,并輸入需要聽審的節(jié)目后,系統(tǒng)將會自動進行聽審而其一旦檢測到禁忌詞后便會發(fā)出警報,從而有效提升聽審成效。
3.2 優(yōu)化傳播形式
在通過運用語音識別技術之下,其中的VAD端點檢測、分段以及語義理解技術能夠幫助工作人員自動生成字幕,而工作人員在進行簡單的修正與審核之后即可直接使用其作為電視節(jié)目、音頻節(jié)目等相應配套字幕。尤其是各種轉寫網(wǎng)站的相繼出現(xiàn),能夠實現(xiàn)將音頻自動轉寫為文本并直接轉化成字幕格式,大大提升了制作字幕的效率。另外在人工智能的發(fā)展之下,包括聽書、荔枝FM等各種新型APP相繼出現(xiàn),在語音識別技術的幫助之下不僅能夠隨意添加字幕,而且有效擴展了傳播形式,進一步擴大傳播范圍。
3.3 實現(xiàn)機器寫作
以15年出現(xiàn)的自動寫作機器人“快筆小新”為例,其在經(jīng)過獲取和分析數(shù)據(jù)之后,自動從中提煉出觀點并生成相應的格式與結構,即可完成初版發(fā)布。從本質上來說,機器寫作就是將大數(shù)據(jù)分析和處理技術以及自然語言生成技術進行有機結合下的產(chǎn)物,目前機器寫作的內容主要集中在需要較強數(shù)據(jù)分析性的財經(jīng)新聞、體育賽事、氣象預測等方面,而具有明顯個性化、敘事性特點的娛樂新聞、時政要聞等還需要結合人工智能等技術進行深入研究。
4 結語
總而言之,伴隨著人工智能與語音識別技術研究的不斷深入發(fā)展,我國正穩(wěn)步走在發(fā)展人工智能的康莊大道上,在這一良好的發(fā)展勢頭之下,人工智能與語音識別技術的相關研究人員,還需要進一步加大研究力度,堅守用人工智能建設美好世界的初衷,努力帶領人類走向真正的人工智能時代。
參考文獻
[1]楊震,楊寧,徐敏捷.面向物聯(lián)網(wǎng)應用的人工智能相關技術研究[J].電信技術,2016,(5):16-19,23.
(作者單位:清華附中 創(chuàng)新1班)