眠眠
只聽一聲“啟動(dòng)!”主角對(duì)著機(jī)器發(fā)出了指令,緊接著,機(jī)器非常聽話地發(fā)出“咔咔咔”的啟動(dòng)聲,這是我們?cè)诤芏嗫苹脛≈卸寄芤姷降膱?chǎng)景。如今,這種場(chǎng)景不再是我們的腦洞,相信大家都用手機(jī)和平板電腦感受過(guò)聲音控制的爽快了。沒錯(cuò),語(yǔ)音作為一種便捷的交流方式,在其基礎(chǔ)上發(fā)展出的聲控,有著怎樣令人驚嘆的技術(shù)呢?
聲控技術(shù)的前世今生
最早期的聲控技術(shù)并不涉及具體的語(yǔ)音,而是只要感受到聲音的存在,就可以實(shí)現(xiàn)開啟和關(guān)閉的功能。在實(shí)現(xiàn)這項(xiàng)功能的過(guò)程中,發(fā)揮最主力作用的玩意兒叫作“傳聲器”。也許這個(gè)名字聽起來(lái)有點(diǎn)陌生,但是它的綽號(hào)“麥克風(fēng)”,你們肯定耳熟能詳了。傳聲器的本質(zhì)就是一種將聲音信號(hào)轉(zhuǎn)變?yōu)殡娦盘?hào)的轉(zhuǎn)換裝置。發(fā)明它的是大名鼎鼎的“電話之父”——亞歷山大·貝爾。
傳聲器的原理并不復(fù)雜,它有一個(gè)非常靈敏并能夠感受到聲波微小振動(dòng)的振膜:當(dāng)振膜振動(dòng)后,會(huì)帶動(dòng)與其相連的電磁鐵不斷開合,這樣一來(lái)就產(chǎn)生了變化的電流,這就是由聲音信號(hào)轉(zhuǎn)變而來(lái)的電信號(hào)。電信號(hào)再經(jīng)過(guò)一系列的放大、整流、濾波處理之后,既可以實(shí)現(xiàn)各種控制功能,也可以重新還原為人聲語(yǔ)音。當(dāng)然,除了電磁鐵,還有電阻、電容、晶體等其他觸發(fā)產(chǎn)生電信號(hào)的方法,更新穎的科技還在不斷地開發(fā)中。
雖然早期聲控技術(shù)因?yàn)樵O(shè)計(jì)簡(jiǎn)單,觸發(fā)條件也過(guò)于單一,如今已逐漸被淘汰。但我們依然能夠在不少場(chǎng)合發(fā)現(xiàn)它的存在。比如樓道里的聲控?zé)?,為夜晚出行的居民們帶?lái)了莫大的方便。它的原理就是最簡(jiǎn)單的聲控技術(shù)。
從聲音控制到語(yǔ)音控制
當(dāng)聲控技術(shù)發(fā)展到一定階段之后,有人就開始琢磨了:咱能不能再更進(jìn)一步,實(shí)現(xiàn)語(yǔ)音控制呢?畢竟,多樣化的語(yǔ)音能夠?qū)崿F(xiàn)更多操縱與控制的可能。可是人的聲音各不相同,怎樣才能讓機(jī)器準(zhǔn)確地識(shí)別出每個(gè)人說(shuō)的話呢?
其實(shí)早在計(jì)算機(jī)發(fā)明之前,關(guān)于語(yǔ)音控制的設(shè)想就已經(jīng)被先驅(qū)者們提出了。早期的聲碼器就可以被視為一種語(yǔ)音識(shí)別儀器的雛形。1920年生產(chǎn)的玩具狗“電波雷克斯”(Radio Rex)可能是世界上最早的語(yǔ)音識(shí)別裝置。這么看來(lái),作為最原始的人工智能,它可能是“阿爾法狗”的老祖宗了……
后來(lái),經(jīng)過(guò)聲學(xué)家、語(yǔ)言學(xué)家和算法大神們的不懈努力,人們終于發(fā)現(xiàn)了語(yǔ)音可以被識(shí)別的方式:人類的語(yǔ)音具有兩種彼此密切相關(guān)卻又相對(duì)獨(dú)立的特征,它們分別是語(yǔ)言特征和聲學(xué)特征。所謂語(yǔ)言特征,就是指我們說(shuō)的每一句話,都可以最終細(xì)分到一個(gè)字或一個(gè)詞,而這些字詞之間,有些存在非常高的相關(guān)性,有些呢,又幾乎老死不相往來(lái)。比如,“尷”這個(gè)字后面,八成會(huì)跟著“尬”,但是后面跟著其他字比如“你”,這樣的組合就幾乎從未出現(xiàn)過(guò)。這涉及一個(gè)概率問題,可以通過(guò)概率統(tǒng)計(jì)的方式來(lái)找出其中的內(nèi)在規(guī)律。
而聲學(xué)特征就更容易理解了。打個(gè)比方,三國(guó)時(shí)期的猛將張飛在當(dāng)陽(yáng)橋上一聲斷喝,嚇退了多少曹兵。有些站得遠(yuǎn)的小兵,可能根本沒看清對(duì)面那個(gè)大漢是誰(shuí),然而光聽見聲音,就知道是燕人張翼德了。這就是因?yàn)閺堬w的語(yǔ)音很有特點(diǎn)。這種特點(diǎn)包括“嗓門大、聲音渾厚、帶有河北一帶口音”。是的,這三個(gè)特點(diǎn)就分別對(duì)應(yīng)了聲學(xué)特征的三大屬性:物理屬性、生理屬性和社會(huì)屬性,是不是一目了然呢?
語(yǔ)音識(shí)別,橫空出世
當(dāng)人類逐漸掌握了語(yǔ)音的奧秘之后,就開始挑戰(zhàn)語(yǔ)音識(shí)別這個(gè)看上去高深莫測(cè)的黑科技了。20世紀(jì)60年代,計(jì)算機(jī)的快速發(fā)展推動(dòng)了語(yǔ)音識(shí)別技術(shù),科學(xué)家發(fā)明了許多關(guān)于它的理論,其中最有名的就是隱馬爾可夫模型(HMM)(名字聽起來(lái)真晦澀)。其實(shí),當(dāng)時(shí)絕大多數(shù)的工程師們看到這些理論公式時(shí)也是一頭霧水。到了80年代,以“貝爾”命名的AT&T Bell實(shí)驗(yàn)室邁出了決定性的一步,他們把原本深?yuàn)W無(wú)比的純數(shù)學(xué)模型工程化,為應(yīng)用開發(fā)打下了重要的基石。再到90年代,深度神經(jīng)網(wǎng)絡(luò)技術(shù)的突破性發(fā)展,讓語(yǔ)音技術(shù)的發(fā)展突破了瓶頸。于是21世紀(jì)后的語(yǔ)音識(shí)別技術(shù)發(fā)展,就像是坐了火箭一樣“蹭蹭蹭”地突飛猛進(jìn)。
有了這些基礎(chǔ),再來(lái)看語(yǔ)音識(shí)別的原理,好像也沒有那么復(fù)雜嘛。簡(jiǎn)單地說(shuō)就是當(dāng)語(yǔ)音輸入后,計(jì)算機(jī)進(jìn)行兩類特征提取,再將提取的特征值放進(jìn)一個(gè)龐大的模型庫(kù)里。在這個(gè)模型庫(kù)中不斷地進(jìn)行訓(xùn)練和匹配,最終通過(guò)解碼得到結(jié)果。用一個(gè)形象的比喻來(lái)說(shuō),就好比把一幅拼圖打碎,再將每片拼圖的形狀和圖案特征都放進(jìn)一個(gè)拼圖庫(kù)里不斷地組合,和原圖對(duì)比,最終得到最接近原圖的那一幅。當(dāng)然了,這只是個(gè)粗淺的比喻,具體的實(shí)現(xiàn)還涉及神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)、語(yǔ)言學(xué)、算法、編程等專業(yè)知識(shí)。
“聲控”可以無(wú)處不在
聲控技術(shù)是為了給人類帶來(lái)便利的。因此,在我們生活中的各個(gè)角落都可以用到它。特別是一些不適合用手來(lái)操作的場(chǎng)合,例如開車。通過(guò)聲控技術(shù),我們只要開口說(shuō)話,就能讓車輛執(zhí)行需要的動(dòng)作:打開地圖導(dǎo)航、開啟空調(diào)、關(guān)閉車窗、呼叫緊急處理服務(wù)等等。畢竟,一邊開車一邊分心去找那些按鈕是很危險(xiǎn)的。還有現(xiàn)在智能設(shè)備上的交互系統(tǒng),比如微軟家的Cortana、三星家的S-voice、蘋果家的Siri,都使用了語(yǔ)音識(shí)別的功能。我國(guó)也研發(fā)了自己的系統(tǒng),比如搜狗和訊飛,根據(jù)中文口音、連讀等獨(dú)特的發(fā)音習(xí)慣,打造屬于中國(guó)人的語(yǔ)音輸入系統(tǒng)。
隨著科技的不斷發(fā)展,聲控技術(shù)只會(huì)越來(lái)越普及。我們可以預(yù)見,在未來(lái)的每個(gè)角落,我們都能用自己最熟悉的溝通方式和生活中的設(shè)備互動(dòng)。這極大地增加了生活的便利性和幸福感,或許實(shí)現(xiàn)和人工智能的便捷交流也不再遙遠(yuǎn)。