楊玄章
新生報到季,某校剛剛?cè)雽W的新同學沒有像以往一樣領(lǐng)到厚厚的一本新生指南,取而代之的是一個叫“新生助手”的小盒子或者手機“小馬甲”。在這個陌生的環(huán)境下,這個“新生助手”就成為了同學們?nèi)谌胄@生活最可靠的伙伴了。
語音技術(shù)進校園
“哪里可以買到便宜的洗漱用品?”新生小賈剛剛把行李放下,就要買必備的生活用品了。
“小助手”回答道:“學校周邊步行范圍內(nèi)有兩個超市,一個物美超市在南門外面的學府街2號,一個是學生超市在學校的二食堂邊上。您是要買牙刷、牙膏和毛巾么?請選擇一下吧?!边@時,在智能設(shè)備的屏幕上,展現(xiàn)了這兩個超市的地圖,同時把小賈可能要買的東西在這兩個超市的價格都羅列在下面。
小賈很高興地說道:“好啊,就這幾個東西吧,我想從學校里的學生超市買這幾樣。給我送到宿舍來吧?!?/p>
“好的,”接到了小賈的指示,“小助手”直接下了單,“東西會在30分鐘之后送達。另外,今天是新學期第一天,你要不要去校園里看看呢?”
小賈問道:“去哪里看好呢?新學期學校應(yīng)該有什么活動吧?”
“小助手”依次列出了今天學校所有的活動和地點:“10點到17點,北門小樹林有各個社團的招新活動;10點到11點,我的朋友S博士會介紹學校的智能授課評估系統(tǒng)……”
“這個智能授課要去聽,據(jù)說以后我們的課堂綜合評分,都是由這個智能語音系統(tǒng)來完成的。”同宿舍的小于在旁邊忍不住插嘴。
“好啊!那就幫我們訂兩個座位吧,我們10點去參加S博士的演講?!毙≠Z說。
幾秒鐘后,“小助手”在其上方投射出一個報告廳的全息座位圖,其中有兩個座位高亮顯示:“定好了!你們的座位在在H21和H23。報告廳離宿舍不遠,我已經(jīng)把路線圖推送到你們的手機上了?!?/p>
小賈和小于順著地圖的指引,剛剛來到報告廳門口,“小助手”先跳出來和“S博士”打招呼了:“S博士你好,這是新生小賈和小于,今天來學習智能授課評估系統(tǒng)?!?/p>
這時候,教室門口突然跳出來一個戴博士帽的大胖子博士全息圖,很熱情地和大家打招呼:“歡迎歡迎,今天還有另一個校區(qū)的同學,通過全息在線和我們互動?!?/p>
大家坐定之后,一個更大號的“博士帽”被投射到最前面,“S博士”開始詳細地講解如何與該系統(tǒng)進行良好的互動,從而爭取到更好的課堂分數(shù)。
其中有一點最讓小賈印象深刻:回答課堂問題時,你們只要以你最喜歡的方式說出你的想法就好了,我們的系統(tǒng)會全面分析你的答案,并分析你的語氣和語速,從而得到最好的分數(shù)。
會議的最后,小賈和小于很好奇地問“小助手”:“S博士到底在哪個校區(qū)工作啊?”
“小助手”嘿嘿一笑說:“S博士和我一樣啊,是你們的智能語音助手哦?!?/p>
看過上面的故事,有的同學也許會問:這是哪個科幻小說中的場景?如果是在幾年前,這樣的場景也許還是人們對于遙遠未來智能社會的幻想。不過,最近智能語音領(lǐng)域的迅猛發(fā)展,讓很多這樣的“科幻”場景即將成為現(xiàn)實。
那么,智能語音從哪里來到哪里去?未來這方面的技術(shù)會如何改變我們的社會和生活?帶著這些問題,我們采訪了這個領(lǐng)域在中國成長起來的大咖:科大訊飛。
最早接近“人類智能”的領(lǐng)域
近年來,“人工智能”這四個字在各個方向“轟炸”著人們的認知。事實上,這四個字意味著語音、圖像、視頻、文本、日志分析等多個領(lǐng)域。在這些個領(lǐng)域里面,很多離真正的“人類智能”還有一定距離。但是,智能語音領(lǐng)域卻有著不一樣的進展。
2015年,科大訊飛最新語音轉(zhuǎn)寫產(chǎn)品“訊飛聽見”將中文普通話識別和轉(zhuǎn)寫的實用準確率提高到了95%以上,遠超過人類專業(yè)速記員的速度和準確度。這個不同尋常的發(fā)布與那些最新研究成果和技術(shù)實驗有很大的不同,這標志著中文智能語音的技術(shù)已經(jīng)可以真真實實地達到人類的水平。
“科大訊飛雖然成立18年了,但是在語音識別領(lǐng)域其實還是個新兵,”訊飛負責人這樣告訴記者:“最早的語音識別技術(shù)可以追溯到上世紀50年代,貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng);1960年英國Denes等人研究成功第一個計算機語音識別系統(tǒng)。大規(guī)模的語音識別研究始于上世紀70年代以后,在小詞匯量、孤立詞的識別方面取得了實質(zhì)性的進展?!?/p>
上世紀90年代以后,大詞匯量連續(xù)語音識別得到優(yōu)化,在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進展。1997年,IBM Viavoice首個語音聽寫產(chǎn)品問世。
自2009年以來,借助機器學習領(lǐng)域深度學習研究的發(fā)展以及大數(shù)據(jù)語料的積累,語音識別技術(shù)得到突飛猛進的發(fā)展。2010年,谷歌發(fā)布VoiceAction支持語音操作與搜索。2011年初,微軟的深度神經(jīng)網(wǎng)絡(luò)(DNN)模型在語音搜索任務(wù)上獲得成功。也就在同年,蘋果手機助理Siri首次亮相,人機交互掀開了新的篇章。
科大訊飛成立于1999年,相比這些巨頭來說,是個不折不扣的“新兵”,剛開始難免是要坐冷板凳的。但是,在多年的積累之后,科大訊飛在智能語音領(lǐng)域中的貢獻讓人刮目相看。有些人認為中國的企業(yè)可能在中文智能語音方面積累更多一些,事實上,科大訊飛在歷次的國內(nèi)外語音合成評測中,各項關(guān)鍵指標均名列第一。2008年至今,科大訊飛連續(xù)在國際說話人、語種識別評測大賽中名列前茅。2014年,科大訊飛首次參加國際口語機器翻譯評測比賽(International Workshop on Spoken Language Translation)即在中英和英中互譯方向中以顯著優(yōu)勢勇獲第一。2016年,國際語音識別大賽(CHiME)科大訊飛取得全部指標第一;在認知智能領(lǐng)域,相繼獲得國際認知智能測試(Winograd Schema Challenge)全球第一、國際知識圖譜構(gòu)建大賽(NIST TAC Knowledge Base Population Entity Discovery and Linking Track)核心任務(wù)全球第一。
智能語音技術(shù)從簡單的比賽和實驗室成果,到真正的實用化,甚至超過人類的智能水平,要做的工作比我們想象得要復(fù)雜得多。如果我們打開“訊飛聽見”的技術(shù)鏈,發(fā)現(xiàn)其集成了包括語音轉(zhuǎn)寫識別技術(shù)、篇章級處理方案、自然語言處理技術(shù)、陣列解混響技術(shù)、口語化風格處理技術(shù)、聲紋識別等多方面的技術(shù),為了應(yīng)對每個人之間的個體化的差異,方言語音識別、高抗噪語音識別、個性化識別等多方面的功能也是必不可少的。去年12月,“ 訊飛聽見”的升級版本在原實時轉(zhuǎn)寫漢字的基礎(chǔ)上,還可同步翻譯為英、日、韓、維等多種語言。
更高階:認知智能
人工智能的“旅程”中,在很長一段時間,一直處于“能存會算”的計算智能時代。在這一時期,機器還是計算的機器,人類和機器交互的方式還很有限很低效,在有限的交流中,機器能按照人來安排的指令,完成特定的功能已經(jīng)算是合格了。
智能語音領(lǐng)域的發(fā)展,率先將機器的“聽、說、理解”能力拉升到了“感知智能”的階段。以谷歌、微軟、訊飛為代表的一批優(yōu)秀的企業(yè)和機構(gòu)將語音的識別、認知、合成、翻譯等能力植入了機器內(nèi)。同時,在教育、車載、家居、通信、硬件和城市等多個領(lǐng)域,產(chǎn)生了豐富的應(yīng)用。
“現(xiàn)在我們要進入認知智能階段了。”科大訊飛強調(diào)說。從最新的訊飛產(chǎn)品線來看,在教育評測、知識服務(wù)、智能客服、機器翻譯等領(lǐng)域,機器已經(jīng)開始具備了“能理解會思考”的能力了?!叭斯ぶ悄茉谥悄苷Z音這個領(lǐng)域里已經(jīng)超過人類了。最近我們在做一些教育評測領(lǐng)域的實踐。如今,機器主觀題閱卷技術(shù)對語文、英文等學科的評分已達到或超過人工評分水平?!?/p>
當智能語音系統(tǒng)具備足夠多的實踐、“學習”過足夠多的數(shù)據(jù),“練習”過足夠多的對話,也許它真的可以為人類“打開另一扇窗口”。
那到底未來是什么呢?也許智能語音技術(shù)與其他人工智能技術(shù)配合起來,可以讓人們專注在自己的興趣上,而不用擔心是誰來完成基礎(chǔ)服務(wù);可以讓小孩子可以自如地獲取知識,而不用關(guān)心誰在扮演老師的角色;可以讓科學家將精力集中在最核心的研究上,而不用操心是誰來進行配合性的工作;可以讓上班族們在早高峰可以美美地睡一覺,而不用費心交通狀況和換乘方案……
毫無疑問,人工智能未來肯定會在我們身邊扮演一個主要角色,智能語音技術(shù)顯然也會成為這里面的重要核心之一。不過,這個領(lǐng)域仍需杰出的人才進行數(shù)十年如一日的堅守和創(chuàng)新,大家準備好了么?