霍娜
這是一個(gè)最好的時(shí)代,這是一個(gè)聲控的時(shí)代,這是個(gè)光明的季節(jié),也是個(gè)希望的春日。
從幾年前蘋果Siri將語音迅速升溫推至消費(fèi)者面前,到現(xiàn)在語音助手幾乎已成為智能手機(jī)、汽車電子、智能家居的標(biāo)配,從人們過去在路邊招手打車到現(xiàn)在先用微信與出租車師傅說好再出門……似乎,智能語音產(chǎn)業(yè)似乎已經(jīng)迎來生機(jī)盎然的春天。語音一時(shí)間成為輿論的焦點(diǎn):“語音將徹底替代鼠標(biāo)、鍵盤”,“語音將成為移動(dòng)互聯(lián)網(wǎng)主流信息入口”,“誰掌控語音誰就將掌控一切”……看好、贊揚(yáng)語音之聲不絕于耳。
但一個(gè)技術(shù)從萌芽期開始不斷發(fā)展,要醞釀多久會(huì)到爆發(fā)期?智能語音產(chǎn)業(yè)是真的到爆發(fā)期了還是被提前過度炒作了?智能語音產(chǎn)業(yè)現(xiàn)狀和未來發(fā)展方向如何?中國智能語音企業(yè)又該如何選擇適合自己的成長路徑?帶著這些疑問,本報(bào)記者先后采訪多位智能語音專家,力求探知一二。
莫錯(cuò)失趕超良機(jī)
智能語音是新一代的人機(jī)交互技術(shù)手段之一。就像人與人之間對話交流一樣,智能語音是要通過語音實(shí)現(xiàn)人與機(jī)器之間的交互,即機(jī)器能聽懂,并能回答提問,實(shí)現(xiàn)對話互動(dòng)?!爸悄苷Z音技術(shù)主要包括語音識(shí)別、自然語言理解和語音合成三個(gè)環(huán)節(jié),完成讓機(jī)器聽懂人說話,再讓機(jī)器說人話的過程。這種交互需要基于海量的語料庫,通過模型實(shí)現(xiàn)語音識(shí)別和語義理解,包括對語法、分詞、情景、甚至是情緒等的理解,再通過知識(shí)庫系統(tǒng)找到答案,然后通過語音合成技術(shù)說出答案,來回交互?!痹诮邮苡浾卟稍L時(shí),中國語音產(chǎn)業(yè)聯(lián)盟副秘書長李德升這樣給出他對智能語音的理解。
人機(jī)智能語音交互,說著容易做起來難。從20世紀(jì)50年代,AT&T開發(fā)出第一個(gè)語音識(shí)別系統(tǒng)Audry;到20世紀(jì)80年代,智能語音技術(shù)研究由傳統(tǒng)的基于標(biāo)準(zhǔn)模型匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計(jì)模型的技術(shù)思路;再到21世紀(jì)初,智能語音從技術(shù)研究走向?qū)嵱貌⑦M(jìn)入產(chǎn)業(yè)化,進(jìn)入呼叫中心、家電、汽車等領(lǐng)域;一直到近期以蘋果SiRi發(fā)布為重要引爆點(diǎn),智能語音應(yīng)用才開始向移動(dòng)互聯(lián)網(wǎng)等新興領(lǐng)域延伸,智能語音產(chǎn)業(yè)進(jìn)而不斷積累、發(fā)展。
智能語音技術(shù)是人工智能的研究領(lǐng)域之一,其原理涉及聲學(xué)、語言學(xué)、數(shù)字信號(hào)處理和計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科,研究周期長。投入成本大,技術(shù)壁壘高。全球和中國智能語音市場基本形成寡頭壟斷的格局。隨著智能語音產(chǎn)業(yè)的快速發(fā)展,產(chǎn)業(yè)競爭進(jìn)一步加劇,也吸引了IT巨頭和中小創(chuàng)業(yè)團(tuán)隊(duì)爭相進(jìn)入,與傳統(tǒng)語音技術(shù)提供商共同角逐智能語音市場。
在國際市場,既有像Nuance這樣的占據(jù)全球62%語音市場的傳統(tǒng)語音技術(shù)巨頭,也有谷歌、蘋果、微軟、IBM等IT巨頭的競爭參與。在國內(nèi)市場,李德升告訴記者,目前我國語音技術(shù)廠商基本分為三類:一類是傳統(tǒng)語音技術(shù)廠商,一般從科研院所基礎(chǔ)研究脫胎,包括像科大訊飛(中國科技大學(xué))、捷通華聲(清華大學(xué)、中科院聲學(xué)所、北京大學(xué))、中科模識(shí)(中科院自動(dòng)化所)、中科信利(中科院聲學(xué)所)等;第二類是互聯(lián)網(wǎng)廠商,包括百度、騰訊、搜狗等,他們?yōu)榻o其廣大的互聯(lián)網(wǎng)用戶提供更好的增值服務(wù),普遍采用戰(zhàn)略合作或者收購等方式,掌握智能語音技術(shù),推廣語音服務(wù);第三類是創(chuàng)業(yè)企業(yè),像云知聲、思必馳等,他們專注于某些行業(yè)領(lǐng)域,比如汽車、家電、教育、社交網(wǎng)絡(luò)來推廣自己的語音技術(shù)和產(chǎn)品。
近幾年來,移動(dòng)互聯(lián)網(wǎng)蓬勃發(fā)展,基于互聯(lián)網(wǎng)海量數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)技術(shù)的有力推進(jìn),智能家電、汽車電子、可穿戴設(shè)備等領(lǐng)域加速應(yīng)用,汽車、醫(yī)療、智能家居、教育等行業(yè)應(yīng)用不斷拓展,智能語音作為新的信息入口,開始引領(lǐng)產(chǎn)業(yè)重大變革。
這一兩年來,我國智能語音市場也是風(fēng)起云涌:2012年8月中國移動(dòng)以13.6億元戰(zhàn)略投資科大訊飛,科大訊飛受二級市場機(jī)構(gòu)投資者追捧市值超過200億元;云知聲創(chuàng)立僅一年就先后獲得兩輪投資,其中一次融資金額高達(dá)1億元;2013年5月,捷通華聲宣布來自百度、清華大學(xué)戰(zhàn)略投資;2013年8月,百度正式宣布向開發(fā)者開放語音生態(tài)系統(tǒng),包括底層的語音識(shí)別技術(shù)應(yīng)用程序開發(fā)接口(API)、百度語音助手軟件開發(fā)工具包(SDK);同樣在這個(gè)月騰訊在微信5.0中增加語音輸入功能,一出來便風(fēng)靡大眾,微信APP已經(jīng)成為消費(fèi)者每天必刷的強(qiáng)大APP之一;直到最近,2014年4月12日,云知聲組織創(chuàng)業(yè)公司牽頭成立“全智能交互聯(lián)盟”;2014年4月29日,科大訊飛的訊飛輸入法繼支持粵語、四川話、河南話等方言之后宣布支持東北話語音輸入;5月20日晚,錘子科技首款智能手機(jī)Smartisan T1發(fā)布,借科大訊飛智能語音技術(shù)實(shí)現(xiàn)語音搜索、語音輸入等特色功能……整個(gè)產(chǎn)業(yè)一片欣欣向榮。
“智能語音是人機(jī)智能交互的手段之一,而人機(jī)智能交互是目前中國技術(shù)企業(yè)有可能趕超國際的為數(shù)不多的產(chǎn)業(yè)機(jī)遇之一。產(chǎn)業(yè)變革是以技術(shù)為先導(dǎo)的。在PC/互聯(lián)網(wǎng)時(shí)代,我國技術(shù)企業(yè)在計(jì)算機(jī)技術(shù)尤其是操作系統(tǒng)等方面,因?yàn)槠鸩酵恚在s超微軟、谷歌等國際技術(shù)公司可能比較難,但在智能交互這個(gè)技術(shù)領(lǐng)域,相對而言,目前中西方起步差不多,如果我們能把握好現(xiàn)在的機(jī)會(huì),好好練內(nèi)功,發(fā)展我們自己的包括智能語音在內(nèi)的交互技術(shù),也許在這方面我們可以真正和國際公司一較高下,真正從中國制造走向中國創(chuàng)造。”北京捷通華聲語音技術(shù)有點(diǎn)公司(簡稱捷通華聲)董事長張連毅這樣告訴記者。
與張連毅持相同觀點(diǎn)的還有科大訊飛信息科技股份有限公司(簡稱科大訊飛)副總裁江濤和北京云知聲信息技術(shù)有限公司(簡稱云知聲)CEO黃偉。在他們看來,智能語音是難得的一次產(chǎn)業(yè)良機(jī),錯(cuò)過語音,中國技術(shù)企業(yè)很難再有機(jī)會(huì)趕超國際了。
磨一根針破一片天
“做語音是需要慢慢熬的?!边@話記者不止在一個(gè)被采訪人口中聽到。
1989年從清華大學(xué)畢業(yè)任職紫光推進(jìn)OCR(圖像掃描識(shí)別),中間赴美,2000年與中國科學(xué)院聲學(xué)所研究員呂士楠共同創(chuàng)辦捷通華聲的張連毅稱自己是語音乃至整個(gè)智能交互行業(yè)的老兵。在他看來,從“入口說”、“門檻說”到“血統(tǒng)說”再到“技術(shù)說”,這兩年來的語音熱其實(shí)更多是一種炒作,而這種炒作對行業(yè)本身未必有多大好處?!拔抑徽J(rèn)可‘技術(shù)說。因?yàn)檎Z音只是交互的方式之一,智能語音就是一門技術(shù),它與應(yīng)用結(jié)合,這項(xiàng)技術(shù)就能發(fā)揮出巨大價(jià)值。而這門技術(shù)的特點(diǎn)是厚積薄發(fā),需要慢慢積累,所以這就決定智能語音產(chǎn)業(yè)是要用一根針頂破天的專業(yè)領(lǐng)域,而不是用一個(gè)鐵錘砸出一片聲勢的產(chǎn)業(yè),必須專注、專業(yè),精耕細(xì)作,深耕久釀?!眅ndprint
而所謂的積累,在云知聲CEO黃偉看來,就是算法、數(shù)據(jù)和團(tuán)隊(duì)經(jīng)驗(yàn)的積累。他告訴記者,作為創(chuàng)業(yè)型公司,“在數(shù)據(jù)的積累方面,云知聲不占優(yōu)勢,我們的優(yōu)勢在于算法。從云知聲成立第一天起,我們就用了比對手少一個(gè)數(shù)量級的數(shù)據(jù)來訓(xùn)練算法模型,最終達(dá)到甚至超越對手產(chǎn)品性能,這個(gè)過程我們也積累了豐富而寶貴的團(tuán)隊(duì)經(jīng)驗(yàn)。而現(xiàn)在開放的語音云平臺(tái)已經(jīng)讓我們有了很多用戶數(shù)據(jù),我們的數(shù)據(jù)短板已經(jīng)得到了彌補(bǔ)?!?/p>
黃偉畢業(yè)于中國科學(xué)技術(shù)大學(xué),后加入摩托羅拉并帶隊(duì)研發(fā)出世界上首個(gè)手機(jī)聲紋認(rèn)證系統(tǒng)。金融危機(jī)期間,摩托將整個(gè)語音識(shí)別團(tuán)隊(duì)出售給Nuance。黃偉拒絕被Nuance收編,于2009年7月加入盛大網(wǎng)絡(luò)旗下的創(chuàng)新院,2010年10月創(chuàng)建了語音分院,2013年年底正式出任公司CEO。黃偉告訴記者,在技術(shù)方面云知聲先后四次升級語音識(shí)別內(nèi)核,目前識(shí)別準(zhǔn)確率達(dá)96.26%,技術(shù)領(lǐng)先,并且可提供中、英、粵多語言識(shí)別;在商業(yè)化方面,云知聲單月簽約額突破千萬元,合作伙伴超過3200家,云知聲智能語音已廣泛應(yīng)用在移動(dòng)互聯(lián)網(wǎng)、智能家電、車載、可穿戴設(shè)備、呼叫中心、教育、醫(yī)療等領(lǐng)域。
無獨(dú)有偶,科大訊飛副總裁江濤也同樣是語音界的老人。畢業(yè)于中國科技大學(xué)自動(dòng)化與計(jì)算機(jī)專業(yè)的他是科大訊飛的元老,作為科大訊飛創(chuàng)業(yè)團(tuán)隊(duì)成員,一直在從事語音技術(shù)在通信和互聯(lián)網(wǎng)方向的應(yīng)用推廣。在江濤看來,語音技術(shù)和其他技術(shù)一樣,都在沿技術(shù)成熟曲線不斷發(fā)展。幾年前蘋果Siri帶動(dòng)語音走進(jìn)向上發(fā)展階段,那時(shí)整個(gè)產(chǎn)業(yè)被看好,很多資本投入進(jìn)來至一個(gè)小高潮,而現(xiàn)在是小高潮過后走入技術(shù)成熟曲線下行階段,很多人開始悲觀,資本撤離,只有堅(jiān)持下來的公司能做成。而他判斷,帶語音走入下一波上行曲線的動(dòng)力很可能是穿戴設(shè)備、智能家居、智能汽車等。
江濤向記者回憶,在上世紀(jì)90年代,當(dāng)時(shí)公認(rèn)語音做得最好是南北二“王”,南“王”就是中國科技大學(xué)的王仁華老師,他也是科大訊飛第一任董事長,也是他支持科大訊飛現(xiàn)任董事長劉慶峰創(chuàng)業(yè)的;北“王”指的就是清華大學(xué)的王作英老師,語音識(shí)別和語音合成做得都很不錯(cuò)。
在江濤看來,語音成為人機(jī)交互的主要信息入口這是大勢所趨,毋庸置疑,只是語音真正價(jià)值的實(shí)現(xiàn)還有賴于技術(shù)的成熟和應(yīng)用的普及。應(yīng)用的普及需要慢慢來,引導(dǎo)、教育市場,培養(yǎng)人們的使用習(xí)慣在一點(diǎn)點(diǎn)形成,但要推廣、普及還是需要過程的?!皫啄昵耙怯腥嗽陔娞堇飳χ约菏謾C(jī)喃喃自語大家都會(huì)覺得奇怪,不知道這人干嘛呢,但現(xiàn)在因?yàn)槲⑿诺钠占?,這種行為習(xí)慣已經(jīng)被接受認(rèn)可?!?/p>
而對于技術(shù)的成熟,江濤同樣認(rèn)為是需要專注投入、不斷積累的。江濤向記者介紹目前的語音識(shí)別技術(shù)現(xiàn)狀,他以環(huán)境從嘈雜到安靜的程度為橫軸,以人說話的配合清晰程度為縱軸,劃分四個(gè)象限。在第一象限,也就是環(huán)境也安靜、人說話也清楚的情況下,目前各家語音廠商技術(shù)實(shí)力差距不大,語音識(shí)別率都很高。在第二象限,也就是環(huán)境嘈雜、網(wǎng)絡(luò)不好的情況下,目前科大訊飛做得很不錯(cuò)。噪音大、網(wǎng)絡(luò)信號(hào)時(shí)斷時(shí)續(xù)非常影響語音識(shí)別效果?!败囕d語音識(shí)別最大的對手就是噪音。2013年8月,奔馳在全球?qū)υ萍夹g(shù)提供商進(jìn)行選型發(fā)布的報(bào)告中分別按不同時(shí)速按照幾種情況(包括60、100、140公里/小時(shí))測噪,科大訊飛是唯一在100公里/小時(shí)時(shí)速上識(shí)別率超過90%的廠商。”江濤自豪地介紹。
在第三象限,也就是環(huán)境不錯(cuò)、人發(fā)音不太配合(最典型的各種口音)的情況下,看的就是對語言種類,尤其是方言的支持程度。云知聲實(shí)現(xiàn)對粵語、英語的識(shí)別支持??拼笥嶏w除了實(shí)現(xiàn)對粵語、英語的識(shí)別支持,2014年以來陸續(xù)發(fā)布了對河南話、四川話、東北話等方言的識(shí)別。江濤透漏今年還會(huì)陸續(xù)發(fā)布湖南話、山東話、武漢話、合肥話、閩南話的方言識(shí)別。除了口音之外,語速、講話模式等也會(huì)對語音識(shí)別帶來不同挑戰(zhàn),比如演講與開會(huì)的語音識(shí)別的識(shí)別算法和模型都不一樣。“今年年底科大訊飛將推出一個(gè)產(chǎn)品實(shí)現(xiàn)普通話開會(huì)過程中,將語音轉(zhuǎn)變?yōu)槲淖郑R(shí)別率很高。”江濤透露。而在第四象限,即環(huán)境又不好、發(fā)音又不好的情況是世界性的難題,很難有誰能攻克。
各展所長開放競合
隨著谷歌、微軟、IBM等IT巨頭加快對智能語音領(lǐng)域的布局,以及Nuance在中國的本土化不斷加強(qiáng),國內(nèi)語音企業(yè)將面臨越來越大的競爭壓力。相較于Nuance等國際巨頭,國內(nèi)語音企業(yè)在研發(fā)力量、創(chuàng)新能力、集成應(yīng)用、行業(yè)應(yīng)用拓展等方面還有不小差距。國內(nèi)語音企業(yè)間的合作、并購、整合步伐也相對要緩慢一些。
對于國內(nèi)語音企業(yè)的發(fā)展,作為行業(yè)專家李德升在接受記者采訪時(shí)給出了他的見解和建議。他認(rèn)為,在傳統(tǒng)語音技術(shù)廠商中,科大訊飛的實(shí)力有目共睹,而捷通華聲的語音合成在鐵路交通、金融電信等領(lǐng)域也有較高的市場占有率,很多高鐵、公交站等的報(bào)站語音是捷通華聲做的。對于這類廠商,李德升給出的建議是得專注于語音,引入互聯(lián)網(wǎng)思維,真正做大做強(qiáng)。對于百度、騰訊、搜狗等互聯(lián)網(wǎng)廠商做語音,李德升認(rèn)為他們具有最豐富的互聯(lián)網(wǎng)語音資源,更重要的是他們有技術(shù)實(shí)力、有用戶、有互聯(lián)網(wǎng)思維,這些廠商最有可能可以和國外競爭者一較高下。而對于第三類語音創(chuàng)業(yè)企業(yè),李德升的建議是讓他們盡量采取合作方式,與互聯(lián)網(wǎng)廠商合作,專注于特定行業(yè)領(lǐng)域積累實(shí)力,既不能小富即安,更不能貪高大上,只要積極進(jìn)取,踏實(shí)經(jīng)營,還是有非常大的成長空間的。
已于2013年向開發(fā)者開放語音生態(tài)系統(tǒng)的百度語音在語音領(lǐng)域也備受關(guān)注,但百度以采訪審批比較難為由拒絕了記者的面訪邀約,只文字回復(fù):在深度學(xué)習(xí)技術(shù)的驅(qū)動(dòng)下,百度在各方面都取得了長足的進(jìn)步,可謂影響深遠(yuǎn)。語音技術(shù)方面,相對錯(cuò)誤率降低了25%以上,移動(dòng)搜索中文語音識(shí)別率突破了90%;圖像技術(shù)方面,人臉識(shí)別技術(shù)世界領(lǐng)先,同時(shí)快速推出了世界上首個(gè)全網(wǎng)人臉?biāo)阉饕?;在相似圖像搜索方面,效果遠(yuǎn)遠(yuǎn)超過了國際上搜索引擎同類產(chǎn)品。
“其實(shí),以蘋果為代表的軟硬件一體化廠商做語音是為了賣硬件產(chǎn)品,互聯(lián)網(wǎng)廠商大多是從幫助用戶搜索的角度做語音,相對于創(chuàng)業(yè)型的語音企業(yè),科大訊飛的優(yōu)勢就在于語音的寬度和厚度積累,優(yōu)勢就在于多年來對語音識(shí)別、語音合成、語音評測與語義理解各方面立體的投入和研究,目前擁有全方位立體的語音技術(shù)產(chǎn)品。”江濤說,在語音推廣方面,科大訊飛堅(jiān)持兩條腿走路:一是堅(jiān)持移動(dòng)互聯(lián)網(wǎng)能力開發(fā),一是通信、教育和安全等重點(diǎn)行業(yè)推進(jìn)。移動(dòng)互聯(lián)網(wǎng)能力未來會(huì)逐步拓展的三駕馬車:手機(jī)、汽車和智能電視。目前科大訊飛手機(jī)語音已經(jīng)有四億的用戶,每天活躍用戶達(dá)四千多萬。在教育領(lǐng)域,科大訊飛的語音合成、語音評測在廣東高考英語口語考試,西部中小學(xué)的英語教具和日常教學(xué)中已經(jīng)發(fā)揮很大價(jià)值;而在安全領(lǐng)域,公安部第一個(gè)跟企業(yè)合辦的部級重點(diǎn)實(shí)驗(yàn)室——公安部聲紋實(shí)驗(yàn)室就設(shè)在科大訊飛。
但江濤也坦言,相較于百度等互聯(lián)網(wǎng)巨頭做語音,傳統(tǒng)語音技術(shù)廠商確實(shí)存在一些劣勢,“在整個(gè)大的開發(fā)平臺(tái)、云存儲(chǔ)、位置服務(wù)和構(gòu)建整個(gè)生態(tài)系統(tǒng)方面,互聯(lián)網(wǎng)公司確實(shí)值得我們多學(xué)習(xí)。對于訊飛來說,還是要專心做好自己專長,聚焦在語音和語義方面,真正把對開發(fā)者的服務(wù)做好,基于語音和語義構(gòu)建生態(tài)系統(tǒng),嘗試推廣人機(jī)交互廣告等?!?/p>
“互聯(lián)網(wǎng)巨頭要擁有語音這個(gè)技術(shù),不被別人卡住喉嚨,但他們有自己的主業(yè),不會(huì)放太多精力在語音?!睆堖B毅如此判斷,“語音技術(shù)廠商只要做好自己的技術(shù)和產(chǎn)品,以開放合作的心態(tài)就能獲得良好的發(fā)展。”除了夯實(shí)智能語音市場,捷通華聲更要做的實(shí)現(xiàn)是包括智能語音、圖像識(shí)別(OCR)、生物特征識(shí)別在內(nèi)的全方位的人機(jī)智能交互。
說到產(chǎn)業(yè)中與其他廠商的競爭,云知聲并不擔(dān)心。黃偉認(rèn)為,智能語音交互技術(shù)近幾年的發(fā)展可以用“兩條主線+若干分支”來描述。干凈環(huán)境下朗讀語音的識(shí)別早已不是問題,近幾年語音識(shí)別技術(shù)在特殊場景下得到大幅提高,使得語音技術(shù)的應(yīng)用范圍大幅拓寬。語音交互的應(yīng)用場景大大拓展,未來語音市場未來潛力巨大。語音這個(gè)市場足夠大,找準(zhǔn)各自細(xì)分的目標(biāo)市場,只要各自做得好,都能分到自己那杯羹,生存發(fā)展的機(jī)會(huì)很大。云知聲除了做金融等行業(yè)應(yīng)用推廣,主要聚焦在視頻和車載領(lǐng)域。而對于全智能交互,云知聲的策略是連橫——聯(lián)合多家創(chuàng)業(yè)公司,包括語義理解技術(shù)公司哦啦、圖像識(shí)別技術(shù)公司亮風(fēng)臺(tái)、人臉識(shí)別技術(shù)公司Face++成立了全智能交互聯(lián)盟,將語音、圖像、人臉交互方案打包,期待不同的交互技術(shù)發(fā)生化學(xué)反應(yīng),用做乘法代替做加法,為用戶打造最佳的全智能交互體驗(yàn)。除此之外,云知聲仍將專注于云(移動(dòng)應(yīng)用、呼叫中心、在線教育)、端(智能終端包括智能家電、可穿戴設(shè)別、智能車載等)、芯(智能芯片)領(lǐng)域的智能語音推廣與應(yīng)用。
的確,這是一個(gè)蓬勃向上的時(shí)代,也是一個(gè)不進(jìn)則退的時(shí)代。中國語音技術(shù)企業(yè)只要抱定“以針破天”的信念,專注堅(jiān)持,踏實(shí)積累,把握機(jī)遇,就能鯤鵬擊浪,展翅怒飛,扶搖直上九萬里。加油吧,中國智能語音。endprint