• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      磨礪以須,深挖語音數(shù)據(jù)寶藏

      2016-06-30 12:11:54
      科技創(chuàng)新與品牌 2016年6期
      關(guān)鍵詞:海量語音

      文/高妍 孫繼文

      時至今日,讓機(jī)器“聽話”,已經(jīng)不是什么新鮮事了。在不少場景下,動口替代了動手。

      用語音控制手機(jī),可以完成編輯短信、打電話、查詢交通、指揮導(dǎo)航等指令;對電視說話,電視就能完成開關(guān)機(jī)、轉(zhuǎn)臺、調(diào)節(jié)音量亮度,甚至發(fā)送彈幕等任務(wù)……類似的還有,在行駛中對汽車下命令:幫我打電話給XX;躺在床上對空調(diào)說:把溫度調(diào)到26度;以及教會小朋友用語音控制手表學(xué)英語、查天氣、定鬧鐘等等。

      語音識別技術(shù),幫我們實現(xiàn)了這些曾經(jīng)只能出現(xiàn)在科幻片中的智能化應(yīng)用。于是,人們開始有更高的期待:人與機(jī)器自由交流,是否也可以在不遠(yuǎn)的將來實現(xiàn)?

      對此,清華大學(xué)電子工程系長聘副教授吳及在接受本刊采訪時表示,讓機(jī)器“聽話”,只是一個單向的過程,而人機(jī)交互則是雙向的,甚至可以是多人參與。這需要機(jī)器不僅聽到、識別語音,更重要的要理解語音及交互時所處的場景、所蘊含的背景知識和經(jīng)驗。從聽見到聽懂再到自由交流,并不像人們想象的那么簡單。

      吳及,清華大學(xué)電子工程系長聘副教授,長期從事語音識別技術(shù)研究、系統(tǒng)開發(fā)及產(chǎn)業(yè)化推廣工作,在20余年的積累和堅守后,迎來了語音識別產(chǎn)業(yè)發(fā)展的春天。

      一項看上去簡單的研究

      語言是人類交流中最自然、最重要的方式。它的普遍易見,影響了人們的認(rèn)知——說話那么簡單,讓機(jī)器學(xué)會說話肯定也不難。恰恰相反,吳及說,語音識別是一項看上去很簡單,但實現(xiàn)起來很難的技術(shù)。

      早期的人工智能先驅(qū)也曾被誤導(dǎo)?!懊慨?dāng)出現(xiàn)一些新的進(jìn)步,就會積累起學(xué)界、工業(yè)界和普通百姓的高期望,從而形成熱潮,但當(dāng)做出來的東西不能滿足大家的要求時,期望就會變?yōu)槭?,整個行業(yè)也會從頂峰滑落,形成低谷?!卑l(fā)端于上世紀(jì)50年代的語音識別技術(shù),就曾在70年代和90年代形成熱潮,但都很快滑落低谷。

      吳及開始語音識別技術(shù)研究是在1995年,當(dāng)時的語音識別技術(shù)研究正處于低谷,不溫不火。

      那一年,吳及完成了清華大學(xué)電子工程系的本科課程,因為“想做創(chuàng)新性更強(qiáng)、更有意思的工作,所以選擇了語音識別作為研究生階段的主攻方向”,從此成為清華大學(xué)電子工程系語音識別實驗室的一員新兵。

      吳及的起點很高。這個由王作英教授創(chuàng)建于1987年的實驗室,從孤立字、連接詞到連續(xù)語音,一步步積累和發(fā)展,一直是國內(nèi)語音識別領(lǐng)域最有影響的研究團(tuán)隊之一。

      因為技術(shù)門檻高,進(jìn)展緩慢,語音識別被譽為智能語音行業(yè)的“皇冠”。吳及介紹,語音識別研究的難點主要在兩個層面,一是語音,二是語言。

      “從語音層面來講,人對聲音有很強(qiáng)的區(qū)分能力,能一下子分辨出是有意義的聲音還是噪聲;在很多人說話的時候,能準(zhǔn)確聚焦自己所關(guān)心的人的聲音。這些對人來說再自然不過的事情,要機(jī)器實現(xiàn)非常困難?!眳羌敖忉專瑫r,人在用語音表達(dá)的時候,往往是碎片式的,存在很多不流利的現(xiàn)象,比如停頓、猶豫、重復(fù)等等;而且不同的人語速、口音差別可能會非常大。這些都給語音識別帶來了很高的技術(shù)難度。

      而在語言層面,則更加困難。因為交流是相互的,不止要聽見,還要聽懂,理解,并作出正確的反饋。但是,“在很多情況下,人和人的交流是建立在共同理解的前提下,大家擁有共同生活經(jīng)驗、知識背景,甚至閱歷?!彼?,吳及強(qiáng)調(diào),“理解語言,并不僅僅是理解直接表達(dá)出來的字句。從語音識別走向語言理解,我們還有很長的路要走?!?/p>

      這一次是真正的變革

      盡管技術(shù)門檻高,但近年,特別在2011年之后,語音識別技術(shù)卻迎來新一輪的熱潮,并取得了非常明顯的進(jìn)步。是真正的變革,還是又一輪泡沫?

      “我相信它是在峰頂,也不會再輕易掉到谷底。它會越來越平常,越來越多地進(jìn)入老百姓的生活。”吳及認(rèn)為,近年語音識別技術(shù)的蓬勃并非虛幻的泡沫堆積,而是有實實在在的技術(shù)和產(chǎn)業(yè)支撐——

      首先,移動互聯(lián)網(wǎng)的興起,為語音識別技術(shù)的應(yīng)用提供了前所未有的巨大空間。當(dāng)智能手機(jī)成為人們使用最頻繁的通訊工具和信息助手,人機(jī)交互的場景變得與以往不同。原來PC端的首選工具——鍵盤、輸入法,在手機(jī)端顯得很不方便,而在PC端仿佛錦上添花的語音識別,在手機(jī)端卻成為雪中送炭。當(dāng)需求非常迫切的時候,對差錯也就有了更高的容忍度,因此還稱不上完美的語音識別技術(shù)就得到了更大的應(yīng)用空間。

      其次,云計算和互聯(lián)網(wǎng)的發(fā)展,幫助語音識別的精度得到了極大提升。“云+端”的模式,使得對語音數(shù)據(jù)的識別可以在云端進(jìn)行,然后把識別結(jié)果傳到終端上。這意味著,一方面由于云端擁有更強(qiáng)的計算能力,所以能夠構(gòu)建更復(fù)雜的模型,實現(xiàn)更好的識別性能;另一方面云端可以利用實際的海量數(shù)據(jù)不斷更新和優(yōu)化識別模型,形成正反饋,不斷提升識別系統(tǒng)的性能。

      再次,從2011年開始,深度神經(jīng)網(wǎng)絡(luò)越來越廣泛地被應(yīng)用在語音識別的技術(shù)研究和系統(tǒng)實現(xiàn)中。長期以來,為了獲得更好的識別性能,高性能的語音識別系統(tǒng)的構(gòu)建和模型訓(xùn)練流程越來越復(fù)雜,繼續(xù)優(yōu)化十分困難。深度神經(jīng)網(wǎng)絡(luò)不僅擁有構(gòu)建極高復(fù)雜度模型的能力,能夠充分利用海量數(shù)據(jù)來實現(xiàn)模型優(yōu)化;還將傳統(tǒng)上特征提取和分類識別的任務(wù)聯(lián)合起來實現(xiàn)整體上的優(yōu)化。它的出現(xiàn),很大程度上改變了語音識別系統(tǒng)的構(gòu)建方式,為語音識別技術(shù)的研究提供了非常大的助力。

      這些條件的具備,幫助語音識別技術(shù)取得了顯著的進(jìn)步,這種進(jìn)步也折射到了應(yīng)用領(lǐng)域。而政府在智能語音技術(shù)研發(fā)及產(chǎn)業(yè)化方面的政策支持,更為語音產(chǎn)業(yè)發(fā)展創(chuàng)造了良好的發(fā)展環(huán)境。

      吳及介紹,智能語音技術(shù)應(yīng)用非常廣泛,不單包括前面提到的手機(jī)、電視、玩具、汽車等實時交互的場景,也覆蓋了正在興起的智能客服、主動營銷等智能語音服務(wù)??傮w而言可以分為在線的和離線的兩個方向。

      在線的語音識別應(yīng)用已經(jīng)開始融入人們的生活,比如用語音實現(xiàn)文字輸入、地圖導(dǎo)航,比如利用語音識別進(jìn)行人機(jī)對話,比如聲控機(jī)器人、飛機(jī)、汽車。這些都屬于在線應(yīng)用的范疇。

      離線應(yīng)用則是通過與大數(shù)據(jù)技術(shù)的結(jié)合,對海量語音數(shù)據(jù)進(jìn)行處理、挖掘和分析,開發(fā)和利用其中的價值。“語音數(shù)據(jù)是典型的非結(jié)構(gòu)化數(shù)據(jù),采用傳統(tǒng)的手段很難有效利用,而人工轉(zhuǎn)錄成本又過高?,F(xiàn)在有了語音識別技術(shù),我們就可以通過語音識別系統(tǒng)將其轉(zhuǎn)化成文字,在這個前提下,進(jìn)一步的數(shù)據(jù)檢索和分析,也就有了可能性?!?/p>

      吳及認(rèn)為,離線應(yīng)用空間同樣廣泛,有巨大的挖掘價值,一些企業(yè)級的服務(wù)應(yīng)用已經(jīng)開始。而他們,已經(jīng)在這方面取得了顯著的成果。

      搜索語音成為現(xiàn)實

      相信大家都有跟呼叫中心客服打交道的經(jīng)歷。移動、銀行、保險、電視廣播等都通過呼叫中心提供服務(wù),大量的呼叫中心每時每刻都在產(chǎn)生海量的語音數(shù)據(jù)。

      海量語音數(shù)據(jù)的背后,隱藏著無數(shù)客服坐席的高強(qiáng)度工作、企業(yè)的高成本運營以及海量數(shù)據(jù)的高難度管理。能否實現(xiàn)呼叫中心的高質(zhì)量服務(wù)和高效率管理,深入挖掘運營價值呢?

      在呼叫中心一對一的服務(wù)過程中,客服是否服務(wù)到位,除了客戶本人,無人知曉,哪怕錄音被保留。因為數(shù)據(jù)量非常之大,人工檢查由于時間和費用成本極為高昂而不具備可行性。因此對海量語音數(shù)據(jù)進(jìn)行檢索、分析具有很大價值,一方面可以監(jiān)控客服代表的服務(wù)質(zhì)量,優(yōu)化產(chǎn)品和服務(wù)模式;另一方面,通過語音識別和數(shù)據(jù)挖掘技術(shù),可以更全面地了解產(chǎn)品和服務(wù)的實際情況,深度挖掘客戶價值,從而幫助決策層和管理層進(jìn)行科學(xué)研判和趨勢預(yù)測。那么,有沒有辦法高效挖掘蘊藏在海量語音數(shù)據(jù)中的寶藏呢?

      在這樣的背景下,吳及帶領(lǐng)團(tuán)隊開展了“面向海量語音數(shù)據(jù)的識別、檢索和內(nèi)容分析技術(shù)及其應(yīng)用”項目,設(shè)計研發(fā)了應(yīng)用于呼叫中心的自動客服和語音分析整體解決方案,技術(shù)領(lǐng)先,效益顯著,獲得2014年度北京市科學(xué)技術(shù)獎一等獎。

      項目以具有海量語音數(shù)據(jù)和密集交互特性的呼叫中心作為應(yīng)用場景,通過一系列自主技術(shù)創(chuàng)新和系統(tǒng)創(chuàng)新,設(shè)計研發(fā)了應(yīng)用于呼叫中心的自動客服和語音分析整體解決方案。所實現(xiàn)的電話交談?wù)Z音識別正確率、語音檢索效率和用戶需求理解正確率等主要技術(shù)指標(biāo)均達(dá)到國際領(lǐng)先水平。

      這一項目的成功,意味著以大量錄音數(shù)據(jù)正確轉(zhuǎn)化為文字為前提的語音分析研究不再繁瑣不堪,意味著從大量錄音數(shù)據(jù)中自動快速找出指定關(guān)鍵字成為現(xiàn)實。

      項目開創(chuàng)了采用智能語音技術(shù)改造呼叫中心的行業(yè)新方向,得到市場高度認(rèn)可,在與國際廠商的競爭中處于領(lǐng)先地位。從2011年開始已經(jīng)成功進(jìn)入中國移動、中國聯(lián)通、中國電信、工商銀行、建設(shè)銀行、招商銀行、浦發(fā)銀行、中信銀行、華夏銀行、平安集團(tuán)、陽光財險、中國國航、攜程網(wǎng)等20余家主流企業(yè),創(chuàng)造了顯著的社會和經(jīng)濟(jì)效益。

      更為重要的,是該技術(shù)成果擁有廣泛的適應(yīng)性,能夠為公共安全、政府工作等需要對信息資源進(jìn)行深入開發(fā)利用的領(lǐng)域提供便利。“我們一直都在繼續(xù)研究,后面還有很多工作可以做。我們考慮在更多場景下做語音分析,努力實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的融合分析,希望能夠更大的拓展商業(yè)智能的應(yīng)用場景。”

      產(chǎn)學(xué)研聯(lián)動助力產(chǎn)業(yè)發(fā)展

      現(xiàn)階段,語音識別仍有許多難題有待于進(jìn)一步研究,比如噪聲的問題、方言的問題,比如多人對話情況下鎖定、提取某個特定人聲音的問題等等。

      但這些,并不妨礙語音識別產(chǎn)業(yè)的迅猛發(fā)展。同時,伴隨著這種發(fā)展,越來越多的人意識到,這個產(chǎn)業(yè)的發(fā)展不只是語音識別自己的事情?!罢Z音識別必然要和后面的語言理解建立起關(guān)系,如果沒有理解,只把聲音轉(zhuǎn)成文字,意義并不大?!?/p>

      吳及認(rèn)為:“更重要的,是我們不能停留在識別本身,而是怎么去理解。我們理解一件事,不僅在語言本身,更要與很多應(yīng)用場景、知識積累緊密聯(lián)系?!薄按蟾旁?008年,我們意識到這個問題,開始有意識地向更寬的方向延伸?!?/p>

      于是,2009年,實驗室更名為多媒體信號與智能信息處理實驗室,意味著將面向多媒體信號,針對其中所蘊含的內(nèi)容,采用包括統(tǒng)計模式識別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等海量數(shù)據(jù)處理技術(shù),研究數(shù)據(jù)和信息的認(rèn)知、理解、以及有效管理和利用。

      同時,在智能語音進(jìn)入產(chǎn)業(yè)化層面之后,技術(shù)不再是唯一要面對的問題,無論產(chǎn)品還是市場,都需要整個產(chǎn)業(yè)上下游的聯(lián)動,需要國家從更宏觀的層面加以規(guī)范指導(dǎo)。

      作為國家戰(zhàn)略性新興產(chǎn)業(yè),智能語音產(chǎn)業(yè)是我國信息產(chǎn)業(yè)中為數(shù)不多掌握自主知識產(chǎn)權(quán)并處于國際領(lǐng)先水平的領(lǐng)域。“每一行代碼都掌握在中國人自己手里,系統(tǒng)也都是獨立自主不依賴別人的。”正因如此,這一產(chǎn)業(yè)才迅速凝聚了各個層面的力量。

      而吳及和實驗室,也一直在科研之外的更多層面發(fā)力,以推動整個語音產(chǎn)業(yè)的進(jìn)步。

      2004年起,吳及擔(dān)任工信部語音標(biāo)準(zhǔn)工作組成員,以行業(yè)專家的身份參與標(biāo)準(zhǔn)制定工作。

      2006年,吳及參與創(chuàng)建的清華—訊飛語音技術(shù)聯(lián)合實驗室成立,并一直擔(dān)任主任。

      2012年,中國語音產(chǎn)業(yè)聯(lián)盟正式成立,吳及擔(dān)任技術(shù)工作組組長。

      聯(lián)合實驗室的成立,打通了核心技術(shù)研發(fā)、產(chǎn)品研發(fā)、產(chǎn)品轉(zhuǎn)化和市場推廣的產(chǎn)業(yè)鏈條,實現(xiàn)了良性的產(chǎn)學(xué)研循環(huán)。吳及介紹,成立至今,聯(lián)合實驗室的研究方向已經(jīng)從最初的語音識別拓展到音頻內(nèi)容分析、語音檢索、語言理解、數(shù)據(jù)挖掘等方向,研究成果已廣泛應(yīng)用于語音芯片、客服質(zhì)檢、短信導(dǎo)航、信息監(jiān)控等領(lǐng)域,為社會信息服務(wù)、國家公共安全等作出了重要貢獻(xiàn),有力推動了我國語音產(chǎn)業(yè)的發(fā)展。

      中國語音產(chǎn)業(yè)聯(lián)盟的成立,則有應(yīng)運而生的意味。2008年開始,移動互聯(lián)網(wǎng)逐步興起,2010年科大訊飛發(fā)布第一代語音云,2011年蘋果推出語音助手siri,智能語音產(chǎn)業(yè)熱潮初現(xiàn)端倪,國內(nèi)越來越多的研究人員和企業(yè)看到了語音產(chǎn)業(yè)的重要性和光明前景。因此,中國語音產(chǎn)業(yè)聯(lián)盟的19家發(fā)起單位中,不僅包括了清華、科大等語音技術(shù)研究機(jī)構(gòu)和核心技術(shù)提供商科大訊飛,還包括了聯(lián)想、華為、中國移動、中國聯(lián)通、中國電信、長虹、創(chuàng)維、上海汽車等下游企業(yè)?!斑@種更大范圍的產(chǎn)學(xué)研聯(lián)合、聯(lián)動,更有利于整合產(chǎn)業(yè)鏈上下游企業(yè)資源、加強(qiáng)產(chǎn)學(xué)研用合作、推動語音技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展。”

      幾年過去了,聯(lián)盟的影響力也越來越大,發(fā)布白皮書、領(lǐng)導(dǎo)制定標(biāo)準(zhǔn)、爭取政策支持、加強(qiáng)國際交流……聯(lián)盟一直站在更高的角度、從更宏觀的層面助力中國智能語音產(chǎn)業(yè)的發(fā)展。

      浪潮涌動下,資本界的追捧也不可避免地帶來了泡沫。“適度的泡沫很多時候是需要的,沒有泡沫就吸引不了人、吸引不了資金,但要把泡沫吹太大了,早晚有一天會破掉。”吳及強(qiáng)調(diào),語音識別技術(shù)和產(chǎn)業(yè)確實取得了十分顯著的突破和發(fā)展,但同樣的,我們也應(yīng)該正視現(xiàn)在和未來將要面臨的難解之題。正如有人所說的,“盡管已經(jīng)成績斐然,但剩下的難題和已經(jīng)克服的一樣令人生畏?!?/p>

      與其追逐潮流與資本,不如將精力投注在核心技術(shù)的提升上?,F(xiàn)階段,吳及更加專注技術(shù),正如過去20年他們所堅持的。他們研究利用深度神經(jīng)網(wǎng)絡(luò)來解決資源有限情況下的語音識別(比如小語種)問題;他們拓寬角度,開展音頻事件檢測,做場景分析;他們攻關(guān)多人交互模型,努力讓機(jī)器“聽懂話、能交流”……

      他們在朝著更多的未知走去,那里存在潛在的風(fēng)險,也同樣蘊含著無限的可能。沒有人能準(zhǔn)確預(yù)測何時才能實現(xiàn)真正的人機(jī)自由交流,但可以非常確定的是,語音識別和人機(jī)交互技術(shù)將無限縮小人類與機(jī)器之間的隔閡。

      猜你喜歡
      海量語音
      一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
      構(gòu)建高速海量視頻智慧云聯(lián)網(wǎng)平臺
      第二語言語音習(xí)得中的誤讀
      活力(2019年19期)2020-01-06 07:37:26
      魔力語音
      海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      一個圖形所蘊含的“海量”巧題
      一種海量衛(wèi)星導(dǎo)航軌跡點地圖匹配方法
      翁源县| 大荔县| 嵩明县| 临高县| 邢台市| 杂多县| 岫岩| 林口县| 南和县| 孙吴县| 安多县| 临海市| 德格县| 达孜县| 安达市| 廉江市| 蓝田县| 建始县| 云霄县| 新余市| 江都市| 收藏| 石楼县| 天祝| 浦县| 永春县| 翼城县| 景东| 湛江市| 韶关市| 拉萨市| 嵊泗县| 新绛县| 镇康县| 博客| 南陵县| 福贡县| 泗洪县| 兴海县| 陈巴尔虎旗| 西安市|