程鳴 何永春
摘 要:隨著智能化、大數(shù)據(jù)時(shí)代的到來,人工智能行業(yè)展現(xiàn)出蓬勃生機(jī)。作為智能化行業(yè)的前端領(lǐng)域之一,智能語音技術(shù)不斷成熟,在人們的生活中發(fā)揮越來越重要的作用,全球智能語音產(chǎn)業(yè)得到快速發(fā)展。雖然智能語音產(chǎn)業(yè)取得了突破性進(jìn)展,但依然面臨著底層技術(shù)難以互聯(lián)互通、產(chǎn)品與服務(wù)良莠不齊,產(chǎn)業(yè)規(guī)模亟待擴(kuò)張等問題。為規(guī)范智能語音技術(shù)和產(chǎn)品的發(fā)展與應(yīng)用,亟需建立一套完整的智能語音標(biāo)準(zhǔn)體系,指導(dǎo)智能語音相關(guān)技術(shù)標(biāo)準(zhǔn)的研發(fā),為我國智能語音產(chǎn)業(yè)高質(zhì)量發(fā)展提供標(biāo)準(zhǔn)支撐。
關(guān)鍵詞:智能語音,標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)體系,框架
DOI編碼:10.3969/j.issn.1002-5944.2023.10.013
Research on the Standards System Framework of Intelligent Voice
CHENG Ming HE Yongchun
(ifl ytek Co., Ltd.)
Abstract: As the era of intelligence and big data is coming, the artifi cial intelligence industry has displayed vigorous vitality. As one of the front-end fi elds of the intelligence industry, intelligent voice technology is continuously maturing, playing an increasingly important role in peoples lives and bringing fast development to the global intelligent voice industry. Although the intelligent voice industry has seen breakthrough progress, it still faces problems such as the diffi culty of interconnection in underlying technologies, uneven products and services, and the urgent need for industry scale expansion. In order to regulate the development and application of intelligent voice technology and products, it is urgent to establish a complete intelligent voice standards system, and guide the research and development of related technical standards, thus providing standards support for the high-quality development of Chinas intelligent voice industry.
Keywords: intelligent voice, standardization, standards system, framework
0 引 言
人工智能是經(jīng)濟(jì)發(fā)展的新引擎,并已成為全球競爭的焦點(diǎn),上升至各國戰(zhàn)略層面。在此背景下,人工智能產(chǎn)業(yè)得到快速發(fā)展,市場規(guī)模持續(xù)擴(kuò)大、技術(shù)不斷突破、應(yīng)用場景多元化發(fā)展。其中,智能語音作為人工智能領(lǐng)域的重要入口引起各國重視,并迎來新的發(fā)展機(jī)遇。在技術(shù)助推、應(yīng)用加速背景下,全球智能語音產(chǎn)業(yè)呈規(guī)?;l(fā)展趨勢,我國智能語音產(chǎn)業(yè)也進(jìn)入新的發(fā)展階段。作為新一代人工智能的重要落地技術(shù),在制造、物流、金融、交通、農(nóng)業(yè)、營銷、通信、科研和教育、醫(yī)療、法律、個(gè)人服務(wù)等領(lǐng)域發(fā)展前景廣闊。隨著智能語音技術(shù)日益發(fā)展,越來越多的互聯(lián)網(wǎng)巨頭和傳統(tǒng)終端制造廠商以及初創(chuàng)公司進(jìn)軍智能語音領(lǐng)域,新產(chǎn)品、新技術(shù)不斷涌現(xiàn),智能語音產(chǎn)業(yè)進(jìn)入快速發(fā)展階段。智能語音產(chǎn)業(yè)發(fā)展雖取得了突破性進(jìn)展,但依然面臨著底層技術(shù)難以互聯(lián)互通、產(chǎn)品與服務(wù)良莠不齊、產(chǎn)業(yè)規(guī)模亟待擴(kuò)張等問題,迫切需要加強(qiáng)智能語音標(biāo)準(zhǔn)化工作。為規(guī)范智能語音技術(shù)和產(chǎn)品的發(fā)展與應(yīng)用,亟需建立一套完整、科學(xué)、可行的智能語音標(biāo)準(zhǔn)體系,指導(dǎo)智能語音相關(guān)技術(shù)標(biāo)準(zhǔn)的研發(fā),為我國智能語音產(chǎn)業(yè)高質(zhì)量發(fā)展提供標(biāo)準(zhǔn)支撐。
本文以構(gòu)建智能語音標(biāo)準(zhǔn)體系框架為目標(biāo),研究了國內(nèi)外智能語音產(chǎn)業(yè)發(fā)展和標(biāo)準(zhǔn)化現(xiàn)狀,提出了智能語音標(biāo)準(zhǔn)體系結(jié)構(gòu)和框架,明確了后續(xù)標(biāo)準(zhǔn)研制的方向和重點(diǎn)。
1 國內(nèi)外智能語音產(chǎn)業(yè)發(fā)展現(xiàn)狀
當(dāng)前,人工智能技術(shù)迎來加速發(fā)展,智能語音作為人工智能三大核心技術(shù)之一,是人工智能的重要入口,是最早落地的人工智能技術(shù)。最初的智能語音技術(shù)源于人類對語音識別技術(shù)的探索。1952年,世界上第一個(gè)語音識別系統(tǒng)Audry誕生。20世紀(jì)80年代,全球智能語音行業(yè)邁入技術(shù)突破階段;1984年,計(jì)算機(jī)第一次開口說話;1988年,Sphinx系統(tǒng)首個(gè)非特定人、連續(xù)語音識別系統(tǒng)誕生。20世紀(jì)90年代至21世紀(jì)初,全球智能語音進(jìn)入產(chǎn)業(yè)化階段;1997年,Viaboice系統(tǒng)發(fā)布;2002年,EAR項(xiàng)目實(shí)施;2009年,Windows7集成語音功能發(fā)布。2010年至2016年,全球智能語音進(jìn)入快速應(yīng)用階段;2011年,蘋果推出Siri語音助手,迅速帶動整個(gè)行業(yè)興起,微軟、谷歌、百度、科大訊飛等相繼推出自身語音助手應(yīng)用;2014、2015年,Google Android和Apple Watch發(fā)布將可穿戴設(shè)備市場推向高潮,市場教育完成;同年,美的、海爾等傳統(tǒng)家電廠商開始聯(lián)網(wǎng),與阿里、小米等互聯(lián)網(wǎng)廠商開始跨界合作,智能家居成為行業(yè)發(fā)展趨勢;2016年汽車智能化興起,專為車設(shè)計(jì)的芯片落地,推動車聯(lián)網(wǎng)市場迅速發(fā)展。自2017年起,隨著語音識別性能的提升和市場教育的完成,基于語音交互的垂直場景應(yīng)用將日益成熟,全球智能語音產(chǎn)業(yè)邁入產(chǎn)業(yè)高速發(fā)展階段,行業(yè)開始規(guī)?;罡l(fā)展。
得益于人工智能技術(shù)的成熟發(fā)展,全球智能語音產(chǎn)業(yè)經(jīng)過60余年發(fā)展邁入規(guī)?;罡?。越來越多的企業(yè)和消費(fèi)者依賴于嵌入到人工智能驅(qū)動的應(yīng)用程序、平臺和設(shè)備中的智能語音產(chǎn)品,2021年,全球智能語音產(chǎn)業(yè)規(guī)模繼續(xù)擴(kuò)大,全球智能語音產(chǎn)業(yè)規(guī)模約為263.8億美元,近年來,我國智能語音及人工智能產(chǎn)業(yè)迎來了爆發(fā)式增長。近年來,智醫(yī)助理、電話隨訪、空中課堂、虛擬會議、虛擬主播等智能語音應(yīng)用不斷興起,助力疫情防控的同時(shí),也為智能語音產(chǎn)業(yè)催生了新消費(fèi)、新應(yīng)用、新市場。根據(jù)相關(guān)數(shù)據(jù)統(tǒng)計(jì),2021年,我國智能語音市場達(dá)到288億元,同比增長32.8%[1]。我國智能語音產(chǎn)業(yè)已成為帶動人工智能行業(yè)發(fā)展的重要力量。(數(shù)據(jù)來源:《中國智能語音產(chǎn)業(yè)發(fā)展報(bào)告(2021-2022)》)
2 國內(nèi)外智能語音標(biāo)準(zhǔn)化研究現(xiàn)狀
2.1 國際標(biāo)準(zhǔn)化
目前,與智能語音相關(guān)的國際標(biāo)準(zhǔn)化組織包括:ISO/IEC JTC 1/SC 35(國際標(biāo)準(zhǔn)化組織和國際電工委員會第一聯(lián)合技術(shù)委員會用戶界面分技術(shù)委員會);ISO/IEC JTC 1/SC 42(國際標(biāo)準(zhǔn)化組織和國際電工委員會第一聯(lián)合技術(shù)委員會人工智能分技術(shù)委員會)和ITU-T/SG 16(國際電信聯(lián)盟多媒體編碼、系統(tǒng)與應(yīng)用工作組)。目前已發(fā)布和在研的智能語音國際標(biāo)準(zhǔn)詳見表1。
2.2 國內(nèi)標(biāo)準(zhǔn)化
2.2.1 全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會
全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(SAC/TC 28)對口國際標(biāo)準(zhǔn)化組織ISO/IEC JTC 1 工作,其中下設(shè)的用戶界面分技術(shù)委員會(SAC/TC 28/SC 35)和人工智能分技術(shù)委員會(SAC/TC 28/SC 42)負(fù)責(zé)相關(guān)的人機(jī)交互、生物特征識別、智能語音等相關(guān)標(biāo)準(zhǔn)的研制工作[2]。
2.2.2 全國音頻、視頻及多媒體系統(tǒng)與設(shè)備標(biāo)準(zhǔn)化技術(shù)委員會
全國音頻、視頻及多媒體系統(tǒng)與設(shè)備標(biāo)準(zhǔn)化技術(shù)委員會(SAC/TC 242)主要負(fù)責(zé)全國音視頻及多媒體技術(shù)專業(yè)領(lǐng)域標(biāo)準(zhǔn)化工作。已經(jīng)發(fā)布和正在開展《智能電視語音識別通用技術(shù)要求》《智能電視語音識別測試方法》《智能錄音設(shè)備通用技術(shù)規(guī)范》《智能電視交互應(yīng)用接口技術(shù)要求》等相關(guān)國家、行業(yè)標(biāo)準(zhǔn)的研制工作(見表2)。
3 智能語音標(biāo)準(zhǔn)體系構(gòu)建
智能語音標(biāo)準(zhǔn)涉及對象、范圍廣泛,針對性、實(shí)用性強(qiáng)。為了保證智能語音標(biāo)準(zhǔn)的研制工作有序推進(jìn)、相互協(xié)調(diào),需要設(shè)計(jì)標(biāo)準(zhǔn)體系框架,保證其層次結(jié)構(gòu)和指導(dǎo)關(guān)系有序、合理。在對智能語音重點(diǎn)標(biāo)準(zhǔn)化領(lǐng)域進(jìn)行深入研究分析的基礎(chǔ)上,提出了智能語音標(biāo)準(zhǔn)體系結(jié)構(gòu)和框架。
如圖1所示,以語音交互產(chǎn)品實(shí)現(xiàn)過程涉及的關(guān)鍵要素和相互關(guān)系為依據(jù),將智能語音標(biāo)準(zhǔn)體系分成七大類標(biāo)準(zhǔn):A基礎(chǔ)管理標(biāo)準(zhǔn)、B資源標(biāo)準(zhǔn)、C技術(shù)標(biāo)準(zhǔn)、D接口標(biāo)準(zhǔn)、E應(yīng)用標(biāo)準(zhǔn)、F測評標(biāo)準(zhǔn)和G安全標(biāo)準(zhǔn)[3]。
從層次關(guān)系來說,基礎(chǔ)管理類標(biāo)準(zhǔn)是其他六類標(biāo)準(zhǔn)的底層支撐性標(biāo)準(zhǔn),其上一級依次是技術(shù)標(biāo)準(zhǔn)、接口標(biāo)準(zhǔn)和應(yīng)用標(biāo)準(zhǔn),在接口和應(yīng)用層面均涉及到安全方面的相關(guān)標(biāo)準(zhǔn),在技術(shù)、接口和應(yīng)用三個(gè)層面均涉及到資源方面的相關(guān)標(biāo)準(zhǔn),在技術(shù)、接口、應(yīng)用、資源、安全五個(gè)層面均涉及到測評標(biāo)準(zhǔn)(見圖2)。
4 智能語音標(biāo)準(zhǔn)體系內(nèi)容
4.1 基礎(chǔ)管理標(biāo)準(zhǔn)子體系
該類標(biāo)準(zhǔn)具有指導(dǎo)性和全局性的作用。主要制定行業(yè)通用的基礎(chǔ)標(biāo)準(zhǔn)和產(chǎn)品實(shí)現(xiàn)中的底層應(yīng)用標(biāo)準(zhǔn),如基本術(shù)語、分類、參考架構(gòu)、標(biāo)準(zhǔn)體系、方法指南等。該類標(biāo)準(zhǔn)面向各種類型的智能語音交互技術(shù)和產(chǎn)品。
4.2 資源標(biāo)準(zhǔn)子體系
該類標(biāo)準(zhǔn)主要針對的是智能語音交互領(lǐng)域的相關(guān)資源庫。針對語音語料庫的標(biāo)準(zhǔn)可細(xì)分為識別、合成、理解與評測等。
4.3 技術(shù)標(biāo)準(zhǔn)子體系
該類標(biāo)準(zhǔn)主要圍繞語音合成、語音識別、語音評測、語義理解、OCR、認(rèn)知智能等多種領(lǐng)域制定相關(guān)的技術(shù)規(guī)范。
4.4 接口標(biāo)準(zhǔn)子體系
該類標(biāo)準(zhǔn)主要是圍繞智能語音交互在互聯(lián)網(wǎng)等服務(wù)端、客戶端等的集成接口或協(xié)議制定相關(guān)標(biāo)準(zhǔn)。
4.5 應(yīng)用標(biāo)準(zhǔn)子體系
該類標(biāo)準(zhǔn)圍繞的是智能語音交互技術(shù)在相關(guān)行業(yè)領(lǐng)域廣泛應(yīng)用所形成的技術(shù)規(guī)范。劃分的依據(jù)主要是智能語音交互的典型應(yīng)用場景(環(huán)境)和對象特點(diǎn),主要包括智能家居、智能客服、移動終端、汽車電子(智能車載)、工業(yè)智能、虛擬形象、智慧教育、智慧醫(yī)療等。
4.5.1 通用
為智能語音交互技術(shù)在智能家居、智能客服、移動終端、車載終端等應(yīng)用領(lǐng)域和場景提供基礎(chǔ)性、通用性、綱領(lǐng)性指導(dǎo),統(tǒng)一和規(guī)范智能語音交互技術(shù)和應(yīng)用的術(shù)語、能力、方法等方面的內(nèi)涵,減少各標(biāo)準(zhǔn)之間內(nèi)容的重復(fù)和沖突。
4.5.2 智能家居
主要涉及家庭環(huán)境下應(yīng)用智能語音交互技術(shù)的家用電器、電腦、通訊設(shè)備、安防設(shè)備等。
4.5.3 智能客服
促使傳統(tǒng)以人工服務(wù)為主要特征的客服形態(tài)不斷向自動化、智能化、人性化等方向衍進(jìn);也包含客服機(jī)器人,它可以向最終用戶提供完全基于自然語音的交互式的自助式服務(wù)。
4.5.4 移動終端
主要涉及近距離、可手持場景下的移動終端。
4.5.5 汽車電子
主要是在汽車環(huán)境下能夠獨(dú)立使用的電子裝置,包括汽車信息系統(tǒng)、導(dǎo)航系統(tǒng)、汽車音響及電視娛樂系統(tǒng)、車載通信系統(tǒng)等,在這些功能交互上,都可用智能語音技術(shù)進(jìn)行交互。
4.5.6 工業(yè)智能
可圍繞工業(yè)生產(chǎn)制造場景推出聲紋質(zhì)檢方案,通過聽“聲”智能識別工業(yè)品質(zhì)檢缺陷,可應(yīng)用于家電行業(yè)(洗衣機(jī)、空調(diào)、吸塵器)、汽車配件行業(yè)(天窗、空調(diào)、驅(qū)動橋箱)、機(jī)械行業(yè)(電動機(jī))等多個(gè)行業(yè)的產(chǎn)品噪聲質(zhì)檢環(huán)節(jié)。
4.5.7 虛擬形象
推動虛擬主播、動畫手語廣泛應(yīng)用于新聞播報(bào)、天氣預(yù)報(bào)、綜藝科教等節(jié)目生產(chǎn),創(chuàng)新節(jié)目形態(tài),提高制播效率和智能化水平,同時(shí)智能語音交互也逐漸向多模態(tài)智能交互升級,具有多模感知、多模表達(dá)等特點(diǎn)。
4.5.8 智慧教育
可通過多模態(tài)識別采集課堂學(xué)情信息并做數(shù)據(jù)精準(zhǔn)分析:如通過語音轉(zhuǎn)錄、語音識別等技術(shù)實(shí)現(xiàn)授課語音轉(zhuǎn)錄為文字,利用多模態(tài)識別進(jìn)行課堂質(zhì)量監(jiān)測等;還可應(yīng)用于線上口語測評、虛擬教師等領(lǐng)域的應(yīng)用及平臺的發(fā)展。
4.5.9 智慧醫(yī)療
智能語音技術(shù)在醫(yī)療行業(yè)應(yīng)用已從單一的語音識別病例及導(dǎo)診技術(shù)向“語音+語義”的智能化語音輔助系統(tǒng)轉(zhuǎn)型,需求正在向?qū)г\機(jī)器人、問診小程序、診后隨訪系統(tǒng)、住院病房管理系統(tǒng)、臨床決策支持系統(tǒng)(CDSS)等多應(yīng)用領(lǐng)域擴(kuò)散。
4.6 測評標(biāo)準(zhǔn)子體系
該類標(biāo)準(zhǔn)主要是制定在智能語音交互領(lǐng)域中,對資源、技術(shù)、接口、應(yīng)用和安全等方面的通用性的測評要求進(jìn)行規(guī)定的標(biāo)準(zhǔn),針對特定應(yīng)用場景的測試方法(規(guī)范)則在相應(yīng)的應(yīng)用領(lǐng)域的技術(shù)標(biāo)準(zhǔn)中進(jìn)行規(guī)定。
4.7 安全標(biāo)準(zhǔn)子體系
該類標(biāo)準(zhǔn)主要制定涉及智能語音的應(yīng)用和接口領(lǐng)域的相關(guān)安全標(biāo)準(zhǔn),包括數(shù)據(jù)安全、應(yīng)用安全、通信安全等。
5 結(jié) 語
當(dāng)下,智能語音技術(shù)發(fā)展面臨多語種語言互通、復(fù)雜場景人機(jī)交互、多模態(tài)虛擬世界等多重挑戰(zhàn)。面對這些挑戰(zhàn),如何將技術(shù)創(chuàng)新到應(yīng)用落地賦能產(chǎn)業(yè)高質(zhì)量發(fā)展成為亟待解決的路徑難題,而標(biāo)準(zhǔn)化將為破解這些難題、推動產(chǎn)業(yè)高質(zhì)量發(fā)展提供解決方案。標(biāo)準(zhǔn)作為技術(shù)創(chuàng)新的基礎(chǔ)、貿(mào)易交流的規(guī)則、質(zhì)量提升的依據(jù),是智能語音產(chǎn)業(yè)發(fā)展的重要驅(qū)動之一,與技術(shù)體系、應(yīng)用體系共同推動智能語音產(chǎn)業(yè)高質(zhì)量發(fā)展。下一步,要圍繞智能語音產(chǎn)業(yè)發(fā)展的重點(diǎn)領(lǐng)域,完善智能語音標(biāo)準(zhǔn)體系結(jié)構(gòu)和框架,加快研制和發(fā)布智能語音相關(guān)標(biāo)準(zhǔn),推動智能語音相關(guān)重要技術(shù)標(biāo)準(zhǔn)的實(shí)施和應(yīng)用,為我國智能語音產(chǎn)業(yè)發(fā)展提供有力支撐。
參考文獻(xiàn)
[1]中國語音產(chǎn)業(yè)聯(lián)盟.中國智能語音產(chǎn)業(yè)發(fā)展報(bào)告(2021-2022)[R].2022.
[2]中國電子技術(shù)標(biāo)準(zhǔn)化研究院.人工智能標(biāo)準(zhǔn)化白皮書(2021版)[R].2021.
[3]國家標(biāo)準(zhǔn)化管理委員會等五部門.國家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南[Z].2020.
作者簡介
程鳴,碩士研究生,工程師,研究方向?yàn)槿斯ぶ悄芗夹g(shù)標(biāo)準(zhǔn)化。
何永春,碩士研究生,副研究員,研究方向?yàn)槿斯ぶ悄芗夹g(shù)標(biāo)準(zhǔn)化。
(責(zé)任編輯:張佩玉)