薛輝
(商洛學(xué)院數(shù)學(xué)與計算機應(yīng)用學(xué)院,陜西 商洛 726000)
訊飛語音技術(shù)在會議記錄手機APP中的應(yīng)用
薛輝
(商洛學(xué)院數(shù)學(xué)與計算機應(yīng)用學(xué)院,陜西 商洛 726000)
為了實現(xiàn)自動生成會議文字記錄,設(shè)計了一款會議記錄手機APP,研究了在會議記錄手機APP中應(yīng)用訊飛語音的關(guān)鍵技術(shù),包括語音技術(shù)的選取、語音聽寫的流程、上傳用戶自定義詞表和識別結(jié)果合成。該會議記錄手機APP能夠識別會議參與人員的講話并轉(zhuǎn)換為文字,可以有效減輕會議秘書的工作負(fù)擔(dān)。
訊飛;語音識別;會議記錄
會議記錄是有關(guān)會議情況的原始筆錄和第一手材料[1],需要會議秘書把會議參與人員的講話記錄下來。由于人講話的速度明顯快于書寫的速度,會議秘書在記錄時往往只能記錄重要的部分,無法完整地呈現(xiàn)會議的內(nèi)容。采取錄音的方式雖然可以完整記錄會議參與人員的講話,但會議記錄一般要求文字形式,錄音資料只能用作輔助材料,文字仍然需要會議秘書人工記錄。如今,語音識別技術(shù)已經(jīng)比較成熟,可以應(yīng)用語音技術(shù)開發(fā)智能程序[2],自動完成文字生成和記錄工作,會議秘書只需在會后稍加整理即可,可以大大減輕會議秘書的工作負(fù)擔(dān)。本文應(yīng)用訊飛語音技術(shù)設(shè)計了一款會議記錄手機APP。
科大訊飛經(jīng)過多年的積累,整合了科大訊飛研究院、中國科技大學(xué)訊飛語音實驗室和清華大學(xué)訊飛語音實驗室等在語音技術(shù)上的成果,語音核心技術(shù)達(dá)到了國際領(lǐng)先的水平[3],并引進(jìn)國內(nèi)外最先進(jìn)的人工智能技術(shù) ,與學(xué)術(shù)界、產(chǎn)業(yè)界合作,共同打造了語音技術(shù)應(yīng)用平臺,提供語音合成、語音識別、聲紋密碼等語音技術(shù)[4]。已經(jīng)有許多軟件應(yīng)用訊飛語音技術(shù),并取得了良好的效果。
本文設(shè)計的會議記錄手機 APP 基于 Android 平臺,使用Java 語言開發(fā) ,采用 Eclipse 進(jìn)行編譯 ,適用于 Android4.2以上版本的手機,工作時需要聯(lián)網(wǎng)環(huán)境支持。該手機APP主要是應(yīng)用訊飛語音技術(shù)把會議參與人員的講話識別成文字保存下來,應(yīng)用的關(guān)鍵技術(shù)如下:
3.1 語音技術(shù)的選取
訊飛語音技術(shù)主要包括語音合成、語音識別、語音評測、聲紋識別等功能,其中語音識別技術(shù)又分為語音聽寫、命令詞識別和語義理解三種[5]。語音聽寫技術(shù)可以靈活識別語句和分詞,并將語音識別的結(jié)果轉(zhuǎn)換成文字;命令詞識別技術(shù)可以根據(jù)設(shè)置的語法規(guī)則識別用戶說出的關(guān)鍵詞,從而進(jìn)行一些控制操作;語義理解技術(shù)可以分析用戶所說的話語的需求,返回用戶關(guān)心的相關(guān)查詢結(jié)果。使用手機APP進(jìn)行會議記錄,主要是把會議參與人員的講話轉(zhuǎn)換成為文字,所以采用語音聽寫技術(shù)比較合適,可以快速把會議的內(nèi)容記錄下來[6]。訊飛語音技術(shù)的語音聽寫還包括云端識別和本地識別兩種,為了獲得更加準(zhǔn)確的識別結(jié)果,本系統(tǒng)采用云端識別。
3.2 語音聽寫的流程
使用語音聽寫技術(shù)的流程如下:
(1)導(dǎo)入 SDK:將訊飛語音平臺提供的 Android SDK 壓縮包中 libs文件夾下所有文件復(fù)制到 APP 工程的 libs文件夾下。
(2)添加權(quán)限:在 APP 工程的 AndroidManifest.xml文件中添加相關(guān)權(quán)限,本APP需要使用連接網(wǎng)絡(luò)、使用錄音機、讀取網(wǎng)絡(luò)信息狀態(tài)、獲取wifi狀態(tài)等權(quán)限。
(3)創(chuàng)建語音配置對象:創(chuàng)建語音配置對象即初始化,包括設(shè)置 appid、開發(fā)者賬號、引擎模式等,本 APP 的引擎模式設(shè)置為“auto”。
(4)創(chuàng)建 SpeechRecognizer對象 :要使用語音聽寫技術(shù),需創(chuàng)建SpeechRecognizer對象,云端識別時第二個參數(shù)設(shè)置為“null”。
(5)設(shè)置聽寫參數(shù):設(shè)置聽寫的參數(shù),比如應(yīng)用領(lǐng)域、語言區(qū)域等。本APP設(shè)置應(yīng)用領(lǐng)域為短信和日常用語,即“iat”,語言區(qū)域為中文中國,即“zh_cn”。
(6)開始聽寫:開始把聽到的語音識別成為文字并記錄下來。
3.3 上傳用戶自定義詞表
特定會議往往會有一些特定的詞語,這些特定的詞語用戶可以自定義并上傳到云端,以提高識別的準(zhǔn)確率。上傳自定義詞表的關(guān)鍵代碼如下:
3.4 識別結(jié)果合成
語音聽寫的結(jié)果返回 JSON 格式文檔,JSON(JavaScript Object Notation) 是一種輕量級的數(shù)據(jù)交換格式,易于機器解析和生成,也便于人閱讀和編寫[7]。語音識別模塊返回 JSON格式文本后,順序檢測“cw”,把“cw”里的“w”依次連接到一起即可合成語音識別的結(jié)果。如果一個“cw”里有多個“w”,即說明有多候選結(jié)果,此時,得分越高識別準(zhǔn)確的可能性越大,所以連接分?jǐn)?shù)最高的一個。
本文設(shè)計了一款會議記錄手機APP,應(yīng)用訊飛語音技術(shù)實現(xiàn)自動完成會議記錄工作,能夠生成會議講話的文字信息,給會議秘書帶來便利,減輕工作負(fù)擔(dān),提高工作效率。本APP 尚沒有區(qū)分不同的講話人[8],隨著聲紋技術(shù)的發(fā)展,如果可以根據(jù)聲紋自動區(qū)分出每句話為哪個參會人所講[9],就可以把參會人的姓名直接記錄在語句之前,分離開不同講話人所講的文字,給會議秘書的工作帶來更大的方便。
[1] 劉偉.會議記錄整理與寫作撮要[J].秘書,2015(02):31-32.
[2]張建華.基于深度學(xué)習(xí)的語音識別應(yīng)用研究[D].北京:北京郵電大學(xué),2015.
[3]李慧.基于訊飛語音的安卓手機應(yīng)用開發(fā)步驟的研究[J].無線互聯(lián)科技,2015(14):123-124.
[4]王海洋,郭星.基于語音識別的智慧旅游系統(tǒng)研究[J].計算機技術(shù)與發(fā)展,2015(05):143-147.
[5] 陳松.基于 A n d r o i d平臺的家居遠(yuǎn)程語音控制系統(tǒng)研究[J].赤峰學(xué)院學(xué)報(自然科學(xué)版),2016(21):25-26.
[6] 郭海賓,王艷秋,燕孝飛.基于 A n d r o i d平臺的手機語音記錄器的設(shè)計與實現(xiàn)[J].福建電腦,2015(10):24-25.
[7] 高靜,段會川.JSO N 數(shù)據(jù)傳輸效率研究[J].計算機工程與設(shè)計,2011(07):2267-2270.
[8]周雷.基于聲紋識別的說話人身份確認(rèn)方法的研究[D].上海:上海師范大學(xué),2016.
[9]裴鑫.聲紋識別系統(tǒng)關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱理工大學(xué),2014.
TheApplication of iFLYTEK’s Speech Technology in Mobile PhoneAPP for Meeting Minutes
Xue Hui
(Shangluo University,Shangluo 726000,Shaanxi)
In order to realize the automatic generation of meeting records,designed a conference record mobile phone APP,studied the key technologies of the application of Iflytek’s speech technology in the conference record APP,which included speech technology selection,speech dictation process,upload custom thesaurus and recognition results.The conference record mobile phone APP can identify the speech of the conference participants and convert it to text,which can effectively reduce the workload of the conference secretary.
iFLYTEK;speech recognition;meeting minutes
TN912.34
A
1008-6609(2017)05-0067-02
薛輝(1983-),男,陜西商洛人,碩士,工程師,研究方向為計算機教育教學(xué)改革、應(yīng)用軟件開發(fā)。