• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于調(diào)度下令的錄音自動(dòng)識(shí)別方法及關(guān)鍵技術(shù)研究

      2022-03-28 08:31:00季錚錚周紅杰談葉月
      自動(dòng)化與儀表 2022年3期
      關(guān)鍵詞:任務(wù)調(diào)度識(shí)別率音頻

      傅 靖,季錚錚,周紅杰,談葉月

      (1.國(guó)網(wǎng)南通供電公司,南通226006;2.江蘇電力信息技術(shù)有限公司,南京210000)

      近年來大數(shù)據(jù)技術(shù)的出現(xiàn),更多的公司企業(yè)適應(yīng)企業(yè)資源計(jì)劃系統(tǒng),實(shí)現(xiàn)了企業(yè)信息的整合,產(chǎn)生了數(shù)據(jù)共享服務(wù),通過匯總的信息進(jìn)行業(yè)務(wù)流程的分類[1]。同時(shí)語音識(shí)別技術(shù)在企業(yè)中的應(yīng)用場(chǎng)景更加廣泛,能夠?qū)⒙曇艮D(zhuǎn)換為其它形式,為數(shù)字化辦公提供了便利。然而當(dāng)前企業(yè)工作中仍需要個(gè)人的主觀判斷和多種軟件的交互,工作環(huán)境存在的大量噪聲聲音嘈雜,單一模式下的語音識(shí)別不能滿足辦公需求[2]。

      針對(duì)上述存在的問題,文獻(xiàn)[3]系統(tǒng)提出應(yīng)用DNN 和HMM 結(jié)合的方法,在大詞匯量連續(xù)語音識(shí)別的性能得到了進(jìn)步,能夠獲取更長(zhǎng)的音頻時(shí)序信息,且降低了計(jì)算量;文獻(xiàn)[4]系統(tǒng)使用雙向LSTM 建模,考慮到前向與反向時(shí)序信息的影響,使系統(tǒng)具有更好的魯棒性。但網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,對(duì)具有長(zhǎng)依賴關(guān)系的語音信號(hào)識(shí)別效果不好;文獻(xiàn)[5]系統(tǒng)中采用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)建立語音模型,能夠?qū)τ猩舷挛穆?lián)系的音頻信息更好地建模,提高了語音識(shí)別能力。

      1 基于RPA 接口的錄音自動(dòng)識(shí)別調(diào)度下令系統(tǒng)

      本研究系統(tǒng)應(yīng)用機(jī)器人流程自動(dòng)化技術(shù)(robotic process automation,RPA),利用和融合現(xiàn)有各種技術(shù),實(shí)現(xiàn)企業(yè)業(yè)務(wù)流程自動(dòng)化,并且可以與多個(gè)系統(tǒng)進(jìn)行交互,執(zhí)行非常規(guī)任務(wù)[6]。系統(tǒng)使用的主流的RPA開發(fā)工具(poupular RPA development tools,PRDT)為UiPath,其中UiPath 是一種基于流程圖的可視化流程工具,提供標(biāo)準(zhǔn)或自定義的工作組件。UiPath可以操作VMware 等虛擬機(jī),也可以操作本地計(jì)算機(jī)。系統(tǒng)架構(gòu)如圖1所示。

      圖1 基于RPA 接口的錄音自動(dòng)識(shí)別調(diào)度下令系統(tǒng)架構(gòu)Fig.1 System architecture of recording automatic identification and dispatch ordering based on RPA interface

      本研究系統(tǒng)分為開發(fā)層、RPA 服務(wù)層和應(yīng)用層。開發(fā)層主要負(fù)責(zé)程序的設(shè)計(jì);RPA 服務(wù)層主要負(fù)責(zé)license 代理、日志收集和程序執(zhí)行等任務(wù);應(yīng)用層主要完成調(diào)度下令、用戶授權(quán)管理、工作流授權(quán)管理、語音識(shí)別等功能[7]。UiPath 開發(fā)平臺(tái)提供了便捷的調(diào)度模塊,執(zhí)行任務(wù)前使用調(diào)試工具設(shè)置斷點(diǎn),逐步監(jiān)視項(xiàng)目的執(zhí)行步驟、數(shù)據(jù)參數(shù)和運(yùn)行狀態(tài),并且能夠調(diào)整調(diào)試速度,通過日志查看相關(guān)的項(xiàng)目執(zhí)行情況。應(yīng)用層使用Orchestator 服務(wù)器,具有特定的管理界面,能夠?qū)PA 服務(wù)層進(jìn)行機(jī)器人的添加、刪除和監(jiān)控,并且管理用戶、進(jìn)程和令牌,有效進(jìn)行監(jiān)控和讀寫log日志文件等操作,在schedule 計(jì)劃任務(wù)中設(shè)定時(shí)間和執(zhí)行次數(shù)控制機(jī)器人執(zhí)行自動(dòng)化過程。RPA 服務(wù)層具有ServiceHost,Executor 和Agent三個(gè)組件[8-9],設(shè)置每個(gè)監(jiān)視器的DPI,Agent 能夠在系統(tǒng)窗口顯示機(jī)器人所在環(huán)境中的執(zhí)行工程包。

      2 關(guān)鍵技術(shù)分析

      2.1 基于注意力機(jī)制的AVSR 雙模態(tài)語音識(shí)別模型

      傳統(tǒng)的語音識(shí)別模型不能記錄時(shí)間周期較長(zhǎng)的相關(guān)信息,處理音頻的長(zhǎng)度有限,目標(biāo)詞只與前面N個(gè)詞相關(guān),目標(biāo)詞的增加將帶來數(shù)據(jù)量的急速增長(zhǎng)。本研究提出一種基于注意力AVSR 機(jī)制的模型,使用注意力機(jī)制對(duì)特征進(jìn)行前期和后期融合,解決了音頻速率不匹配和信息長(zhǎng)度不相同帶來的融合問題。對(duì)原始的音頻信號(hào)先要進(jìn)行預(yù)處理再輸入到AVSR 雙模態(tài)語音識(shí)別模型中[10],語音信號(hào)預(yù)處理流程如圖2所示。

      圖2 語音信號(hào)預(yù)處理流程Fig.2 Voice signal preprocessing flow chart

      原始音頻信號(hào)首先進(jìn)行采樣,得到符合需求的數(shù)據(jù),然后進(jìn)行譜減法去噪。原始語音譜減去噪聲譜,再變換到時(shí)域,就得到了去噪后的語音,可表示為

      式中:Ps(w)表示原語音頻譜;Pn(w)表示噪聲頻譜;D(w)表示差值頻譜[11]。當(dāng)實(shí)際噪聲大于估計(jì)噪聲時(shí)進(jìn)行減法操作,會(huì)出現(xiàn)殘余噪聲。本研究對(duì)譜減法進(jìn)行了改進(jìn),可表示為

      式中:α 表示減法因子;β 表示閾值參數(shù)。改進(jìn)后的譜減法能夠去除原始音頻信號(hào)中的更多噪聲,殘留噪聲減少[12]。引入閾值參數(shù),將小于βPn(w)的數(shù)都統(tǒng)一設(shè)置為這個(gè)閾值,減小了殘余噪聲峰值差距。然后進(jìn)行音頻信號(hào)的編解碼操作,音頻編解碼模型結(jié)構(gòu)如圖3所示。

      圖3 音頻編解碼模型結(jié)構(gòu)Fig.3 Audio codec model structure

      模型輸入的是音頻特征序列{a1,a2,a3,…,an},經(jīng)過多次激活函數(shù)的操作后,數(shù)據(jù)分布可能更加分散,并且發(fā)布范圍越來越大,導(dǎo)致收斂緩慢。在激活函數(shù)之前減少分散性,可表示為

      式中:xi表示輸入的一批數(shù)據(jù);φ,β 表示網(wǎng)絡(luò)學(xué)習(xí)參數(shù),用來進(jìn)行尺度變換和平移,保持網(wǎng)絡(luò)的非線性能力。對(duì)音頻編碼中輸入序列經(jīng)過兩層GRU 的非線性變換,得到每個(gè)時(shí)刻維數(shù)相同的狀態(tài)向量組成一個(gè)集合,可表示為

      式中:ai表示輸入特征序列;表示狀態(tài)向量。得到集合后,每一時(shí)刻的音頻狀態(tài)向量進(jìn)行一個(gè)注意機(jī)制計(jì)算來更新狀態(tài)向量,更新過程可表示為

      式中:T 表示向量的轉(zhuǎn)置;u表示歸一化參數(shù)。通過注意機(jī)制,實(shí)現(xiàn)了音頻信號(hào)特征的前期融合,在音頻缺失和噪聲污染嚴(yán)重的情況下輔助修正音頻特征。音頻雙模態(tài)語音識(shí)別框架如圖4所示。

      在模型的解碼階段使用兩個(gè)獨(dú)立的注意力機(jī)制,用于視修正后的音頻特征,經(jīng)過注意力機(jī)制后再進(jìn)行特征向量的拼接融合,實(shí)現(xiàn)后期融合共同決定最終的結(jié)果。對(duì)語音識(shí)別模型進(jìn)行優(yōu)化,可表示為

      式中:θ 表示模型的權(quán)重和偏差;η 表示學(xué)習(xí)率;y表示實(shí)際值;yˉ表示模型的預(yù)測(cè)值;J表示目標(biāo)函數(shù)。將AVSR 雙模態(tài)語音識(shí)別模型的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)定為2 層大小為128 的GRU 編碼和單層128 單元的GRU解碼,在測(cè)試解碼時(shí)使用集束搜索。首先對(duì)音頻質(zhì)量評(píng)估音頻信號(hào)的信噪比SNR,可表示為

      式中:Psignal表示信號(hào)功率;Pnoise表示噪聲功率。SNR越大說明音頻信號(hào)中的噪聲越少,音頻信號(hào)的質(zhì)量越高,選擇SNR<10 dB 的音頻信號(hào)進(jìn)行信號(hào)特征的前期融合。

      2.2 基于霧計(jì)算動(dòng)態(tài)優(yōu)先級(jí)的實(shí)時(shí)任務(wù)調(diào)度下令方法

      本研究系統(tǒng)使用霧計(jì)算在網(wǎng)絡(luò)邊緣提供分布式基礎(chǔ)架構(gòu),實(shí)現(xiàn)低延遲訪問和應(yīng)用程序的請(qǐng)求快速響應(yīng)?;趧?dòng)態(tài)優(yōu)先級(jí)的任務(wù)調(diào)度下令時(shí)序圖如圖5所示。

      圖5 基于動(dòng)態(tài)優(yōu)先級(jí)的任務(wù)調(diào)度下令時(shí)序圖Fig.5 Sequence diagram of task scheduling order based on dynamic priority

      任務(wù)調(diào)度下令模型中任務(wù)的向量可表示為

      式中:tidk表示唯一標(biāo)識(shí);prk表示任務(wù)的固定優(yōu)先級(jí);dk表示任務(wù)數(shù)據(jù)量;wk表示任務(wù)需要的CPU 周期;sk表示任務(wù)需要的存儲(chǔ)空間;表示任務(wù)到達(dá)霧計(jì)算的時(shí)間;表示最大容忍時(shí)延。霧計(jì)算層中的霧節(jié)點(diǎn)的集合為{Fog1,F(xiàn)og2,F(xiàn)og3,…,F(xiàn)ogn},霧節(jié)點(diǎn)Fogn的向量可表示為

      式中:FINn表示霧節(jié)點(diǎn)的唯一標(biāo)識(shí);Cn表示計(jì)算頻率;Sn表示可用存儲(chǔ)容量;Pn表示傳輸發(fā)射功率。為提高任務(wù)的執(zhí)行完成率,將時(shí)間屬性作為任務(wù)優(yōu)先級(jí)的指標(biāo),任務(wù)在霧節(jié)點(diǎn)Fogn中的執(zhí)行緊迫度可表示為

      式中:p,q表示權(quán)重參數(shù);prmax表示任務(wù)的最高優(yōu)先級(jí)。任務(wù)處理流程如圖6所示。

      圖6 任務(wù)處理流程Fig.6 Task processing flow chart

      設(shè)置任務(wù)卸載策略的執(zhí)行間隔I,根據(jù)任務(wù)規(guī)模動(dòng)態(tài)調(diào)整I,在執(zhí)行第α 個(gè)任務(wù)卸載時(shí),所有任務(wù)節(jié)點(diǎn)的等待隊(duì)列中共有K個(gè)任務(wù){T1,T2,T3,…,TK},每個(gè)任務(wù)所在的霧節(jié)點(diǎn)為{l1,l2,l3,…,lK},任務(wù)Tk在等待隊(duì)列中的等待時(shí)間為。當(dāng)霧節(jié)點(diǎn)接收到卸載決策后,會(huì)根據(jù)卸載決策將其等待任務(wù)進(jìn)行重新分配。

      3 應(yīng)用測(cè)試

      3.1 實(shí)驗(yàn)環(huán)境

      為驗(yàn)證本研究錄音自動(dòng)識(shí)別調(diào)度下令系統(tǒng)的性能,分別使用文獻(xiàn)[3]系統(tǒng)、文獻(xiàn)[4]系統(tǒng)和本研究系統(tǒng)進(jìn)行實(shí)驗(yàn),對(duì)比3 種系統(tǒng)的調(diào)度下令完成時(shí)間和語音識(shí)別效果。實(shí)驗(yàn)環(huán)境在基于霧計(jì)算的網(wǎng)絡(luò)架構(gòu)下,設(shè)置6 臺(tái)服務(wù)器作為霧節(jié)點(diǎn)。實(shí)驗(yàn)環(huán)境參數(shù)如表1所示。

      表1 實(shí)驗(yàn)環(huán)境參數(shù)Tab.1 Experimental environment parameters

      霧節(jié)點(diǎn)的計(jì)算能力設(shè)置為2 GHz~4 GHz 之間,可用莻空間在10 GB~20 GB 范圍內(nèi),霧節(jié)點(diǎn)之間的傳輸速率為20 Mbps~40 Mbps。實(shí)驗(yàn)數(shù)據(jù)如表2所示。

      表2 實(shí)驗(yàn)數(shù)據(jù)Tab.2 Experimental data

      3.2 任務(wù)調(diào)度實(shí)驗(yàn)

      本研究實(shí)驗(yàn)?zāi)M一次系統(tǒng)計(jì)算任務(wù)調(diào)度下令,使用Matlab 作為實(shí)驗(yàn)平臺(tái),記錄所有霧節(jié)點(diǎn)處理完成任務(wù)的時(shí)間。實(shí)驗(yàn)任務(wù)數(shù)設(shè)定為50~80,使用3 種系統(tǒng)進(jìn)行人物調(diào)度,得到的任務(wù)調(diào)度完成時(shí)間如表3所示。

      表3 任務(wù)調(diào)度完成時(shí)間Tab.3 Task scheduling completion time

      為了更加直觀地對(duì)比3 種系統(tǒng)的任務(wù)調(diào)度完成時(shí)間,將表3 中數(shù)據(jù)繪制成圖像,如圖7所示。

      圖7 任務(wù)調(diào)度完成時(shí)間Fig.7 Task scheduling completion time

      由圖7 可以看出,本研究系統(tǒng)充分利用了霧節(jié)點(diǎn)的性能參數(shù)和待卸載任務(wù)參數(shù),充分考慮到了霧節(jié)點(diǎn)之間的性能差異,在任務(wù)數(shù)量較多的情況下仍能夠保持較低的完成時(shí)間,任務(wù)數(shù)量高達(dá)80 時(shí),任務(wù)調(diào)度完成時(shí)間為3086 ms;文獻(xiàn)[3]系統(tǒng)的任務(wù)調(diào)度時(shí)間變化幅度較大,任務(wù)完成時(shí)間受限于處理最慢的霧節(jié)點(diǎn)完成所有任務(wù)的總時(shí)間,任務(wù)數(shù)較大時(shí)的調(diào)度完成時(shí)間小于任務(wù)數(shù)量較小時(shí)的調(diào)度完成時(shí)間,系統(tǒng)的最大調(diào)度完成時(shí)間可達(dá)到4372 ms;文獻(xiàn)[4]系統(tǒng)的任務(wù)調(diào)度時(shí)間初始值較大,任務(wù)節(jié)點(diǎn)的處理實(shí)驗(yàn)高于其它系統(tǒng),任務(wù)調(diào)度完成時(shí)間最高達(dá)到4410 ms。

      3.3 語音識(shí)別實(shí)驗(yàn)

      為驗(yàn)證3 種系統(tǒng)的語音識(shí)別模型的識(shí)別效果,使用MFCC 作為音頻,再加入一階差分作為音頻特征添加語音的動(dòng)態(tài)信息。并在音頻特征信息匯總加入均值為0,方差為0.1 的高斯噪聲,設(shè)置模型的訓(xùn)練次數(shù)為50~200 次,使用3 種系統(tǒng)對(duì)加入噪聲的語音信號(hào)進(jìn)行識(shí)別,得到3 種系統(tǒng)的識(shí)別率如圖8所示,具體數(shù)據(jù)如表4所示。

      表4 系統(tǒng)的語音信號(hào)識(shí)別率Tab.4 Speech signal recognition rate of system

      圖8 語音信號(hào)識(shí)別率Fig.8 Speech signal recognition rate

      本研究系統(tǒng)對(duì)加入噪聲后的語音信號(hào)的識(shí)別率達(dá)到于90%以上,訓(xùn)練次數(shù)在50 次時(shí)系統(tǒng)的識(shí)別率就高達(dá)90.7%,隨著訓(xùn)練次數(shù)的增加,識(shí)別結(jié)果越來越準(zhǔn)確,訓(xùn)練次數(shù)達(dá)到200 次時(shí)識(shí)別率高達(dá)99%;文獻(xiàn)[3]系統(tǒng)的語音信號(hào)識(shí)別率最低為81.6%,訓(xùn)練次數(shù)達(dá)到170 次時(shí)識(shí)別率為88.2%,仍處于90%以下,達(dá)不到本研究系統(tǒng)訓(xùn)練50 次時(shí)的識(shí)別率;文獻(xiàn)[4]系統(tǒng)訓(xùn)練50 次時(shí)的語音識(shí)別率為78.2%,訓(xùn)練次數(shù)達(dá)到200 次時(shí)的識(shí)別率為92%。

      4 結(jié)語

      本研究使用UiPath 開發(fā),提出一種基于注意力機(jī)制的AVSR 雙模態(tài)語音識(shí)別模型,通過注意力機(jī)制實(shí)現(xiàn)音頻信號(hào)特征的前期融合,利用特征向量進(jìn)行拼接融合解決音頻速率不匹配問題,提高了模型的音頻信號(hào)識(shí)別能力。提出一種基于動(dòng)態(tài)優(yōu)先級(jí)的任務(wù)調(diào)度下令方法,根據(jù)每個(gè)霧節(jié)點(diǎn)的計(jì)算能力和存儲(chǔ)容量,將所有等待隊(duì)列中的任務(wù)充分分配,并進(jìn)行任務(wù)卸載。本研究仍存在一些不足之處還需進(jìn)一步改進(jìn),非結(jié)構(gòu)化的數(shù)據(jù)沒有概念數(shù)據(jù)模型形式的限制,系統(tǒng)對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)處理能力不足,還需對(duì)系統(tǒng)的數(shù)據(jù)處理計(jì)算框架進(jìn)行優(yōu)化。

      猜你喜歡
      任務(wù)調(diào)度識(shí)別率音頻
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
      基于改進(jìn)NSGA-Ⅱ算法的協(xié)同制造任務(wù)調(diào)度研究
      必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
      基于時(shí)間負(fù)載均衡蟻群算法的云任務(wù)調(diào)度優(yōu)化
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      古田县| 元朗区| 博湖县| 赫章县| 苗栗县| 哈密市| 甘肃省| 镇宁| 鹤庆县| 平定县| 苏尼特右旗| 普格县| 扎赉特旗| 衡南县| 出国| 高青县| 象山县| 洱源县| 酉阳| 且末县| 濮阳县| 高碑店市| 崇仁县| 两当县| 德庆县| 白水县| 望都县| 清徐县| 吴堡县| 德昌县| 抚松县| 明光市| 桓台县| 申扎县| 罗源县| 荔波县| 铜陵市| 兴隆县| 华宁县| 泾源县| 张北县|