王思涵,陳俊洪,林大潤(rùn),劉文印,楊振國(guó)
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006)
語音識(shí)別是機(jī)器人識(shí)別人類需求的重要方式之一,人類可以與機(jī)器人交談并驅(qū)使機(jī)器人提供服務(wù)[1,2].傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)語音識(shí)別方法[3]依賴于大量標(biāo)記的文本數(shù)據(jù)進(jìn)行訓(xùn)練.但是,在人機(jī)交互的場(chǎng)景下,獲得文本標(biāo)簽較圖像或者視頻來得困難.基于視覺標(biāo)簽的語音三元組識(shí)別網(wǎng)絡(luò)旨在采用圖像或視頻,而不是文本作為真實(shí)標(biāo)簽來訓(xùn)練語音模型.
近年來,研究者們通常使用動(dòng)態(tài)時(shí)間扭曲(DTW)[4]從測(cè)試的語音中檢索所需要的關(guān)鍵字.但是,這種方法無法同時(shí)處理來自多個(gè)不同語種或者不同發(fā)音者的情況.隨著深度學(xué)習(xí)的日漸成熟,相當(dāng)多的深度學(xué)習(xí)技術(shù),例如MTL-DNN[5]和CNN[6],已經(jīng)開始被研究者們用于語音關(guān)鍵字檢索任務(wù).盡管它們?nèi)〉昧撕芎玫男阅?但無論是哪一種神經(jīng)網(wǎng)絡(luò),都需要大規(guī)模數(shù)據(jù)集和文本標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練.因此,Kampe等人[7]提出了使用圖像代替文本標(biāo)簽進(jìn)行語音網(wǎng)絡(luò)的訓(xùn)練從而識(shí)別關(guān)鍵字,這種技術(shù)雖然降低了文本標(biāo)注的工作量,但是它存在以下問題,首先,圖像無法捕捉動(dòng)態(tài)效果,特別是對(duì)于動(dòng)作識(shí)別等任務(wù)表現(xiàn)較差.其次,圖像無法得知物體相互之間是否存在聯(lián)系.這促使本文利用視頻標(biāo)簽替代圖像標(biāo)簽來檢索語音中的關(guān)鍵字,從而識(shí)別動(dòng)作三元組.
本文提出了一種基于視頻標(biāo)簽的多頭自注意力語音模型,它可以從說話者語音中識(shí)別由主體物體、動(dòng)作和受體物體組成的語義三元組,該模型包含視頻和語音兩個(gè)模塊.在視頻模塊,本文利用預(yù)訓(xùn)練的I3D模型[8]和Mask R-CNN[9]分別從視頻中提取動(dòng)作和物體特征.隨后,使用兩個(gè)XGBoost[10]模型將物體特征分類為主體物體和受體物體.本文將使用從視頻中提取的三元組作為語音模型的軟標(biāo)簽,而不使用文本標(biāo)簽,目的是用單個(gè)視頻標(biāo)注多個(gè)語音,降低了單個(gè)文本標(biāo)注單個(gè)語音的工作量;除此之外,利用視頻這種動(dòng)態(tài)時(shí)序方式可以提供更好的指令表達(dá)形式,為示范學(xué)習(xí)[11]提供了擴(kuò)展的基礎(chǔ).在語音模塊中,本文構(gòu)建了一個(gè)基于視頻軟標(biāo)簽的語音識(shí)別網(wǎng)絡(luò),該網(wǎng)絡(luò)將序列網(wǎng)絡(luò)和殘差模塊連接到多頭自注意力機(jī)制網(wǎng)絡(luò)中,目的是對(duì)語音的上下文信息進(jìn)行建模并提取關(guān)鍵信息,最后網(wǎng)絡(luò)輸出概率值最高的3個(gè)對(duì)象和動(dòng)作,并由其組成三元組.本文通過使用視頻模塊生成的視頻標(biāo)簽替代文本標(biāo)簽可以使語音模型的標(biāo)簽更容易獲得.本文的主要貢獻(xiàn)總結(jié)如下:
· 本文設(shè)計(jì)了一個(gè)基于視覺標(biāo)簽的語音模型,它可以利用視頻中的信息指導(dǎo)語言模型從而學(xué)習(xí)動(dòng)作序列.
· 本文提出了一個(gè)基于多頭自注意力機(jī)制的語音模型,它能更好提取上下文信息的序列網(wǎng)絡(luò),以及提出了對(duì)抗梯度消失及爆炸的殘差模塊
· 本文擴(kuò)展了MPII Cooking 2數(shù)據(jù)集的語音數(shù)據(jù),它可以用于對(duì)比使用視頻標(biāo)簽的基準(zhǔn).
· 本文將提出的語音網(wǎng)絡(luò)部署在UR10e機(jī)器人上,使該機(jī)器人可以通過語音執(zhí)行人機(jī)交互.
本文的其余部分安排如下:在第2節(jié)中,回顧了該領(lǐng)域的相關(guān)工作;在第3節(jié)中,詳細(xì)介紹了所提出的方法;實(shí)驗(yàn)報(bào)告則在第4節(jié);最后,在第5節(jié)中進(jìn)行了總結(jié).
關(guān)鍵字檢索是語音識(shí)別的一個(gè)子分支,該任務(wù)的目的是從一段人類語音提取出一個(gè)或多個(gè)關(guān)鍵字.動(dòng)態(tài)時(shí)間扭曲(DTW)[4]是一種傳統(tǒng)的方法,它通過計(jì)算目標(biāo)關(guān)鍵字和語音的翹曲距離達(dá)到檢索的目的.但是,它無法處理存在不同的發(fā)音者或者不同語種的情況.近年來,隨著深度學(xué)習(xí)的發(fā)展,Chen等[12]設(shè)計(jì)了一個(gè)基于LSTM的深度神經(jīng)網(wǎng)絡(luò)模型,它能夠使用少量的計(jì)算機(jī)資源實(shí)現(xiàn)關(guān)鍵字檢索.Mir等[13]提出了將檢索匹配問題轉(zhuǎn)換為圖像的二進(jìn)制分類,從而在關(guān)鍵字識(shí)別方面獲得更好的準(zhǔn)確性.Yuan等[14]則通過時(shí)序上下文學(xué)習(xí)單詞的嵌入式,從而使得嵌入式更容易獲得.Ram[15]通過更低維屬性來表示更廣的特征,從而獲得更好的語音特征.然而,這些方法均需要大量文本標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,這給模型帶來了巨大的局限性.為了解決這個(gè)問題,研究者們已經(jīng)提出了很多的半監(jiān)督方法來避免收集大量的文本標(biāo)簽數(shù)據(jù)的工作.例如,Palaz等[16]設(shè)計(jì)了一個(gè)神經(jīng)網(wǎng)絡(luò),它使用更容易獲得的無序文本標(biāo)簽去定位和分類詞組,并最終在檢索關(guān)鍵字任務(wù)上評(píng)估它的性能.Duong等[17]引入了一種注意力模型,它無需進(jìn)行轉(zhuǎn)錄即可將語音翻譯成文本.然而,以上這些方法的使用場(chǎng)景存在著很大的局限性,因此,本文提出了一種能廣泛獲取標(biāo)簽且易于部署的半監(jiān)督方式來解決上述問題.
為了減輕對(duì)文本標(biāo)記數(shù)據(jù)的依賴性,許多的研究者引入了視覺標(biāo)簽去做類似的任務(wù).Yang等[18]提出將視頻和語音同時(shí)映射到同一個(gè)公共空間,使它們可以被相互檢索.Stewart[19]則提出可以結(jié)合視頻特征和音頻特征來識(shí)別語音,這使得語音模型更加具有魯棒性.Ephrat等[20]實(shí)現(xiàn)了在無聲的視頻中重建語音序列,使其可以用于人臉視頻的識(shí)別.最近,Kamper 等人[7]則提出了使用圖像作為文本標(biāo)簽來訓(xùn)練語音模型,從而無需人工標(biāo)注.然而,圖像只能表達(dá)場(chǎng)景的靜態(tài)情況,難以表達(dá)動(dòng)作和序列信息,這促使本文將圖像擴(kuò)展為視頻作為軟標(biāo)簽.
近年來,多頭注意力機(jī)制已經(jīng)被證明能在時(shí)序任務(wù)上獲得很高的精度,因此,它已經(jīng)被廣泛應(yīng)用于各種場(chǎng)景.例如,Cho等[21]在機(jī)器翻譯任務(wù)上結(jié)合了定位信息和多頭自注意力模型,大大提高機(jī)器翻譯的準(zhǔn)確性.Long等[22]則將多頭自注意力模型引入社交媒體的情感分析任務(wù)中.Wang等[23]通過多頭自注意力機(jī)制提高了聲學(xué)場(chǎng)景下語音識(shí)別的準(zhǔn)確性.Dong等[24]在語音識(shí)別上應(yīng)用多頭自注意力機(jī)制,從而提升了模型訓(xùn)練的速度.此外,Chiu等[25]發(fā)現(xiàn)了使用多頭自注意力機(jī)制作為編碼器和解碼器之間的中間組件,可以在語音識(shí)別精度上取得很好的結(jié)果.受多頭自注意力機(jī)制的啟發(fā),本文使用并改進(jìn)了多頭自注意力機(jī)制,從而可以更好的提取關(guān)鍵字識(shí)別的上下文聯(lián)系,從而提升識(shí)別的精度.
本文提出的方法的概述如圖1所示,它由視頻模塊和語音模塊組成.其中,視頻模塊旨在獲得視覺標(biāo)簽,這將在第3.1節(jié)中介紹,其次是在第 3.2 節(jié)中介紹本文的語音模塊.
圖1 框架概述Fig.1 Overview of our framework
視頻模塊旨在從視頻中提取三元組特征作為視覺軟標(biāo)簽.因此,本文將視頻網(wǎng)絡(luò)分為兩個(gè)模塊:第1個(gè)模塊提取動(dòng)作特征;第2個(gè)模塊則提取主體對(duì)象和受體對(duì)象特征.由于動(dòng)作特征在時(shí)間和空間上的表現(xiàn)有所不同,所以本文采用基于Inflated 3D ConvNet(I3D)網(wǎng)絡(luò)的雙流卷積網(wǎng)絡(luò)架構(gòu)作為提取動(dòng)作特征的第一個(gè)模塊.相比而言,I3D與傳統(tǒng)的雙流卷積網(wǎng)絡(luò)不同,I3D通過擴(kuò)展額外的時(shí)間維度將2D卷積核和池化核膨脹擴(kuò)充為3D,這使得2D模型的特征權(quán)重可以直接應(yīng)用于3D模型,極大地減少了在模型上的訓(xùn)練時(shí)間.在該網(wǎng)絡(luò)中,本文首先在Kinetics數(shù)據(jù)集上對(duì)I3D進(jìn)行預(yù)訓(xùn)練,并且針對(duì)本文的任務(wù)在MPII 2數(shù)據(jù)集上進(jìn)行了微調(diào).網(wǎng)絡(luò)的輸入圖像被重新調(diào)整為為224×224×3,并分別輸入到空間流和時(shí)間流中.最后,這兩個(gè)流分別輸出時(shí)間和空間動(dòng)作特征,將兩個(gè)特征連接并分類映射到N維的向量上,從而形成一個(gè)向量作為動(dòng)作特征概率,其中N維的大小為所有動(dòng)作和物體的總和.
在第2個(gè)模塊中,本文使用在COCO數(shù)據(jù)集上預(yù)訓(xùn)練并在MPII 2數(shù)據(jù)集上進(jìn)行過微調(diào)的 Mask R-CNN 來識(shí)別對(duì)象.更具體地說,首先使用該模型生成大量關(guān)于對(duì)象的候選邊界框.然后本文引入RexNet-101[31]來提取對(duì)象特征并過濾掉不相關(guān)的邊界框.最后,將網(wǎng)絡(luò)輸出對(duì)象標(biāo)簽、掩碼、邊界框和置信度分?jǐn)?shù)進(jìn)行合并作為物體特征輸出.為了更進(jìn)一步地細(xì)分對(duì)象信息,本文將對(duì)象特征和動(dòng)作特征進(jìn)行融合,并將它們傳遞到兩個(gè)XGBoost[32]模型中,同動(dòng)作特征概率的識(shí)別一樣,分別將它們映射到N維的向量上以預(yù)測(cè)主體物體和受體物體的概率.
給定動(dòng)作特征,主體物體特征和受體物體特征的概率,本文將它們映射到 M×N 矩陣.其中 M 表示三元組(動(dòng)作,受體,主體)的個(gè)數(shù),即M=3.N表示動(dòng)作,主體物體和受體物體的個(gè)數(shù)的總數(shù).隨后,本文將該矩陣作為視覺標(biāo)簽用于后續(xù)語音模型的訓(xùn)練.注意:視頻模塊僅在語音模型訓(xùn)練時(shí)存在,當(dāng)語音模型進(jìn)入測(cè)試階段時(shí),由于不再需要軟標(biāo)簽,所以視頻模塊將被剔除.
現(xiàn)有的深度學(xué)習(xí)關(guān)鍵字檢索模型通常使用Mel Frequency Cepstrum Coefficient(MFCC)來提取語音特征,這些特征會(huì)直接被送入神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),如CNN[6]、RNN[1]等,但是這樣做會(huì)使其模型很容易忽略語音之間的上下文關(guān)系.多頭自注意力機(jī)制在自然語言處理(NLP)[31]中被首次提出,并被廣泛應(yīng)用于很多場(chǎng)景,例如機(jī)器翻譯[22]、情感分析[23],它可以被用于提取上下文信息并同時(shí)減少噪聲的干擾.這些工作促使本文引入多頭注意力機(jī)制提煉語音上下文之間的關(guān)系,從而提升關(guān)鍵字檢索的準(zhǔn)確率.
為此,本文設(shè)計(jì)了一個(gè)多頭自注意力語音機(jī)制模型(MASN),它由多頭自注意力模塊、殘差模塊和預(yù)測(cè)模塊組成,細(xì)節(jié)模塊如圖2所示.
圖2 語音模型框架概述Fig.2 Framework of the speech network
3.2.1 多頭自注意力機(jī)制
為了更好的提取和利用語音上下文之間的關(guān)系,本文將多個(gè)序列網(wǎng)絡(luò)的輸出輸入到多頭自注意力機(jī)制中.更具體地說,給定一段語音,首先提取它們的MFCC特征,表示為X=(x1,x2,…,xT)其中T是頻率,本文將該特征輸入 BiLSTM和BiGRU中提取語音特征,如公式(1)、公式(2)所示:
Lq=BiLSTM(X)
(1)
G=BiGRU(X)
(2)
圖3 多頭自注意力模型結(jié)構(gòu)Fig.3 Multi-Head Attention structure
在獲得語音特征后,本文將其輸入到圖3所示的多頭自注意力機(jī)制它具有3個(gè)輸入向量Q,K,V,其中Q表示查詢向量,K表示關(guān)鍵向量,V是值向量,如公式(3)~公式(5)所示:
Q=WqLq
(3)
K=WkG
(4)
V=WvG
(5)
其中Wq,Wk,Wv是訓(xùn)練參數(shù)矩陣.給定序列模型的序列特征,本文可以將它們作為多頭自注意力的不同維度的輸入向量.由于鍵值K,V將被用于檢索Q,因此需要減少K,V之間的偏差,這促使本文將一個(gè)共享的序列特征同時(shí)輸入到K和V中.例如,BiLSTM模型得到的序列特征作為查詢向量,BiGRU模型得到的序列特征則作為關(guān)鍵向量和值向量.它們不同組合的影響將在實(shí)驗(yàn)部分進(jìn)行討論.對(duì)于計(jì)算多頭自注意力模型中一個(gè)頭的dot-product attention如公式(6)所示:
(6)
其中dk的維度和Q的維度相同.本文可以計(jì)算多個(gè)頭并將它們集中到同一個(gè)矩陣中,并歸一化到一個(gè)線性函數(shù)進(jìn)行計(jì)算,生成多頭自注意力模型的輸出.多頭注意力將被輸入到一個(gè)全連接的前饋網(wǎng)絡(luò),它包含了兩個(gè)線性變換計(jì)算和一個(gè)ReLU激活函數(shù).
3.2.2 殘差模塊
為了解決序列網(wǎng)絡(luò)和多頭注意力模型訓(xùn)練過程中梯度消失或爆炸的問題,本文引入了如圖3所示的殘差機(jī)制,表示為“Res-M”,它也可以強(qiáng)化關(guān)鍵信息幀在多頭自注意力模塊和序列模塊的傳輸,如公式(7)所示:
Res-M=M+G+Lq
(7)
3.2.3 預(yù)測(cè)模塊
由于語音中存在許多被動(dòng)句,這導(dǎo)致了三元組的提取容易受到干擾,為了處理這個(gè)問題,本文引入三層BiGRU來從句子中提取時(shí)間特征,并進(jìn)行預(yù)測(cè).除此之外,為了防止模型過擬合,在BiGRU中引入了ReLU激活函數(shù)、歸一化和平均池化.最后,BiGRU采用Softmax函數(shù)計(jì)算三元組的概率.本文采用交叉熵?fù)p失函數(shù)(cross-entropy loss)來計(jì)算視覺軟標(biāo)簽和預(yù)測(cè)標(biāo)簽之間的損失,如公式(8)所示:
(8)
本文在MPII Cooking 2[33]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集由不同人錄制的273個(gè)烹飪視頻組成.由于每個(gè)視頻包含一系列不同的操作,所以官方根據(jù)動(dòng)作分類將視頻分割成一個(gè)個(gè)小片段,本文隨機(jī)選擇其中的4,000個(gè)小片段作為訓(xùn)練集訓(xùn)練視頻模塊,而另外2,000個(gè)則作為測(cè)試集輸出視頻軟標(biāo)簽.在此次實(shí)驗(yàn)中,本文分別選擇了7類動(dòng)作、8類主體對(duì)象和21類受體對(duì)象.在這之中,使用“-”表示主體物體或者受體物體缺失的情況.表1總結(jié)了本次實(shí)驗(yàn)所用到的動(dòng)作、主體物體和受體物體的類別.
表1 動(dòng)作,主體物體和受體物體的分類信息Table 1 Categories of actions and objects
4.2.1 視頻參數(shù)設(shè)置
在視頻模型的處理中,本文將視頻調(diào)整為224×224×3,并輸入到在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練,使用MPII 2數(shù)據(jù)集中的1000條數(shù)據(jù)進(jìn)行了微調(diào)的I3D模型.獲取最后一層的分類概率作為動(dòng)作概率,大小為1×N.隨后使用在COCO數(shù)據(jù)集上預(yù)訓(xùn)練并在MPII 2數(shù)據(jù)集的1000條進(jìn)行了微調(diào)的Mask R-CNN模型,并使用兩個(gè)XGBoost進(jìn)行分類,分別獲取其分布概率,大小均為1×N.將3個(gè)分布概率合并為3×N的分布概率矩陣.
4.2.2 語音參數(shù)設(shè)置
在原始語音的預(yù)處理中,本文使用MFCC從原始語音中提取39維特征進(jìn)行表示.BiGRU和BiLSTM在多頭自注意力模型之前使用,它們含有400個(gè)隱藏單元,dropout比率設(shè)置為0.2.多頭自注意力模型的輸出將被輸入到帶有3 層 BiGRU 的預(yù)測(cè)模型中,并使用Softmax進(jìn)行進(jìn)行分類.本文選擇Adam進(jìn)行優(yōu)化,并且學(xué)習(xí)率設(shè)置為0.001.
本實(shí)驗(yàn)對(duì)比的基線包括傳統(tǒng)語音模型和深度學(xué)習(xí)方法,其方法詳述如下所示:
· CNN[6],使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取語音特征從而進(jìn)行分類.
· Monolingual FFN[27],是前饋神經(jīng)網(wǎng)絡(luò)的變體,它使用瓶頸特征層來提取語音額層間信息.
· Monolingual ResNet[28],使用殘差網(wǎng)絡(luò)層改進(jìn)Monolingual FFN,進(jìn)而從多個(gè)維度提取層間信息.
· DTW(Dynamic Time Warping)[29]是一種傳統(tǒng)的數(shù)學(xué)方法,它計(jì)算目標(biāo)關(guān)鍵字和語音的翹曲距離從而檢索到指定的關(guān)鍵字.
· Vggish[30]是 CNN 的變體,它將語音向量壓縮到64 維從而濃縮關(guān)鍵的音頻信息.
本文結(jié)合I3D和Mask R-CNN作為視頻模型,在此基礎(chǔ)上,將不再使用任何文本標(biāo)簽的情況下訓(xùn)練語音模型.不同的語音模型使用視覺軟標(biāo)簽的性能如表2所示.可以從中觀察到如下情況:1)與其它深度網(wǎng)絡(luò)相比,CNN、ResNet 和 Vggish 等卷積網(wǎng)絡(luò)需要在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,因此,它們無法在數(shù)據(jù)量較小的情況下獲得比較好的性能;2)DTW表現(xiàn)得也并不盡如人意,它在計(jì)算翹曲距離時(shí)忽略了局部細(xì)節(jié),從而導(dǎo)致整體的性能不好;3)與上述方法相比,Monolingual FFN展示了相對(duì)較好的性能,這得益它的瓶頸特征層可以從層間提取信息;4)本文所提出的多頭自注意力語音網(wǎng)絡(luò)(MASN)獲得了最好性能,這得受益于該網(wǎng)絡(luò)能通過多頭自注意力模型和殘差模型提升關(guān)鍵字的權(quán)值比重,從而能更好的提取存在上下關(guān)聯(lián)的關(guān)鍵字.
表2 不同的語音模型使用視覺軟標(biāo)簽的性能Table 2 Performance on different speech models with visual grounding
多頭自注意力機(jī)制可以更好地提取上下文特征以提高關(guān)鍵詞檢索的性能,因此本文對(duì)比了不同模型是否添加Attention的性能,包括CNN、BiLSTM和BiGRU,其性能如表3所示.從表中可以獲得如下觀察:1)非序列模型CNN在數(shù)據(jù)資源較小的關(guān)鍵詞檢測(cè)中表現(xiàn)不佳,因?yàn)樗鼈兺ǔP枰蕾囉诖罅康念A(yù)訓(xùn)練工作才能獲得穩(wěn)定的性能.但是,得益于多頭自注意力機(jī)制的上下文理解能力,即便是性能較差的CNN也可以提高近一倍的性能;2)單個(gè)BiLSTM或BiGRU模型很容易會(huì)受到噪聲干擾,從而導(dǎo)致識(shí)別效果較差,而引入的多頭自注意力層可以很好的提高抗干擾能力以獲得更好的性能.
表3 多頭自注意力機(jī)制結(jié)合不同模型的表現(xiàn)Table 3 Different model with multi-head attention
表4總結(jié)了集成不同序列模型時(shí)的語音模型的性能,從表中可以獲得如下觀察:1)添加了序列模型的多頭自注意力機(jī)制的性能優(yōu)于沒有添加序列模型時(shí)的性能.其原因可能是序列模型可以加深關(guān)鍵字信息,這使得多頭自注意力模型可以更好的整合關(guān)鍵字上,從而更好的提取上下文信息;2)同時(shí)使用BiGRU和BiLSTM的混合序列模型的性能優(yōu)于只使用BiGRU或BiLSTM的單序列模型.原因可能是雖然BiGRU和BiLSTM的訓(xùn)練參數(shù)雖然有所不同,但它們屬于同源網(wǎng)絡(luò).因此,它們可以作為兩個(gè)網(wǎng)絡(luò)分支相互學(xué)習(xí),使模型更具有魯邦性;3)BiGRU的訓(xùn)練參數(shù)比BiLSTM少,在數(shù)據(jù)量較小的情況下更容易擬合參數(shù).因此,BiGRU的單序列模型往往比BiLSTM的單序列模型更容易獲得較好的性能.
表4 集成不同序列模型時(shí)語音模型的性能Table 4 Performance of integrating different sequence models
為了評(píng)估殘差模型的有效性,本文以兩個(gè)性能良好的混合序列模型作為基礎(chǔ),如表5所示.從表中可以觀察到通過殘差層的連接,兩個(gè)混合序列模型的性能都有所提升,這可能是由于殘差層可以提高關(guān)鍵詞的權(quán)重,有利于關(guān)鍵詞的檢索.此外,隨著訓(xùn)練次數(shù)的增加,無殘差模塊的網(wǎng)絡(luò)導(dǎo)致了梯度消失,從而反而會(huì)使性能有所下降.
表5 不同混合模型添加殘差塊時(shí)的性能Table 5 Performance on different visual models
為了評(píng)估不同視覺模塊對(duì)語音模型的影響,本文使用不同的視覺模塊并結(jié)合本文的語音模塊進(jìn)行比對(duì).在視覺模塊上,使用Mask R-CNN識(shí)別對(duì)象,使用stack flow、CNN、CNN3D[26]、two-stream[27]和I3D[8]分別識(shí)別動(dòng)作.從表6中可以觀察到,首先,stack stream和CNN的性能比較差,原因可能是它們只考慮了動(dòng)作特征,而沒有考慮是否它是否與物體特征相匹配檢測(cè)特征.其次,CNN3D、two-stream和I3D表現(xiàn)較為良好,這可能得受益于它們能提取的特征較多,能更好的動(dòng)作特征和物體特征融合起來.最后,I3D表現(xiàn)最好,這是因?yàn)镮3D平衡了動(dòng)態(tài)場(chǎng)景和物體的捕捉能力,這有利于提升與動(dòng)作相關(guān)的物體的概率.
表6 使用不同視覺標(biāo)簽時(shí)語音模型的性能Table 6 Performance on different visual models
為了研究使用不同標(biāo)簽時(shí)的語音模型的性能,本文分別使用圖像、視頻和文本作為語音模型的標(biāo)簽,指導(dǎo)語音模型的訓(xùn)練.表7總結(jié)了使用不同標(biāo)簽時(shí)的性能,本文的語音模型使用視頻作為標(biāo)簽時(shí)的性能,用MASN進(jìn)行表示;使用文本作為標(biāo)簽時(shí)語音模型的性能,用MASN_TEXT進(jìn)行表示,以及使用圖像作為標(biāo)簽時(shí)的性能,用MASN_IMG進(jìn)行表示.CNN_IMG從每個(gè)短視頻中選擇一個(gè)關(guān)鍵幀作為輸入,所有方法使用的訓(xùn)練樣本數(shù)均為2500個(gè).MASN_IMG的識(shí)別準(zhǔn)確率較低,可能的原因是它不能從圖片中正確識(shí)別動(dòng)作,并且無法將動(dòng)作與對(duì)象關(guān)聯(lián)起來,從而導(dǎo)致它們經(jīng)常只能正確識(shí)別主體對(duì)象或者受體對(duì)象,而無法識(shí)別整體.此外,使用文本作為標(biāo)簽是該任務(wù)精度所能達(dá)到的上限,可以從表中發(fā)現(xiàn)MASN的性能相當(dāng)接近MASN_TEXT,這表明使用視頻作為標(biāo)簽具有很高的可行性.
表7 使用不同標(biāo)簽時(shí)語音模型的性能Table 7 Performance of our approach with different number of labels
為了驗(yàn)證模型的有效性,本文在UR10e機(jī)器人上部署了本文提出的語音模型.首先將人類語音作為輸入,然后通過語音模型MASN識(shí)別由主體對(duì)象、動(dòng)作和受體對(duì)象組成的語義三元組.在識(shí)別到三元組后,本文通過之前的工作[11]執(zhí)行命令.對(duì)于主體物體和受體物體,使用在預(yù)訓(xùn)練的Mask R-CNN來識(shí)別現(xiàn)實(shí)世界中出現(xiàn)的相應(yīng)對(duì)象,并根據(jù)[34]抓取的位置進(jìn)行抓取.對(duì)于動(dòng)作,本文應(yīng)用動(dòng)態(tài)運(yùn)動(dòng)原語(DMP)[35]系統(tǒng)生成機(jī)器人執(zhí)行的軌跡.圖4顯示了機(jī)器人根據(jù)語音進(jìn)行操作的示例.
圖4 UR10e 執(zhí)行操作示例(頂部是輸入語音樣本,中間是檢測(cè)到的語音命令,底部是執(zhí)行機(jī)器人的例子)Fig.4 Example of performing manipulations by UR10e using our proposed framework.(The top is the input speech sample.The middle is the detected spoken commands,and the bottom is an example of executing the robot)
本文提出一種基于視覺標(biāo)簽的語音三元組檢測(cè)模型框架 MASN,它在訓(xùn)練語音模型期間不需要太多的文本標(biāo)簽,而是以視覺標(biāo)簽為基礎(chǔ)從語音中檢測(cè)三元組關(guān)鍵字.該框架由兩個(gè)模塊組成,即視頻模塊和語音模塊.第1個(gè)模塊利用I3D和Mask R-CNN以及 XGBoost預(yù)測(cè)主體物體、動(dòng)作和受體物體的概率,并合并這些概率作為語音模塊標(biāo)簽用于語音模型的訓(xùn)練.第2個(gè)語音模塊引入了多頭自注意力機(jī)制,它結(jié)合了序列模塊和殘差模塊分析語音的上下文信息,從而識(shí)別三元組特征.本文在MPII Cooking 2數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)和論證發(fā)現(xiàn),與現(xiàn)有的語音模型相比,本文的方法可以使用視覺標(biāo)簽來替換文本標(biāo)簽,并且在識(shí)別精度上取得了更加優(yōu)異的性能.