Multi-prototype driven graph neural network for speaker diarization
Abstract:Recently,theutilizationof graphneuralnetwork forsesson-levelmodelinghasdemonstrateditseficacyforspeakerdiarization.However,mostof existing variantssolelyrelyonlocalstructure information,gnoringtheimportanceof global speakerinformation,whichcannotfullycompensateforthelackof speakerinformationinthespeakerdiarizationtask.This paper proposedamulti-prototypedriven graphneuralnetwork(MPGNN)forrepresentationlearning,whichefectivelycombined local and global speaker information within each session and simultaneously remaps X -vector to a new embedding space that was moresuitableforclustering.Specifically,,the designof prototypelearning withadynamicandadaptive approach wasacritical component,where more accurateglobal speaker informationcould becaptured.Experimentalresultsshowthatthe proposed MPGNN approach significantly outperforms the baseline systems,achieving diarization error rates(DER)of 3.33% , 3.52% , (204號 5.66% ,and 6.52% on the AMI_SDM and CALLHOME datasets respectively.
Keywords:speakerdiarization;graphneural network;local structure information;global speaker information;multiprototype learning
0 引言
說話人日志(speakerdiarization,SD)的目標是解決“誰在何時說話”的問題,即在給定的包含多個說話人交流的長音頻信號中,同時實現(xiàn)說話人識別和說話人定位。近年來,說話人日志技術的有效研究已經(jīng)廣泛應用于多個場合,如會議記錄、來電角色劃分、語音搜索引擎、在線視頻特定說話人檢索等。
縱觀說話人日志領域多篇綜述性論文[1.2],主流的研究方向大致可以分成兩大類,即基于聚類的多模塊級聯(lián)學習方法和端到端的神經(jīng)網(wǎng)絡方法。2018年深度學習技術的興起,給予端到端的說話人日志方法極大的發(fā)展,使其在某些條件受限的情況下表現(xiàn)出較為優(yōu)越的性能。但隨著CHiME-5/6、DIHARD-1/2/3、VoxSRC-20/21/22/23等挑戰(zhàn)賽的發(fā)布,說話人日志領域的研究開始著力于解決真實的場景問題。而基于聚類的多模塊級聯(lián)學習方法相比端到端方法,能更好地處理復雜場景下的長音頻和未知說話人情況,是當下比較熱門的研究方向。
基于聚類的說話人日志方法旨在將每個會話中的多個說話人精確地定位并識別。其處理流程通常包括一系列步驟:語音活動檢測[3.4]、語音段分割[5.6]、說話人嵌入提取[7.8]、聚類[9,10]和后處理[11]?;诰垲惖恼f話人日志方法作為級聯(lián)學習方法的一種,好的短切分說話人表征直接影響最后的聚類效果,因此目前研究熱點主要集中在基于固定短切分的說話人嵌入優(yōu)化上。說話人嵌入特征的提取通常依賴于預訓練模型,將語音片段轉(zhuǎn)換為固定維度的特征空間,如i-vector或X-vector[8]。然而,在說話人日志任務中使用這些預訓練的說話人模型存在兩個主要問題。一方面,預訓練模型特征設計不同于說話人日志任務,很可能引入冗余和不相關的信息。另一方面,說話人日志需要較短的片段(0.5\~2.0s)以準確定位說話人變化點,預訓練的說話人模型可能無法提供足夠的說話人特定信息。因此,基于聚類的說話人日志體系最為關鍵的組成部分就是在固定短切分框架下,對說話人嵌入進行優(yōu)化。
近年來,圖神經(jīng)網(wǎng)絡(graphneuralnetwork,GNN)在會話級別建模中的應用已顯示出其在說話人嵌入優(yōu)化方面的有效性,例如使用圖神經(jīng)網(wǎng)絡進行會話級別的說話人嵌入細化方法[12]、基于多尺度說話人嵌入的圖注意力網(wǎng)絡方法[13]以及基于圖神經(jīng)網(wǎng)絡對說話人嵌入和聚類進行聯(lián)合優(yōu)化的基于社區(qū)檢測的圖卷積網(wǎng)絡方法(communitydetectiongraphconvolutionalnetwork,CDGCN)[14]、有監(jiān)督層次圖聚類方法(supervised hierar-chical graph clustering,SHARC)[15]。這些方法的主要思想是先為每個片段提取固定維度的嵌人,然后利用親和度矩陣來迭代學習每個會話內(nèi)相鄰片段之間的局部特征。盡管這些方法提升了特定會話的理解能力,但它們僅僅依賴于局部結(jié)構(gòu)信息而忽略全局說話人信息的重要性,最終限制了其整體性能的有效性。之后,基于圖注意力的深度嵌入聚類(graphattentionbaseddeep embedded clustering,GADEC)[16]打破了上述局限,它利用高階鄰居來探索全局信息。然而,這種方法受到圖注意力層數(shù)的限制,不僅增加了計算開銷,同時引入了無法避免的鄰居噪聲。
最近一種使用多原型學習的圖像聚類方法[1突破了上述問題的限制。類原型在圖形結(jié)構(gòu)上學習節(jié)點表示可以促進來自遠程節(jié)點的信息交流,從而有效捕獲全局相關性。受此啟發(fā),本文提出了一種面向說話人日志的多原型驅(qū)動圖神經(jīng)網(wǎng)絡方法(multi-prototype driven graph neural network for speaker dia-rization,MPGNN)。該方法在擴展說話人原型概念的基礎上,提出了一種全新的基于圖神經(jīng)網(wǎng)絡的動態(tài)自適應多原型學習過程。該過程既能避免GADEC方法中高階鄰居帶來的計算開銷和噪聲影響,還能有效引入全局說話人信息,彌補說話人日志任務中固定短切分框架下說話人嵌入信息不足等問題。
本文的主要貢獻概括如下:
a)提出一個基于圖神經(jīng)網(wǎng)絡的動態(tài)自適應多原型學習模塊,在避免多層圖神經(jīng)網(wǎng)絡帶來計算開銷和噪聲影響的同時,能有效獲取全局說話人信息。b)提出一種基于注意力機制的特征融合方法,有助于探索局部相關性和說話人全局信息之間的相互交互,以實現(xiàn)針對特定會話的說話人表征學習。c)提出的MPGNN方法在AMI_SDM和CALLHOME數(shù)據(jù)集上分別達到了 3.33%.3.52%.5.66% 和 6.52% 的說話人日志錯誤率。該方法顯著優(yōu)于基線系統(tǒng),并且在大部分情況下,甚至超過了最先進(SOTA)方法。
1本文方法
本章將詳細介紹所提出的面向說話人日志的多原型驅(qū)動圖神經(jīng)網(wǎng)絡方法MPGNN,具體實現(xiàn)方法如算法1所示。給定一個會話音頻,通過語音活動檢測過濾非語音片段后,將語音片段固定切分成1.5s長,0.75s重疊的短片段。隨后,利用預訓練模型作為說話人編碼器來提取固定維度的說話人嵌入X={x1,x2,…,xN|xi∈RD} ,其中 N 表示每個會話中音頻片段的數(shù)量, xi 表示第 i 個音頻片段的聲紋嵌入, D 表示嵌入空間的維度。最后,這些嵌人作為輸入應用于MPGNN模型對說話人表征進行優(yōu)化,并輸出重構(gòu)親和矩陣進行無監(jiān)督說話人聚類。
算法1 MPGNN
輸入:說話人嵌入 X ;會議數(shù),最近鄰數(shù),說話人數(shù)和原性數(shù) M,k c*,p* ;超參數(shù) μ,λ 。
輸出:預估的親和矩陣 。
while m=0 to M-1 do圖構(gòu)建: (204多原型學習
(24號信息融合:
(204號
endwhile
output:使用 σ(Hm,Hm′) 預測
MPGNN的主要思想是為了探索特定會話下局部相關性和說話人全局信息之間的有效交互,總體流程如圖1所示。其主要包括以下幾個關鍵模塊:圖構(gòu)建模塊、多原型學習模塊、信息融合與聯(lián)合優(yōu)化模塊。
1.1語音片段關系圖構(gòu)建
參考近期說話人日志領域中利用圖神經(jīng)網(wǎng)絡進行會話級建模方法[12-16],根據(jù)聲紋嵌入間的余弦相似度或概率線性判別分析(probabilisticlineardiscriminantanalysis,PLDA)相似度[18構(gòu)建圖結(jié)構(gòu),將非結(jié)構(gòu)化嵌入轉(zhuǎn)換為結(jié)構(gòu)化圖形數(shù)據(jù)??紤]到初始圖結(jié)構(gòu)直接影響圖神經(jīng)網(wǎng)絡對于說話人局部結(jié)構(gòu)信息的學習效果,本文對初始圖結(jié)構(gòu)進行校準。
1.1.1語音片段關系圖結(jié)構(gòu)初始化
首先,利用預訓練編碼器提取每個會話中對應語音片段的說話人嵌入 X={x1,x2,…,xN|xi∈RD} 。將每一條語音片段作為圖節(jié)點,語音片段對應的說話人嵌入作為節(jié)點嵌入,得到節(jié)點表示 V={vi|i=1,2,…,N} 。其中 N 表示特定會話中的語音片段數(shù), vi 表示第 i 條語音片段對應的節(jié)點表示。然后,利用說話人嵌入間的相似性建立節(jié)點間的關系表示 E={eij|i,j=1 ∣2,…,N} ,其中 eij 表示第 i 條語音片段和第 j 條語音片段之間對應節(jié)點的相關性,其權重表示由親和矩陣 A∈RN×N 確定。
1.1.2語音片段關系圖結(jié)構(gòu)校準
不同于基于余弦相似度或PLDA相似度構(gòu)建親和矩陣方法,本文受文獻[14]啟發(fā),舍棄了需要單獨訓練的PLDA模型,本文在簡單的余弦相似度基礎上,參考對領域信息進行整合的相關工作[19],提出一個多步驟初始圖結(jié)構(gòu)校準方法。
a)余弦相似度矩陣構(gòu)建。本文利用余弦相似度,構(gòu)造一個 N×N 的相似度矩陣 s
其中: Sijcos 表示聲紋嵌入 xi 和 xj 之間的余弦相似度。
b)最近鄰選擇。通過近似最近鄰算法(approximatenearestneighbor,ANN)挑選與節(jié)點 vi 最相近的 k 個最近鄰 N(vi,k)= {vi1,vi2,…,vik} 。為提升節(jié)點 vi 和 N(vi,k) 中的元素同屬于一類的可能性,將最近鄰集合 N(vi,k) 拓展為 vi 和 N(vi,k) 中的元素互為鄰居的新集合 R(vi,k) :
R(xi,k)={xj∣(xj∈N(xi,k))∧(xi∈N(xj,k))}
為避免一些特征空間上相似性較小的相同說話人被排除在 K 近鄰之外,對集合 R(xi,k) 進行擴充:
?vj∈R(vi,k)
其中: 1?1 表示集合中的元素數(shù)量; R*(vi,k) 表示包含更多同一說話人語音節(jié)點的集合。
c)相似度重定義。本文重新定義了節(jié)點 vi 和每個候選節(jié)點 vj 之間的相似性度量,利用杰卡德相似性 Sijjac 來校準簡單余弦相似性 Sijcos 帶來的噪聲邊影響:
其中: λ 是一個平衡系數(shù),用于調(diào)整杰卡德相似度 Sijjac 和余弦相似度 Sijcos 的權重。
d)閾值過濾。參考前人工作[1,利用特征空間計算得到的相似度矩陣 s 往往包含大量弱連接邊,使用閾值過濾能獲得一個更有益于說話人區(qū)分的圖結(jié)構(gòu)。
1.2動態(tài)說話人多原型學習
盡管好的圖結(jié)構(gòu)表示能為當前表征帶來有效的局部結(jié)構(gòu)信息,但若依賴圖神經(jīng)網(wǎng)絡層數(shù)的增加來獲取全局信息,往往伴隨著鄰居噪聲點的干擾。MPGNN在擴展說話人原型概念的基礎上,提出了一種動態(tài)自適應多原型學習方法,在避免多層圖神經(jīng)網(wǎng)絡帶來的噪聲干擾同時,以說話人原型為導向,有效引入全局說話人信息。整個多原型學習的過程主要包含多原型初始化和多原型更新,具體步驟如圖2所示。
1.2.1動態(tài)說話人多原型初始化
為解決預訓練模型任務不匹配帶來的高維度信息冗余問題,本文首先使用多層感知機(multilayerperceptron,MLP)將特定會話的節(jié)點表示 ,即初始的說話人嵌入表示 X0 轉(zhuǎn)換到一個低維潛在空間并表示為
。接著,在給定說話人類別數(shù) c* 和說話人原型數(shù) p* 的情況下,利用K-means無監(jiān)督聚類算法來獲取初始的聚類分布 C={Cc|c=1,2,… c* }。其中 c* 表示特定會話中的說話人數(shù)量,即聚類數(shù),而Cc∈RN′×D′ 表示包含 N' 個節(jié)點數(shù)和 p′ 特征維度的說話人類別c 最后,通過對每個說話人類別執(zhí)行平均池化操作,獲取每個類別的初始說話人中心表征 Xc'
由于單說話人原型往往無法有效表示復雜的數(shù)據(jù)結(jié)構(gòu)[17],MPGNN以聚類為指引進行多原型的設計,捕捉更加豐富的類內(nèi)多樣性特征。在多原型學習初始化過程中,本文利用高斯分布 N(η,Σ) 進行隨機采樣,其中 η 表示由說話人中心表征 Xc 進行初始化得到的均值, Σ 表示為隨機初始化得到的協(xié)方差。
1.2.2動態(tài)說話人多原型自適應更新
在設計的特定聯(lián)合損失約束下,多原型 Pc={Pcp|p=1 2,…,p*} 伴隨著槽注意力機制的學習過程而不斷更新。其中p* 表示說話人類別 c 中的原型數(shù)量。公式化描述如下:
其中:l表示多原型迭代學習次數(shù); WQ ,WK, WV∈RD′×D′ 為參數(shù)矩陣; 分別表示在說話人類別 ∣c∣ 中映射所得查詢(queries)、鍵(keys)和值(values)。
原始的槽注意力機制通過學習固定數(shù)量的槽來表示計算機視覺任務中的不同對象。在MPGNN中,本文擴展了槽注意力機制來學習每個類中多原型的節(jié)點特征。利用高斯分布所得的初始化多原型 pc 在槽注意力機制經(jīng)過 l+1 次迭代后,學習得到符合數(shù)據(jù)分布的新多原型 (Pc)l+1 :
其中: Λω 表示一個用于數(shù)值穩(wěn)定性的小系數(shù),其值被設置為 1E-8
1.3特征融合和聯(lián)合優(yōu)化
初始說話人嵌入 X∈RN×D 在局部分支中,經(jīng)由兩層圖卷積網(wǎng)絡層[20]得到新的節(jié)點輸出 G∈RN×D' ,鑒于模型的復雜度,本文簡單地利用點積注意力機制,將局部相關性信息與說話人感知的全局信息進行融合:
其中: ω 表示一個用于數(shù)值穩(wěn)定性的小系數(shù),其值被設置為 1E-8
為有效探索局部和全局信息之間的交互過程,本文引入單分支的獨立優(yōu)化和雙分支的一致性優(yōu)化來對MPGNN進行聯(lián)合訓練。對于全局分支,在給定說話人嵌入 X∈RN×D 和說話人類別數(shù) c* 的情況下,MPGNN為確保每個類別中不同說話人原型間的多樣性,引入正交損失:
其中: F 表示L2范數(shù): ;I 表示單位矩陣,以實現(xiàn)軟正交約束。對于雙分支的一致性優(yōu)化,引人均方誤差(mean squared error,MSE) :
其中: Y 表示真實標簽; 表示局部分支輸出節(jié)點在與全局信息進行交互時對應的最相似說話人原型標簽。最后,將常用的有監(jiān)督說話人日志損失 lbce 與本文提出的兩個新的損失函數(shù)進行有效結(jié)合:
L=αlortho+βlcom+lbce
其中: α 和 β 分別表示全局分支的獨立優(yōu)化和雙分支一致性優(yōu)化在總損失函數(shù)中的固定權重。
2 實驗與結(jié)果分析
2.1 數(shù)據(jù)集
為驗證MPGNN方法的有效性,本文選用說話人日志領域最常用的兩個公開數(shù)據(jù)集AMI和CALLHOME進行相關實驗。兩個數(shù)據(jù)集的統(tǒng)計描述如表1所示。
AMI數(shù)據(jù)集[21是一個全面的多模態(tài)英語數(shù)據(jù)集,共包含171個會議記錄,總對話時長高達 100h 。每場會議都以16kHz 的頻率進行采樣,每個對話最多有五個說話人參與。本文選用通用的AMISDM條件下的驗證集和測試集用于實驗。
NISTSRE2000(Disk8)也被稱為CALLHOME數(shù)據(jù)庫。該數(shù)據(jù)集是一個會話式多語言庫,總時長為 20h 。每個對話最多涉及七個說話人。作者通常采用5折交叉驗證方法[12.22]來評估其模型的性能。
2.2 評價指標
根據(jù)說話人日志任務需求,基于固定短切分的級聯(lián)學習方法更看重說話人識別的準確性。因此,本文選用當前使用頻率最高的說話人日志錯誤率(diarizationerrorrate,DER)作為評估指標來衡量不同方法的性能。其計算方式如下:
DER=FA+MS+SC
其中: FA (1alarm)表示語音的誤報率; MS (missed speech)表示語音的漏檢率; sc (speakerconfusion)表示說話人標簽的誤報率。前兩者主要用來評判語音檢測或語音分割的優(yōu)劣,后者用來評判說話人識別的準確性。
2.3 實驗設置
實驗服務器配置為 4316 CPU,GPU采用GeForce RTX 3080Ti 。操作系統(tǒng)為Ubuntu20.04.4,使用Python3.9.17,CUDA11.3和PyTorch1.10.0作為開發(fā)環(huán)境。
參考前人工作[12.16],本文采用與主流方法一致的前端工作,將長語音片段切分成1.5s固定長度的短片段,相鄰片段的重疊時長為 0.75s 。針對不同的數(shù)據(jù)集,利用Kaldi官方[23]提供的聲紋特征提取器分別提取512維和128維的X-vector[8],兩個數(shù)據(jù)集的X-vector的訓練配置如表2所示。
GNN預訓練:為驗證圖結(jié)構(gòu)校準過程的有效性,本文新增了最近鄰選擇、相似度重定義、閾值過濾的消融實驗。實驗在AMISDM數(shù)據(jù)集上,最近鄰數(shù)量 k 、平衡系數(shù) λ 和相似度分過濾閾值 μ 最佳取值分別為 300.0.1 和0.3,由于CALLHOME數(shù)據(jù)集中錄音記錄相對較短,所以鄰居數(shù) k 的最佳取值為30,平衡系數(shù) λ 和相似度得分過濾閾值 μ 最佳取值分別為0.1和0.3。在整個實驗過程中,本文延續(xù)了前人工作[1的相同設置,采用兩層圖編碼器(GNN)并將其維度分別設置為 32,16 (24為更好地進行比較,本文使用了兩種當下主流的無監(jiān)督聚類方法:凝聚層次聚類(agglomerativehierarchicalclustering,AHC)[6.24]和譜聚類(spectral clustering,SC)[25-27],其中凝聚層次聚類的學習過程與工作[28]一致,新增一個用于全局主成分分析(principalcomponentsanalysis,PCA)的線性層。而譜聚類中針對說話人未知的情況,本文同文獻[27]一致,將余弦相似度矩陣進行特征間隙分析,預估說話人數(shù)量。
MPGNN訓練:為驗證多原型學習過程的有效性,本文新增了三個損失函數(shù)的消融實驗。將上述GNN預訓練的網(wǎng)絡作為編碼器,在多原型學習分支下,分別使用不同的損失函數(shù)組合對其進行微調(diào)。學習過程中,本文使用隨機梯度下降(stochasticgradientdescent,SGD)優(yōu)化器對MPGNN進行了100個epochs的訓練,并將實驗重復10次取平均以避免極端值。其中,初始學習率為0.01,在第90個epoch后學習率設置為0.001。實驗在AMISDM數(shù)據(jù)集上,超參數(shù) α?β 和原型數(shù) p* 最佳取值分別為 0.01,0.1 和10,CALLHOME數(shù)據(jù)集上超參數(shù)分別選擇為0.05、0.1和7。
本文使用dscore工具分別計算說話人已知和未知情況下,包含0.25s語音邊界不計分區(qū)域的SC說話人標簽誤報率以及不包含0.25s語音邊界不計分區(qū)域的DER總錯誤率,從而更好地與說話人日志領域特定數(shù)據(jù)集下主流方法進行比較。
2.4對比實驗
為充分驗證MPGNN的有效性,本節(jié)選擇當前主流的一些基于固定段切分的模塊化方法:ClusterGAN[29]、SSC-PIC[28]、SHARC[15]、GADEC[16]] GNN[12] 與本文方法進行比較。表3給出了相關方法在AMISDM和CALLHOME數(shù)據(jù)集上DER指標的評估結(jié)果。為了更好地與主流方法進行比較,本文在計算DER的過程中與上述方法保持一致,選擇 Δw/outOVP+COL 這種去除重疊語音和增加 0.25s 語音邊界不計分區(qū)域的DER計算。其中,在AMISDM數(shù)據(jù)集上,本文方法延續(xù)了公開文獻中說話人未知情況下DER的錯誤率,而在CALLHOME數(shù)據(jù)集上,本文方法在實驗結(jié)果上保留了說話人已知和未知情況下的DER錯誤率。
結(jié)合表3中的實驗數(shù)據(jù),可以觀察到主流方法在AMISDM數(shù)據(jù)集上往往表現(xiàn)更佳,這是由于該數(shù)據(jù)集相對而言語音較長,模型能夠捕獲更多有利的說話人信息。在AMISDM和CALLHOME數(shù)據(jù)集上,MPGNN的DER和SOTA方法(例如GADEC)相比分別降低了 5.9%10.2%.36.6%.7.8% 。實驗結(jié)果表明,通過多原型驅(qū)動圖神經(jīng)網(wǎng)絡以感知全局說話人特征的MPGNN方法,相較于利用高階鄰居來探索全局信息的GADEC方法,不僅能突破圖注意力層數(shù)的限制,減少額外的計算開銷,還能有效避免鄰居噪聲,降低說話人識別錯誤率。
2.5 消融實驗
為驗證提出的圖構(gòu)建策略和原型驅(qū)動策略的有效性,本節(jié)在CALLHOME數(shù)據(jù)集上選擇 和 x-vec+cos+SC 作為基線方法并對所提方法進行消融實驗。實驗結(jié)果分別如表4和5所示,表4中的策略1、2分別表示最近鄰選擇策略,相似度重定義 + 閾值過濾策略,表5中的L1、L2、L3分別表示有監(jiān)督說話人日志損失、探索局部和全局信息交互的均方誤差損失 lcomp 以及確保類別原型多樣性的正交損失 lortho 。
圖構(gòu)建策略的有效性:通過在基線模型上增加多步驟圖構(gòu)建策略,如表4所示的 GNN+SC-l ,可以看出相較于基線模型x-vec+cos+SC ,以往公開文獻[16]中常用的最近鄰圖構(gòu)建策略在CALLHOME數(shù)據(jù)集上并不奏效。鑒于本文使用的X-vector[8]聲紋信息汲取能力略遜于文獻[16],但又為了能與主流方法更好地進行比較,本文在普通聲紋特征模型X-vector[8]的基礎上,增加相似度重定義 + 閾值過濾策略,實驗結(jié)果顯示GNN?SC-2 相比基線模型 μX-vec+cos+SC 在性能上有了明顯的提升,這也表明了該圖構(gòu)建策略的有效性。
原型驅(qū)動策略的有效性:通過在基線模型上增加不同原型驅(qū)動策略,如表5所示的MPGNN +SC-1 ,可以看出相較于基線模型 x-vec+cos+SC ,公開文獻[12\~16]中常用的 lbce 在多原型學習過程中并不奏效。這是由于本文在探索全局說話人信息的同時,說話人多原型又引入了噪聲。為此本文新增均方誤差損失 lcomp 原型驅(qū)動策略以及正交損失 lortho 原型驅(qū)動策略,實驗結(jié)果表明,MPGNN +SC-2 、MPGNN +SC.3 相比基線均有所下降,這證明了使用原型驅(qū)動策略在有效減輕多原型學習過程中說話人不匹配帶來的噪聲干擾影響的同時,能夠有效提升模型性能。
2.6 超參分析
本節(jié)將對所提方法引入的參數(shù)進行分析,包括圖構(gòu)建策略中的過濾閾值 μ 和平衡系數(shù) λ ,以及原型驅(qū)動策略中的超參數(shù)原型數(shù) p* 。實驗在AMI_SDM數(shù)據(jù)集上進行,結(jié)果如圖3所示。
在沒有原型學習時,過濾閾值 μ 和平衡系數(shù) λ 對DER的影響如圖3(a)所示。在圖構(gòu)建過程中用于平衡余弦相似度和杰卡德相似度重要性的參數(shù) λ ,當 λ 為0時,僅考慮余弦相似度作為最終相似度;而當 λ 為1時,則僅使用杰卡德相似度。DER會先隨著 λ 的增大而降低,然后在超過閾值0.1后開始快速升高。在 λ 值過小時,少量的杰卡德相似度可以補充余弦相似度在說話人嵌入上的細微不足。而在 λ 值過大時,杰卡德相似度占比過大,不利于捕捉說話人嵌人之間的潛在關系。
此外,在圖構(gòu)建過程中用于過濾較小相似度的閾值 μ DER會先隨著 μ 增加而降低,而當為 μ 分配一個較大的值時可能會過濾掉相關說話人嵌入導致的性能下降。由此,當設置平衡系數(shù) λ=0.1 和閾值 μ=0.3 時,在說話人未知時獲得最佳測試集結(jié)果,即 4.17% 的識別錯誤率??梢杂^察到,所提方法明顯優(yōu)于基線 的 5.97% 的識別錯誤率,表明使用圖構(gòu)建策略是有效的。在增加多原型學習時,超參數(shù)原型數(shù)p* 對DER的影響如圖3(b)所示,DER隨著 p* 在一個合理范圍的增加而降低。當 p* 過小時,類原型太少無法提供完整的全局說話人信息,而在 p* 過大時,類原型過多導致不同說話人區(qū)分性較差。但本文方法在不同的 p* 值上始終優(yōu)于基線。這表明了使用多原型學習策略來捕獲全局說話人信息是有效的。
2.7 可視化分析
為了評估AMI_SDM數(shù)據(jù)集上MPGNN方法的有效性,本節(jié)選取開發(fā)集中一個會議樣本進行親和矩陣的可視化分析。如圖4所示,可以觀察到本文方法MPGNN在圖4(b)所示的親和矩陣可視化分析上,區(qū)分性明顯優(yōu)于圖4(a)所示的基線模型 的親和矩陣。這表明相比基線模型,MPGNN能使不同的說話人嵌人之間區(qū)別更加明顯,更有助于不同說話人之間的區(qū)分,這也充分說明了本文所提多原型驅(qū)動圖神經(jīng)網(wǎng)絡在說話人日志領域的有效性。
3結(jié)束語
本文致力于解決說話人日志任務中基于固定短切分導致說話人信息不足的問題,提出了一種面向說話人日志的多原型驅(qū)動圖神經(jīng)網(wǎng)絡方法MPGNN。相較于現(xiàn)有技術,MPGNN通過精心設計的四大核心模塊一圖構(gòu)建、原型學習、信息融合及聯(lián)合優(yōu)化,實現(xiàn)了對全局信息的深度捕捉與局部相關性的精細整合。盡管本文方法有效削弱了說話人信息不足對聚類效果的負面影響,但還存在一定的改進空間。后續(xù)工作中,將進一步考慮如何自適應地確定最近鄰數(shù)量 k 值以及如何將本文所提方法與聚類進行聯(lián)合學習等問題。
參考文獻:
[1]TranterSE,ReynoldsDA.An overview ofautomatic speaker diarizationsystems[J].IEEETrans on Audio,Speech,and LanguageProcessing,2006,14(5):1557-1565
[2]Park TJ,KandaN,DimitriadisD,et al.Areview of speaker diarization:recent advances with deep learning[J].Computer Speech amp; Language,2022,72:101317.
[3]Zazo R,Sainath TN,Simko G,et al.Feature learning with rawwaveform CLDNNs forvoiceactivity detection[C]//Proc of InterSpeech. 2016:3668-3672.
[4]Chang S Y,LiBo, Simko G,et al. Temporal modeling using dilated convolutionand gating forvoice-activity-detection[C]//Procof IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEEPress,2018:5549-5553.
[5]YinRuiqing,Bredin H,Barras C. Speaker change detection in broadcast TV using bidirectional long short-term memory networks[C]// Proc of InterSpeech.2017.
[6]Sell G,Garcia-Romero D.Speaker diarization with PLDA i-vector scoringand unsupervised calibration [C]//Proc of IEEE Spoken Language TechnologyWorkshop.Piscataway,NJ:IEEEPress,2014: 413-417.
[7]Dehak N,KennyPJ,Dehak R,et al.Front-end factor analysis for speaker verification [J]. IEEE Trans on Audio,Speech,and LanguageProcessing,2011,19(4):788-798.
[8]Snyder D,Garcia-Romero D,Sell G,et al.X-vectors:robust DNN embeddingsfor speakerrecognition[C]//Proc of IEEEInternational Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ:IEEE Press,2018:5329-5333.
[9]Han KJ,Kim S,Narayanan S S. Strategies to improve the robustness of agglomerative hierarchical clustering under data source variation for speaker diarization[J].IEEE TransonAudio,Speech,and Language Processing,2008,16(8):1590-1601.
[10]Luxburg U.A tutorial on spectral clustering[J].Statistics and Computing,2007,17(4):395-416.
[11]LandiniF,ProfantJ,Diez M,et al.Bayesian HMMclustering of (204號 X -vector sequences(VBx)in speaker diarization:theory,implementation and analysis on standard tasks [J].Computer Speech amp; Language,2022,71:101254.
[12]Wang Jixuan,Xiao Xiong,Wu Jian,etal.Speaker diarization with session-level speaker embedding refinement using graph neural networks[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press,2020: 7109-7113.
[13]KwonY,HeoHS,JungJW,et al.Multi-scale speaker embeddingbased graph attention networks for speaker diarization [C]/Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2022:8367-8371.
[14]Wang Jie,Chen Zhicong,Zhou Haodong,et al.Community detection graph convolutional network for overlap-aware speaker diarization [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2O23:1-5.
[15] Singh P,Kaul A,Ganapathy S. Supervised hierarchical clustering usinggraph neural networks for speaker diarization[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing.Piscataway,NJ:IEEE Press,2O23:1-5.
[16]Wei Yi,GuoHaiyan,Ge Zirui,etal.Graph attention-based deep embedded clustering for speaker diarization [J]. Speech Communication,2023,155:102991.
[17]Zeng Shan,Duan Xiangjun,Bai Jun,et al.Soft multiprototype clusteringalgorithmviatwo-layersemi-NMF[J].IEEETrans on Fuzzy Systems,2024,32(4):1615-1629.
[18]IoffeS.Probabilistic lineardiscriminantanalysis[C]//Procofthe 9th European Conference on Computer Vision.Berlin:Springer, 2006:531-542.
[19]朱必松,毛啟容,高利劍,等.基于時間分段和重組聚類的說話 人日志方法[J].計算機應用研究,2024,41(9):2649-2654. (ZhuBisong,MaoQirong,Gao Lijian,etal.Temporal-segment-andregroup clustering for speaker diarization [J].Application ResearchofComputers,2024,41(9):2649-2654.)
[20]Kipf TN,Welling M. Semi-supervised classfication with graph convolutional networks[EB/OL].(2016-09-09).htps://arxiv.org/ abs/1609.02907.
[21]Kraaij W,HainT,LincolnM,etal.TheAMImeetingcorpus[C]// Proc of International Conference on Methods and Techniques in Behavioral Research.2005:1-4.
[22]Lin Qingjian,Yin Ruiqing,LiMing,et al.LSTM based similarity measurement with spectral clustering for speaker diarization [EB/ OL].(2019-07-23). https://arxiv.org/abs/1907.10393.
[23]PoveyD,Ghoshal A,BoulianneG,etal.TheKaldispeech recognition toolkit[C]//Proc of IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway,NJ:IEEE Press,2011.
[24]SellG,Snyder D,McCree A,et al.Diarization is hard:some experiences andlessonslearned for the JHU team in the inaugural DIHARD challenge [C]//Proc of InterSpeech.2018:2808-2812.
[25]Ning Huazhong,Liu Ming,Tang Hao,et al.A spectral clustering approach to speaker diarization [C]//Proc of InterSpeech.2006: 2178-2181.
[26]Wang Quan,Downey C,Wan Li,et al.Speaker diarization with LSTM[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press,2018: 5239-5243.
[27]Park TJ, Han K J,Kumar M,et al. Auto-tuning spectral clustering forspeaker diarization using normalized maximum eigengap[J]. IEEESignal Processing Letters,2019,27:381-385.
[28]Singh P,Ganapathy S. Self-supervised representation learning with pathintegral clustering for speaker diarization[J].IEEE/ACM Trans on Audio,Speech,and Language Processng,2021, 29:1639-1649.
[29]Pal M,KumarM,Peri R,et al.Speaker diarizationusing latent space clustering in generative adversarial network[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2020:6504-6508.