李威 賀前華 李艷雄
(華南理工大學(xué) 電子與信息學(xué)院, 廣東 廣州510640)
說話人角色聚類是指在多人會話情況下對各種角色的說話人的語音進行聚類,旨在將相同角色的說話人語音合并在一起,每一類只包含一種角色的說話人語音.說話人角色聚類不同于說話人聚類,前者是對各種角色的說話人語音進行聚類,而后者是對各個說話人語音進行聚類.在多人會話的場合,一種角色可能包含多個說話人或只有一個說話人.說話人角色聚類與說話人聚類的相同之處是:它們都是采用無監(jiān)督的方式將相同類別的語音合并在一起.說話人聚類一般是說話人角色聚類的基礎(chǔ),說話人角色聚類是在說話人分割和說話人聚類的基礎(chǔ)上提取特征,再將相同角色的說話人語音合并在一起.
說話人角色分析是一個近年來語音處理領(lǐng)域備受關(guān)注的問題.Salamin 等[1]以廣播語音(新聞、脫口秀)為實驗數(shù)據(jù),提出了一種自動識別說話人角色的方法.該方法通過提取說話人的話輪(會話過程中,說話者在任意時間內(nèi)連續(xù)說出的一番話)和韻律特征及采用條件隨機場來推斷各個說話人的角色,并對6 種角色(主播一、主播二、嘉賓、提問人、新聞頭條播報員、天氣預(yù)報員)進行識別,獲得了高于85%的角色識別精度.Bigot 等[2]采用主元分析和線性區(qū)分分析法對時間、韻律及其他基本信號特征進行降維處理,再采用經(jīng)典的分類器(高斯模型、支持向量機)對廣播語音中的3 種角色(主播、記者、其他)進行識別,獲得了高于81.8%的識別精度.Barzilay 等[3]將文本信息和說話人邊界作為說話人角色分類系統(tǒng)的輸入,每個說話人語音段被分配給主播、記者和嘉賓中的某一個角色,根據(jù)當(dāng)前或前一個說話人所說的內(nèi)容進行說話人角色標(biāo)記,該方法依賴文本內(nèi)容的程度非常高,對廣播語音可獲得80%的分類精度.Liu[4]采用隱馬爾可夫模型和最大熵模型將說話人識別為主播、報道者和其他人,語音文本和手工獲得的每個說話人語音用來訓(xùn)練模型及估計測試數(shù)據(jù)中的說話人角色,可獲得80%的分類精度.
上述研究有些是在音頻信號層面對說話人角色進行識別,有些是在文本層面(利用語音識別得到的文本信息或手工標(biāo)注的文本信息)進行說話人角色識別,它們都是采用監(jiān)督式的方法(特征提取及模型訓(xùn)練的組合)對已知個數(shù)的說話人角色進行識別,而且處理的數(shù)據(jù)基本上都是廣播語音.然而,在其他類型的多說話人語音數(shù)據(jù)(如訪談、演講、峰會、答記者問)中,說話人角色各不相同,說話人角色個數(shù)一般并不知道.因此,監(jiān)督式的說話人角色分析方法很難應(yīng)用到多說話人角色以及說話人角色未知的場合,采用無監(jiān)督說話人角色分析方法更具有普適性,能有效地提取出多說話人角色信息.為此,文中提出了一種無監(jiān)督的多說話人角色聚類方法,以解決各種類型的多說話人會議語音中的說話人角色分析問題.
提取有效表征各種說話人角色特性的特征是提高說話人角色聚類性能的重要環(huán)節(jié).不同角色的說話人在會議中一般是不同身份的人,他們說話的時間長度、說話的起始和終止時刻、說話人每次的說話時長(話輪的長度)、說話的頻次、說話的流暢程度、語速等都是不同的.因此,提取出有效表征各個角色說話人的上述說話特性差異的特征將顯著提高說話人角色聚類的性能.基于上述考慮,文中提取了多個有效的特征參數(shù),依次定義如下:①說話次數(shù),即某個說話人在此音頻文件中的話輪數(shù);②首次說話時間,即某個說話人在此音頻文件中第一次開始發(fā)音的時間;③相鄰兩次說話時間間隔的平均值,即某個說話人在此音頻文件中各次說話時間間隔的平均值;④單次最大說話時長,即某個說話人一次連續(xù)說話的最大時長;⑤說話總時長,即某個說話人各次發(fā)音時長的總和(包括該說話人發(fā)音期間出現(xiàn)的靜音,不包括每次說話最后的靜音、笑聲、其他聲音等時長);⑥上次發(fā)音后的時間,即此輪說話起始時間與上輪說話終止時間的差值,用采樣點表示;⑦語音段數(shù),即某個說話人連續(xù)發(fā)音時能量不為0 的語音段的個數(shù),在這些語音段中不存在持續(xù)時間大于1 s 且能量為0 的靜音段;⑧說話時長(會議中某個說話人的發(fā)音總時長,包括該說話人發(fā)音期間出現(xiàn)的靜音)與語音段數(shù)之比,如果一次連續(xù)發(fā)音期間出現(xiàn)了1 s 以上的靜音,則認(rèn)為一個語音段結(jié)束,靜音之后出現(xiàn)的語音是一個新的語音段;⑨說話有效時長與總時長之比,說話總時長是指某個說話人在會議中連續(xù)發(fā)音的總時長(包括中間的一些停頓、靜音等),說話有效時長是指發(fā)音總時長中的所有語音段的長度,不包括非語音段的長度(如靜音、笑聲等);⑩會議終止時間與說話人最后話輪的結(jié)束時間之差,即整個會議終止時間減去某個說話人最后一個話輪的終止時間;?說話范圍,即某個說話人最后一個話輪的結(jié)束時間與第1 個話輪的起始時間之差;?閑置率,即某個說話人的說話范圍與說話總時長的差值.
上述特征參數(shù)的取值范圍一般不在同一個數(shù)量級.為了消除各特征參數(shù)取值范圍差異對相似性度量的影響,需要對特征參數(shù)做歸一化處理.設(shè)fij為第j 個人的第i 個特征,fi為每個人的第i 個特征構(gòu)成的行向量,min fi和max fi分別為所有人的第i 個特征的最小值與最大值,則歸一化特征fi′j為
經(jīng)上述歸一化處理之后,各個特征參數(shù)的取值范圍為[0,1].
在聚類問題中,如何衡量樣本之間的距離直接關(guān)系到最終聚類結(jié)果的好壞.深度學(xué)習(xí)技術(shù)在語音識別、自然語言處理等的成功應(yīng)用,使特征學(xué)習(xí)得到了越來越多的重視.而特征學(xué)習(xí)的本質(zhì)就是得到數(shù)據(jù)的內(nèi)在結(jié)構(gòu)信息[5-6].傳統(tǒng)的距離如歐式距離、KL 距離等,都只考慮兩個樣本之間的信息,沒有考慮到待聚類數(shù)據(jù)的整體結(jié)構(gòu)形狀等,因此聚類效果往往不太理想[7].如圖1所示,虛線表示A、B 兩點之間的歐式距離,實線為沿著數(shù)據(jù)流形的測地距離.歐式距離只能反映數(shù)據(jù)樣本之間的空間位置關(guān)系,不能反映數(shù)據(jù)樣本的拓撲結(jié)構(gòu),因此不能很好地衡量數(shù)據(jù)之間的相似度[7].
圖1 歐式距離與測地距離對比Fig.1 Comparison of Euclidean distance and geodesic distance
對于數(shù)據(jù)的距離度量問題,采用流行學(xué)習(xí)等技術(shù)可很好地估計數(shù)據(jù)的內(nèi)在形狀結(jié)構(gòu),進而提升聚類算法的性能[7-8].通過圖模型上的最短路徑來模擬數(shù)據(jù)流形上的測地距離,進而衡量數(shù)據(jù)相似度的方法[7]用于多維尺度聚類算法時可提升聚類效果.由于圖模型中的測地距離具有充分表征數(shù)據(jù)內(nèi)在結(jié)構(gòu)信息的能力[7],故文中考慮采用測地距離來度量待聚類數(shù)據(jù)樣本之間的距離.另外,文中要對會議中的說話人角色進行聚類,每個會議的待聚類樣本不是非常多,直接對每個會議的數(shù)據(jù)進行圖模型的建立并不能很好地反映數(shù)據(jù)的內(nèi)在結(jié)構(gòu).借鑒于多任務(wù)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)因帶標(biāo)簽的訓(xùn)練數(shù)據(jù)很難得到而利用其他任務(wù)的數(shù)據(jù)、模型或者沒有標(biāo)簽的數(shù)據(jù)來提升算法的效果[9-11],文中將其他會議的數(shù)據(jù)也加入到圖模型的建立,并利用在該圖模型上的測地距離來衡量單個會議樣本之間的相似度,進而提升無監(jiān)督聚類的性能.文中采用的數(shù)據(jù)樣本之間的距離度量方法——測地距離描述如下:
采用K 最近鄰(KNN)距離[12]構(gòu)建一個稀疏的圖G(V,E),如圖2所示(K=2).每個樣本只與它最相近的K 個樣本之間有權(quán)重.其中,為節(jié)點集,vi為數(shù)據(jù)樣本點;E 為邊的權(quán)重,每個樣本點與其K 近鄰點的邊的權(quán)重等于歐式距離,否則為無窮大,即
圖2 G(V,E)示意圖Fig.2 Schematic diagram of G(V,E)
以圖2的v1為例,與v1距離最近的兩個點是v2和v3,故v1只與v2和v3有邊,權(quán)重分別為E(v1,v2)和E(v1,v3),v1與圖中其他點的權(quán)重為無窮大.圖2中的虛線是v2和v8之間的歐式距離,v2和v8之間的測地距離為E(v2,v4)+E(v7,v4)+E(v8,v7).
當(dāng)計算樣本點之間的距離時,文中利用圖G(V,E)中對應(yīng)的兩個節(jié)點之間的最小路徑來衡量,其中利用Dijkstra 算法[13]計算最小路徑.由于在聚類時只需要計算出待聚類數(shù)據(jù)樣本兩兩之間的距離,不需要計算所有圖結(jié)構(gòu)中節(jié)點之間的距離,因此文中對Dijkstra 算法進行了適當(dāng)?shù)恼{(diào)整,即采用改進的Dijkstra 算法.
(1)引入一個長度為N (N 為圖G(V,E)中所有節(jié)點的個數(shù))的輔助數(shù)組daux,其分量daux[i]表示當(dāng)前找到的從源點vcs到終點vi的最短路徑長度.如果vcs與vi有邊,則daux[i]為邊的權(quán)重E(vcs,vi),否則為∞,并且daux[s]=0.初始化集合S 包含圖G(V,E)的節(jié)點集V 的所有節(jié)點.
(2)若S 不為空則轉(zhuǎn)步驟(3).
(3)找出daux中最小的分量daux[u],并將vu從S中移除.如果當(dāng)前S 中不再包含本次待聚類會議的樣本節(jié)點,即S∩Vc=,則結(jié)束,否則轉(zhuǎn)步驟(4).
(4)對S 中所有的節(jié)點vi,更新其daux[i],即
轉(zhuǎn)步驟(2).
執(zhí)行上述步驟以后,v1c,vc2,…,vcp在daux中對應(yīng)的分量即為它們到節(jié)點vcs的最短路徑.
圖3是利用KNN 構(gòu)建的稀疏圖,可以看到圖中粗實線表示的最短路徑可以很好地模擬數(shù)據(jù)在流形上的測地距離.文中使用測地距離來度量樣本之間的相似度,可反映樣本之間的內(nèi)在幾何形狀,從而更好地度量數(shù)據(jù)之間的相似度.文中在計算測地距離時,KNN 稀疏圖的構(gòu)建利用了所有會議樣本,更充分地利用了數(shù)據(jù)之間的關(guān)聯(lián).
圖3 KNN 稀疏圖Fig.3 KNN sparse graph
傳統(tǒng)的凝聚層次聚類算法將每個待聚類對象作為一類,然后根據(jù)類間相似度進行合并,直到所有的待聚類對象都在一個類中或者滿足某個終止條件為止.該算法存在如下不足:①每次更新都需要重新計算不同類之間的距離,時間復(fù)雜度高;②衡量類之間的距離是一個很難解決的問題.針對這些問題,一些算法采用了最小距離、平均距離和最大距離等方式.最小距離方式就是取兩個集合中距離最近的兩個點的距離作為這兩個集合的距離,兩個類整體上離得比較遠,但因其中個別的點距離比較近而被合并,故往往得到比較松散的類.最大距離方式就是取兩個集合中距離最遠的兩個點的距離作為這兩個集合的距離,但其限制非常大,兩個類即使已經(jīng)很接近了,也因有距離比較遠的點存在而不能合并.平均值方式是將兩個集合中的點兩兩之間的距離取平均值,但計算距離是一個雙重循環(huán),時間復(fù)雜度很高.為此,文中提出了一種利用類內(nèi)距離來控制類間合并的聚類算法.
用于控制類間合并的類內(nèi)距離定義為
式中,dq(C)為類內(nèi)兩兩樣本之間的距離,當(dāng)類內(nèi)只有一個樣本時,dint(C)定義為0.類內(nèi)兩兩樣本之間距離的最大值很好地反映了當(dāng)前類內(nèi)樣本的松散程度,因此通過利用樣本之間的距離來控制類間的合并,可以使合并的類不至于太松散.文中只需要遍歷一遍樣本之間的距離,后續(xù)聚類都是基于樣本間的距離,不需要計算其他量,而且所有的判定都是基于樣本之間的距離,具有可比性.
文中說話人角色聚類方法的具體步驟如下:
(1)采用測地距離計算N 個樣本兩兩之間的距離,并將距離從小到大排序,記為…,M},其中M=N(N-1)/2,且當(dāng)i<j 時di<dj.
(2)初始化類別數(shù)為N,即每個樣本為一類;q=1.
(3)若q≤M,則轉(zhuǎn)步驟(4),否則算法結(jié)束.
(4)令構(gòu)成當(dāng)前距離dq的兩個樣本所屬的類分別為Ci和Cj.如果Ci和Cj屬于同一類或者dq不小于類內(nèi)距離閾值dmin,int,則執(zhí)行下一次聚類;如果Ci和Cj屬于不同類且dq<dmin,int,則合并Ci、Cj類.q=q+1.
閾值dmin,int定義為兩類樣本的最小類內(nèi)距離,即
式中,t 為一個補償系數(shù),dint(Ci)、dint(Cj)分別為Ci和Cj類的類內(nèi)距離.
文中算法采用類內(nèi)距離來控制類之間的合并,避免了類間距離衡量不準(zhǔn)確的問題;不需要重復(fù)計算類間的距離,只需計算一次兩兩樣本之間的距離,故計算速度快.
目前,在說話人角色分析問題上國內(nèi)外沒有一個統(tǒng)一的權(quán)威數(shù)據(jù)庫,文獻[1-4]采用自制的廣播語音作為實驗數(shù)據(jù),內(nèi)容各不相同,且說話人角色是固定、已知的.為了驗證文中方法的有效性,文中參考說話人日志評測所采用的測試數(shù)據(jù)類型,自建了一個多人會話語音數(shù)據(jù)庫(MCSC).MCSC 包含4 種不同類型的多人會話語音,語料是來自互聯(lián)網(wǎng)的各種類型的多人會話語音,總時長約100 h,160 個語音記錄包括李克強總理、溫家寶總理和朱镕基總理的答記者問、奧巴馬總統(tǒng)的演講、峰會、新聞聯(lián)播,如表1所示.實驗數(shù)據(jù)由6 名本科生和1 名研究生手工標(biāo)注完成,人工標(biāo)注的說話人角色作為評估算法性能的參照.不同的語音記錄有不同的說話人角色及其個數(shù).所有的說話人角色包括嘉賓、主持人、翻譯、提問人、主播、錄播、采訪人.數(shù)據(jù)格式統(tǒng)一轉(zhuǎn)換成16kHz 采樣頻率、16b 量化的WAV 文件.從每類會議中取8 個會議音頻文件共32 個會議音頻文件(總時長約20 h)組成調(diào)參數(shù)據(jù)集,余下的128 個會議音頻文件用作測試,不同類型的會議所用參數(shù)相同.
表1 主要實驗數(shù)據(jù)Table1 Main experimental data
為了檢測文中提出的說話人角色聚類特征和方法的有效性,將實驗分為兩組:①直接對手工分割好的實驗數(shù)據(jù)提取說話人角色特征并進行說話人角色聚類;②采用前期所做的說話人分割聚類系統(tǒng)對各個會議語音記錄文件進行說話人自動分割和聚類[14-16],從而得到各個說話人的語音,然后用文中方法提取說話人角色特征并進行角色聚類.分割時采用兩步判決的說話人改變檢測方法,先利用基頻信息、性別模型進行說話人改變判決,再將說話人按性別分別對待,使用基于性別的改進T2距離公式進行說話人改變判決,F(xiàn) 度量值為85.14%.聚類時先采用GMM-UBM-MAP 得到每個語音段的自適應(yīng)模型,通過各語音段自適應(yīng)模型之間的模型對概率距離構(gòu)建親和矩陣,然后采用譜聚類的方法進行說話人角色聚類,此方法的F 度量值為88.7%.每組實驗分別對4 種類型的會議語音進行說話人角色聚類,結(jié)果表明,文中方法可適用于不同類型的會議語音.實驗中KL 距離的計算是把特征參數(shù)用1 范數(shù)歸一化成概率模型,即求和為1,然后計算概率模型之間的距離.
設(shè)f′ij(1≤i≤D,1≤j≤J)為第j 個人的第i 個歸一化處理后的特征,D 為特征向量的維數(shù),J 為說話人個數(shù),則第j 個說話人的第i 個特征的概率模型表示為
第j1與第j2個人之間的KL 距離為
算法性能評價指標(biāo)是平均類純度(ACP)和平均說話人角色純度(ARP)[17],其定義如下:
式中,Ns為說話人角色總個數(shù),Nc為聚類后的類別總個數(shù),nij為第i 類中由第j 個說話人角色發(fā)出的所有語音的幀數(shù).
最后,采用F 值作為算法整體性能評價指標(biāo),定義如下:
F 值越大,則聚類算法的性能越好.
以調(diào)參數(shù)據(jù)集為實驗數(shù)據(jù),文中提出的說話人角色聚類方法(采用測地距離)的F 值隨參數(shù)t 變化的情況如圖4所示.由圖可以看出,K=28、t=0.34 時F 值達到最高.
圖4 K 與t 取不同值時文中聚類方法的性能Fig.4 Performance of the proposed clustering method with different values of K and t
采用不同的距離度量方式時,兩種聚類方法對手工分割后的數(shù)據(jù)進行說話人角色聚類的結(jié)果如表2所示.從表中可知:文中聚類方法與測地距離相結(jié)合所得到的F 值是最高的,且F 的平均值達到了94.19%,比層次聚類方法與歐式距離相結(jié)合得到的F 值高2.07%;在采用相同聚類方法的情況下,使用測地距離可獲得最優(yōu)的性能(其F 值最高),這是因為歐式距離、KL 距離都只考慮了兩兩樣本之間的信息,沒有考慮到數(shù)據(jù)樣本的拓撲結(jié)構(gòu),而通過圖模型上的最短路徑來模擬數(shù)據(jù)流形上的測地距離能夠充分表征數(shù)據(jù)樣本的內(nèi)在結(jié)構(gòu)信息,更好地衡量特征之間的相似性.文中在構(gòu)建圖模型時引入了其他會議的數(shù)據(jù),并利用在該圖模型上的測地距離來衡量單個會議樣本之間的相似度,進而提升無監(jiān)督聚類的性能;在采用相同距離度量方式的情況下,文中聚類方法的F 值都高于層次聚類方法,說明文中聚類方法在進行說話人角色聚類時取得了更好的性能.這是因為文中聚類方法采用類內(nèi)距離來控制類間合并,避免了類間距離衡量的不準(zhǔn)確性問題.
從表2還可以看出:聚類方法與測地距離相結(jié)合對新聞聯(lián)播、答記者問、演講和峰會4 種會議語音的F 度量值分別是88.44%、99.43%、99.02%和89.89%.可見,文中說話人角色聚類方法對各種不同的會議語音都有效,不同于現(xiàn)有說話人角色識別方法只限于一種語音記錄[18-21].表2中的運行時間是所有方法在相同實驗平臺上對相同數(shù)量的實驗數(shù)據(jù)進行聚類所耗費的時間.無論采用何種距離來度量數(shù)據(jù)樣本之間的相似度,文中聚類方法的運行時間都明顯小于層次聚類方法,這是由于層次聚類方法在每次迭代時都要重復(fù)計算類間距離,而文中聚類方法只需要計算一次兩兩樣本之間的距離.當(dāng)采用測地距離來度量樣本之間的相似度時,兩種聚類方法的耗時均明顯增加,這主要是因為計算測地距離時,構(gòu)建KNN 稀疏圖和計算最短路徑的耗時均比較長,約占整體運行時間的99.8%.
表2 兩種方法對手工分割后的數(shù)據(jù)進行說話人角色聚類的結(jié)果Table2 Speaker role clustering results of two methods on data segmentated by manual
先采用說話人分割聚類系統(tǒng)對各個語音記錄文件進行說話人自動分割和聚類,再進行說話人角色聚類的實驗結(jié)果如表3所示.從表中可知,利用說話人分割聚類系統(tǒng)對各個語音記錄文件進行說話人自動分割和聚類后再進行說話人角色聚類時,文中聚類方法(采用測地距離)在新聞、答記者問、演講、峰會4 種類型的會議語音數(shù)據(jù)上的角色聚類F值與手工標(biāo)注語音采樣點的說話人角色聚類相比分別降低了10.99%、11.80%、11.01%、13.40%,平均降低了11.80%.這是由于前端的說話人自動分割聚類錯誤引起了累加錯誤,其中峰會的累加錯誤為13.40%,是所有類型的會話語音中累加錯誤最大的;新聞的累加錯誤為10.99%,是所有類型的會話語音中累加錯誤最小的.這可能有以下原因:①由于新聞聯(lián)播中的主播、錄播都是標(biāo)準(zhǔn)的發(fā)音,與采訪人(往往有很重的地方口音)的發(fā)音差異較大,相對容易區(qū)分,自動分割聚類錯誤相對小一些.②新聞聯(lián)播是錄音室環(huán)境,噪聲很小.自動分割聚類系統(tǒng)受噪聲的影響小,性能會相對提高.峰會往往是現(xiàn)場錄制的,噪聲較大,自動分割聚類系統(tǒng)受噪聲的影響大,性能相對降低.③新聞聯(lián)播的分割聚類錯誤很多是將不同的采訪人誤判為同一類,這對說話人角色聚類的影響很小,故新聞聯(lián)播的分割聚類錯誤對后面的說話人角色聚類的影響相對較小.峰會的分割聚類錯誤大多是嘉賓、翻譯、主持人之間的誤判,嘉賓、翻譯、主持人都是不同的說話人角色,因此對說話人角色聚類結(jié)果的影響較大.
表3 兩種方法對被系統(tǒng)分割聚類后的數(shù)據(jù)進行說話人角色聚類的結(jié)果Table3 Speaker role clustering results of two methods on data segmentated and clustered by system %
文中提出了一種多說話人角色聚類方法,該方法采用測地距離來度量說話人角色特征之間的相似度,而不是采用傳統(tǒng)的歐式距離和KL 距離;在進行說話人角色聚類時,利用類內(nèi)距離來控制類間合并,而不是利用傳統(tǒng)的層次聚類.與傳統(tǒng)的距離度量方式相比,測地距離更好地表征了說話人角色特征之間的相似性;與傳統(tǒng)的層次聚類方法相比,文中提出的說話人角色聚類方法取得了更高的F 值,且耗時更少.在4 種不同類型會議語音上的測試結(jié)果表明:對手工分割和自動分割后的會議語音進行說話人角色聚類時,采用測地距離的文中說話人角色聚類方法的F 值最高,從而驗證了文中方法的有效性.說話人角色的有效聚類為后續(xù)說話人檢索、說話人語義信息提取奠定了基礎(chǔ).
[1]Salamin H,Vinciarelli A.Automatic role recognition in multiparty conversations:an approach based on turn organization,prosody,and conditional random fields [J].IEEE Transactions on Multimedia,2012,14(2):338-345.
[2]Bigot B,F(xiàn)errané I,Pinquier J,André-Obrecht R.Detecting individual role using features extracted from speaker diarization results [J].Multimedia Tools and Applications Archive,2012,60(2):347-369.
[3]Barzilay R,Collins M,Hirschberg J,et al.The rules behind roles:identifying speaker role in radio broadcasts [C]//Proceedings of the Seventeenth National Conference on Artificial Intelligence.Austin Texas:AAAI/IAAI,2000:679-684.
[4]Liu Y.Initial study on automatic identification of speaker role in broadcast news speech [C]//Proceedings of Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics.Stroudsburg:Association for Computational Linguistics,2006:81-84.
[5]Deng L.A tutorial survey of architectures,algorithms,and applications for deep learning[J].APSIPA Transactions on Signal and Information Processing,2014,3(e2):1-29.
[6]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks [J].Science,2006,313(5786):504-507.
[7]Tenenbaum J B,de Silva V,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):2319-2323.
[8]Roweis S T,Saul L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500):2323-2326.
[9]Kothari R,Jain V.Learning from labeled and unlabeled data [C]//Proceedings of the 2002 International Joint Conference on Neural Networks.Piscataway:IEEE,2002:2803-2808.
[10]Caruana R.Multitask learning:a knowledge-based source of inductive bias [C]//Proceedings of the Tenth International Conference on Machine Learning.San Francisco:Morgan Kaufmann,1993:41-48.
[11]Raina R,Battle A,Lee H,et al.Self-taught learning:transfer learning from unlabeled data [C]//Proceedings of the 24th International Conference on Machine Learning.New York:ACM,2007:759-766.
[12]Toma?ev N,Radovanovi M,Mladeni D,et al.Hubnessbased fuzzy measures for high-dimensional k-nearest neighbor classification [J].Iternational Jurnal of Machine Learning and Cybernetics,2014,5(3):445-458.
[13]Huang Y,Yi Q,Shi M.An improved Dijkstra shortest path algorithm [C]//Proceedings of the 2nd International Conference on Computer Science and Electronics Engineering.Paris:Atlantis Press,2013:226-229.
[14]楊繼臣,賀前華,潘偉鏘,等.一種改進的BIC 說話人改變檢測算法[J].華南理工大學(xué)學(xué)報:自然科學(xué)版,2009,37(9):47-51.Yang Ji-chen,He Qian-hua,Pan Wei-qiang,et al.A modified BIC algorithm of speaker change detection [J].Journal of South China University of Technology:Natural Science Edition,2009,37(9):47-51.
[15]楊繼臣,賀前華,李艷雄,等.一種兩步判決的說話人分割算法[J].電子與信息學(xué)報,2010,32(8):2006-2009.Yang Ji-chen,He Qian-hua,Li Yan-xiong,et al.A twostep criterion algorithm of speaker segmentation [J].Journal of Electronics & Information Technology,2010,32(8):2006-2009.
[16]Li W,He Q H,Li Y X,et al.An algorithm of speaker clustering based on model distance [J].Journal of Multimedia,2014,9(3):348-355.
[17]李艷雄,吳永,賀前華.基于特征均值距離的短語音段說話人聚類算法[J].電子與信息學(xué)報,2012,34(6):1404-1407.Li Yan-xiong,Wu Yong,He Qian-hua.Feature mean distance based speaker clustering for short speech segments [J].Journal of Electronics & Information Technology,2012,34(6):1404-1407.
[18]Bigot B,Pinquier J,F(xiàn)errane I,et al.Looking for relevant features for speaker role recognition [C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association.Baixas:Speech Communication,2010:1057-1060.
[19]Salamin H,Vinciarelli A,Truong K,et al.Automatic role recognition based on conversational and prosodic behavior [C]//Proceedings of the International Conference on Multimedia.New York:ACM,2010:847-850.
[20]Bigot B,F(xiàn)errane I,Pinquier J.Exploiting speaker segmentations for automatic role detection:an application to broadcast news documents [C]//Proceedings of 2010 International Workshop on Content-Based Multimedia Indexing.Piscataway:IEEE,2010:1-6.
[21]Vinciarelli A.Speakers role recognition in multiparty audio recordings using social network analysis and duration distribution modeling [J].IEEE Transactions on Multimedia,2007,9(6):1215-1226.