基于多模態(tài)生成對抗網(wǎng)絡(luò)和三元組損失的說話人識別
【文章頁數(shù)】:7 頁
【部分圖文】:
圖1 本文所提網(wǎng)絡(luò)結(jié)構(gòu)圖
從圖1中可以看出,網(wǎng)絡(luò)的最初始輸入分別為人臉圖片和語音信號,在輸入GAN之前,圖1分別對它們進行預(yù)處理。語音部分采用傳統(tǒng)語音識別中常用的梅爾倒譜系數(shù)(MelFrequencyCepstrumCoefficients,MFCC)特征,考慮到說話人識別任務(wù)中的樣本是一個時域窗口....
圖2 不同margin值的ROC
其中,假正率表示不匹配樣本中被判斷成匹配樣本的比例,與通常的ROC曲線不同,本文圖中真正率表示的是匹配樣本中被正確判斷,并且被正確識別出ID的比例。可以從圖2看到,margin取0.2時,對應(yīng)的ROC曲線的AUC面積最大,因此本文最終采用0.2的margin值。而對于閾值的選取,....
圖3 不同閾值的識別結(jié)果
由于預(yù)訓(xùn)練GAN已經(jīng)使得兩個模態(tài)的特征在公共空間距離靠近,為了驗證使用3元組損失訓(xùn)練特征匹配判斷網(wǎng)絡(luò)的必要性,本文對比了選用公共層特征進行識別與選用特征匹配判斷網(wǎng)絡(luò)特征進行識別的實驗結(jié)果。其中直接選用公共層特征的實驗結(jié)果如圖5所示。圖5中所示匹配準確率表示匹配樣本和不匹配樣本分別....
圖4 是否具有公共層的ROC曲線對比
從圖5(c)中可以看到,在總準確率指標上,有特征匹配判斷網(wǎng)絡(luò)的識別結(jié)果明顯優(yōu)于無特征匹配判斷網(wǎng)絡(luò)的識別結(jié)果。從圖5(a),圖5(b),圖5(c),可以發(fā)現(xiàn)不使用特征匹配判斷網(wǎng)絡(luò)時,不論樣本的兩個模態(tài)是否匹配,特征的余弦距離都趨近于1。因此該實驗驗證了特征匹配判斷網(wǎng)絡(luò)能有效地拉遠不....
本文編號:4031985
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/wltx/4031985.html