a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

基于多模態(tài)生成對抗網(wǎng)絡(luò)和三元組損失的說話人識別

發(fā)布時間:2025-02-08 21:05
   為了挖掘說話人識別領(lǐng)域中人臉和語音的相關(guān)性,該文設(shè)計多模態(tài)生成對抗網(wǎng)絡(luò)(GAN),將人臉特征和語音特征映射到聯(lián)系更加緊密的公共空間,隨后利用3元組損失對兩個模態(tài)的聯(lián)系進一步約束,拉近相同個體跨模態(tài)樣本的特征距離,拉遠不同個體跨模態(tài)樣本的特征距離。最后通過計算公共空間特征的跨模態(tài)余弦距離判斷人臉和語音是否匹配,并使用Softmax識別說話人身份。實驗結(jié)果表明,該方法能有效地提升說話人識別準確率。

【文章頁數(shù)】:7 頁

【部分圖文】:

圖1 本文所提網(wǎng)絡(luò)結(jié)構(gòu)圖

圖1 本文所提網(wǎng)絡(luò)結(jié)構(gòu)圖

從圖1中可以看出,網(wǎng)絡(luò)的最初始輸入分別為人臉圖片和語音信號,在輸入GAN之前,圖1分別對它們進行預(yù)處理。語音部分采用傳統(tǒng)語音識別中常用的梅爾倒譜系數(shù)(MelFrequencyCepstrumCoefficients,MFCC)特征,考慮到說話人識別任務(wù)中的樣本是一個時域窗口....


圖2 不同margin值的ROC

圖2 不同margin值的ROC

其中,假正率表示不匹配樣本中被判斷成匹配樣本的比例,與通常的ROC曲線不同,本文圖中真正率表示的是匹配樣本中被正確判斷,并且被正確識別出ID的比例。可以從圖2看到,margin取0.2時,對應(yīng)的ROC曲線的AUC面積最大,因此本文最終采用0.2的margin值。而對于閾值的選取,....


圖3 不同閾值的識別結(jié)果

圖3 不同閾值的識別結(jié)果

由于預(yù)訓(xùn)練GAN已經(jīng)使得兩個模態(tài)的特征在公共空間距離靠近,為了驗證使用3元組損失訓(xùn)練特征匹配判斷網(wǎng)絡(luò)的必要性,本文對比了選用公共層特征進行識別與選用特征匹配判斷網(wǎng)絡(luò)特征進行識別的實驗結(jié)果。其中直接選用公共層特征的實驗結(jié)果如圖5所示。圖5中所示匹配準確率表示匹配樣本和不匹配樣本分別....


圖4 是否具有公共層的ROC曲線對比

圖4 是否具有公共層的ROC曲線對比

從圖5(c)中可以看到,在總準確率指標上,有特征匹配判斷網(wǎng)絡(luò)的識別結(jié)果明顯優(yōu)于無特征匹配判斷網(wǎng)絡(luò)的識別結(jié)果。從圖5(a),圖5(b),圖5(c),可以發(fā)現(xiàn)不使用特征匹配判斷網(wǎng)絡(luò)時,不論樣本的兩個模態(tài)是否匹配,特征的余弦距離都趨近于1。因此該實驗驗證了特征匹配判斷網(wǎng)絡(luò)能有效地拉遠不....



本文編號:4031985

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/kejilunwen/wltx/4031985.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶11119***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
男女肉粗暴进来动态图| 三上亚悠在线精品二区| 久久国产自偷自偷免费一区调| 少妇啊啊啊| 男人久久| 天天干狠狠干| 遇见未知的自己| 亚洲第一狠人色综合| 亚洲一二三区成人无码| 麻豆蜜桃AV蜜臀AV色欲AV| 国产av无码专区亚洲av人妖| 亚洲av无码男人的天堂在线| 久久精品无码专区免费下载| 国产精品久久久久久久久久| 欧美videossexo高潮| 亚洲天堂免费| 色伊伊| 成熟人妻| 啪啪啪av| 97免费人妻| 欧美极品少妇xxxooo性护士| 少妇人妻精品久久久久久| 久久夜靖品| 国色天香十七区品质怎么样| 真人毛片免费看| 7d影院| 国产香蕉和进口香蕉的价格比较 | 黄色av免费看| 精品欧美| 国产一区久久| 岗巴县| 蜜桃臀无码内射一区二区三区| 日本花季传媒APP| 99麻豆精品国产福利一区二区| 国产丝袜在线精品丝袜| 一本一本久久a久久精品综合麻豆| 欧美国产成人精品二区| 精品一区二区三区国产在线观看| 自偷自拍亚洲综合精品第一页| 在线a视频| 松溪县|