基于文本數(shù)據(jù)的端到端語音識別模型訓(xùn)練數(shù)據(jù)擴(kuò)充方法
發(fā)布時(shí)間:2024-06-02 16:25
智能化的時(shí)代正在加速到來,語音作為最自然便捷的交流方式,是推動生活與工作智能化的重要手段。語音識別(Automatic Speech Recognition,ASR)技術(shù)是一種將輸入的語音信號轉(zhuǎn)換為文本,進(jìn)而能理解其內(nèi)容的技術(shù)。近年來,隨著基于序列到序列的通用建模方法的發(fā)展,誕生了端到端的語音識別模型。與傳統(tǒng)方法相比,端到端語音識別模型僅包含一個(gè)單獨(dú)的序列模型,可以直接從聲學(xué)特征序列得到識別的單詞序列,簡化了語音識別的過程。同時(shí)模型不依賴語言模型和發(fā)音詞典,降低了對專家知識的要求。然而,端到端語音識別模型通常需要大量的語音-文本對來訓(xùn)練,才能獲得較好的性能。在實(shí)際應(yīng)用中,收集大量配對數(shù)據(jù)既費(fèi)力又昂貴,導(dǎo)致端到端語音識別模型經(jīng)常無法有效識別罕見詞和專有詞。為此,本文將探討基于文本數(shù)據(jù)的端到端語音識別模型的訓(xùn)練數(shù)據(jù)擴(kuò)充方法。主要的工作和創(chuàng)新點(diǎn)如下:(1)基于RNN-T(RNN Transducer)的端到端語音識別模型基于RNN-T的端到端語音識別模型在優(yōu)化過程中,能同時(shí)兼顧聲學(xué)信息和語言學(xué)信息,是目前端到端語音識別領(lǐng)域性能最好的方法。因此,本文使用RNN-T模型搭建端到端語音識別基線模型...
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文編號:3987501
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1預(yù)加重前后的語音信號頻譜對比
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-10-原來的信號分布,有效提高聲音信號的信噪比。一般通過一階FIR高通數(shù)字濾波器來實(shí)現(xiàn)預(yù)加重,其傳遞函數(shù)為()=11(2-1)其中為預(yù)加重系數(shù),0.9<<1.0。設(shè)時(shí)刻的信號采樣值為(),經(jīng)過預(yù)加重操作后的信號()為()=()(1)(2-2)其中取....
圖2-2端點(diǎn)檢測效果圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-12-2)短時(shí)平均過零率,即每幀內(nèi)信號穿過橫軸的次數(shù)。信號()的短時(shí)平均過零率定義為:=|[()][(1)]|()∞=∞(2-8)其中()為符號函數(shù),即[()]=1,()≥01,()<0(2-9)短時(shí)能量首先可以用來區(qū)分清音和濁音,因?yàn)闈嵋舻哪芰恳?...
本文編號:3987501
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/xinxigongchenglunwen/3987501.html
最近更新
教材專著