視覺數(shù)據(jù)的智能語義生成方法研究
發(fā)布時間:2025-05-27 23:00
隨著社會智能化、數(shù)字化進程的快速發(fā)展,視覺數(shù)據(jù)(如圖像、視頻等)作為一種簡單直接、內(nèi)容豐富的信息呈現(xiàn)方式,已廣泛滲入到現(xiàn)代生活的方方面面。人們在創(chuàng)造、分享及傳播視覺數(shù)據(jù)的同時,更關(guān)注于視覺數(shù)據(jù)所傳遞的豐富語義信息。因此,如何快速高效地分析視覺數(shù)據(jù)所包含的語義信息已成為計算機視覺領(lǐng)域亟待解決的問題。目前,諸如圖像/視頻語義標簽、視覺關(guān)系分析、內(nèi)容描述等視覺語義分析與生成工作已獲得了研究人員的廣泛關(guān)注。視覺內(nèi)容描述作為視覺語義分析與生成的一種高級形式,其目標在于顯式地將視覺信息轉(zhuǎn)換為自然語言描述,以更有利于傳遞清晰明確的語義信息。針對視覺內(nèi)容描述這一研究問題,本文首先從基礎的視覺特征表示出發(fā),研究雙向時序特征對于視頻數(shù)據(jù)建模的有效性。其次,分析并提出了一種自適應注意力機制以區(qū)別“視覺相關(guān)單詞”和“功能性單詞”,從而有效從視覺內(nèi)容和語言學知識中獲取信息并生成描述。然后,從擴充視頻描述的豐富性和完善性層面出發(fā),深入研究了多視角視頻描述問題。最后,充分考慮視覺內(nèi)容和語義協(xié)調(diào)性,通過對不完善的描述進行補全以實現(xiàn)視覺和語義信息的聯(lián)合理解及分析。具體而言,本學位論文的研究內(nèi)容主要包括以下幾點:(1)本論...
【文章頁數(shù)】:129 頁
【學位級別】:博士
【部分圖文】:
本文編號:4047682
【文章頁數(shù)】:129 頁
【學位級別】:博士
【部分圖文】:
圖2-1早期卷積神經(jīng)網(wǎng)絡LeNet網(wǎng)絡結(jié)構(gòu),圖摘自文獻[54]
電子科技大學博士學位論文第二章理論基礎本章將闡述與視覺內(nèi)容描述相關(guān)的基礎理論以及其涉及的深度學習技術(shù),旨在讓讀者更好的對本領(lǐng)域的研究建立基本概念和基礎,方便后續(xù)章節(jié)內(nèi)容的閱讀和理解。同時,本章還將對影響本領(lǐng)域發(fā)展的重要研究和方法做簡要介紹,以便讀者更好的追蹤本領(lǐng)域的方法理論,感興....
圖2-7循環(huán)神經(jīng)網(wǎng)絡示意圖
第二章理論基礎的讀者可以檢索文獻自行了解,本文不再贅述。2.2循環(huán)神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡(RecurrentNeuralNetwork,RNN)是一種動態(tài)時間序列建模技術(shù),其可以通過記憶單元存儲時序信息及前后依賴關(guān)系。在本次深度學習浪潮中,循環(huán)神經(jīng)網(wǎng)絡已大規(guī)模地用于自然語言處理、語....
本文編號:4047682
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xxkjbs/4047682.html
最近更新
教材專著