面向場景解析的深度學習網(wǎng)絡研究

發(fā)布時間：2020-04-08 00:08

【摘要】：場景解析作為一項復雜的計算機視覺基礎工作,它不僅需要檢測并分割出場景中出現(xiàn)的不同物體,而且需要識別出不同物體所屬的類別,因此它的核心目標是準確地為圖像中每個像素做分類,從而有助于實現(xiàn)目標檢測、機器人任務規(guī)劃、車輛自動駕駛以及無人機自主導航等智能計算機視覺任務。另外,深度學習作為機器學習領域的一個新的分支近幾年取得了突飛猛進的發(fā)展,基于深度學習的特征提取方法能夠有效地模擬人類的視覺系統(tǒng)逐級獲取物體的特征信息,從而成為計算機視覺研究領域的主流方法。因此,面向場景解析的深度學習網(wǎng)絡設計成為當前的研究熱點問題之一。著眼于場景解析面臨的主要難題,本文針對現(xiàn)有場景解析深度學習網(wǎng)絡存在的不足展開研究并提出相應的解決方法。本文的主要內容和貢獻如下:(1)有效的視覺特征提取和準確的空間結構化學習成為提升RGB場景解析準確率的關鍵,雖然卷積神經(jīng)網(wǎng)絡已經(jīng)展示強大的特征提取能力,但是該網(wǎng)絡的空間結構化學習能力較弱。為此,本文面向RGB場景解析提出空間結構化編碼深度網(wǎng)絡,內嵌的結構化學習層有機地結合了條件隨機場和空間結構化編碼算法,該層能夠較為全面而準確地學習物體所處空間的物體分布以及物體間的空間位置關系;在此基礎上,網(wǎng)絡的特征融合層巧妙地利用了深度置信網(wǎng)絡和改進的條件隨機場,該層可以根據(jù)多模態(tài)特征融合生成的物體綜合語義信息和物體間語義相關性信息完成深度結構化學習。(2)如何準確地學習物體的三維空間結構化信息以及如何有效地融合RGB和深度圖像的特征信息是現(xiàn)有RGB-D場景解析方法面臨的兩大難題。為了解決上述問題,本文面向RGB-D場景解析提出三維空間結構化編碼深度網(wǎng)絡,內嵌的結構化學習層有機地結合了條件隨機場和三維空間結構化編碼算法,該層能夠較為全面而準確地學習物體所處三維空間的物體分布以及物體間的三維空間位置關系;在此基礎上,網(wǎng)絡的特征融合層巧妙地利用了深度置信網(wǎng)絡來實現(xiàn)RGB和深度圖像特征信息的融合,從而充分地挖掘RGB圖像所提供視覺信息和深度圖像所提供深度信息之間的關聯(lián)性。(3)由于采用分離方式訓練(三維)空間結構化編碼深度網(wǎng)絡的過程中可能存在特征信息的損失,因此本文通過長短期記憶網(wǎng)絡重建結構化學習層,并通過卷積神經(jīng)網(wǎng)絡重建特征融合層,從而提出適合端到端、像素到像素聯(lián)合優(yōu)化的全局上下文信息推理深度網(wǎng)絡,較采用分離方式訓練的網(wǎng)絡相比,該網(wǎng)絡能夠更加充分地發(fā)揮網(wǎng)絡各層的優(yōu)勢。另外,由于(三維)空間結構化編碼算法僅能推理物體所處局部(三維)空間的上下文信息,因此本文在結構化學習層巧妙地結合了4個單向的長短期記憶網(wǎng)絡來實現(xiàn)全局上下文信息的顯式推理,從而較為全面而準確地學習物體間的長距離和短距離的(三維)空間依賴關系,其中長距離的依賴關系表示物體間的相對(三維)空間位置,從而有利于實現(xiàn)場景全局(三維)空間分布的正確性和合理性預測,而短距離的依賴關系表示相鄰物體間的邊界特點,從而有助于實現(xiàn)物體輪廓外觀的一致性和平滑性優(yōu)化。(4)研究表明,對抗訓練方法不僅能夠通過判別網(wǎng)絡的競爭提升生成網(wǎng)絡的性能,而且可以有效地降低生成網(wǎng)絡在訓練過程中存在的過擬合。為此,本文以全局上下文信息推理深度網(wǎng)絡作為生成網(wǎng)絡,提出基于對抗訓練方法進行優(yōu)化的空間結構化推理嵌入式對抗網(wǎng)絡,從而有機地結合了多維特征提取、空間結構化推理、多模態(tài)特征融合和對抗訓練方法各自的優(yōu)勢。通過對抗訓練,空間結構化推理嵌入式對抗網(wǎng)絡不僅可以通過判別網(wǎng)絡的分析判斷檢測生成網(wǎng)絡輸出的場景解析結果與對應的Ground Truth之間的不一致,而且能夠通過判別網(wǎng)絡的競爭對抗地調優(yōu)生成網(wǎng)絡各層的參數(shù),從而充分地發(fā)揮特征提取層、結構化學習層和特征融合層的作用,進而顯著地提升場景解析結果與Ground Truth之間的語義一致性。
【圖文】：

計算機視覺,場景,人類視覺系統(tǒng),視覺信息

圖 1.1 場景解析在計算機視覺任務中的應用Fig 1.1 Application of scene parsing in computer vision tasks些年，深度學習[8, 9]作為機器學習領域的一個新的分支取得了飛躍式地發(fā)的基本思想是通過大量的數(shù)據(jù)來訓練包含多個層次的神經(jīng)網(wǎng)絡模型，，從而習過程。另外，經(jīng)過研究發(fā)現(xiàn)人類視覺系統(tǒng)獲取物體的視覺信息是一個逐

過程圖,特征提取,神經(jīng)網(wǎng)絡,過程

圖 1.2 深度神經(jīng)網(wǎng)絡的結構以及特征提取過程Fig 1.2 Architecture and feature extraction procedure of deep neural networks度學習的本質問題是通過構建深度網(wǎng)絡模型來有效地提取數(shù)據(jù)的特征。對題，如果僅僅根據(jù)像素粒度的圖像信息來提取特征，那么該特征信息很難
【學位授予單位】：哈爾濱工程大學
【學位級別】：博士
【學位授予年份】：2018
【分類號】：TP391.41;TP181

【參考文獻】

相關期刊論文前1條

1 張宏毅;王立威;陳瑜希;;概率圖模型研究進展綜述[J];軟件學報;2013年11期

本文編號：2618586

資料下載

論文發(fā)表

本文鏈接：http://www.wukwdryxk.cn/kejilunwen/zidonghuakongzhilunwen/2618586.html

上一篇：多傳感網(wǎng)絡協(xié)同監(jiān)視通信技術研究
下一篇：過熱汽溫系統(tǒng)復合建模方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

面向場景解析的深度學習網(wǎng)絡研究