基于深度學習的圖文匹配方法研究
發(fā)布時間:2020-05-24 18:36
【摘要】:隨著信息技術的快速發(fā)展,圖像和文本數(shù)據(jù)大幅度增長,但是這些數(shù)據(jù)對于計算機而言是難以理解和使用。為了能更好的對這些數(shù)據(jù)進行理解、查找和管理,本文利用深度學習的相關方法判斷圖像和文本在語義上是否具有相似性,本文的主要研究工作及成果如下:1.設計了一種可以識別圖像中主體目標的評價模型。通過分析圖像的目標檢測和識別方法,發(fā)現(xiàn)這些方法無法準確識別圖像中的主體目標。針對這一問題,本文設計了一套可以識別復雜背景圖像中主體目標的評價模型CNN-Main。利用選擇性搜索算法分割圖像,提取圖像中不同目標的候選區(qū)域并利用改進的卷積神經網絡識別圖像的多目標類別。提取圖像目標后,利用顯著性區(qū)域視覺模型建立主體目標評價體系計算每個目標的主體評分,取最高評分的目標作為主體目標。并通過實驗,發(fā)現(xiàn)CNN-Main相比其他方法具有更優(yōu)秀的表達效果。2.提出了一種融合圖像主體目標和場景知識的圖像語義提取模型。通過研究目前圖像語義提取的方法,發(fā)現(xiàn)提取的圖像語義質量普遍不高,且規(guī)避了主體目標。為了能產生高質量的圖像語義,本文融合圖像主體目標和場景的先驗信息生成圖像的語義,提出了一種MS-Net模型。讓雙向循環(huán)神經網絡語言模型在產生圖像的語義序列時,先驗信息更加豐富。并通過實驗,發(fā)現(xiàn)MS-Net提取的圖像語義,相比其他方法在BLUE、METEOR和CIDEr評價指標上更具優(yōu)勢。3.設計了一種圖像和文本相似度的計算方法。目前,圖像和文本相似度計算的方法是先提取圖像和文本的主要語義,然后計算它們之間的語義相似度,但是由于不同的限制條件使相似度計算方法存在很大誤差。針對這一問題,本文設計了一種方法分別從兩個不同的角度計算圖像和文本相似度。首先使用WordNet本體分類樹,對圖像和文本的主要語義進行擴展,通過放大語義信息提高圖文相似度的準確率。然后分析循環(huán)神經網絡語言模型,結合長短時記憶網絡依據(jù)上下文信息推測句子語義,從而達到提高準確率的目的。為驗證本文提出的方法,構建了相應的數(shù)據(jù)集,實驗結果表明,該方法在準確率,召回率和F值上的表現(xiàn)優(yōu)于其他方法。綜上,本文主要以深度學習為技術手段,以圖像和文本為研究對象,分析圖文匹配的關鍵問題,并給出相應的解決方案,通過實驗驗證其具有良好的效果。
【圖文】:
前對于圖文匹配的問題,國內外分別對圖像搜索和圖像語義提取究。對于圖像搜索的研究目前已經應用于商業(yè)化模式,格局較為語義提取的研究還處于理論階段,目前市場上還無法大量的應用圖像搜索研究究人員一直在致力于尋找一種能夠從海量數(shù)據(jù)中迅速定位到用戶索技術。早期搜索圖像主要依靠圖像的標注信息,將文本和圖像的匹配,這種技術稱為文本的圖像搜索技術(TBIR)。TBIR 主要利用行標注,當用戶查詢的時候輸入相應的描述關鍵字,然后系統(tǒng)對輸圖像的標注進行精確或模糊匹配。如果對這種大規(guī)模的圖像信息,將會產生巨大的人力物力消耗,而且人工標注存在很大的缺陷像的理解存在較大的不同,并沒有統(tǒng)一的標準。面對這樣的問題學習方法應時而生,已經實現(xiàn)圖像的自動化標注,并且取得較好的在的百度、谷歌等公司的圖像搜索系統(tǒng)都利用 TBIR 實現(xiàn)的。如百度通過 TBIR 進行圖像搜索的結果。
第 2 章 基于深度學習的圖像主體目標識別模型研究人類可以很容易的了解圖像里面的主要目標和圖像所表達的含義。但是對于機器而言這是一項十分困難的任務。圖文匹配需要機器理解圖像中的主體目標及其所表達的含義,這樣便于將圖像和類似文本信息進行匹配。一般情況下,在復雜環(huán)境中,圖像存在較多的目標,如何將這些目標中的主體目標識別出來并理解主體目標和輔目標之間的關系是本章研究的重點。如圖 2-1 是從數(shù)據(jù)集flickr30k 中隨機選取的 3 張圖像。左圖中主體目標是一只狗,輔目標是雪地,圖像表達含義是一只狗在雪地上玩耍。另外兩張圖像中標記的目標為主體目標,其他為輔助目標。本章主要對基于改進的 Fast R-CNN[14]的圖像目標檢測模型建立主體目標評價體系進行介紹,我們將此模型定義為 CNN-Main。
【學位授予單位】:武漢理工大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.41;TP183
【圖文】:
前對于圖文匹配的問題,國內外分別對圖像搜索和圖像語義提取究。對于圖像搜索的研究目前已經應用于商業(yè)化模式,格局較為語義提取的研究還處于理論階段,目前市場上還無法大量的應用圖像搜索研究究人員一直在致力于尋找一種能夠從海量數(shù)據(jù)中迅速定位到用戶索技術。早期搜索圖像主要依靠圖像的標注信息,將文本和圖像的匹配,這種技術稱為文本的圖像搜索技術(TBIR)。TBIR 主要利用行標注,當用戶查詢的時候輸入相應的描述關鍵字,然后系統(tǒng)對輸圖像的標注進行精確或模糊匹配。如果對這種大規(guī)模的圖像信息,將會產生巨大的人力物力消耗,而且人工標注存在很大的缺陷像的理解存在較大的不同,并沒有統(tǒng)一的標準。面對這樣的問題學習方法應時而生,已經實現(xiàn)圖像的自動化標注,并且取得較好的在的百度、谷歌等公司的圖像搜索系統(tǒng)都利用 TBIR 實現(xiàn)的。如百度通過 TBIR 進行圖像搜索的結果。
第 2 章 基于深度學習的圖像主體目標識別模型研究人類可以很容易的了解圖像里面的主要目標和圖像所表達的含義。但是對于機器而言這是一項十分困難的任務。圖文匹配需要機器理解圖像中的主體目標及其所表達的含義,這樣便于將圖像和類似文本信息進行匹配。一般情況下,在復雜環(huán)境中,圖像存在較多的目標,如何將這些目標中的主體目標識別出來并理解主體目標和輔目標之間的關系是本章研究的重點。如圖 2-1 是從數(shù)據(jù)集flickr30k 中隨機選取的 3 張圖像。左圖中主體目標是一只狗,輔目標是雪地,圖像表達含義是一只狗在雪地上玩耍。另外兩張圖像中標記的目標為主體目標,其他為輔助目標。本章主要對基于改進的 Fast R-CNN[14]的圖像目標檢測模型建立主體目標評價體系進行介紹,我們將此模型定義為 CNN-Main。
【學位授予單位】:武漢理工大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.41;TP183
【相似文獻】
相關期刊論文 前10條
1 王宇;張煥君;黃海新;;基于深度學習的圖像語義分割算法綜述[J];電子技術應用;2019年06期
2 田萱;王亮;丁琪;;基于深度學習的圖像語義分割方法綜述[J];軟件學報;2019年02期
3 熊志勇;張國豐;王江晴;;基于多尺度特征提取的圖像語義分割[J];中南民族大學學報(自然科學版);2017年03期
4 郭克華;段桂華;;圖像語義提取與描述的研究現(xiàn)狀及趨勢[J];新型工業(yè)化;2012年09期
5 趙生輝;侯希文;;唐卡圖像語義信息的描述框架研究[J];知識管理論壇;2015年01期
6 鄧s,
本文編號:2678814
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/sousuoyinqinglunwen/2678814.html