a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于模板與視覺特征的Web數(shù)據(jù)抽取技術(shù)研究

發(fā)布時間:2020-12-04 09:44
  隨著Web數(shù)據(jù)庫的不斷增長,通過查詢接口訪問獲得以HTML頁面形式動態(tài)呈現(xiàn)的Web資源逐漸成為信息獲取的主要手段,有效獲取并集成分布在Web上的各數(shù)據(jù)庫資源具有重要的現(xiàn)實意義與廣闊的應(yīng)用前景。本文以Web數(shù)據(jù)庫資源獲取與集成為出發(fā)點,針對Web數(shù)據(jù)的異構(gòu)、動態(tài)、多源特性導(dǎo)致現(xiàn)有Web數(shù)據(jù)抽取方法抽取準確率低、抽取效率不高、無法集成多源數(shù)據(jù)等問題,提出了基于視覺的Web數(shù)據(jù)抽取、Web數(shù)據(jù)模板構(gòu)造和多源Web數(shù)據(jù)融合等改進方法,論文的主要工作如下:(1)根據(jù)Web數(shù)據(jù)記錄視覺特征,研究查詢結(jié)果頁面數(shù)據(jù)記錄的結(jié)構(gòu)相似性和文本組織形式多樣性,針對現(xiàn)有Web數(shù)據(jù)抽取方法無法準確抽取Web數(shù)據(jù)記錄,提出了基于視覺與DOM樹的Web數(shù)據(jù)定位與抽。╒ision and DOM-tree based Web data Location and Extraction,VDLE)方法。該方法引入視覺塊重心偏移量定位數(shù)據(jù)區(qū)域,利用譜聚類算法定位數(shù)據(jù)區(qū)域內(nèi)結(jié)構(gòu)相似的節(jié)點簇,并結(jié)合文本組織多樣性對數(shù)據(jù)記錄進行定位。實驗結(jié)果表明,VDLE的抽取結(jié)果查準率為99%,比基于DOM樹的Deep Web實體抽取機制(D... 

【文章來源】:重慶交通大學(xué)重慶市

【文章頁數(shù)】:81 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于模板與視覺特征的Web數(shù)據(jù)抽取技術(shù)研究


論文組織結(jié)構(gòu)

示意圖,示意圖,子節(jié)點,父節(jié)點


定位數(shù)據(jù)區(qū)域內(nèi)結(jié)構(gòu)相似的節(jié)點簇,并結(jié)合文本。抽取相關(guān)概念與樹路徑相似度層次結(jié)構(gòu)展示 HTML 文檔,提供訪問、操作構(gòu)口,允許程序、腳本動態(tài)訪問并更新 HTML 文中,節(jié)點類型分為根節(jié)點、中間節(jié)點、葉子節(jié)點 樹頂端;中間節(jié)點擁有父節(jié)點與子節(jié)點,是連子節(jié)點沒有子節(jié)點,其內(nèi)容直接展示在頁面上。系,同一父節(jié)點的節(jié)點之間構(gòu)成兄弟關(guān)系。DO到葉子結(jié)點所經(jīng)過的節(jié)點標簽組成的序列。D

算法流程,視覺


J( a,b)C為節(jié)點a與節(jié)點b的杰卡德相似系數(shù),集合 A B為節(jié)點 a 與節(jié)點 b 的最近公共父節(jié)點對應(yīng)的樹路徑上的節(jié)點集合,集合 A B為節(jié)點a與節(jié)點b樹路徑上的總節(jié)點集合,| A B|為集合 A B中節(jié)點的數(shù)目,| A |與 | B |分別表示集合 A 與集合 B 中節(jié)點的數(shù)目。2.1.2 頁面分割算法作為微軟下一代搜索引擎核心分頁算法,VIPS 利用頁面布局結(jié)構(gòu)對網(wǎng)頁進行分塊。VIPS 定義 Web 頁面的結(jié)構(gòu)如下: ( , , )(2.2)其中, (...)1 2N , ,, ,表示頁面中的所有視覺塊集合,視覺塊之間沒有任何重疊,每個視覺塊可以迭代表示; (...)1 2T , ,, ,表示頁面中所有分割條的集合,由 中兩個視覺塊確定; (...)1 2M , , ,代表集合 中兩個視覺塊之間的關(guān)系,表示為 {NULL}。如 NULLij ( , ) 表示相鄰視覺塊i 與j 之間存在分割條 ()ij , 。VIPS 工作流程如下:

【參考文獻】:
期刊論文
[1]基于知網(wǎng)與搜索引擎的詞匯語義相似度計算[J]. 吳克介,王家偉.  計算機與現(xiàn)代化. 2018(04)
[2]針對開源論壇網(wǎng)頁的信息抽取研究[J]. 劉春梅,郭巖,俞曉明,趙嶺,劉悅,程學(xué)旗.  計算機科學(xué)與探索. 2017(01)
[3]基于2008版《知網(wǎng)》的詞語相似度計算方法[J]. 魏韡,向陽.  計算機工程. 2015(09)
[4]Deep Web數(shù)據(jù)采集查詢構(gòu)造方法研究[J]. 林海倫,楊曉剛,熊錦華,王元卓,賈巖濤,程學(xué)旗.  計算機科學(xué)與探索. 2015(09)
[5]信息抽取研究綜述[J]. 郭喜躍,何婷婷.  計算機科學(xué). 2015(02)
[6]基于《知網(wǎng)》的詞語語義相似度改進算法研究[J]. 張滬寅,劉道波,溫春艷.  計算機工程. 2015(02)
[7]基于視覺特征的就業(yè)信息頁面抽取方法[J]. 張昕,鄂海紅,宋美娜,楊俊.  軟件. 2014(09)
[8]一種基于HowNet的詞語語義相似度計算方法[J]. 范弘屹,張仰森.  北京信息科技大學(xué)學(xué)報(自然科學(xué)版). 2014(04)
[9]使用網(wǎng)絡(luò)搜索引擎計算漢語詞匯的語義相似度[J]. 高國強,黃呂威,陳豐鈺.  計算機技術(shù)與發(fā)展. 2014(07)
[10]基于本體的語義相似度算法研究[J]. 賀元香,史寶明,張永.  計算機應(yīng)用與軟件. 2013(11)

碩士論文
[1]Web數(shù)據(jù)集成中包裝器自適應(yīng)方法研究[D]. 羅偉.山東大學(xué) 2011



本文編號:2897379

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/kejilunwen/sousuoyinqinglunwen/2897379.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4a567***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
一本色道久久综合狠狠躁篇| 欧美熟妇另类久久久久久不卡| 免费无码午夜福利片69| 男女猛烈无遮挡免费视频| 看a网站| 欧美性受XXXX白人性爽| 人妻无码aⅴ不卡中文字幕| 大竹县| 白洁少妇第97章| 亚洲日韩精品成人无码专区AV| 亚洲精品无码久久久久秋霞| 亚洲人色婷婷成人网站在线观看| 国产精品无码AV无码| 日本干逼视频| 国产av主播| 人人澡人人看| 91看视频| 青楼妓女禁脔道具调教sm| 精品国产a∨无码一区二区三区 | 黄色激情网站| 大香蕉大香蕉在线| 亚洲欧美综合精品成人网站| 久久亚洲AV无码精品色午夜麻| 免费大片av手机看片| 日本乱理伦片在线观看真人| 中文精品无码中文字幕无码专区 | 日韩人妻无码潮喷中文视频| 东丰县| 极品少妇av| 久久最新网址| 精品一区二区ww| 少妇无力反抗慢慢张开双腿| 久久综合亚洲色一区二区三区| 亚无码乱人伦一区二区| 特黄三级又爽又粗又大| 日韩欧洲在线高清一区| 精产国品一二三产区M553| 草草影院CCYY国产日本欧美| 国产精品186在线观看在线播放| 国产人妖视频一区二区| 无码人妻精品一区二区在线视频|