a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

支持動態(tài)頁面的快速URL提取方法研究

發(fā)布時間:2024-11-02 02:42
  Web2.0技術(shù)在互聯(lián)網(wǎng)上的出現(xiàn)以及社交平臺的興起,極大的促進(jìn)了動態(tài)網(wǎng)頁的使用和普及。動態(tài)網(wǎng)頁中的Ajax技術(shù),實現(xiàn)了客戶端和服務(wù)端之間數(shù)據(jù)的異步操作,不僅滿足了新時代的技術(shù)需要,同時也提高了用戶體驗,更是促進(jìn)了互聯(lián)網(wǎng)的發(fā)展。但是,傳統(tǒng)網(wǎng)絡(luò)爬蟲并不能應(yīng)對動態(tài)網(wǎng)頁帶來的新特征,所以支持動態(tài)頁面的網(wǎng)絡(luò)爬蟲的研究就具有了一定實踐意義。對于主題網(wǎng)絡(luò)爬蟲而言,噪聲鏈接不僅沒有價值,而且還會占用大量的資源,尤其是網(wǎng)絡(luò)爬蟲對噪聲鏈接對應(yīng)網(wǎng)頁的采集和分析,極大地降低了網(wǎng)絡(luò)爬蟲爬取的效率。 針對上述問題,本文的主要研究內(nèi)容如下: 首先,針對動態(tài)網(wǎng)頁中關(guān)鍵技術(shù)Ajax異步操作的原理,解決了如何令網(wǎng)絡(luò)爬蟲支持動態(tài)網(wǎng)頁爬取的問題。本文通過HTTP請求獲取到網(wǎng)頁,然后將網(wǎng)頁在本地進(jìn)行DOM樹的構(gòu)建,進(jìn)行對腳本的解析和URL的提取,并通過對HtmlUnit的源碼修改來解析需要進(jìn)行點擊觸發(fā)的腳本,從而解決傳統(tǒng)網(wǎng)絡(luò)爬蟲對動態(tài)網(wǎng)頁中動態(tài)生成的URL難以獲取的問題; 其次,由于噪聲鏈接極大地降低了網(wǎng)絡(luò)爬蟲的效率,所以本文對網(wǎng)頁噪聲的去除算法進(jìn)行了研究。傳統(tǒng)的網(wǎng)頁去噪算法針對網(wǎng)頁整體結(jié)構(gòu)進(jìn)行處理,去噪效率低下。本...

【文章頁數(shù)】:62 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 課題研究的背景和意義
    1.2 國內(nèi)外研究發(fā)展以及現(xiàn)狀
        1.2.1 動態(tài)頁面解析的研究現(xiàn)狀
        1.2.2 網(wǎng)頁去噪技術(shù)的研究現(xiàn)狀
    1.3 本文研究的主要內(nèi)容
    1.4 論文結(jié)構(gòu)安排
第2章 相關(guān)概念介紹
    2.1 Web2.0 技術(shù)簡介
    2.2 網(wǎng)頁頁面相關(guān)概念
        2.2.1 靜態(tài)頁面簡介
        2.2.2 動態(tài)頁面簡介
    2.3 動態(tài)網(wǎng)頁頁面涉及的關(guān)鍵技術(shù)介紹
        2.3.1 Ajax 技術(shù)基本原理
        2.3.2 Ajax 技術(shù)引發(fā)的問題
    2.4 性能評價指標(biāo)
    2.5 本章小結(jié)
第3章 支持動態(tài)頁面的網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計
    3.1 網(wǎng)絡(luò)爬蟲簡介
        3.1.1 網(wǎng)絡(luò)爬蟲體系結(jié)構(gòu)
        3.1.2 網(wǎng)絡(luò)爬蟲工作原理
        3.1.3 網(wǎng)絡(luò)爬蟲搜索策略
    3.2 支持動態(tài)頁面網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計
        3.2.1 系統(tǒng)架構(gòu)設(shè)計
        3.2.2 系統(tǒng)技術(shù)難點
    3.3 支持動態(tài)頁面涉及的關(guān)鍵技術(shù)
        3.3.1 腳本的解析
        3.3.2 瀏覽器對象
    3.4 本章小結(jié)
第4章 頁面超鏈接快速提取算法
    4.1 噪聲鏈接分析
        4.1.1 噪聲鏈接簡介
        4.1.2 URL 提取效率分析
    4.2 直接去噪聲鏈接算法
        4.2.1 頁面 DOM 樹結(jié)構(gòu)特征
        4.2.2 基于 DOM 樹的方法
    4.3 基于聚類的噪聲鏈接去除方法
        4.3.1 噪聲鏈接簇的識別
        4.3.2 K-means 聚類算法
        4.3.3 Single-Pass 算法
        4.3.4 基于改進(jìn) Single-Pass 算法的噪聲鏈接去除算法
    4.4 實驗結(jié)果與分析
    4.5 本章小結(jié)
第5章 支持動態(tài)頁面快速 URL 提取系統(tǒng)的實現(xiàn)
    5.1 頁面采集模塊
        5.1.1 HTTP 協(xié)議簡介
        5.1.2 頁面的采集
    5.2 頁面解析模塊
        5.2.1 腳本嵌入的方式
        5.2.2 URL 的提取
    5.3 頁面 DOM 支持模塊
        5.3.1 Jsoup 簡介
        5.3.2 DOM 樹構(gòu)建與操作
    5.4 事件觸發(fā)模擬模塊
        5.4.1 HtmlUnit 簡介
        5.4.2 腳本事件觸發(fā)的處理
    5.5 頁面生成模塊
    5.6 實驗結(jié)果分析
    5.7 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝



本文編號:4008895

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/4008895.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c2241***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
少妇av| 精品免费国偷自产在线视频| av在线精品| 天天做天天爱天天爽| 久久国产精品| 日本一道高清一区二区三区| 国产精品久久无码一区| 国产亚洲婷婷香蕉久久精品| 无码中文字幕日韩专区| 亚洲中文久久精品无码照片| 精品国产一区二区三区色欲| 免费成人在线| 人妖| 亚洲综合无码一区二区| 亚洲成av人片一区二区密柚 | 亚洲色图清纯唯美| 精品久久久久久东京热| 欧美日韩一区二区三区在线观看视频| 久99久无码精品视频免费播放| 一本大道在线无码一区| 精品国产三级在线观看| 精品国产一区二区三区av 性色| 中文无码制服丝袜人妻av| 亚洲国产精品一区二区成人片国内 | 性玩弄新婚少妇hd| 《少妇的诱人》意大利| 亚洲无线观看| 草逼网址| 国产精品无码专区观看| 蕾丝av无码专区在线观看| 国内精品免费久久久久电影院97| 久久精品无码专区免费| 亚洲中文字幕AⅤ天堂| 亚洲av一级| 色婷婷影视| 久久tv| 亚洲一区综合| 四虎新网址| 宜州市| 本道天堂成在人线av无码免费| 阳泉市|