a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

面向移動應用商店的分布式爬蟲系統(tǒng)設計與實現(xiàn)

發(fā)布時間:2019-12-02 17:17
【摘要】:近年來,隨著移動互聯(lián)網(wǎng)的不斷發(fā)展和市場需求的不斷拉動,移動應用軟件的數(shù)量以爆炸性的速度增長,移動應用商店也成為推廣應用軟件的最主要平臺之一。由于缺乏有效的監(jiān)管,移動應用商店中的應用軟件良莠不齊,存在嚴重安全隱患,針對移動應用軟件進行安全檢測的需求與日俱增。基于此,本文設計并實現(xiàn)了面向移動應用商店的分布式爬蟲系統(tǒng),用以采集移動應用商店中的應用軟件信息與樣本,為移動應用軟件的安全檢測提供數(shù)據(jù)支持。本文首先介紹了系統(tǒng)的研究背景,概述了前人在網(wǎng)絡爬蟲方面的研究成果,并對本系統(tǒng)所用到的關鍵技術進行了深入研究,包括移動應用商店網(wǎng)站結構的分析、網(wǎng)絡爬蟲設計原理和爬行策略的研究、Scrapy框架的介紹以及分布式網(wǎng)絡爬蟲架構的研究;谙嚓P關鍵技術的研究,本文提出了一種基于URL分類的抓取策略,并且對爬蟲系統(tǒng)的整體架構和各功能模塊作出了詳細設計,包括控制管理服務器、爬蟲服務器等關鍵模塊設計的詳細闡述。最后,本文論述了面向移動應用商店的分布式爬蟲系統(tǒng)的具體實現(xiàn),并設計了幾組與傳統(tǒng)爬蟲系統(tǒng)的對照實驗,通過實驗數(shù)據(jù)證明了本文所提出的抓取策略的可行性與有效性,以及本文所使用的分布式爬蟲系統(tǒng)的高效性。本文主要完成了以下工作:1.為了提高系統(tǒng)的采集效率,同時使系統(tǒng)具有良好的可擴展性,本文設計并實現(xiàn)了混合模式的分布式爬蟲系統(tǒng)架構,克服了主從模式下由于爬行數(shù)量增加而導致系統(tǒng)性能下降的困難,能夠方便的進行爬行節(jié)點的添加與刪除,并制定了適用于移動應用商店網(wǎng)絡爬蟲系統(tǒng)的分布式任務下發(fā)策略。2.圍繞如何提高爬蟲系統(tǒng)的采集效率展開深入研究,結合移動應用商店網(wǎng)站結構的特點,在傳統(tǒng)的廣度優(yōu)先抓取策略基礎上提出了一種基于URL分類的抓取策略,詳細介紹了該策略的算法,并做了設計與實現(xiàn)。3.為了提高軟件信息采集的可靠性,對動態(tài)網(wǎng)頁數(shù)據(jù)的采集做了詳細研究,使用了 selenium+phantomjs組合模擬瀏覽器、網(wǎng)絡抓包分析URL規(guī)律等方法來實現(xiàn)動態(tài)網(wǎng)頁數(shù)據(jù)的抓取。4.為了提高數(shù)據(jù)樣本的覆蓋率,本系統(tǒng)實現(xiàn)了對目前市場上主流的50多家第三方移動應用商店的應用軟件信息采集。
【圖文】:

百度,商店


圖2-1百度應用商店應用導航頁逡逑下面以百度應用商店為例,具體分析其網(wǎng)頁結構特征。進入百度應用商店首逡逑頁后,就能看到如圖2-1所示的應用分類導航信息,此版塊將應用商店中的所有逡逑應用按功能作用進行了分類,如社交通訊類、系統(tǒng)工具類等。以這些分類導航鏈逡逑接為入口,點擊進入以后,會看到應用按一定的方式排列呈現(xiàn)在頁面中,并以翻逡逑頁的形式列出了該類別中的所有應用,如圖2-2所示。從應用列表頁中能夠提取逡逑到應用詳細頁面的URL,進而訪問應用詳細頁,應用詳細頁中包含了應用的具逡逑7逡逑

百度,商店,工程碩士學位,鏈接地址


百度應用商店應用列表頁百度李抓姍浮貓負,,按釋》苦眺工皿,帕汽萬瀚鑰勝
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1;TP393.092

【參考文獻】

相關期刊論文 前10條

1 南磊;;基于Hadoop的圖書推薦系統(tǒng)研究與設計[J];計算機與數(shù)字工程;2016年06期

2 鄒科文;李達;鄧婷敏;李嘉振;陳義明;;網(wǎng)絡爬蟲針對“反爬”網(wǎng)站的爬取策略研究[J];電腦知識與技術;2016年07期

3 馬志強;張澤廣;李昊u&;劉利民;;基于分布式架構的主題信息采集系統(tǒng)[J];計算機工程與設計;2015年04期

4 高榮;;基于Scrapy和casperjs的電子商務網(wǎng)站信息采集系統(tǒng)研究[J];數(shù)字技術與應用;2015年03期

5 楊永光;;代碼簽名在手機應用商店的應用[J];信息安全與通信保密;2014年10期

6 陳薈慧;舒云星;林麗;;Web語料抓取中基于相似度的URL過濾規(guī)則生成算法[J];模式識別與人工智能;2014年07期

7 史寶明;賀元香;吳崇正;;主題搜索引擎中爬蟲搜索策略的研究[J];計算機工程與應用;2014年02期

8 方明科;王煜霞;;一種動態(tài)Web信息提取方法的設計與實現(xiàn)[J];管理工程師;2011年03期

9 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡爬蟲技術的研究[J];電腦知識與技術;2010年15期

10 陳俊彬;;Web信息抽取策略及其實現(xiàn)方法研究[J];科技情報開發(fā)與經(jīng)濟;2008年23期

相關博士學位論文 前1條

1 何川;分布式信息檢索中的若干重要問題研究[D];北京郵電大學;2012年

相關碩士學位論文 前7條

1 孔維健;基于圖聚類的招投標數(shù)據(jù)挖掘研究與應用[D];中山大學;2015年

2 李婷;分布式爬蟲任務調度與AJAX頁面抓取研究[D];電子科技大學;2015年

3 姚鑫;分布式手機軟件應用搜索爬蟲系統(tǒng)設計與實現(xiàn)[D];北京郵電大學;2015年

4 姚富貴;基于分布式的商品信息網(wǎng)絡爬蟲系統(tǒng)的設計與實現(xiàn)[D];華中科技大學;2014年

5 趙鵬程;分布式書籍網(wǎng)絡爬蟲系統(tǒng)的設計與實現(xiàn)[D];西南交通大學;2014年

6 蘇小魯;基于DOM的HTML網(wǎng)頁正文信息抽取模塊的設計與實現(xiàn)[D];北京郵電大學;2011年

7 王星;新聞網(wǎng)頁抽取技術的研究與實現(xiàn)[D];河北工業(yè)大學;2011年



本文編號:2568839

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/2568839.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶a5172***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
天天干天天日天天| 无码办公室丝袜ol中文字幕| 少妇高潮喷水| 這裏匯聚了亚洲毛片无码不卡AV| 野花日本HD免费高清版7| 国产天堂亚洲国产碰碰| adc影院| 色播导航| 亚洲午夜久久久国产精品| 亚洲精品乱码久久久久久蜜桃图片 | 被两个两个黑人吃奶4P| 乐清市| 国产乱国产乱300精品| 蜜臀av网| 在线新拍91精品国产麻豆情侣| 久久精品国产亚洲AV无码麻豆 | 国产无遮挡又黄又爽不要vip网站 小13箩利洗澡无码视频免费网站 久久天天躁狠狠躁夜夜2020一 | 一区二三区好的精华液| 亚洲小说区图片区另类春色| 精品欧美成人高清在线观看| аⅴ资源新版在线天堂| 红桃91人妻爽人妻爽| 中文字幕福利| 国产一区二区三区国产一区| 日日噜噜夜夜爽爽| 国产成人精品高清在线观看99 | 无码人妻久久一区二区三区APP| 亚洲欧美另类久久久精品| 男男(h)肉在线观看| 欧美人与禽猛交乱配视频| saoyaav| 熟妇久久| 亚洲AV片不卡无码一| 亚洲日韩小电影在线观看| 亚洲中文字幕av每天更新| 国产精品怡红院永久免费| 18禁止进入1000部高潮网站| 交城县| 国产亚洲精品久久www| 亚洲精品永久www嫩草| h在线播放|