a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

面向汽車(chē)領(lǐng)域采購(gòu)線(xiàn)索發(fā)現(xiàn)的主題爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-11-15 15:40
   隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)現(xiàn)已成為全球化的信息庫(kù)。在當(dāng)今工業(yè)化、信息化的時(shí)代,汽車(chē)領(lǐng)域的網(wǎng)絡(luò)數(shù)據(jù)增長(zhǎng)迅速,其中關(guān)于車(chē)輛采購(gòu)的信息能夠充分表明市場(chǎng)中對(duì)于汽車(chē)的具體需求。對(duì)于汽車(chē)采購(gòu)線(xiàn)索的發(fā)現(xiàn)與研究,在汽車(chē)銷(xiāo)售、研發(fā)等方面起著重要的作用。互聯(lián)網(wǎng)中存在著大量汽車(chē)領(lǐng)域相關(guān)采購(gòu)數(shù)據(jù)的信息資源,但是由于信息獲取較為復(fù)雜,不能被共享,導(dǎo)致了大量資源的浪費(fèi)。如何定向爬取汽車(chē)采購(gòu)線(xiàn)索的數(shù)據(jù),將信息資源進(jìn)行整合,成為目前主要的研究方向。政府采購(gòu)網(wǎng)站是一個(gè)獲取汽車(chē)采購(gòu)數(shù)據(jù)的重要來(lái)源,主題爬蟲(chóng)技術(shù)是獲取網(wǎng)絡(luò)數(shù)據(jù)信息的主要方法,也是本文的主要研究?jī)?nèi)容。主題爬蟲(chóng)的功能是根據(jù)預(yù)設(shè)的關(guān)鍵詞和初始網(wǎng)絡(luò)url地址,在web上爬取與主題相關(guān)的數(shù)據(jù)資源。為獲取汽車(chē)領(lǐng)域內(nèi)采購(gòu)線(xiàn)索的信息,本文在進(jìn)行充分研究后,設(shè)計(jì)并實(shí)現(xiàn)了面向汽車(chē)領(lǐng)域采購(gòu)線(xiàn)索發(fā)現(xiàn)的主題爬蟲(chóng)系統(tǒng),主要工作如下:首先對(duì)各省市政府采購(gòu)網(wǎng)站進(jìn)行網(wǎng)頁(yè)結(jié)構(gòu)分析,爬取網(wǎng)站公告中與車(chē)輛采購(gòu)、汽車(chē)租賃相關(guān)的網(wǎng)頁(yè)信息,獲取網(wǎng)頁(yè)間的鏈接關(guān)系并存入數(shù)據(jù)庫(kù)。其次,對(duì)PageRank算法進(jìn)行改進(jìn),使其更加適用于汽車(chē)領(lǐng)域內(nèi)采購(gòu)線(xiàn)索的發(fā)現(xiàn)。傳統(tǒng)的PageRank算法只考慮到網(wǎng)頁(yè)之間的鏈入鏈出關(guān)系,并沒(méi)有考慮主題相關(guān)度,會(huì)出現(xiàn)“主題漂移”現(xiàn)象,以及算法沒(méi)有考慮到網(wǎng)頁(yè)發(fā)布時(shí)間而導(dǎo)致“偏重舊網(wǎng)頁(yè)”等問(wèn)題。本文針對(duì)以上不足,將傳統(tǒng)PageRank算法與車(chē)輛采購(gòu)主題相結(jié)合,提出了一種面向汽車(chē)領(lǐng)域采購(gòu)線(xiàn)索的APC-PageRank算法。該算法通過(guò)判斷文本與汽車(chē)采購(gòu)主題的相關(guān)性計(jì)算得到文本的權(quán)重值。權(quán)重值向量作為APC-PageRank算法的一個(gè)參數(shù)進(jìn)行迭代計(jì)算。此外,文本在網(wǎng)頁(yè)文檔中出現(xiàn)的位置不同,重要性也不相同,例如標(biāo)題的重要程度會(huì)高于正文內(nèi)容。因此,對(duì)詞項(xiàng)出現(xiàn)的不同位置賦予不同權(quán)重,作為APC-PageRank算法的一個(gè)參數(shù)。由于采購(gòu)網(wǎng)公告會(huì)顯示發(fā)布時(shí)間,所以添加時(shí)間反饋因子,對(duì)新發(fā)布的網(wǎng)頁(yè)做出一定的補(bǔ)償,使新網(wǎng)頁(yè)在一定程度上能夠上浮。最終得出PR值,并根據(jù)得分進(jìn)行網(wǎng)頁(yè)排名,使排序的結(jié)果更加符合主題。最后,針對(duì)設(shè)計(jì)出的面向汽車(chē)領(lǐng)域采購(gòu)線(xiàn)索發(fā)現(xiàn)的主題爬蟲(chóng)系統(tǒng)進(jìn)行實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明改進(jìn)后的算法在汽車(chē)領(lǐng)域內(nèi)對(duì)于汽車(chē)采購(gòu)線(xiàn)索的主題表示方面具有良好的效果,主題明確且鏈入鏈出度高的網(wǎng)頁(yè),能夠獲得更高的排名,網(wǎng)頁(yè)排序的主題準(zhǔn)確率有所提高。
【學(xué)位單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類(lèi)】:TP393.092;TP391.1
【部分圖文】:

面向汽車(chē)領(lǐng)域采購(gòu)線(xiàn)索發(fā)現(xiàn)的主題爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)


通用爬蟲(chóng)架構(gòu)

架構(gòu)圖,主題,架構(gòu),文本內(nèi)容


主題爬蟲(chóng)與通用爬蟲(chóng)的區(qū)別在于主題爬蟲(chóng)需要對(duì)網(wǎng)頁(yè)的文本內(nèi)容做出判斷,將用戶(hù)搜索的關(guān)鍵詞與文本內(nèi)容做對(duì)比,如果判斷相關(guān),則進(jìn)行爬取。主題爬蟲(chóng)架構(gòu)如圖 2.所示。

系統(tǒng)結(jié)構(gòu)圖,主題,系統(tǒng)結(jié)構(gòu)圖,網(wǎng)頁(yè)


預(yù)處理模塊負(fù)責(zé)將網(wǎng)頁(yè)文本信息進(jìn)行分詞處理。網(wǎng)頁(yè)分析模塊主要判斷網(wǎng)頁(yè)是否與該主題相關(guān)。搜索調(diào)度模塊負(fù)責(zé)設(shè)定 url 隊(duì)列中的 url 出入棧操作,并確定優(yōu)先級(jí)。主題爬蟲(chóng)的系統(tǒng)結(jié)構(gòu)圖如下 2-3 所示:
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 羅杰;;優(yōu)化主題信息及材料收集與利用的探討[J];山東教育;2016年Z2期

2 祁寧;吳齊;趙青;;面向主題信息服務(wù)的垂直搜索引擎應(yīng)用研究[J];圖書(shū)館學(xué)研究;2008年09期

3 曾利沙;論旅游指南翻譯的主題信息突出策略原則[J];上海翻譯;2005年01期

4 丁國(guó)君;;小學(xué)主題信息教育的探索與實(shí)踐[J];中小學(xué)電教;2002年09期

5 唐建;洪宇;劉夢(mèng)眙;姚亮;姚建民;;融合圖片主題信息的圖片描述翻譯[J];中文信息學(xué)報(bào);2019年07期

6 陳雄;都云程;李渝勤;施水才;;基于頁(yè)面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期

7 吳筱媛,鄧紅素,顧寧;基于主題信息和相關(guān)信息發(fā)現(xiàn)的元數(shù)據(jù)描述方法[J];計(jì)算機(jī)工程;2002年02期

8 田麗;;情報(bào)分析中提取主題信息核心要素的模型及方法[J];計(jì)算機(jī)與現(xiàn)代化;2018年10期

9 梁田;;個(gè)性化科研主題信息環(huán)境構(gòu)建技術(shù)方案實(shí)踐[J];圖書(shū)情報(bào)工作;2012年S2期

10 羅長(zhǎng)壽;康麗;劉國(guó)靖;;基于遺傳算法的主題信息搜索系統(tǒng)研究[J];現(xiàn)代情報(bào);2009年03期


相關(guān)博士學(xué)位論文 前2條

1 梁曉賀;基于超網(wǎng)絡(luò)分析的微博輿情主題發(fā)現(xiàn)研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2019年

2 周厚奎;概率主題模型的研究及其在多媒體主題發(fā)現(xiàn)和演化中的應(yīng)用[D];浙江大學(xué);2017年


相關(guān)碩士學(xué)位論文 前10條

1 靖思婷;面向汽車(chē)領(lǐng)域采購(gòu)線(xiàn)索發(fā)現(xiàn)的主題爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2019年

2 姚海申;面向網(wǎng)絡(luò)敏感信息的主題識(shí)別及其情感分析技術(shù)研究[D];中央民族大學(xué);2019年

3 葉康;基于主題模型和注意力機(jī)制的短文本方面提取研究[D];南京大學(xué);2019年

4 陳明;基于主題翻譯模型的社區(qū)問(wèn)答中問(wèn)句檢索技術(shù)研究[D];武漢理工大學(xué);2018年

5 雷俐;基于主題的微博重疊社區(qū)發(fā)現(xiàn)研究[D];中南財(cái)經(jīng)政法大學(xué);2018年

6 董德鳴;面向主題搜索引擎的若干關(guān)鍵技術(shù)的研究[D];沈陽(yáng)建筑大學(xué);2016年

7 劉竹辰;基于層次主題模型的網(wǎng)絡(luò)熱點(diǎn)分析研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2019年

8 郭思琦;基于滑動(dòng)事件窗口的圖書(shū)館資源惡意下載檢測(cè)系統(tǒng)研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2019年

9 張秋楠;面向興趣主題的新浪微博個(gè)性化推薦方法[D];河南大學(xué);2018年

10 孫淑嫻;基于矩陣分解的長(zhǎng)尾主題挖掘算法的研究與實(shí)現(xiàn)[D];山東師范大學(xué);2018年



本文編號(hào):2884928

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/kejilunwen/sousuoyinqinglunwen/2884928.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)a0ca2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
香蕉国产| 国产很爽的超薄丝袜脚交视频 | 熟妇人妻av无码一区二区三区| 国产成年无码久久久久毛片| 一本久| 综合亚洲伊人午夜网| 中文文字幕文字幕亚洲色| 欧美国产日韩亚洲中文| 乌兰县| 亚洲av人人澡人人人夜| 97人妻熟女碰碰碰在| 欧美丝袜丝交nylon秘书| 交换俱乐部| 高清欧美性猛交| 久久久久国色AV免费观看| 亚洲无人区一区二区三区| 久久丝袜| 涩涩在线视频| 91久久国产日本一区精品| 久久精品国产99精品国产2021| 国产色产综合色产在线视频| 亚洲高清一区二区三区不卡| 亚洲制服丝袜av一区二区三区 | 露脸丨91丨九色露脸| 亚洲美女色图| 999久久久免费看| 熟女人妻のav| 国产免费九九久久精品A级| 天堂а在线中文在线新版| 无码成人精品区在线观看| 一区二区狠狠色丁香久久婷婷| 人妻在线日韩免费视频| 亚洲欧美中文日韩在线v日本| XXXXX做受大片视频免费| 成年免费A级毛片| 波多野结衣av高清一区二区三区| 一个人hd在线观看免费高清视频| 色偷偷久久一区二区三区| 国产天堂亚洲国产碰碰| 久久久久久久岛国免费观看| 久久久国产精品无码免费专区 |