基于教育領域的垂直搜索引擎的研究與實現(xiàn)
本文關鍵詞:教育信息垂直搜索引擎的研究,由筆耕文化傳播整理發(fā)布。
《天津師范大學》 2011年
基于教育領域的垂直搜索引擎的研究與實現(xiàn)
薛萍
【摘要】:隨著Internet的飛速的發(fā)展和應用的高普及率,web中的資源也以驚人的速度增長著,它為各個領域的人們帶來了巨大而多元化的豐富信息。尤其在教育這一領域也不例外,網(wǎng)絡為人們提供了更為豐富和全面的教學資源。人們可以共享這些學習資源,自由地安排學習活動,但是當人們在享受著這些便利的同時,也漸漸發(fā)現(xiàn)了一個亟待解決的問題,Google、百度這些通用搜索引擎并不是一個有效地檢索工具,其搜出的結(jié)果覆蓋非常廣泛,存在著很多重復和垃圾信息,信息更新速度慢。而垂直搜索引擎的出現(xiàn),很好的解決這一問題。它是針對某一個行業(yè)、某一特定人群或者特定需求的專業(yè)搜索引擎,是搜索引擎的細分和延伸,可以為用戶提供更為精準更高質(zhì)量的信息。 本文以教育領域的資源為基礎,通過運用擴展Heritrix, Lucene和MVC架構(gòu),初步構(gòu)建出一個檢索較為精準的教育垂直搜索引擎。本文主要包括以下幾個方面的內(nèi)容: (1)對開源網(wǎng)絡爬蟲Heritrix擴展和改進,實現(xiàn)了一個垂直搜索爬蟲,滿足對特定的教育信息的采集需求; (2)深入研究Lucene以及相關的技術,對其進行擴展,將Lucene成功運用到系統(tǒng)當中,為系統(tǒng)提供一個很好的全文索引/檢索服務; (3)實現(xiàn)對網(wǎng)頁內(nèi)容的抽取和處理,專業(yè)詞庫的構(gòu)建,中文分詞器的嵌入,索引建立和優(yōu)化等。 (4)重點是針對經(jīng)典排序算法PageRank的不足進行改進。提出了添加權(quán)威性和相關性因子的改進算法NPR。在設計好的系統(tǒng)上,進行測試并驗證其準確度有所提高。
【關鍵詞】:
【學位授予單位】:天津師范大學
【學位級別】:碩士
【學位授予年份】:2011
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻】
中國碩士學位論文全文數(shù)據(jù)庫 前2條
1 張倩;弓形蟲Rhomboid基因重組卡介苗的研制[D];吉林大學;2012年
2 張倩;教育信息垂直搜索引擎的研究[D];吉林大學;2012年
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 曹元大,賀海軍,涂哲明;中文Web文檔全文檢索系統(tǒng)的設計及實現(xiàn)[J];北京理工大學學報;2002年01期
2 劉德仿;王斌;;面向教學領域的智能搜索引擎的研究與開發(fā)[J];電化教育研究;2007年05期
3 趙喜樂;陳光;;垂直搜索引擎的抓取系統(tǒng)——基于網(wǎng)絡蜘蛛技術[J];電腦知識與技術;2009年19期
4 王琦;張戈;何婧;;基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實現(xiàn)[J];計算機時代;2010年02期
5 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應用[J];計算機應用與軟件;2009年01期
6 李廣麗;張紅斌;;面向計算機教育資源的垂直搜索引擎系統(tǒng)的設計[J];情報理論與實踐;2010年05期
7 孫庚;馮艷紅;于紅;史鵬輝;;一種基于Heritrix的網(wǎng)絡定題爬蟲算法——以漁業(yè)信息網(wǎng)絡為例[J];軟件導刊;2010年05期
8 王冬;雷景生;李壯;;基于PageRank的頁面排序改進算法[J];計算機工程與設計;2008年22期
9 段淮川;胡平;;基于主題特征和時間因子的改進PageRank算法[J];計算機工程與設計;2010年04期
10 王春花;朱俊平;;改進的非平均傳遞權(quán)值PageRank算法[J];計算機工程與設計;2010年10期
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 張校乾;基于Lucene的全文檢索系統(tǒng)的研究與應用[D];大連理工大學;2005年
2 黃峰;基礎教育搜索引擎中的網(wǎng)頁文檔特征提取研究[D];南京師范大學;2006年
3 劉忠;基于強化學習的垂直搜索引擎網(wǎng)絡爬蟲的研究與實現(xiàn)[D];蘇州大學;2008年
4 翟曉玲;面向?qū)W科的基礎教育資源垂直搜索引擎的研究與實現(xiàn)[D];東北師范大學;2009年
5 王波;基于Lucene的企業(yè)搜索引擎[D];北京郵電大學;2009年
6 張書江;基于Java的垂直搜索引擎的設計與實現(xiàn)[D];安徽理工大學;2009年
7 王可;基于Nutch的學校信息垂直搜索引擎的研究與實現(xiàn)[D];華東師范大學;2009年
8 楊永毅;基于Lucene的二手汽車交易信息垂直搜索引擎的研究與實現(xiàn)[D];重慶大學;2009年
9 杜一平;主題搜索網(wǎng)絡爬蟲的設計與研究[D];中國科學技術大學;2009年
10 吳翔;基于Lucene的音樂資訊垂直搜索引擎的設計和實現(xiàn)[D];北京交通大學;2009年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭凱明;;垂直搜索引擎應用研究[J];赤峰學院學報(自然科學版);2011年02期
2 趙京橋;;中國雅虎經(jīng)營模式轉(zhuǎn)型原因分析[J];財貿(mào)經(jīng)濟;2008年10期
3 劉新陽;;近年我國高校數(shù)字化教學資源建設與應用研究分析[J];電化教育研究;2012年03期
4 宋永生;;基于Android的商品比價系統(tǒng)的設計與實現(xiàn)[J];電腦知識與技術;2011年18期
5 潘文富;郭友實;;網(wǎng)絡輿情監(jiān)測技術研究綜述[J];福建電腦;2011年08期
6 郭曉霞;王磊;席巖;王曉艷;汪瑛;;基于網(wǎng)絡的視頻內(nèi)容檢索與盜版追蹤溯源研究[J];廣播與電視技術;2011年07期
7 梁迪龍;;云計算技術發(fā)展分析及其應用探討[J];電腦知識與技術;2012年19期
8 苗海;張仰森;岳明;;基于聚類算法的垂直搜索引擎技術研究[J];北京信息科技大學學報(自然科學版);2013年01期
9 孟燕;;杭州動漫交易平臺建設實踐研究——《基于Lucene技術的多媒體互動學習平臺的研究與設計》子課題研究[J];計算機光盤軟件與應用;2013年01期
10 張雷;;基于Heritrix與Lucene的垂直搜索引擎研究[J];黑龍江科技信息;2011年29期
中國博士學位論文全文數(shù)據(jù)庫 前3條
1 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年
2 米楊;基于頂級本體整合的醫(yī)學領域語義標注研究[D];吉林大學;2012年
3 李鵬;數(shù)字圖書館內(nèi)容管理開源軟件應用與評價研究[D];吉林大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 汪永偉;搜索引擎中網(wǎng)頁排序算法的研究與實現(xiàn)[D];哈爾濱工程大學;2010年
2 馮效棟;垂直搜索引擎技術在網(wǎng)絡輿情巡控中的研究與應用[D];中國海洋大學;2010年
3 李永春;主題搜索引擎的研究與實現(xiàn)[D];哈爾濱理工大學;2010年
4 陳繼祥;基于J2EE的網(wǎng)絡考試系統(tǒng)的研究與實現(xiàn)[D];南昌大學;2010年
5 樊春雷;基于語義分析的糖尿病健康教育系統(tǒng)研究與實現(xiàn)[D];華東理工大學;2011年
6 李承;基于Portal平臺的大型跨國企業(yè)Intranet設計與優(yōu)化[D];浙江大學;2011年
7 王紅勝;多文檔全文檢索系統(tǒng)的設計與開發(fā)[D];電子科技大學;2010年
8 陳功照;城市地理信息檢索服務研究[D];福建師范大學;2010年
9 王兆宇;個性化站內(nèi)搜索引擎的設計與應用[D];東華大學;2011年
10 李兆雄;基于圖模型的中文小樣本文本分類研究[D];西安電子科技大學;2009年
【同被引文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術;2009年10期
2 劉彥平;;關于網(wǎng)絡搜索引擎及其優(yōu)化的討論[J];電子商務;2011年04期
3 李學勇,歐陽柳波,李國徽,鐘敏娟;網(wǎng)絡蜘蛛搜索策略比較研究[J];計算機工程與應用;2004年04期
4 吳美清,沈惠玉;元搜索引擎在解決網(wǎng)絡信息檢索問題上所具有的優(yōu)勢與不足[J];情報雜志;2004年08期
5 翁勍力;施水才;趙捧未;;基于元搜索的聚類挖掘引擎[J];情報雜志;2007年09期
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 雷斌;基于Java技術的智能化搜索引擎的研究與設計[D];哈爾濱工程大學;2010年
2 戚學磊;基于Lucene的站內(nèi)搜索引擎技術的研究與應用[D];太原理工大學;2011年
3 鄧丹君;基于Lucene的垂直搜索引擎關鍵技術研究[D];武漢理工大學;2011年
4 黃衛(wèi)平;個性化搜索引擎的研究與實現(xiàn)[D];武漢理工大學;2011年
5 石京;基于語義本體的垂直搜索引擎模型研究[D];大連海事大學;2011年
6 陳飛;聚類搜索引擎關鍵技術的研究[D];北京郵電大學;2011年
7 梁萍;搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn)[D];中國科學技術大學;2011年
8 孟慶鑫;搜索引擎相關技術研究[D];中國科學技術大學;2011年
9 陳鑫;中文智能搜索引擎[D];四川大學;2004年
10 壽周翔;專業(yè)搜索引擎的研究與設計[D];浙江大學;2005年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 周靖;;淺介幾種常用搜索引擎的選擇比較[J];辦公自動化;2008年16期
2 張俊麗;張帆;;KNN-FCM聚類算法在中文搜索引擎文本過濾中的應用[J];圖書與情報;2007年04期
3 李巍巍;;全文檢索引擎工具包Lucene的結(jié)構(gòu)與索引原理的研究[J];才智;2008年09期
4 徐金雷;楊曉江;;基礎教育資源搜索引擎的排序算法研究[J];電化教育研究;2007年02期
5 陸云;;對基于Java的全文檢索工具包lucene的索引研究[J];電腦學習;2007年02期
6 景麗萍,黃厚寬;Web文本挖掘及特征選擇[J];電腦與信息技術;2002年01期
7 李武裝;;基于語義的企業(yè)搜索引擎的研究與實現(xiàn)[J];電腦知識與技術(學術交流);2007年08期
8 周珍娟;張字平;陸玲;;基于Lucene2.0的電子文獻全文檢索系統(tǒng)[J];電腦知識與技術(學術交流);2007年23期
9 謝峰;劉洪星;;基于Lucene的Web站內(nèi)搜索引擎的研究[J];電腦知識與技術;2008年04期
10 梁永霖;;基于Java的全文檢索引擎Lucene的分析與研究[J];電腦知識與技術;2008年20期
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 李廣建;個性化網(wǎng)絡信息檢索系統(tǒng)的研究與實現(xiàn)[D];中國科學院研究生院(文獻情報中心);2002年
2 程軍;基于統(tǒng)計的文本分類技術研究[D];中國科學院研究生院(文獻情報中心);2003年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 姚松源;文本自動分類系統(tǒng)的研究與實現(xiàn)[D];北京工業(yè)大學;2003年
2 李學勇;基于鞏固學習的網(wǎng)絡蜘蛛搜索策略研究[D];湖南大學;2003年
3 常曉燕;基于Java的新聞搜索引擎的設計與實現(xiàn)[D];西南交通大學;2004年
4 聶頌;具有自動分類功能的主題搜索引擎的研究[D];天津大學;2004年
5 壽周翔;專業(yè)搜索引擎的研究與設計[D];浙江大學;2005年
6 李颯;基于GATE的中文信息抽取系統(tǒng)的開發(fā)和實現(xiàn)[D];中國科學院研究生院(文獻情報中心);2006年
7 賀勝;面向現(xiàn)代漢語文本處理的全文檢索、自動分詞通用系統(tǒng)[D];南京師范大學;2006年
8 許順;中文分詞規(guī)范可計算化的研究與實現(xiàn)[D];蘇州大學;2006年
9 姜華;基于Lucene面向主題搜索引擎的研究與設計[D];華東師范大學;2007年
10 柴寶杰;中文自動分詞若干技術的研究[D];燕山大學;2007年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 邊凱;;你會搜索嗎?[J];中國計算機用戶;2007年23期
2 胡永鋒;;淺談垂直搜索引擎的工作原理[J];科學大眾(科學教育);2011年06期
3 莊芯;;風投押寶垂直搜索 各方巨頭介入又添疑點[J];IT時代周刊;2008年01期
4 顧鵬堯;;讓搜索引擎更好地服務于教育教學[J];科學24小時;2003年Z1期
5 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報;2004年09期
6 胡文勝;;垂直搜索助號碼百事通與商務領航[J];每周電腦報;2006年32期
7 胡潔;丁寧;關靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學垂直搜索引擎的實踐[J];信息系統(tǒng)工程;2009年05期
8 一林;;垂直搜索:前進路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期
9 田野;垂直搜索火熱為哪般[J];中國計算機用戶;2005年37期
10 陳利國;劉忠民;;搜索引擎的工作原理和發(fā)展趨勢[J];電腦知識與技術(學術交流);2007年23期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年
3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學會第十七屆信息論學術年會論文集[C];2010年
4 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡爬行器設計與實現(xiàn)[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
5 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年
6 王曉峰;劉惟一;;從用戶需求到網(wǎng)頁集團的模糊變換[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2003年
7 吳倩;楊逍;張兆心;;基于視覺特征的網(wǎng)頁信息提取[A];第六屆全國信息檢索學術會議論文集[C];2010年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術會議論文集[C];2010年
9 張貫虹;烏達巴拉;鞏政;;基于向量空間模型的網(wǎng)頁文本句子對齊方法研究[A];第十一屆全國人機語音通訊學術會議論文集(一)[C];2011年
10 趙玉芳;張一鳴;;基于網(wǎng)頁信息的印象形成的初步研究[A];第十屆全國心理學學術大會論文摘要集[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術情報研究所 周峻松;[N];計算機世界;2010年
2 王艷;[N];中國旅游報;2000年
3 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年
4 王靖;[N];人民日報海外版;2000年
5 記者 王滸;[N];中國旅游報;2009年
6 本報記者 王宏;[N];中國計算機報;2001年
7 徐瑾 張玉;[N];人民郵電;2009年
8 本報記者 王曉雁;[N];法制日報;2009年
9 記者 吳德群;[N];深圳特區(qū)報;2009年
10 本報記者 胡鈺;[N];華夏時報;2009年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 吳羽;面向時間敏感對象的垂直搜索引擎關鍵技術研究[D];浙江大學;2011年
2 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學技術大學;2012年
4 李傳席;基于本體的自適應Web信息抽取方法研究[D];中國科學技術大學;2012年
5 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
6 焦斌星;用于搜索的網(wǎng)頁可視化摘要技術研究[D];中國科學技術大學;2012年
7 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術研究[D];哈爾濱工業(yè)大學;2009年
8 張長利;面向特定領域的互聯(lián)網(wǎng)輿情分析技術研究[D];吉林大學;2011年
9 王镠璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
10 劉守群;海量網(wǎng)絡視頻快速檢索關鍵技術研究[D];中國科學技術大學;2010年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(北京);2010年
2 許厚金;垂直搜索引擎及其關鍵方法研究[D];燕山大學;2010年
3 薛萍;基于教育領域的垂直搜索引擎的研究與實現(xiàn)[D];天津師范大學;2011年
4 關小敏;垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2012年
5 張倩;教育信息垂直搜索引擎的研究[D];吉林大學;2012年
6 王延臣;基于高校信息垂直搜索引擎的研究與實現(xiàn)[D];沈陽建筑大學;2012年
7 李亞;垂直搜索引擎的研究與設計[D];武漢理工大學;2010年
8 周兵;基于分布式精準采集的垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2011年
9 呂曉昶;面向交易信息的垂直搜索引擎搜索機制研究與實現(xiàn)[D];東北石油大學;2011年
10 林偉;垂直搜索引擎關鍵技術的研究與實現(xiàn)[D];華南理工大學;2011年
本文關鍵詞:教育信息垂直搜索引擎的研究,由筆耕文化傳播整理發(fā)布。
,本文編號:89397
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/sousuoyinqinglunwen/89397.html