基于知識庫的中文網(wǎng)絡(luò)檢索工具——經(jīng)濟信息智能搜索引擎研究
發(fā)布時間:2023-11-06 14:34
本論文試圖從計算機技術(shù)和圖書情報學理論與實踐手段出發(fā),應(yīng)用文獻信息自動標 引和組織技術(shù)于網(wǎng)頁的加工處理過程上。在分析了中外搜索引擎的現(xiàn)狀與不足,搜索引 擎分類主題一體化進展以及網(wǎng)頁主要特征的基礎(chǔ)上,本文提出了針對中文網(wǎng)頁特征的信 息標引和組織方案,并利用相關(guān)網(wǎng)絡(luò)技術(shù),構(gòu)建了一個實驗性經(jīng)濟信息智能搜索引擎。 中文網(wǎng)頁的自動標引思想主要基于知識庫的概念進行。知識庫實際上是一個基于《中 圖法》的專家知識系統(tǒng),包括了中圖法庫、漢表庫、分類號—主題詞對應(yīng)庫、同義詞庫、 關(guān)鍵詞庫、停用詞庫和特例詞庫等若干數(shù)據(jù)庫。在確定網(wǎng)頁基本信息標引源的基礎(chǔ)上, 中文網(wǎng)頁主題標引運用了基于詞頻的統(tǒng)計加權(quán)法;通過與分類號—主題詞對應(yīng)庫主題詞 串的詞面相似度計算,進一步完成中文網(wǎng)頁的賦號標引,即分類標引。 隨后,本文利用Borland Delphi、Visual FoxPro等工具設(shè)計并開發(fā)了一個包括中文網(wǎng) 頁文本信息提取、自動抽詞、自動主題與分類標引、標引結(jié)果處理、知識庫維護等功能, 用以處理中文網(wǎng)頁信息的自動標引實驗系統(tǒng);并簡要介紹了系統(tǒng)的設(shè)計、工作流程、使 用方法及運行條件。 根據(jù)分類主題一體化發(fā)展方向,本文還設(shè)計了檢索型、目錄型及分類主題一體化檢 索系統(tǒng),并提出基于集成詞表的不同引擎間類目體系的兼容互換方案。 文章的最后對中文網(wǎng)頁自動標引系統(tǒng)從系統(tǒng)標引效率、標引準確率等方面進行了綜 合測評,并客觀分析了系統(tǒng)存在的問題和不足。與手工標引相比,自動標引正確率達到 了80%以上。
頁數(shù):69
【學位級別】:碩士
文章目錄
前 言
第一章 搜索引擎研究現(xiàn)狀綜述
第一節(jié) 西文搜索引擎技術(shù)研究現(xiàn)狀
第二節(jié) 中文搜索引擎技術(shù)研究現(xiàn)狀
第三節(jié) 網(wǎng)絡(luò)目錄組織及分類主題一體化研究進展
第四節(jié) 中文搜索引擎存在問題及發(fā)展方向
第五節(jié) 基于知識庫的經(jīng)濟信息智能搜索引擎構(gòu)建思路
第二章 知識庫的組成、功能與設(shè)計
第一節(jié) 知識庫的組成與功能
第二節(jié) 分類號—主題詞(串)對應(yīng)數(shù)據(jù)庫的設(shè)計
第三節(jié) 同義數(shù)據(jù)庫的的設(shè)計
第四節(jié) 關(guān)鍵詞數(shù)據(jù)庫的設(shè)計
第五節(jié) 輔助用知識庫的設(shè)計
第三章 智能搜索引擎標引組織機制的實現(xiàn)(一)
第一節(jié) 網(wǎng)頁的基本特征與文本信息標引源
第二節(jié) 網(wǎng)頁文本信息主題標引技術(shù)
第三節(jié) 網(wǎng)頁文本信息主題標引方案
第四節(jié) 標引方案的優(yōu)選及存在問題
第四章 智能搜索引擎標引組織機制的實現(xiàn)(二)
第一節(jié) 計算機自動分類技術(shù)
第二節(jié) 詞面相似度分類算法
第三節(jié) 中文網(wǎng)頁的自動分類
第五章 智能搜索引擎標引組織實驗系統(tǒng)的設(shè)計與使用
第一節(jié) 標引組織實驗系統(tǒng)設(shè)計
第二節(jié) 中文網(wǎng)頁信息計算機標引系統(tǒng)的使用
第六章 智能搜索引擎用戶檢索機制的實現(xiàn)與系統(tǒng)的設(shè)計
第一節(jié) 智能搜索引擎用戶檢索機制的實現(xiàn)
第二節(jié) 檢索實驗系統(tǒng)的設(shè)計
第七章 網(wǎng)頁自動標引系統(tǒng)運行性能測試及評價
第一節(jié) 網(wǎng)頁自動標引系統(tǒng)性能測試
第二節(jié) 網(wǎng)頁自動標引系統(tǒng)評價
附錄A 分類知識庫記錄樣本
附錄B 手工標引和自動標引(方案Ⅰ、Ⅱ、Ⅲ)結(jié)果
參考文獻
后 記
[1] Web頁面中文文本主題的自動提取研究. 韓客松,王永成,滕偉.情報學報,2001
[2] 分類搜索引擎類目體系研究. 馬張華.圖書情報工作,2001
[3] 統(tǒng)計分析法自動標引的改進. 趙云志.情報學報,2000
[4] 中文文獻自動分類中的知識庫構(gòu)造及其仿人算法. 刁倩,張惠惠,王永成,何驥.情報學報,2000
本文編號:87728
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/sousuoyinqinglunwen/87728.html
最近更新
教材專著