基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類
發(fā)布時間:2025-02-11 17:28
當(dāng)今社會,網(wǎng)絡(luò)社交已經(jīng)變成了主流。人們通過微博熱點、微信、頭條新聞等各種渠道可以獲取各種文本資源。當(dāng)網(wǎng)絡(luò)上的文本越來越多的時候,文本挖掘技術(shù)也逐漸被需要和重視。本文主要是研究文本聚類領(lǐng)域,傳統(tǒng)的文本聚類方法一般都是基于向量空間模型的,而網(wǎng)絡(luò)中的文本數(shù)量往往是數(shù)以百萬,不計其數(shù)的。傳統(tǒng)的向量空間模型會導(dǎo)致文本維度過高和稀疏。針對這一問題,本文通過引入數(shù)據(jù)挖掘領(lǐng)域的頻繁詞集概念來解決維度過高和文本稀疏問題,基于頻繁詞集的文本表示方法可以對原始的高維文本進行降維處理。經(jīng)過頻繁詞集表示文本后,本文引入復(fù)雜網(wǎng)絡(luò)概念,將原始文本集用文本網(wǎng)絡(luò)的形式表達,在復(fù)雜網(wǎng)絡(luò)中的文本不再是一對一的關(guān)系,而是多對多的關(guān)系。而現(xiàn)實情況下,各個文本之間也應(yīng)該是存在多對多的聯(lián)系的。因此,基于復(fù)雜網(wǎng)絡(luò)模型的文本聚類比傳統(tǒng)的文本聚類更能體現(xiàn)文本之間的相互聯(lián)系,更加充分的體現(xiàn)了文本之間的相似性。對文本網(wǎng)絡(luò)用社區(qū)發(fā)現(xiàn)算法進行社區(qū)劃分,就可以將復(fù)雜的文本網(wǎng)絡(luò)劃分為一個個社區(qū),而一個社區(qū)就代表著聚類過程中的一個類簇。傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法一般是基于圖分割理論、基于模塊度優(yōu)化的算法模型。這些方法存在諸多的缺點,比如復(fù)雜度高,重復(fù)計算等。因...
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
英文摘要
1 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要工作
1.4 本文的組織結(jié)構(gòu)
1.5 本章小結(jié)
2 相關(guān)技術(shù)介紹
2.1 文本聚類通用流程
2.2 文本預(yù)處理
2.2.1 文本分詞處理
2.2.2 過濾停用詞
2.3 文本特征詞提取
2.3.1 基于TF-IDF的特征詞提取
2.3.2 基于TextRank的特征詞提取
2.3.3 基于卡方檢驗的特征詞提取
2.3.4 基于信息增益的特征詞提取
2.3.5 基于互信息的特征詞提取
2.4 文本表示模型
2.4.1 基于向量空間模型的文本表示
2.4.2 基于主題模型的文本表示
2.4.3 基于詞嵌入與深度學(xué)習(xí)模型的文本表示
2.5 文本相似度計算方法
2.5.1 余弦相似度
2.5.2 歐氏距離
2.5.3 Jaccard距離
2.5.4 曼哈頓距離
2.6 傳統(tǒng)的文本聚類方法
2.6.1 基于k-means的文本聚類
2.6.2 基于DBSCAN的文本聚類
2.6.3 基于LDA的文本聚類
2.7 基于頻繁詞集的文本聚類
2.7.1 頻繁詞集挖掘相關(guān)理論
2.7.2 頻繁詞集挖掘相關(guān)算法
2.7.3 基于頻繁詞集的文本聚類
2.8 傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法
2.8.1 GN算法
2.8.2 Newman快速算法
2.8.3 K-L(Kernighan-Lin)算法
2.9 聚類評價指標(biāo)
2.10 本章小結(jié)
3 一種基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類算法
3.1 基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類流程
3.2 文本預(yù)處理及特征選取
3.3 基于頻繁詞集的文本表示模型
3.3.1 文本相似性計算
3.4 構(gòu)建文本網(wǎng)絡(luò)
3.5 基于DPCA改進的k-means算法用于社區(qū)發(fā)現(xiàn)
3.5.1 文本網(wǎng)絡(luò)中節(jié)點間距離的定義
3.5.2 基于k-means算法的社區(qū)發(fā)現(xiàn)
3.5.3 基于DPCA改進的k-means算法用于社區(qū)發(fā)現(xiàn)
3.6 本章小結(jié)
4 實驗分析
4.1 實驗數(shù)據(jù)集
4.2 聚類評價指標(biāo)
4.3 實驗結(jié)果與實驗分析
4.4 實驗中所涉及到的閾值
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
附錄
A.作者在攻讀學(xué)位期間申請的專利與標(biāo)準(zhǔn)
B.學(xué)位論文數(shù)據(jù)集
致謝
本文編號:4033603
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
英文摘要
1 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要工作
1.4 本文的組織結(jié)構(gòu)
1.5 本章小結(jié)
2 相關(guān)技術(shù)介紹
2.1 文本聚類通用流程
2.2 文本預(yù)處理
2.2.1 文本分詞處理
2.2.2 過濾停用詞
2.3 文本特征詞提取
2.3.1 基于TF-IDF的特征詞提取
2.3.2 基于TextRank的特征詞提取
2.3.3 基于卡方檢驗的特征詞提取
2.3.4 基于信息增益的特征詞提取
2.3.5 基于互信息的特征詞提取
2.4 文本表示模型
2.4.1 基于向量空間模型的文本表示
2.4.2 基于主題模型的文本表示
2.4.3 基于詞嵌入與深度學(xué)習(xí)模型的文本表示
2.5 文本相似度計算方法
2.5.1 余弦相似度
2.5.2 歐氏距離
2.5.3 Jaccard距離
2.5.4 曼哈頓距離
2.6 傳統(tǒng)的文本聚類方法
2.6.1 基于k-means的文本聚類
2.6.2 基于DBSCAN的文本聚類
2.6.3 基于LDA的文本聚類
2.7 基于頻繁詞集的文本聚類
2.7.1 頻繁詞集挖掘相關(guān)理論
2.7.2 頻繁詞集挖掘相關(guān)算法
2.7.3 基于頻繁詞集的文本聚類
2.8 傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法
2.8.1 GN算法
2.8.2 Newman快速算法
2.8.3 K-L(Kernighan-Lin)算法
2.9 聚類評價指標(biāo)
2.10 本章小結(jié)
3 一種基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類算法
3.1 基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類流程
3.2 文本預(yù)處理及特征選取
3.3 基于頻繁詞集的文本表示模型
3.3.1 文本相似性計算
3.4 構(gòu)建文本網(wǎng)絡(luò)
3.5 基于DPCA改進的k-means算法用于社區(qū)發(fā)現(xiàn)
3.5.1 文本網(wǎng)絡(luò)中節(jié)點間距離的定義
3.5.2 基于k-means算法的社區(qū)發(fā)現(xiàn)
3.5.3 基于DPCA改進的k-means算法用于社區(qū)發(fā)現(xiàn)
3.6 本章小結(jié)
4 實驗分析
4.1 實驗數(shù)據(jù)集
4.2 聚類評價指標(biāo)
4.3 實驗結(jié)果與實驗分析
4.4 實驗中所涉及到的閾值
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
附錄
A.作者在攻讀學(xué)位期間申請的專利與標(biāo)準(zhǔn)
B.學(xué)位論文數(shù)據(jù)集
致謝
本文編號:4033603
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/ruanjiangongchenglunwen/4033603.html
最近更新
教材專著