a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類

發(fā)布時間:2025-02-11 17:28
  當(dāng)今社會,網(wǎng)絡(luò)社交已經(jīng)變成了主流。人們通過微博熱點、微信、頭條新聞等各種渠道可以獲取各種文本資源。當(dāng)網(wǎng)絡(luò)上的文本越來越多的時候,文本挖掘技術(shù)也逐漸被需要和重視。本文主要是研究文本聚類領(lǐng)域,傳統(tǒng)的文本聚類方法一般都是基于向量空間模型的,而網(wǎng)絡(luò)中的文本數(shù)量往往是數(shù)以百萬,不計其數(shù)的。傳統(tǒng)的向量空間模型會導(dǎo)致文本維度過高和稀疏。針對這一問題,本文通過引入數(shù)據(jù)挖掘領(lǐng)域的頻繁詞集概念來解決維度過高和文本稀疏問題,基于頻繁詞集的文本表示方法可以對原始的高維文本進行降維處理。經(jīng)過頻繁詞集表示文本后,本文引入復(fù)雜網(wǎng)絡(luò)概念,將原始文本集用文本網(wǎng)絡(luò)的形式表達,在復(fù)雜網(wǎng)絡(luò)中的文本不再是一對一的關(guān)系,而是多對多的關(guān)系。而現(xiàn)實情況下,各個文本之間也應(yīng)該是存在多對多的聯(lián)系的。因此,基于復(fù)雜網(wǎng)絡(luò)模型的文本聚類比傳統(tǒng)的文本聚類更能體現(xiàn)文本之間的相互聯(lián)系,更加充分的體現(xiàn)了文本之間的相似性。對文本網(wǎng)絡(luò)用社區(qū)發(fā)現(xiàn)算法進行社區(qū)劃分,就可以將復(fù)雜的文本網(wǎng)絡(luò)劃分為一個個社區(qū),而一個社區(qū)就代表著聚類過程中的一個類簇。傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法一般是基于圖分割理論、基于模塊度優(yōu)化的算法模型。這些方法存在諸多的缺點,比如復(fù)雜度高,重復(fù)計算等。因...

【文章頁數(shù)】:60 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
英文摘要
1 緒論
    1.1 研究背景及意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文主要工作
    1.4 本文的組織結(jié)構(gòu)
    1.5 本章小結(jié)
2 相關(guān)技術(shù)介紹
    2.1 文本聚類通用流程
    2.2 文本預(yù)處理
        2.2.1 文本分詞處理
        2.2.2 過濾停用詞
    2.3 文本特征詞提取
        2.3.1 基于TF-IDF的特征詞提取
        2.3.2 基于TextRank的特征詞提取
        2.3.3 基于卡方檢驗的特征詞提取
        2.3.4 基于信息增益的特征詞提取
        2.3.5 基于互信息的特征詞提取
    2.4 文本表示模型
        2.4.1 基于向量空間模型的文本表示
        2.4.2 基于主題模型的文本表示
        2.4.3 基于詞嵌入與深度學(xué)習(xí)模型的文本表示
    2.5 文本相似度計算方法
        2.5.1 余弦相似度
        2.5.2 歐氏距離
        2.5.3 Jaccard距離
        2.5.4 曼哈頓距離
    2.6 傳統(tǒng)的文本聚類方法
        2.6.1 基于k-means的文本聚類
        2.6.2 基于DBSCAN的文本聚類
        2.6.3 基于LDA的文本聚類
    2.7 基于頻繁詞集的文本聚類
        2.7.1 頻繁詞集挖掘相關(guān)理論
        2.7.2 頻繁詞集挖掘相關(guān)算法
        2.7.3 基于頻繁詞集的文本聚類
    2.8 傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法
        2.8.1 GN算法
        2.8.2 Newman快速算法
        2.8.3 K-L(Kernighan-Lin)算法
    2.9 聚類評價指標(biāo)
    2.10 本章小結(jié)
3 一種基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類算法
    3.1 基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類流程
    3.2 文本預(yù)處理及特征選取
    3.3 基于頻繁詞集的文本表示模型
        3.3.1 文本相似性計算
    3.4 構(gòu)建文本網(wǎng)絡(luò)
    3.5 基于DPCA改進的k-means算法用于社區(qū)發(fā)現(xiàn)
        3.5.1 文本網(wǎng)絡(luò)中節(jié)點間距離的定義
        3.5.2 基于k-means算法的社區(qū)發(fā)現(xiàn)
        3.5.3 基于DPCA改進的k-means算法用于社區(qū)發(fā)現(xiàn)
    3.6 本章小結(jié)
4 實驗分析
    4.1 實驗數(shù)據(jù)集
    4.2 聚類評價指標(biāo)
    4.3 實驗結(jié)果與實驗分析
    4.4 實驗中所涉及到的閾值
    4.5 本章小結(jié)
5 總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
參考文獻
附錄
    A.作者在攻讀學(xué)位期間申請的專利與標(biāo)準(zhǔn)
    B.學(xué)位論文數(shù)據(jù)集
致謝



本文編號:4033603

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/kejilunwen/ruanjiangongchenglunwen/4033603.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c50e6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲av本道一区二区三区四区| 婷婷五月天激情综合网| 国产精品VA无码免费麻豆| 国产精成a品人v在线播放| 久久婷婷六月综合色液啪| 国产精品亚洲LV粉色| 苍井空一区二区三区在线观看| a国产| 国产精品国产a级| 国产精品久久久久久久美男| 国产不卡a| 久久热在线播放| 一本色道久久综合亚洲精品酒店| 另类ts人妖一区二区三区| 九色porny丨首页入口网页| 人人干av| 人妻系列视频| 91亚色| 婷婷影视| 老熟女大战农村熟妇91| 欧美一级免费看| 欧美在线视频| 亚洲123| 老外和中国女人毛片免费视频| 色视频综合无码一区二区三区| 琪琪国产成人一区二区三区影院| 亚洲日本va中文字幕久久| 国产又色又爽又刺激在线播放 | 亚洲精品国产情侣Av在线| 偷窥少妇久久久久久久久| 色欲综合视频天天天综合网站| 日韩一区二区三区射精| 熟妇人妻不卡无码一区| 亚洲中文字幕无码AV| 伊人久久大香线蕉综合BD高清| 久久中文字幕av一区二区不卡| 久久精品国产亚洲精品2020 | 午夜男女xx00视频福利| 亚洲大成色www永久网站| 色优久久久久综合网鬼色| 国产Av无码专区亚洲Av毛网站|