基于主題模型的模塊化網(wǎng)絡和社區(qū)挖掘研究
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
圖1.1數(shù)據(jù)挖掘的全過程示意描述數(shù)據(jù)挖掘的興起只有十幾年的時間,它仍然處在早期階段,還有很多的研究
預測趨勢和決策行為也許是非常有價值的。KDD過程主要包括幾個階段:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示等,如圖1.1所示。其每步的具體的工作如下:.數(shù)據(jù)準備:了解KDD應用領(lǐng)域的有關(guān)情況。包括熟悉相關(guān)的背景知識,搞清用戶需求。.數(shù)據(jù)選取:數(shù)據(jù)選取的....
圖1.3研究者合作網(wǎng)絡實例如果簡單的把傳統(tǒng)的挖掘方法應用到這類的數(shù)據(jù)上面,我們得到的結(jié)果將會不準確
(fiequentPattem),而忽略了實體之間的關(guān)系(link),或者是僅認為實體間只有一種關(guān)系。但現(xiàn)實數(shù)據(jù)往往是復雜的,結(jié)構(gòu)化的,異類的,這種類型的數(shù)據(jù)一般是用網(wǎng)絡(network)或圖形(graPh)來表示,如圖1.3表示了一個研究者相互合作的關(guān)系網(wǎng)絡。它們的節(jié)點(即實體....
圖1.5DBLp(淺色)和Citesee:(深色)每年的文章數(shù)比較
1.5DBLp(淺色)和Citesee:(深色)每年的文章數(shù)比較DigitalLibra叮(http://portal.aem.org/Portal.cfm書館收集了美國計算機協(xié)會(AssociationforCompM)在1985年之后出版的期刊論文與會議論文的條目、文資料,會....
圖2.2LDA主題模型
圖2.2LDA主題模型型產(chǎn)生文本的過程如下:于每個主題Z,從具有參數(shù)刀的Dirichlet分布選取一個多項式于每篇文章d,從參數(shù)為a的Dirichlet分布選取一個多項式分于文章中的每個詞w,從多項式分布ea中選取一個主題z任{1多項式九來選擇詞w。得,生成一個文檔的概率過程為:....
本文編號:4057288
本文鏈接:http://www.wukwdryxk.cn/tushudanganlunwen/4057288.html