司法糾紛數(shù)據(jù)的語(yǔ)義理解及可視分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1PLSA模型和LDA模型的盤子表示法比較
題的先驗(yàn)分布(每個(gè)訓(xùn)練文本的主題分布相對(duì)獨(dú)立),它的參數(shù)隨訓(xùn)練文本的個(gè)數(shù)呈線性增長(zhǎng),且無(wú)法應(yīng)用于測(cè)試文本。一個(gè)更加完善的主題模型為L(zhǎng)DA模型[15](LatentDirichletAllocationModel)被提出并得到應(yīng)用。LDA模型從貝葉斯的角度為兩個(gè)多項(xiàng)式分布添加了狄利....
圖1-2由IBMWCG繪制的詞云WordCloudFigure1-2.ExampleofaWordCloudgeneratedbyIBMWCG
司法糾紛數(shù)據(jù)的語(yǔ)義理解及可視分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)5(1)基于詞頻的文本可視化作為最常見的基于詞頻的可視化,詞云自然不可能被忽視。詞云WordCloud是一種關(guān)鍵詞的直觀視覺描述,用于聚合用戶生成的網(wǎng)站標(biāo)簽或者文本內(nèi)容。標(biāo)簽內(nèi)容通常是單獨(dú)的詞語(yǔ),排列順序靈活多變,取決于用戶想表達(dá)的....
圖2-1脫敏后的原始數(shù)據(jù)
司法糾紛數(shù)據(jù)的語(yǔ)義理解及可視分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)11中找到最大概率路徑,并基于該路徑基于單詞頻率找到最大分割組合。圖2-1脫敏后的原始數(shù)據(jù)Figure2-1.Theoriginaldatawithmasking同時(shí),由于漢語(yǔ)的表達(dá)習(xí)慣,在分詞中需要注意停用詞的干擾。停用詞指的是樣....
圖2-2基于滾雪球的關(guān)鍵詞提取模型
啟動(dòng);第二部分為知識(shí)挖掘部分,用于持續(xù)統(tǒng)計(jì)滾雪球模型迭代循環(huán)的過程,不停進(jìn)行抽取和模板之間自我引導(dǎo)式子的迭代,直到達(dá)到閾值,人工停止或者無(wú)法產(chǎn)生新的信息為止。第三部分為后續(xù)處理部分,即將得到的結(jié)果用于之后的工作中。在本文的工作中,輸出及后處理部分負(fù)責(zé)將輸出轉(zhuǎn)變?yōu)榭梢允褂玫闹R(shí)或者....
本文編號(hào):3996699
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/shengwushengchang/3996699.html