基于半監(jiān)督學(xué)習(xí)的短文本分類研究
發(fā)布時間:2024-03-23 02:17
在即時通信和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展中,網(wǎng)絡(luò)中的信息每天都在以飛快的速率增長著,各種類型社交網(wǎng)絡(luò)的出現(xiàn)使得短文本信息正在迅速占領(lǐng)我們的視野,這種文本一般的長度為160個字左右,并且種類繁多,常常以口語化、網(wǎng)絡(luò)化的不規(guī)則形式出現(xiàn)。長度短,信息量少是這類短文本的主要特點,但是這些文本可能攜帶著很多有價值的信息內(nèi)容,所以對短文本進行優(yōu)良的的組織分類是值得研究的。傳統(tǒng)的文本分類方法大多是以長文本作為對象進行研究的,如果直接套用于短文本將會影響分類取得的效果。此外,獲取用于構(gòu)建傳統(tǒng)文本分類器的已標注樣本是由人工進行標注的,不但耗時而且耗力,還易形成標注瓶頸,與之相比,大量的無標注樣本的獲取卻是比較容易的。傳統(tǒng)基于監(jiān)督學(xué)習(xí)的分類方法,只是利用了數(shù)據(jù)樣本集合中的已標注樣本,而沒有關(guān)注無標注樣本自身所包含的信息,沒有能很好地發(fā)掘出可能隱藏的信息。半監(jiān)督學(xué)習(xí)方法是將已標注的小量樣本與未經(jīng)標注的大量樣本相結(jié)合來進行訓(xùn)練,從而使無標注部分能被充分地利用,文本分類器性能得到有效地改善,于是這類的方法也逐步受到人們的廣泛關(guān)注。根據(jù)短文本的獨特之處,本文對短文本分類技術(shù)進行了如下幾點研究:1.前期查閱資料過程中,總結(jié)...
【文章頁數(shù)】:49 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文編號:3935298
【文章頁數(shù)】:49 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖4-1舉例說明長邊對計算
圖4-1舉例說明長邊對計算pL規(guī)范的影響。(a)(b)為兩個示例路徑和當p=1,2,3范。(c)為兩個不同類中的三個節(jié)點。x1和x3由高密度區(qū)域的緊湊路徑連接,而x2通過稀疏分別相連。4.3實驗結(jié)果及分析4.3.1數(shù)據(jù)描述本文用到的5個測試數(shù)據(jù)集,文獻[51]中....
圖4-2通過不同的T和p闡述了路徑的得分(ijs)情況圖
圖4-2通過不同的T和p闡述了路徑的得分(ijs)情況圖通過不同的T和p闡述了路徑的得分(ijs)情況。圖的路徑得分ijS。兩個已知標簽的節(jié)點紅色的圓和藍色的三和新月形集群。黃色的正方形為未知標簽節(jié)點,位于柱形徑到紅色的節(jié)點,7條路徑到藍色的節(jié)點。線的寬....
圖4-3五種算法分別在100個帶標記節(jié)點數(shù)據(jù)集(MNIST)和10個帶標記節(jié)點數(shù)據(jù)集(G241c,USPS,COIL,BIC)上的錯誤分類率圖
類假設(shè)不成立,就會取得不理想分類結(jié)果,例如(G241c)。本文的算法在與MMLP算法有近似運行時間的情況下,可以得到更為精確的類結(jié)果。本文算法也依賴于聚類假設(shè),例如,在G241c中存在稠密的重疊部分,兩個不同的類別之間存在很多緊密的路徑,導(dǎo)致分類結(jié)果的不精確。與AGR....
本文編號:3935298
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xixikjs/3935298.html
最近更新
教材專著