a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

當(dāng)前位置:主頁 > 管理論文 > 統(tǒng)計學(xué)論文 >

中文文本分類方法的研究與實現(xiàn)

發(fā)布時間:2020-12-13 00:21
  互聯(lián)網(wǎng)應(yīng)用的大規(guī)模普及衍生出大量的非結(jié)構(gòu)化文本數(shù)據(jù),基于文本數(shù)據(jù)的自動分類系統(tǒng)在多個領(lǐng)域呈現(xiàn)出巨大的應(yīng)用價值,如搜索引擎、數(shù)字圖書館、郵件分類等;贙近鄰的分類算法簡單直觀,易于理解,基于貝葉斯理論的樸素貝葉斯分類算法劃分類別準(zhǔn)確率較好,在文本劃分類別中得到了較為廣泛的使用。本文首先簡要介紹了文本分類的關(guān)鍵技術(shù)——文本分詞,文本分詞是將非結(jié)構(gòu)化文本轉(zhuǎn)化為可定量分析數(shù)據(jù),包括機(jī)械分詞、統(tǒng)計分詞、語義分詞等方法。其次,將分詞結(jié)果運用向量空間模型進(jìn)行轉(zhuǎn)化,每個特征詞語的權(quán)重如何表示有多種形式,包括布爾權(quán)重、詞頻權(quán)重、詞頻反文檔頻權(quán)重等。鑒于文本挖掘中常見的高維稀疏性問題,深入研究了CHI統(tǒng)計和隨機(jī)森林Boruta算法特征選擇方法,實現(xiàn)對高維文本特征的降維;CHI統(tǒng)計方法針對單個特征對分類結(jié)果的影響進(jìn)行卡方檢驗,檢測出與分類存在相關(guān)的特征;隨機(jī)森林Boruta算法特征選擇方法組合若干決策樹對分類結(jié)果進(jìn)行投票,對于單個特征重要性評價采取OOB估計,OOB估計是平均預(yù)測精度下降程度的無偏估計,并針對隨機(jī)森林評價特征重要性中存在的問題引入影子特征對特征重要性進(jìn)行顯著性檢驗,得出真正對分類存在重要意... 

【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:60 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 研究背景與意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文主要工作
    1.4 本文的組織結(jié)構(gòu)
2 文本分類技術(shù)
    2.1 文本分詞
    2.2 向量空間模型
    2.3 文本分類特征選擇
    2.4 文本分類實現(xiàn)方法
    2.5 分類評估
    2.6 本章小結(jié)
3 基于隨機(jī)森林的特征選擇方法
    3.1 隨機(jī)森林法原理
    3.2 隨機(jī)森林用于特征選擇
    3.3 本章小結(jié)
4 分類算法介紹
    4.1 基于臨近點的分類方法
    4.2 貝葉斯分類
    4.3 本章小結(jié)
5 實證分析
    5.1 文本預(yù)處理
    5.2 CHI統(tǒng)計與隨機(jī)森林Boruta算法特征選擇
    5.3 K近鄰法文本分類實證分析
    5.4 樸素貝葉斯文本分類實證分析
    5.5 基于TF-IDF-VSM的分類模型對比評估
    5.6 本章小結(jié)
6 總結(jié)與展望
致謝
參考文獻(xiàn)
附錄


【參考文獻(xiàn)】:
期刊論文
[1]一種k-NN分類器k值自動選取方法[J]. 杜磊,杜星,宋擒豹.  控制與決策. 2013(07)
[2]文本分類技術(shù)探究[J]. 吳波,朱昌杰,任逸卿.  宿州學(xué)院學(xué)報. 2012(05)
[3]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄.  中文信息學(xué)報. 2004(01)

博士論文
[1]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學(xué) 2013
[2]基于類別結(jié)構(gòu)的文本層次分類方法研究[D]. 祝翠玲.山東大學(xué) 2011
[3]WWW科技信息資源自動標(biāo)引的理論與實踐研究[D]. 肖明.中國科學(xué)院文獻(xiàn)情報中心 2001

碩士論文
[1]中文文本分類中的特征選擇和權(quán)重計算方法研究[D]. 宋惟然.北京工業(yè)大學(xué) 2013
[2]基于不均衡數(shù)據(jù)集的文本分類算法研究[D]. 謝娜娜.重慶大學(xué) 2013
[3]基于K近鄰算法的中文文本分類研究[D]. 徐曉艷.安徽大學(xué) 2012
[4]基于隨機(jī)森林算法的企業(yè)信用風(fēng)險評價研究[D]. 李麗.西南財經(jīng)大學(xué) 2012
[5]基于樸素貝葉斯方法的中文文本分類研究[D]. 李丹.河北大學(xué) 2011
[6]隨機(jī)森林的特征選擇和模型優(yōu)化算法研究[D]. 雍凱.哈爾濱工業(yè)大學(xué) 2008
[7]基于決策樹的數(shù)據(jù)挖掘算法研究與應(yīng)用[D]. 盧東標(biāo).武漢理工大學(xué) 2008
[8]基于Bayes方法的文本分類器的研究與實現(xiàn)[D]. 陳劍敏.重慶大學(xué) 2007
[9]SVM在文本分類中的應(yīng)用[D]. 葉志剛.哈爾濱工程大學(xué) 2006
[10]自動文本分類算法研究[D]. 朱望斌.湖南大學(xué) 2005



本文編號:2913528

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2913528.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bca7c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
无码毛片视频一区二区三区| 色香蕉视频| 欧美高潮| 色呦呦国产| 77狠人色综合网亚洲小说| 中国老熟女| 亚洲AV无码无在线观看红杏| 每日更新在线观看av_手机| 69亚洲精品久久久蜜桃小说| 综合色av| 久久久久久蜜桃一区二区| 91人妻人人做人碰人人爽| 日日躁夜夜躁| 沦为色老头泄欲的雅婷| 丰满岳乱妇在线观看中字无码| 久久中文精品无码中文字幕| 国产六月婷婷爱在线观看| 亚洲中文字幕无码不卡电影| 欲色欲色天天天www| 异族黑人巨大怪物| 三级短视频| 狠狠婷婷综合久久久久久| 91美女| 欧美中文字幕无线码视频| 激情性无码视频在线观看| 久久精品国产亚洲av电影网| 欧洲美女粗暴牲交免费观看| 欧美精品久久久久久久自慰| 亚洲国产精品sss在线观看AV| 久久精品日日躁夜夜躁欧美| 国产精品国产三级国AV麻豆| 久青草久青草视频在线观看| 国产精品一久久香蕉国产线看观看| 三年片在线观看免费| 欧美黑人肉体狂欢交换大派对| 亚洲av成人网站在线观看| 久久九九久精品国产综合一千收藏| 久久亚洲精品11p| 麻豆一区二区三区精品视频 | 婴儿手臂般紫黑色粗大| 国产黄色一区二区|