基于深度學習的不文明文本過濾方法研究
發(fā)布時間:2020-04-19 14:52
【摘要】:隨著互聯網的普及,網絡社交平臺已經深深的融入了人們的生活。人們可以自由的在微博、貼吧、新聞等網絡平臺上發(fā)表自己的觀點。由于網絡平臺的開放性,網絡平臺中出現了很多不文明的語言,對網絡環(huán)境造成了極大的負面影響。為了構建和諧的網絡語言環(huán)境,本文對不文明文本的過濾進行了相關研究。針對網絡文本數量巨大和形式多變的特點,本文將深度學習技術應用于不文明文本的分類識別。對比傳統(tǒng)的過濾方法在分類識別的精度上取得了一定的提高。本文的主要工作包括以下三個部分:第一,構建不文明文本數據集。目前對網絡不文明文本的研究工作相對較少,沒有標準的不文明文本數據集可供研究。針對數據匱乏的問題,本文爬取新浪微博、百度貼吧、騰訊新聞等相關網絡平臺的文本數據,制定數據篩選方法,通過人工標注的方式構建了一個不文明文本數據集。第二,構建不文明文本分類模型,區(qū)分不文明文本和正常文本。根據網絡不文明文本的特點,引入卷積神經網絡對不文明文本進行分類。針對不文明詞匯在文本分詞過程中精度不足的問題,本文構建了一種融合字粒度和詞粒度特征提取的并行卷積神經網絡模型(CW-CNN模型)。CW-CNN模型很好的解決了不文明詞匯分詞不準確導致的性能下降問題。CW-CNN模型對比詞粒度特征輸入的卷積神經網絡模型,在精確率上提高了9.3%、召回率提高了9.9%、F1值提高了9.2%。第三,構建不文明文本不文明程度分析模型,區(qū)分不文明程度高的文本和不文明程度低的文本。卷積神經網絡模型在不文明文本分類任務上確實具有較好的效果,但是其在特征提取的時候受到卷積核大小的影響,只能提取文本的局部特征,無法捕獲長距離詞語之間的特征相關性,在不文明文本的不文明程度分析任務上卷積神經網絡存在一定的不足。針對其不足,本文結合卷積神經網絡、循環(huán)神經網絡和注意力機制構建了一種用于不文明文本不文明程度分析的深度學習模型(BiLSTM-CNN模型)。通過實驗對比,在不文明文本不文明程度分析上,BiLSTM-CNN模型比CW-CNN模型在精確率、召回率和F1值上均提高了約3.4%。
【圖文】:
CBOW邋(continuous邋bag-of-words)模型通過上下文的詞向量來預測中心詞匯逡逑的概率分布,并且每個上下文相關詞向量對中心詞匯的概率分布影響權重相同。逡逑CBOW結構如圖2.】所示,CBOW模型的計算公式如公式2.4。逡逑1邋丁逡逑L邋=log邋p(wt|wt_c,,邋Wt-h邋wt+1,,…wt+c)邐(公式2.4)逡逑t=i逡逑其中Wt表示當前詞匯,wt+cr表示與距離在c個單位以內逡逑的詞匯,通過相鄰的C個詞匯可以計算vvt的概率分布,然后使用隱藏層進行均值逡逑計算得到詞匯%的詞向量表示。逡逑Skip-Gram模型的思想是利用當前詞匯%去預測上下文詞語的概率分布,其逡逑結構如圖2.1所示,Skip-Gram模型的計算公式如公式2.5。逡逑T邋T逡逑L邋=邋Z邋logp(wt+i|wt)邐(公式2.5)逡逑t=l邋-c<i<c逡逑相比于神經網絡語言模型而言,CBOW模型和Skip-Gram模型在神經網絡的逡逑隱藏層和輸出層進行了優(yōu)化,通過使用Huffman樹結構根據每個詞的詞頻大小相逡逑應的增加或減少神經網絡的層次結構
SVM方法被廣泛地應用到模式識別和分類問題。使用最基本的數據形式喂入逡逑支持向量機分類器就能夠取得不錯的分類效果,支持向量機的分類決策效果的優(yōu)逡逑劣取決于分類邊界,即分隔超平面,在圖2.2中H表示的為分隔超平面,叱和?^2為逡逑對應的支持向量機,在高維空間中平面可以由公式2.11表示。逡逑0)Tx邋+邋b邋=邋0邐(公式邋2.11)逡逑在樣本空間中,某個點x到分隔超平面H的距離計算公式如公式2.12。逡逑|(0T邋+邋b|逡逑d邋=邋—r ̄—邐(公式邋2.12)逡逑|M|逡逑將分隔超平面歸一化之后有逡逑yi[(0)邋?邋Xj)邋+邋b]邋-邋1邋>邋0邐(公式2.13)逡逑其中y;邋=邋±1是文本的類別,七表示對于的文本,距離分類平面最近的樣本稱為“支逡逑11逡逑
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1;TP18
本文編號:2633417
【圖文】:
CBOW邋(continuous邋bag-of-words)模型通過上下文的詞向量來預測中心詞匯逡逑的概率分布,并且每個上下文相關詞向量對中心詞匯的概率分布影響權重相同。逡逑CBOW結構如圖2.】所示,CBOW模型的計算公式如公式2.4。逡逑1邋丁逡逑L邋=log邋p(wt|wt_c,,邋Wt-h邋wt+1,,…wt+c)邐(公式2.4)逡逑t=i逡逑其中Wt表示當前詞匯,wt+cr表示與距離在c個單位以內逡逑的詞匯,通過相鄰的C個詞匯可以計算vvt的概率分布,然后使用隱藏層進行均值逡逑計算得到詞匯%的詞向量表示。逡逑Skip-Gram模型的思想是利用當前詞匯%去預測上下文詞語的概率分布,其逡逑結構如圖2.1所示,Skip-Gram模型的計算公式如公式2.5。逡逑T邋T逡逑L邋=邋Z邋logp(wt+i|wt)邐(公式2.5)逡逑t=l邋-c<i<c逡逑相比于神經網絡語言模型而言,CBOW模型和Skip-Gram模型在神經網絡的逡逑隱藏層和輸出層進行了優(yōu)化,通過使用Huffman樹結構根據每個詞的詞頻大小相逡逑應的增加或減少神經網絡的層次結構
SVM方法被廣泛地應用到模式識別和分類問題。使用最基本的數據形式喂入逡逑支持向量機分類器就能夠取得不錯的分類效果,支持向量機的分類決策效果的優(yōu)逡逑劣取決于分類邊界,即分隔超平面,在圖2.2中H表示的為分隔超平面,叱和?^2為逡逑對應的支持向量機,在高維空間中平面可以由公式2.11表示。逡逑0)Tx邋+邋b邋=邋0邐(公式邋2.11)逡逑在樣本空間中,某個點x到分隔超平面H的距離計算公式如公式2.12。逡逑|(0T邋+邋b|逡逑d邋=邋—r ̄—邐(公式邋2.12)逡逑|M|逡逑將分隔超平面歸一化之后有逡逑yi[(0)邋?邋Xj)邋+邋b]邋-邋1邋>邋0邐(公式2.13)逡逑其中y;邋=邋±1是文本的類別,七表示對于的文本,距離分類平面最近的樣本稱為“支逡逑11逡逑
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1;TP18
【參考文獻】
相關期刊論文 前3條
1 駱昌日;何婷婷;;網絡語言的特點及其情感性意義[J];武漢理工大學學報(社會科學版);2015年02期
2 林鴻飛,姚天順;基于示例的中文文本過濾模型[J];大連理工大學學報;2000年03期
3 田范江,李叢蓉,王鼎興;進化式信息過濾方法研究[J];軟件學報;2000年03期
相關碩士學位論文 前2條
1 馬英財;社交網絡下的垃圾信息過濾技術的研究[D];哈爾濱理工大學;2014年
2 楊明明;社會網絡平臺中的垃圾信息過濾技術研究[D];哈爾濱理工大學;2013年
本文編號:2633417
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/zidonghuakongzhilunwen/2633417.html