基于深度學習的不文明文本過濾方法研究

發(fā)布時間：2020-04-19 14:52

【摘要】：隨著互聯網的普及,網絡社交平臺已經深深的融入了人們的生活。人們可以自由的在微博、貼吧、新聞等網絡平臺上發(fā)表自己的觀點。由于網絡平臺的開放性,網絡平臺中出現了很多不文明的語言,對網絡環(huán)境造成了極大的負面影響。為了構建和諧的網絡語言環(huán)境,本文對不文明文本的過濾進行了相關研究。針對網絡文本數量巨大和形式多變的特點,本文將深度學習技術應用于不文明文本的分類識別。對比傳統(tǒng)的過濾方法在分類識別的精度上取得了一定的提高。本文的主要工作包括以下三個部分:第一,構建不文明文本數據集。目前對網絡不文明文本的研究工作相對較少,沒有標準的不文明文本數據集可供研究。針對數據匱乏的問題,本文爬取新浪微博、百度貼吧、騰訊新聞等相關網絡平臺的文本數據,制定數據篩選方法,通過人工標注的方式構建了一個不文明文本數據集。第二,構建不文明文本分類模型,區(qū)分不文明文本和正常文本。根據網絡不文明文本的特點,引入卷積神經網絡對不文明文本進行分類。針對不文明詞匯在文本分詞過程中精度不足的問題,本文構建了一種融合字粒度和詞粒度特征提取的并行卷積神經網絡模型(CW-CNN模型)。CW-CNN模型很好的解決了不文明詞匯分詞不準確導致的性能下降問題。CW-CNN模型對比詞粒度特征輸入的卷積神經網絡模型,在精確率上提高了9.3%、召回率提高了9.9%、F1值提高了9.2%。第三,構建不文明文本不文明程度分析模型,區(qū)分不文明程度高的文本和不文明程度低的文本。卷積神經網絡模型在不文明文本分類任務上確實具有較好的效果,但是其在特征提取的時候受到卷積核大小的影響,只能提取文本的局部特征,無法捕獲長距離詞語之間的特征相關性,在不文明文本的不文明程度分析任務上卷積神經網絡存在一定的不足。針對其不足,本文結合卷積神經網絡、循環(huán)神經網絡和注意力機制構建了一種用于不文明文本不文明程度分析的深度學習模型(BiLSTM-CNN模型)。通過實驗對比,在不文明文本不文明程度分析上,BiLSTM-CNN模型比CW-CNN模型在精確率、召回率和F1值上均提高了約3.4%。
【圖文】：

概率分布,中心詞,模型結構,模型

ＣＢＯＷ邋（ｃｏｎｔｉｎｕｏｕｓ邋ｂａｇ－ｏｆ－ｗｏｒｄｓ）模型通過上下文的詞向量來預測中心詞匯逡逑的概率分布，并且每個上下文相關詞向量對中心詞匯的概率分布影響權重相同。逡逑ＣＢＯＷ結構如圖２．】所示，ＣＢＯＷ模型的計算公式如公式２．４。逡逑１邋丁逡逑Ｌ邋＝ｌｏｇ邋ｐ（ｗｔ｜ｗｔ＿ｃ，，邋Ｗｔ－ｈ邋ｗｔ＋１，，…ｗｔ＋ｃ）邐（公式２．４）逡逑ｔ＝ｉ逡逑其中Ｗｔ表示當前詞匯，ｗｔ＋ｃｒ表示與距離在ｃ個單位以內逡逑的詞匯，通過相鄰的Ｃ個詞匯可以計算ｖｖｔ的概率分布，然后使用隱藏層進行均值逡逑計算得到詞匯％的詞向量表示。逡逑Ｓｋｉｐ－Ｇｒａｍ模型的思想是利用當前詞匯％去預測上下文詞語的概率分布，其逡逑結構如圖２．１所示，Ｓｋｉｐ－Ｇｒａｍ模型的計算公式如公式２．５。逡逑Ｔ邋Ｔ逡逑Ｌ邋＝邋Ｚ邋ｌｏｇｐ（ｗｔ＋ｉ｜ｗｔ）邐（公式２．５）逡逑ｔ＝ｌ邋－ｃ＜ｉ＜ｃ逡逑相比于神經網絡語言模型而言，ＣＢＯＷ模型和Ｓｋｉｐ－Ｇｒａｍ模型在神經網絡的逡逑隱藏層和輸出層進行了優(yōu)化，通過使用Ｈｕｆｆｍａｎ樹結構根據每個詞的詞頻大小相逡逑應的增加或減少神經網絡的層次結構

示意圖,支持向量機,示意圖,超平面

ＳＶＭ方法被廣泛地應用到模式識別和分類問題。使用最基本的數據形式喂入逡逑支持向量機分類器就能夠取得不錯的分類效果，支持向量機的分類決策效果的優(yōu)逡逑劣取決于分類邊界，即分隔超平面，在圖２．２中Ｈ表示的為分隔超平面，叱和？＾２為逡逑對應的支持向量機，在高維空間中平面可以由公式２．１１表示。逡逑0）Ｔｘ邋＋邋ｂ邋＝邋０邐（公式邋２．１１）逡逑在樣本空間中，某個點ｘ到分隔超平面Ｈ的距離計算公式如公式２．１２。逡逑｜（0Ｔ邋＋邋ｂ｜逡逑ｄ邋＝邋—ｒ￣—邐（公式邋２．１２）逡逑｜Ｍ｜逡逑將分隔超平面歸一化之后有逡逑ｙｉ［（0）邋？邋Ｘｊ）邋＋邋ｂ］邋－邋１邋＞邋０邐（公式２．１３）逡逑其中ｙ；邋＝邋±１是文本的類別，七表示對于的文本，距離分類平面最近的樣本稱為“支逡逑１１逡逑
【學位授予單位】：華中師范大學
【學位級別】：碩士
【學位授予年份】：2019
【分類號】：TP391.1;TP18

【參考文獻】

相關期刊論文前3條

1 駱昌日;何婷婷;;網絡語言的特點及其情感性意義[J];武漢理工大學學報(社會科學版);2015年02期

2 林鴻飛,姚天順;基于示例的中文文本過濾模型[J];大連理工大學學報;2000年03期

3 田范江,李叢蓉,王鼎興;進化式信息過濾方法研究[J];軟件學報;2000年03期

相關碩士學位論文前2條

1 馬英財;社交網絡下的垃圾信息過濾技術的研究[D];哈爾濱理工大學;2014年

2 楊明明;社會網絡平臺中的垃圾信息過濾技術研究[D];哈爾濱理工大學;2013年

本文編號：2633417

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.wukwdryxk.cn/kejilunwen/zidonghuakongzhilunwen/2633417.html

上一篇：基于深度遷移學習的焊接質量在線監(jiān)測方法研究
下一篇：分數階脈沖和四元數值神經網絡的穩(wěn)定性和同步性

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

基于深度學習的不文明文本過濾方法研究