基于突發(fā)主題詞和凝聚式層次聚類的微博突發(fā)事件檢測研究
本文關(guān)鍵詞: 凝聚式層次聚類 網(wǎng)絡(luò)輿情 微博 出處:《現(xiàn)代圖書情報技術(shù)》2016年Z1期 論文類型:期刊論文
【摘要】:【目的】實時、準(zhǔn)確、高效地檢測出海量微博中的突發(fā)事件,為輿情應(yīng)急管理提供重要的決策信息支持!痉椒ā恳?yún)⒄諘r間窗機制,設(shè)計詞頻、文檔頻率、話題標(biāo)簽(Hashtag)、詞頻增長率4類特征的選擇與計算方法,基于動態(tài)閾值實現(xiàn)對突發(fā)主題詞的抽取。在此基礎(chǔ)上,將微博文本表示為突發(fā)主題詞的特征向量,使用凝聚式層次聚類算法實現(xiàn)了突發(fā)事件的檢測!窘Y(jié)果】將實驗結(jié)果結(jié)合實例進行分析,突發(fā)事件檢測達(dá)到80%的準(zhǔn)確率,驗證該方法的可行性和有效性。【局限】由于語料數(shù)據(jù)和研究范圍的限制,還未實現(xiàn)對所檢測突發(fā)事件的自動描述,對網(wǎng)民情感、事件間語義關(guān)系等要素的分析及考量也存在一定欠缺。【結(jié)論】本研究突破以往相關(guān)研究中文本內(nèi)容質(zhì)量、文本形式、突發(fā)特征抽取結(jié)果的局限,提升微博突發(fā)事件檢測的效率。
[Abstract]:[objective] to detect the unexpected events in mass Weibo in real time, accurately and efficiently, and to provide important decision information support for the emergency management of public opinion. [methods] introducing the reference time window mechanism to design word frequency and document frequency, The topic tag Hashtagi, the selection and calculation method of four kinds of features of word frequency growth rate, and the extraction of burst subject words based on dynamic threshold are realized. On this basis, Weibo text is expressed as the feature vector of burst theme words. The condensed hierarchical clustering algorithm is used to realize the detection of unexpected events. [results] the experimental results are analyzed with examples, and the accuracy of emergency detection reaches 80%. To verify the feasibility and effectiveness of the method. [limitations] due to the limitation of the data and the scope of the research, the automatic description of the detected emergencies has not been realized, and the feelings of the netizens have not been realized. There are some deficiencies in the analysis and consideration of the semantic relationship between events. [conclusion] this study breaks through the limitations of the previous researches on the quality of Chinese text, text form, and the results of sudden feature extraction, and improves the efficiency of Weibo emergency detection.
【作者單位】: 南京理工大學(xué)經(jīng)濟管理學(xué)院;
【基金】:國家社會科學(xué)基金項目“基于社會網(wǎng)絡(luò)分析的網(wǎng)絡(luò)輿情主題發(fā)現(xiàn)研究”(項目編號:15BTQ063);國家社會科學(xué)基金重點項目“大數(shù)據(jù)環(huán)境下社會輿情與決策支持方法體系研究”(項目編號:14AZD084)的研究成果之一 中央高;究蒲袠I(yè)務(wù)費專項資金資助項目“大數(shù)據(jù)時代基于深度融合的創(chuàng)新型知識服務(wù)體系及其運行機制研究”(項目編號:30916011330)
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 潘大慶;;基于層次聚類的微博敏感話題檢測算法研究[J];廣西民族大學(xué)學(xué)報(自然科學(xué)版);2012年04期
2 鄭曉鳴;呂士穎;王曉東;;一種基于隨機抽取的有限深度層次聚類[J];鄭州大學(xué)學(xué)報(理學(xué)版);2007年03期
3 湯周文;葉東毅;;基于層次聚類的差異化屬性約簡算法[J];計算機應(yīng)用;2009年02期
4 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識別與人工智能;2013年12期
5 龔尚福;陳婉璐;賈澎濤;;層次聚類社區(qū)發(fā)現(xiàn)算法的研究[J];計算機應(yīng)用研究;2013年11期
6 香紅麗;王瀟涵;羅淑云;;基于層次聚類方法研究課程關(guān)系結(jié)構(gòu)[J];中國科教創(chuàng)新導(dǎo)刊;2011年26期
7 李曉飛;;基于動態(tài)層次聚類的離散化算法的研究[J];計算機應(yīng)用與軟件;2009年10期
8 張闊,徐鵬,李涓子,王克宏;基于優(yōu)化層次聚類的文檔邏輯結(jié)構(gòu)抽取[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年04期
9 王旅;彭宏;胡勁松;梁華芳;;層次聚類在種群親緣關(guān)系研究中的應(yīng)用[J];計算機時代;2006年07期
10 黃健斌;康劍梅;齊俊杰;孫鶴立;;一種基于同步動力學(xué)模型的層次聚類方法[J];中國科學(xué):信息科學(xué);2013年05期
相關(guān)會議論文 前6條
1 吾守爾·斯拉木;吳啟南;;基于層次聚類方法[A];第六屆全國計算機應(yīng)用聯(lián)合學(xué)術(shù)會議論文集[C];2002年
2 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點發(fā)現(xiàn)[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
3 楊建武;;Web檢索結(jié)果的層次聚類研究[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
4 劉啟亮;鄧敏;李光強;王佳t,
本文編號:1555811
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/ruanjiangongchenglunwen/1555811.html