a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

云環(huán)境下基于RIHDBSCAN的微博事件檢測及跟蹤

發(fā)布時間:2020-01-22 10:32
【摘要】:微博近幾年有著飛速的發(fā)展和廣泛的影響。用戶通過網(wǎng)頁、手機(jī)、SMS等多種途徑,隨時隨地記錄見聞時事、參與話題討論等。對實(shí)時產(chǎn)生的大量微博文本進(jìn)行分析和挖掘具有風(fēng)險預(yù)警、輿論監(jiān)控等重要實(shí)際意義,也給文本挖掘領(lǐng)域帶來了新的挑戰(zhàn)。 針對微博的挖掘分析,國內(nèi)外學(xué)者已經(jīng)取得了一定的成果。然而,為了提高從海量迅速增長的微博數(shù)據(jù)中挖掘新聞事件的速度和精度,需要采取新的更加有效的方法來處理即時更新的大量文本數(shù)據(jù)流。云計(jì)算技術(shù)是未來的趨勢,它能夠高效的完成海量數(shù)據(jù)的存儲和計(jì)算任務(wù),將云計(jì)算技術(shù)和微博挖掘結(jié)合起來勢在必行。論文設(shè)計(jì)了一套完整的云環(huán)境下的微博事件檢測跟蹤模型。主要研究及創(chuàng)新點(diǎn)如下: ①制定機(jī)械化過濾規(guī)則,將抓取的微博文本按規(guī)則進(jìn)行過濾,有效提高后續(xù)處理的效率。 ②在傳統(tǒng)TF-IDF算法的基礎(chǔ)上,提出動態(tài)權(quán)值計(jì)算方法FCF-DIDF。該算法基于微博轉(zhuǎn)發(fā)數(shù)和評論數(shù),能夠有效改善TF-IDF算法的不足,并考慮到微博文本集規(guī)模的不斷增加,適合處理微博短文本。 ③基于DBSCAN算法,提出基于代表點(diǎn)的增量層次密度聚類算法(RIHDBSCAN)。該算法分為三個步驟:生成初始簇、初始簇合并、選出代表點(diǎn)。算法執(zhí)行過程中只需要選取部分對象進(jìn)行核心點(diǎn)檢測,大大降低了I/O開銷,屏蔽了數(shù)據(jù)輸入順序敏感性。RIHDBSAN算法在每輪事件檢測聚類算法執(zhí)行結(jié)束后,選出代表點(diǎn)組參與下輪的增量聚類,并通過增量聚類中簇結(jié)構(gòu)和關(guān)鍵詞變化追蹤事件的發(fā)展軌跡。 ④針對單一節(jié)點(diǎn)處理海量微博數(shù)據(jù)面臨困境,將算法部署在Hadoop云計(jì)算平臺上。模型的四個部分:文本過濾、FCF-DIDF動態(tài)權(quán)值計(jì)算、余弦距離計(jì)算、RIHDBSCAN聚類,都并行在該平臺上。 通過在新浪微博平臺上抽取的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)表明,表明論文提出的FCF-DIDF算法對比TF-IDF和UF-ITUF等有更高的性能,并且云框架的使用較好的提高了從大規(guī)模微博數(shù)據(jù)中挖掘新聞事件的效率,,適合用于海量數(shù)據(jù)的分析和挖掘。
【圖文】:

詞條,權(quán)值矩陣,文檔,向量空間模型


文檔-詞條權(quán)值矩陣Fig2.2.Theweightmatrixoftext-term

相似度,余弦,歐氏距離,文本


圖 2.3 歐氏距離和余弦相似度的區(qū)別2.3 The difference between Euclidean distance and Cosine sim,余弦相似度能夠有效規(guī)避文本間的差異表現(xiàn),場景,論文采用規(guī)范化的余弦公式計(jì)算余弦相似度續(xù)聚類分析有重要的影響。本章介紹了預(yù)處理關(guān)鍵首先提出根據(jù)機(jī)械化規(guī)則直接過濾文本,提高后提出一種改進(jìn)的 FCF-DIDF 動態(tài)權(quán)值算法計(jì)算特公式來計(jì)算文本向量間的相似度,最后得到余弦模型,為聚類分析做好了數(shù)據(jù)準(zhǔn)備。
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 蔡穎琨,謝昆青,馬修軍;屏蔽了輸入?yún)?shù)敏感性的DBSCAN改進(jìn)算法[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年03期

2 倪維健;黃亞樓;李飛;劉賞;;一種基于加權(quán)多代表點(diǎn)的層次聚類算法[J];計(jì)算機(jī)科學(xué);2005年05期

3 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計(jì)算機(jī)科學(xué);2012年01期

4 邱云飛;程亮;;微博突發(fā)話題檢測方法研究[J];計(jì)算機(jī)工程;2012年09期

5 洪宇;張宇;劉挺;李生;;話題檢測與跟蹤的評測及研究綜述[J];中文信息學(xué)報(bào);2007年06期

6 路榮;項(xiàng)亮;劉明榮;楊青;;基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J];模式識別與人工智能;2012年03期

7 周紅芳;趙雪涵;周揚(yáng);;基于限定區(qū)域數(shù)據(jù)取樣的密度聚類算法[J];計(jì)算機(jī)應(yīng)用;2012年08期

8 李勁;張華;吳浩雄;向軍;;基于特定領(lǐng)域的中文微博熱點(diǎn)話題挖掘系統(tǒng)BTopicMiner[J];計(jì)算機(jī)應(yīng)用;2012年08期

9 周水庚,周傲英,金文,范曄,錢衛(wèi)寧;FDBSCAN:一種快速 DBSCAN算法(英文)[J];軟件學(xué)報(bào);2000年06期

10 馬帥,王騰蛟,唐世渭,楊冬青,高軍;一種基于參考點(diǎn)和密度的快速聚類算法[J];軟件學(xué)報(bào);2003年06期



本文編號:2571936

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/2571936.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶afd83***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
天天综合精品在线观看| 人人模人人爽人人喊久久| 国产精品久久久| 欧美精品一区二区精品久久 | 人人艹人人爱| 亚洲日韩aⅴ在线视频| 久久综合精品国产丝袜长腿| 宁波市| 天天日天天色| 国产精品一线二线三线| 欧美国产亚洲高清| 国产黄三级高清在线观看播放| 成人片无码免费视频在线播| 三门峡市| 精品国产乱码一区二区| av高清在线| 午夜福利理论片在线观看播放| 国产美女被遭强高潮免费网站| 亚洲人成人网站色WWW| 人妻一本久道久久综合久久鬼色| 阜平县| 综合| 99热在线免费观看| 91亚色| 亚洲欧美一区二区三区电影| 无码毛片aaa在线| 亚洲欧美成人一区二区三区| 久久这里只有精品视频9| 久久精品国产亚洲av忘忧草18| 国产日韩精品| 日本ll码是xl码| 国产精品综合一区二区三区| 亚洲va在线∨a天堂va欧美va | 久久丫线这里只精品| 日韩精品一区二区三区四区| 亚洲欧美专区| 性欧美暴力猛交69hd| 91啦丨九色丨蚪窝人妻| 2022天天躁狠狠燥| 国产精品IGAO视频网| 久久无码无码久久综合综合|