基于圖結(jié)構(gòu)聚類的社區(qū)搜索算法的研究
發(fā)布時(shí)間:2020-05-20 11:51
【摘要】:近年來,隨著信息技術(shù)的快速發(fā)展,各個(gè)行業(yè)都形成了自身的海量數(shù)據(jù),在電信行業(yè)形成的海量通話數(shù)據(jù)、生物化學(xué)中分子之間的關(guān)系數(shù)據(jù)、交通網(wǎng)路的架構(gòu)信息以及社交網(wǎng)絡(luò)中形成的數(shù)據(jù)信息。如何充分的挖掘這些數(shù)據(jù)的潛在價(jià)值是目前學(xué)術(shù)界和工業(yè)界探討的熱點(diǎn)問題。對(duì)于這些數(shù)據(jù)形成的巨大的復(fù)雜網(wǎng)絡(luò)系統(tǒng),可以用圖結(jié)構(gòu)清晰地表示,而對(duì)圖中的數(shù)據(jù)進(jìn)行聚類操作是挖掘圖數(shù)據(jù)信息的一個(gè)基本工具。然而,現(xiàn)實(shí)中的數(shù)據(jù)總是在不斷地動(dòng)態(tài)更新,傳統(tǒng)的基于圖結(jié)構(gòu)的聚類算法SCAN(A Structural Clustering Algorithm for Networks)并不能有效地處理和維護(hù)實(shí)時(shí)更新的數(shù)據(jù)信息。因此本文提出了一種基于廣度優(yōu)先樹BFS-tree(Breadth First Search-tree)的增量圖結(jié)構(gòu)聚類算法ISCAN(Incremental Structural Clustering for Dynamic Networks)。當(dāng)數(shù)據(jù)更新時(shí),利用該算法無需重新計(jì)算整個(gè)圖,只需更新少量的邊,通過廣度優(yōu)先樹的斷裂以及合并來維護(hù)已有的聚類結(jié)果。此外,為了減少在計(jì)算圖中頂點(diǎn)之間相似性所消耗的時(shí)間,本文提出了如何利用多核進(jìn)行結(jié)構(gòu)相似性的計(jì)算,并且提出了兩種有效的負(fù)載均衡策略。傳統(tǒng)的結(jié)構(gòu)聚類算法,對(duì)給定的閾值參數(shù)非常的敏感,細(xì)微的變化都會(huì)對(duì)聚類結(jié)果產(chǎn)生較大的影響,本文提出了一種基于三角形的結(jié)構(gòu)聚類模型,相對(duì)于傳統(tǒng)的結(jié)構(gòu)聚類算法,不僅能夠降低聚類結(jié)果對(duì)參數(shù)的敏感性,而且能夠得到更加緊密的社區(qū)。最后,以現(xiàn)實(shí)世界中形成的量圖數(shù)據(jù)為依據(jù)做了大量的對(duì)比試驗(yàn)。實(shí)驗(yàn)結(jié)果證明了提出的增量圖結(jié)構(gòu)聚類算法和并行計(jì)算結(jié)構(gòu)相似性的有效性、正確性,以此同時(shí),通過實(shí)驗(yàn)發(fā)現(xiàn),我們提出的基于三角形的結(jié)構(gòu)聚類,不僅能夠得到更加緊密的社區(qū),而且當(dāng)閾值發(fā)生改變時(shí),聚類的結(jié)構(gòu)更加的穩(wěn)定。
【圖文】:
22圖 3.6 不同負(fù)載均衡策略的運(yùn)行效率對(duì)比觀察圖 3.6,發(fā)現(xiàn)隨著 CPU 核心數(shù)的線性升高,系統(tǒng)的運(yùn)行時(shí)間幾乎是線性降低的;,根據(jù)實(shí)驗(yàn)結(jié)果,,可以發(fā)現(xiàn)基于切片的負(fù)載均衡策略的運(yùn)行效率普遍高于基于邊度行效率。這是由于計(jì)算有邊頂點(diǎn)之間的結(jié)構(gòu)相似性的過程中,當(dāng)且僅當(dāng)在完全理想下時(shí)間復(fù)雜度是: d(u) d(v),但是,由于硬件因素以及算法運(yùn)行過程中的線程的同步問題,從而造成一些誤差,使得程序不能達(dá)到完全理想的理論運(yùn)行時(shí)間。但
構(gòu)聚類處理動(dòng)態(tài)更新的數(shù)據(jù)。接下來,將在具體的實(shí)驗(yàn)結(jié)果中分析傳統(tǒng)的結(jié)構(gòu)聚類模型和本文提出的基于三角形的圖結(jié)構(gòu)聚類模型的效果,更具實(shí)驗(yàn)結(jié)果對(duì)數(shù)據(jù)集中的部分聚類結(jié)果進(jìn)行對(duì)比分析。具體如下圖所示。(a)SCAN( 2, 0 4) (b)TSCAN( 2, 0 4)
【學(xué)位授予單位】:深圳大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP311.13
本文編號(hào):2672581
【圖文】:
22圖 3.6 不同負(fù)載均衡策略的運(yùn)行效率對(duì)比觀察圖 3.6,發(fā)現(xiàn)隨著 CPU 核心數(shù)的線性升高,系統(tǒng)的運(yùn)行時(shí)間幾乎是線性降低的;,根據(jù)實(shí)驗(yàn)結(jié)果,,可以發(fā)現(xiàn)基于切片的負(fù)載均衡策略的運(yùn)行效率普遍高于基于邊度行效率。這是由于計(jì)算有邊頂點(diǎn)之間的結(jié)構(gòu)相似性的過程中,當(dāng)且僅當(dāng)在完全理想下時(shí)間復(fù)雜度是: d(u) d(v),但是,由于硬件因素以及算法運(yùn)行過程中的線程的同步問題,從而造成一些誤差,使得程序不能達(dá)到完全理想的理論運(yùn)行時(shí)間。但
構(gòu)聚類處理動(dòng)態(tài)更新的數(shù)據(jù)。接下來,將在具體的實(shí)驗(yàn)結(jié)果中分析傳統(tǒng)的結(jié)構(gòu)聚類模型和本文提出的基于三角形的圖結(jié)構(gòu)聚類模型的效果,更具實(shí)驗(yàn)結(jié)果對(duì)數(shù)據(jù)集中的部分聚類結(jié)果進(jìn)行對(duì)比分析。具體如下圖所示。(a)SCAN( 2, 0 4) (b)TSCAN( 2, 0 4)
【學(xué)位授予單位】:深圳大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 李桃陶;周斌;王忠振;;基于社交網(wǎng)絡(luò)的圖數(shù)據(jù)挖掘應(yīng)用研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2014年10期
2 丁悅;張陽;李戰(zhàn)懷;王勇;;圖數(shù)據(jù)挖掘技術(shù)的研究與進(jìn)展[J];計(jì)算機(jī)應(yīng)用;2012年01期
3 王建新;蔡釗;李敏;;一種基于極大團(tuán)的蛋白質(zhì)相互作用預(yù)測(cè)方法[J];高技術(shù)通訊;2009年01期
本文編號(hào):2672581
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/sousuoyinqinglunwen/2672581.html
最近更新
教材專著