異構(gòu)平臺(tái)下基于HDFS的數(shù)據(jù)動(dòng)態(tài)分配策略研究
發(fā)布時(shí)間:2021-01-05 13:58
隨著信息化社會(huì)的快速發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)量急速增長(zhǎng)。由于傳統(tǒng)存儲(chǔ)模式難以突破其存儲(chǔ)限制,分布式存儲(chǔ)系統(tǒng)便越來(lái)越受歡迎,其中HDFS(Hadoop Distributed File System)是目前應(yīng)用比較廣泛的一個(gè)分布式文件存儲(chǔ)系統(tǒng)。隨著先進(jìn)存儲(chǔ)設(shè)備的發(fā)展,具有高讀寫性能的SSD和普通磁盤等異構(gòu)設(shè)備作為目前主流的存儲(chǔ)介質(zhì),已被廣泛應(yīng)用于HDFS系統(tǒng)中。HDFS有效解決了大數(shù)據(jù)處理面臨的海量數(shù)據(jù)存儲(chǔ)問(wèn)題,并通過(guò)提供不同的數(shù)據(jù)存儲(chǔ)策略和相應(yīng)的存儲(chǔ)接口來(lái)對(duì)冷熱度不同的數(shù)據(jù)進(jìn)行存放,這樣開(kāi)發(fā)人員就可以利用這些接口實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類存儲(chǔ)。然而,如何精確地對(duì)HDFS系統(tǒng)中的冷數(shù)據(jù)和熱數(shù)據(jù)進(jìn)行分配成為當(dāng)前最為關(guān)鍵的問(wèn)題。經(jīng)過(guò)研究與分析發(fā)現(xiàn),在對(duì)HDFS系統(tǒng)中數(shù)據(jù)進(jìn)行分配時(shí),現(xiàn)階段通常采用的分配算法是首先為所有數(shù)據(jù)統(tǒng)一分配存儲(chǔ)策略,然后根據(jù)數(shù)據(jù)的訪問(wèn)頻率去動(dòng)態(tài)調(diào)整其存儲(chǔ)策略,從而實(shí)現(xiàn)對(duì)冷熱數(shù)據(jù)的分配。但是采用傳統(tǒng)算法對(duì)HDFS系統(tǒng)中的數(shù)據(jù)進(jìn)行分配時(shí),存在以卜問(wèn)題:一方面,一些冷數(shù)據(jù)可能被存儲(chǔ)在SSD上,導(dǎo)致系統(tǒng)中SSD的命中率不高,無(wú)法充分發(fā)揮SSD作用,造成SSD硬件資源的浪費(fèi),影響HDFS的性能...
【文章來(lái)源】:北方工業(yè)大學(xué)北京市
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?HDFS體系結(jié)構(gòu)示意圖??在HDFS中,對(duì)義件的基本訪問(wèn)過(guò)程是:??1.川戶的應(yīng)川程序通過(guò)HDFS?Client程序?qū)⑺TL問(wèn)的文件名發(fā)送至??
2.2.2客戶端寫入數(shù)據(jù)過(guò)程??當(dāng)客戶端寫入一個(gè)HDFS文件時(shí),Namenode和Datanode也都會(huì)參與到整個(gè)??交互過(guò)程中,如圖2-4所示。??和讀取數(shù)據(jù)相比,寫入數(shù)據(jù)過(guò)程比較復(fù)雜,主要過(guò)程如下。??1??首先,客戶端會(huì)調(diào)用DistributedFileSystem類的create()方法在HDFS文??件系統(tǒng)中創(chuàng)建一個(gè)新的空文件,該類經(jīng)過(guò)一系列的底層調(diào)用后,會(huì)返回??一個(gè)DFSOutputStream數(shù)據(jù)流給客戶端,即真正進(jìn)行數(shù)據(jù)塊寫入操作??的是?DFSOutputStream?對(duì)象。??2.
第三章HDFS數(shù)據(jù)動(dòng)態(tài)分配策略的設(shè)計(jì)與實(shí)現(xiàn)??BP調(diào)整文件熱度值的處理流程如圖3-3所示。算法1描述了?BP的具體實(shí)??現(xiàn)。??輸入層丨nput?隱藏層丨丨iddcn?輸出層Output??accesses??type?/?'V?V'.-'V'7?Ho(Valuc(current)??一??sumtvpe?///??圖3-3?BP調(diào)整流程圖??/if算法1中,第1-2行描述了整個(gè)BP祌經(jīng)網(wǎng)絡(luò)的“輸入”和“輸出”!拜??入”是前而提到的五個(gè)因素,把它們表示為-個(gè)五元組??〈accesses,accesses/size,type,sumtype,sumtype/size>;?“輸出”是被訪問(wèn)文件的當(dāng)前??熱度值。??第3-9行設(shè)置了?BP神經(jīng)網(wǎng)絡(luò)的-些參數(shù):因?yàn)椤拜斎搿笔且粋(gè)五元組和“輸??丨丨r只冇.個(gè)元素,所以設(shè)置輸入節(jié)點(diǎn)數(shù)=5,隱藏層節(jié)點(diǎn)數(shù)=4,輸出層節(jié)點(diǎn)數(shù)=1,??學(xué)習(xí)半>0.?5。參數(shù)Wij表示隱藏層中.元j到輸入層單元i?(或輸出層單元j到隱藏??層單元i)的連接權(quán)重。該算法設(shè)置激活函數(shù)為Sigmoid函數(shù),并設(shè)置了?一個(gè)目??標(biāo)函數(shù)F(0〇用T?汁算被訪問(wèn)義件的期望熱度位。在BP中,使川真實(shí)的文件訪??問(wèn)次數(shù)來(lái)計(jì)算文件的當(dāng)前熱度值。例如:在規(guī)定一個(gè)特定的時(shí)間段,收集在該時(shí)??間段內(nèi)訪問(wèn)最頻繁和訪問(wèn)敁+頻繁的文件
【參考文獻(xiàn)】:
期刊論文
[1]HDFS異構(gòu)集群中的分級(jí)存儲(chǔ)調(diào)度機(jī)制[J]. 楊冬菊,李青,鄧崇彬. 小型微型計(jì)算機(jī)系統(tǒng). 2017(01)
[2]HDFS下海量小文件高效存儲(chǔ)與索引方法[J]. 肖玉澤,張利軍,潘巍,張小芳,李戰(zhàn)懷. 小型微型計(jì)算機(jī)系統(tǒng). 2015(10)
[3]HDFS中高效存儲(chǔ)小文件的方法[J]. 尹穎,林慶,林涵陽(yáng). 計(jì)算機(jī)工程與設(shè)計(jì). 2015(02)
[4]云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)[J]. 王意潔,孫偉東,周松,裴曉強(qiáng),李小勇. 軟件學(xué)報(bào). 2012(04)
[5]基于trace的網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)評(píng)測(cè)研究[J]. 趙曉南,李戰(zhàn)懷,張曉,曾雷杰. 計(jì)算機(jī)科學(xué). 2010(02)
碩士論文
[1]面向HDFS的訪問(wèn)控制與小文件存儲(chǔ)策略的研究與實(shí)現(xiàn)[D]. 李蒙.哈爾濱工業(yè)大學(xué) 2017
[2]基于HDFS的云存儲(chǔ)系統(tǒng)的實(shí)現(xiàn)與優(yōu)化[D]. 鄒振宇.中國(guó)科學(xué)技術(shù)大學(xué) 2016
[3]基于HDFS的分布式存儲(chǔ)系統(tǒng)的研究與實(shí)現(xiàn)[D]. 崔園.電子科技大學(xué) 2016
[4]HDFS分布式文件系統(tǒng)存儲(chǔ)策略研究[D]. 周小玉.電子科技大學(xué) 2015
[5]基于HDFS的分布式文件系統(tǒng)存儲(chǔ)研究與優(yōu)化[D]. 黎斌.電子科技大學(xué) 2015
本文編號(hào):2958794
【文章來(lái)源】:北方工業(yè)大學(xué)北京市
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?HDFS體系結(jié)構(gòu)示意圖??在HDFS中,對(duì)義件的基本訪問(wèn)過(guò)程是:??1.川戶的應(yīng)川程序通過(guò)HDFS?Client程序?qū)⑺TL問(wèn)的文件名發(fā)送至??
2.2.2客戶端寫入數(shù)據(jù)過(guò)程??當(dāng)客戶端寫入一個(gè)HDFS文件時(shí),Namenode和Datanode也都會(huì)參與到整個(gè)??交互過(guò)程中,如圖2-4所示。??和讀取數(shù)據(jù)相比,寫入數(shù)據(jù)過(guò)程比較復(fù)雜,主要過(guò)程如下。??1??首先,客戶端會(huì)調(diào)用DistributedFileSystem類的create()方法在HDFS文??件系統(tǒng)中創(chuàng)建一個(gè)新的空文件,該類經(jīng)過(guò)一系列的底層調(diào)用后,會(huì)返回??一個(gè)DFSOutputStream數(shù)據(jù)流給客戶端,即真正進(jìn)行數(shù)據(jù)塊寫入操作??的是?DFSOutputStream?對(duì)象。??2.
第三章HDFS數(shù)據(jù)動(dòng)態(tài)分配策略的設(shè)計(jì)與實(shí)現(xiàn)??BP調(diào)整文件熱度值的處理流程如圖3-3所示。算法1描述了?BP的具體實(shí)??現(xiàn)。??輸入層丨nput?隱藏層丨丨iddcn?輸出層Output??accesses??type?/?'V?V'.-'V'7?Ho(Valuc(current)??一??sumtvpe?///??圖3-3?BP調(diào)整流程圖??/if算法1中,第1-2行描述了整個(gè)BP祌經(jīng)網(wǎng)絡(luò)的“輸入”和“輸出”!拜??入”是前而提到的五個(gè)因素,把它們表示為-個(gè)五元組??〈accesses,accesses/size,type,sumtype,sumtype/size>;?“輸出”是被訪問(wèn)文件的當(dāng)前??熱度值。??第3-9行設(shè)置了?BP神經(jīng)網(wǎng)絡(luò)的-些參數(shù):因?yàn)椤拜斎搿笔且粋(gè)五元組和“輸??丨丨r只冇.個(gè)元素,所以設(shè)置輸入節(jié)點(diǎn)數(shù)=5,隱藏層節(jié)點(diǎn)數(shù)=4,輸出層節(jié)點(diǎn)數(shù)=1,??學(xué)習(xí)半>0.?5。參數(shù)Wij表示隱藏層中.元j到輸入層單元i?(或輸出層單元j到隱藏??層單元i)的連接權(quán)重。該算法設(shè)置激活函數(shù)為Sigmoid函數(shù),并設(shè)置了?一個(gè)目??標(biāo)函數(shù)F(0〇用T?汁算被訪問(wèn)義件的期望熱度位。在BP中,使川真實(shí)的文件訪??問(wèn)次數(shù)來(lái)計(jì)算文件的當(dāng)前熱度值。例如:在規(guī)定一個(gè)特定的時(shí)間段,收集在該時(shí)??間段內(nèi)訪問(wèn)最頻繁和訪問(wèn)敁+頻繁的文件
【參考文獻(xiàn)】:
期刊論文
[1]HDFS異構(gòu)集群中的分級(jí)存儲(chǔ)調(diào)度機(jī)制[J]. 楊冬菊,李青,鄧崇彬. 小型微型計(jì)算機(jī)系統(tǒng). 2017(01)
[2]HDFS下海量小文件高效存儲(chǔ)與索引方法[J]. 肖玉澤,張利軍,潘巍,張小芳,李戰(zhàn)懷. 小型微型計(jì)算機(jī)系統(tǒng). 2015(10)
[3]HDFS中高效存儲(chǔ)小文件的方法[J]. 尹穎,林慶,林涵陽(yáng). 計(jì)算機(jī)工程與設(shè)計(jì). 2015(02)
[4]云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)[J]. 王意潔,孫偉東,周松,裴曉強(qiáng),李小勇. 軟件學(xué)報(bào). 2012(04)
[5]基于trace的網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)評(píng)測(cè)研究[J]. 趙曉南,李戰(zhàn)懷,張曉,曾雷杰. 計(jì)算機(jī)科學(xué). 2010(02)
碩士論文
[1]面向HDFS的訪問(wèn)控制與小文件存儲(chǔ)策略的研究與實(shí)現(xiàn)[D]. 李蒙.哈爾濱工業(yè)大學(xué) 2017
[2]基于HDFS的云存儲(chǔ)系統(tǒng)的實(shí)現(xiàn)與優(yōu)化[D]. 鄒振宇.中國(guó)科學(xué)技術(shù)大學(xué) 2016
[3]基于HDFS的分布式存儲(chǔ)系統(tǒng)的研究與實(shí)現(xiàn)[D]. 崔園.電子科技大學(xué) 2016
[4]HDFS分布式文件系統(tǒng)存儲(chǔ)策略研究[D]. 周小玉.電子科技大學(xué) 2015
[5]基于HDFS的分布式文件系統(tǒng)存儲(chǔ)研究與優(yōu)化[D]. 黎斌.電子科技大學(xué) 2015
本文編號(hào):2958794
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/jisuanjikexuelunwen/2958794.html
最近更新
教材專著