基于Sarsa學(xué)習(xí)的基站休眠策略研究
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
圖1全雙工異構(gòu)蜂窩網(wǎng)絡(luò)場(chǎng)景
本文的系統(tǒng)模型是建立在全雙工雙層異構(gòu)蜂窩網(wǎng)絡(luò)的基礎(chǔ)上,由宏基站(macrobasestation,MBS)和K個(gè)家庭基站(femtobasestations,FBS)組成,如圖1。為了保證覆蓋,MBS一直處于工作狀態(tài);FBS有2種模式,工作狀態(tài)或者休眠狀態(tài)。當(dāng)FBS處....
圖2強(qiáng)化學(xué)習(xí)模型
強(qiáng)化學(xué)習(xí)模型如圖2,Agent通過感知環(huán)境,形成內(nèi)部狀態(tài)集S,從初始狀態(tài)s出發(fā),通過貪婪算法選擇動(dòng)作a并作用于環(huán)境,環(huán)境通過動(dòng)作的觸發(fā)轉(zhuǎn)移到下一個(gè)狀態(tài)s′,并獲得立即收益,不斷地學(xué)習(xí)并進(jìn)行狀態(tài)轉(zhuǎn)移,得到每個(gè)狀態(tài)-動(dòng)作對(duì)的累積收益值,從而使Agent在每個(gè)狀態(tài)的累積收益值中選擇最大....
圖3Sarsa學(xué)習(xí)框架
圖3為基站與環(huán)境的學(xué)習(xí)過程,可以建模為4元組[s(t),a(t),R(s,a),s′(t)],t表示離散時(shí)間;驹跔顟B(tài)s(t)時(shí),通過行為決策a(t),有些基站會(huì)選擇休眠,其服務(wù)的用戶會(huì)進(jìn)行重關(guān)聯(lián)使得每個(gè)基站的狀態(tài)即用戶數(shù)發(fā)生改變,進(jìn)而轉(zhuǎn)移到狀態(tài)s′(t),計(jì)算在狀態(tài)s′(t)....
圖4系統(tǒng)平均能效隨FBS用戶傳輸功率變化圖
圖4描述了FBS用戶傳輸功率Pu對(duì)3種算法的系統(tǒng)平均能效的影響。圖4中可以看出,3種算法的系統(tǒng)平均能效隨著FBS用戶傳輸功率Pu的增大而減小。其主要原因是:根據(jù)(7)式可知,FBS用戶傳輸功率Pu的增大會(huì)導(dǎo)致上行信道系統(tǒng)容量的減小,而(7)式中表明系統(tǒng)能效與上行信道的系統(tǒng)容量....
本文編號(hào):3985096
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/xinxigongchenglunwen/3985096.html