a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于強(qiáng)化學(xué)習(xí)的冰壺比賽策略生成方法研究

發(fā)布時(shí)間:2020-05-22 09:17
【摘要】:隨著強(qiáng)化學(xué)習(xí)的飛速發(fā)展,越來(lái)越多的強(qiáng)化學(xué)習(xí)算法涌現(xiàn)出來(lái),對(duì)于離散狀態(tài)空間環(huán)境,已經(jīng)有許多成熟的強(qiáng)化學(xué)習(xí)方法,并逐漸應(yīng)用于各行各業(yè)的人工智能體中。但是在連續(xù)狀態(tài)空間領(lǐng)域,強(qiáng)化學(xué)習(xí)的能力仍然捉襟見肘,僅存在一些理論上的研究,并未落地開展實(shí)際測(cè)試。本課題針對(duì)冰壺場(chǎng)地環(huán)境,對(duì)連續(xù)狀態(tài)空間下的策略生成方法進(jìn)行了研究,嘗試通過強(qiáng)化學(xué)習(xí)算法生成冰壺的投擲策略,并結(jié)合搜索算法,對(duì)冰壺投擲策略進(jìn)行相關(guān)的探索。冰壺場(chǎng)地環(huán)境下,狀態(tài)與動(dòng)作空間均位于連續(xù)空間,且有多維自由變量,想要將經(jīng)典的強(qiáng)化學(xué)習(xí)算法遷移到此場(chǎng)景中是很難實(shí)現(xiàn)的。而且冰壺場(chǎng)地環(huán)境存在許多不確定因素,投擲策略在執(zhí)行時(shí)會(huì)產(chǎn)生誤差,偏離原定軌跡,也對(duì)策略生成算法的能力產(chǎn)生了很大的挑戰(zhàn)。本文利用多種方法對(duì)冰壺投擲策略生成方法進(jìn)行了研究,主要研究?jī)?nèi)容如下:(1)冰壺仿真對(duì)抗平臺(tái)建設(shè)。首先需要將冰壺比賽場(chǎng)景轉(zhuǎn)化為合理的動(dòng)力學(xué)模型。將實(shí)際場(chǎng)景轉(zhuǎn)化為動(dòng)力學(xué)模型,不僅要合理的設(shè)計(jì)系統(tǒng)的狀態(tài)與動(dòng)作,還要考慮投擲誤差對(duì)場(chǎng)景及算法的影響。其次進(jìn)行冰壺仿真對(duì)抗平臺(tái)前端的設(shè)計(jì)。冰壺仿真對(duì)抗平臺(tái)前端用于接收用戶輸入,并將設(shè)計(jì)成型的數(shù)學(xué)模型直觀的展現(xiàn)出來(lái),對(duì)冰壺投擲進(jìn)行可視化處理。最后完成對(duì)冰壺仿真對(duì)抗平臺(tái)后臺(tái)的體系架構(gòu)。后臺(tái)將投擲過程中的滑行過程與碰撞過程以數(shù)據(jù)的方式進(jìn)行記錄,并能夠執(zhí)行回放、撤銷等功能。冰壺仿真對(duì)抗平臺(tái)是冰壺投擲策略生成所依靠的必要基礎(chǔ),為冰壺投擲策略生成提供海量的數(shù)據(jù)參考與支持。(2)設(shè)計(jì)冰壺投擲策略生成算法。首先應(yīng)對(duì)PSO粒子群算法進(jìn)行了合理的優(yōu)化,調(diào)整到合適的參數(shù),保證其在有限時(shí)間內(nèi)生成可靠的投擲策略;其次嘗試將蒙特卡洛樹與監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)結(jié)合起來(lái),探尋投擲策略的生成模式;最后設(shè)計(jì)強(qiáng)化學(xué)習(xí)算法結(jié)構(gòu)的四要素:策略、回報(bào)函數(shù)、動(dòng)作值函數(shù)和環(huán)境數(shù)學(xué)模型。只有建立合適的數(shù)學(xué)模型,設(shè)計(jì)合理的回報(bào)函數(shù),計(jì)算機(jī)才能夠通過強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到最優(yōu)策略。(3)冰壺對(duì)抗策略的量化分析。各國(guó)家運(yùn)動(dòng)員依靠比賽經(jīng)驗(yàn)制定了許多冰壺投擲策略,可以將其與強(qiáng)化學(xué)習(xí)生成的投擲策略進(jìn)行比較,互相借鑒,互相進(jìn)步。既通過已有的比賽策略經(jīng)驗(yàn)對(duì)強(qiáng)化學(xué)習(xí)算法進(jìn)行適當(dāng)?shù)男薷?又可以將強(qiáng)化學(xué)習(xí)算法生成的投擲策略供給運(yùn)動(dòng)員作為比賽參考。
【圖文】:

圖像,倒立擺,平衡控制


SARSA 學(xué)習(xí)更新 Q 函數(shù)時(shí)需要用到( , , , ′,的名字 SARSA。與 Q-learning 相同,SARSA精確 Q 值并輸出確定性策略方案[12]。習(xí)方法應(yīng)用于各種離散狀態(tài)空間的系統(tǒng)中,當(dāng)強(qiáng)化學(xué)習(xí)的方法也已取得一些成果。最典型的題,通過控制小車的移動(dòng)來(lái)維持車上擺桿的平-learning 算法[13],并對(duì)倒立擺進(jìn)行了仿真控態(tài)離散化,,再使用可以處理離散空間的 Q-lea空間的倒立擺平衡控制[14]。Anderson 等人通過的函數(shù)擬合,并采用 AHC(Adaptive Heuristic散化處理的情況下完成了倒立擺的平衡控制果。之后研究者又探索了其他領(lǐng)域,Koutnik開發(fā)了連續(xù)狀態(tài)空間下的強(qiáng)化學(xué)習(xí)系統(tǒng)[16-17],神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái),成功實(shí)現(xiàn)了賽車游戲中的

網(wǎng)絡(luò)結(jié)構(gòu)圖,網(wǎng)絡(luò)結(jié)構(gòu)


哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文1.2.2 深度強(qiáng)化學(xué)習(xí)近年來(lái)隨著深度學(xué)習(xí)的快速發(fā)展,國(guó)內(nèi)外學(xué)者將離散空間下的強(qiáng)化學(xué)習(xí)算法與深度學(xué)習(xí)相結(jié)合[18-20],進(jìn)行了諸多的研究與創(chuàng)新,目前已取得大量成果:2013 年 Mnih 等人提出了深度強(qiáng)化學(xué)習(xí)的開創(chuàng)性工作深度 Q 網(wǎng)絡(luò)(DQN)[21],通過深度神經(jīng)網(wǎng)絡(luò)對(duì) Q 函數(shù)進(jìn)行函數(shù)逼近,在視頻游戲 Atari 等領(lǐng)域取得突破。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:G862.6;TP181

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 張平,斯特凡·卡紐;在加強(qiáng)型學(xué)習(xí)系統(tǒng)中用偽熵進(jìn)行不確定性估計(jì)(英文)[J];控制理論與應(yīng)用;1998年01期



本文編號(hào):2675769

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/kejilunwen/sousuoyinqinglunwen/2675769.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cf811***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产精品久色在线播放| 夫妻免费无码V看片| 国产精品人妻一区二区99网站| 狠狠色噜噜狠狠狠7777奇米| А√天堂8资源中文在线| 大色网小色网淫色网| 99久久九九| 国产乱子伦| 国产成A人亚洲精V品无码性色| 男人j捅女人p| 大香蕉人人| 精品一区二区三区无码中文视频| 护士扒下内裤让我爽一夜| 粗暴进入娇小呻吟痛呼| 69欧美| 青青国产视频| 国产熟人AV一二三区| 国产成人Av片无码免费| 收集最新中文国产中文字幕| 亚洲AV无码成人专区| 邢台县| 99热伊人| 24小时日本在线www免费的| 欧美激情在线狂野欧美精品| 18禁黄网站禁片免费观看| 99久久国产综合精品麻豆| 国产精品亚洲综合色区| 日日摸夜夜添AA夜夜添高潮出水 | 国产亚洲观看无码等最新內容| 色婷婷欧美在线播放内射| 国产性自爱拍偷在在线播放| 好吊妞国产欧美日韩免费观看| 久久久久无码国产精品一区| 老太做爰xxxⅹ性xxxhd| 日韩精品一区二区三区中文在线| h片免费在线观看| 2021夜夜乳狠狠乳狠狠爱| 国产自在线拍精品| 中文字幕人妻无码一区二区三区| 国产熟女高潮视频| 日日躁夜夜躁狠狠久久AV|