a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

基于強(qiáng)化學(xué)習(xí)的游戲環(huán)境中智能體決策模型的設(shè)計研究

發(fā)布時間:2025-05-29 07:03
  目前大多數(shù)都是使用以值為基礎(chǔ)的Q函數(shù)如DQN強(qiáng)化學(xué)習(xí)算法進(jìn)行研究,減少了對更加直觀的以策略方法為基礎(chǔ)的強(qiáng)化學(xué)習(xí)算法的研究。且在游戲領(lǐng)域中,連續(xù)高維的狀態(tài)動作分布是決策問題應(yīng)用強(qiáng)化學(xué)習(xí)所面臨的一個巨大困難,為解決這一問題,本文將通過基礎(chǔ)方法策略搜索方法——確定性策略梯度算法作出研究,并分析確定性策略梯度算法的優(yōu)缺點(diǎn),對于其缺陷進(jìn)行改進(jìn),提出雙剪切策略梯度算法改進(jìn)模型,并探討不同的改進(jìn)部分對實(shí)驗(yàn)結(jié)果的影響。最后在游戲平臺上選擇四個連續(xù)高維的任務(wù)進(jìn)行訓(xùn)練,以證明改進(jìn)算法在解決此問題的性能提升水平。本文主要進(jìn)行了五個部分的闡述。(1)首先對強(qiáng)化學(xué)習(xí)的本質(zhì)問題與發(fā)展應(yīng)用領(lǐng)域進(jìn)行了簡明介紹,接著介紹了基礎(chǔ)的方法——深度學(xué)習(xí),闡述了其發(fā)展歷史與現(xiàn)狀,最后對深度強(qiáng)化學(xué)習(xí)DRL的發(fā)展進(jìn)行了簡述;(2)分析了強(qiáng)化學(xué)習(xí)的數(shù)學(xué)模型架構(gòu)——馬爾科夫決策過程,和貝爾曼最優(yōu)解,并引出了強(qiáng)化學(xué)習(xí)的基礎(chǔ)方法,值迭代方法和策略迭代方法,然后分析了無模型環(huán)境中基于值迭代法和策略迭代法的兩種強(qiáng)化學(xué)習(xí)策略求解方法——蒙特卡洛方法與時序差分法。(3)根據(jù)前一章的策略迭代和時序差分方法,提出需要改進(jìn)的基礎(chǔ)方法確定性策略梯度算法,結(jié)合...

【文章頁數(shù)】:65 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究背景及意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 深度學(xué)習(xí)的起源與發(fā)展
        1.2.2 深度強(qiáng)化學(xué)習(xí)DRL的進(jìn)展
    1.3 論文的主要工作與結(jié)構(gòu)
第二章 基于DRL的決策算法框架
    2.1 強(qiáng)化學(xué)習(xí)問題描述架構(gòu)
        2.1.1 強(qiáng)化學(xué)習(xí)問題模型
        2.1.2 數(shù)學(xué)模型——馬爾科夫決策過程
        2.1.3 貝爾曼方程最優(yōu)解
    2.2 動態(tài)規(guī)劃
    2.3 無模型預(yù)測學(xué)習(xí)方法
        2.3.1 Monte-Carlo強(qiáng)化學(xué)習(xí)
        2.3.2 Temporal-Difference強(qiáng)化學(xué)習(xí)
    2.4 本章小結(jié)
第三章 基于確定性策略與AC架構(gòu)的系統(tǒng)建模
    3.1 確定性深度策略方法
        3.1.1 演員-評論者(Actor-Critic)架構(gòu)
        3.1.2 確定性策略梯度算法
    3.2 雙剪切策略梯度算法改進(jìn)模型
        3.2.1 Actor動作選擇策略
        3.2.2 AC架構(gòu)中的高估偏差
        3.2.3 Critic雙剪切Q網(wǎng)絡(luò)
        3.2.4 目標(biāo)網(wǎng)絡(luò)與延遲策略更新
        3.2.5 目標(biāo)策略平滑正則化
        3.2.6 雙剪切策略梯度算法
    3.3 本章小結(jié)
第四章 游戲平臺系統(tǒng)模型實(shí)驗(yàn)
    4.1 實(shí)驗(yàn)平臺
    4.2 實(shí)驗(yàn)環(huán)境
    4.3 實(shí)驗(yàn)參數(shù)配置
    4.4 實(shí)驗(yàn)結(jié)果及分析
        4.4.1 高估偏差分析
        4.4.2 目標(biāo)網(wǎng)絡(luò)與延遲更新分析
        4.4.3 游戲得分結(jié)果分析
    4.5 本章小結(jié)
第五章 總結(jié)與展望
    5.1 總結(jié)
    5.2 后續(xù)工作展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果



本文編號:4048908

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/lindaojc/4048908.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶91260***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
加勒比色综合久久久久久久久| 黄a无码片内射无码视频| 国产乱码免费卡1卡二卡3卡四卡 | 亚洲精品一二区| 国产亚洲无线码一区二区| 人妻少妇精品视频二区| 99国产欧美久久久精品| 国产乱人伦真实精品视频| 狠狠色噜噜狠狠狠8888米奇| 性无码专区一色吊丝中文字幕| 国产高潮国产高潮久久久| 四虎国产精品永久在线无码| 久久精品亚洲成在人线AV麻豆| 成 人 黄 色 网 站 在线播放视频| 若羌县| 久草精品视频| 色婷婷激情av精品影院| 涩久久| 超碰9| 吉木萨尔县| 分宜县| 一本到中文无码av在线精品| 张北县| 亚洲欧美日韩愉拍自拍美利坚 | 曲松县| 襄樊市| 日韩高清在线高清免费| t66y最新地址一地址二地址三| 日韩丝袜欧美人妻制服| 亚洲夜夜性无码| 粗大的内捧猛烈进出小视频| 国产精品久久久天天影视香蕉| 国产成人午夜福利在线播放| 精品视频国产狼友视频| 亚洲第一av片精品堂在线观看| 国产尤物在线视精品在亚洲| 国产成人高清在线播放| 在教室伦流澡到高潮H强圩电影| 屁股大| 免费av毛片| av少妇|