bob买球-bob买球官方网站

学术信息

bob买球-bob买球官方网站

学术报告:稳态方差原则的马氏决议计划进程与强化进修

  报告时候:2021年5月14日(礼拜五)15:30-17:30

  报告地点:北辰校区土木与交通学院楼二楼216学术报告厅

  报告标题题目:稳态方差原则的马氏决议计划进程与强化进修

  报告佳宾:夏俐 传授

图片 1.jpg

  佳宾简介:

  夏俐,传授,博士导师,中山大学。持久处置随灵活态体系的进修优化、马氏决议计划进程、强化进修、列队论、博弈论等实际研讨,和在动力体系、智能修建、金融科技、计较机收集等范畴的操纵研讨任务。别离于2002年和2007年在清华大学主动化系取得学士和博士学位,博士毕业后别离在IBM中国研讨院、沙特国王科技大学处置科研任务,2011年至2019在清华大学主动化系任务,2019年进入中山大学办理学院。以拜候学者身份在香港科技大学电子与计较机工程系、美国斯坦福大学办理迷信与工程系等处置协作研讨。在本范畴顶级期刊颁发论文20余篇,并取得多项美国和中国专利。担负IEEE Transactions on Automation Science and Engineering、Discrete Event Dynamic Systems等期刊编委。


  报告择要:

  跟着AlphaGo的胜利操纵,强化进修(Reinforcement Learning, RL)获得了学术界和产业界的日趋正视。强化进修的实际根本是马氏决议计划进程(Markov Decision Process, MDP)。今朝绝大大都的RL都是研讨优化扣头积累人为值的数学希冀,没法处置方差等危险目标。本报告将首要先容作者近几年在马氏决议计划进程的稳态方差最小化优化题目的实际研讨功效,稳态方差差别于MDP以往文献中已研讨过的扣头积累人为值的方差,稳态方差是权衡MDP达到稳态以后的体系人为值的方差,可以或许权衡随灵活态体系的危险、不变性、公允性、靠得住性等。因为方差目标的二次用度函数情势依靠于详细战略,用度函数不具备马氏性,优化随机体系的稳态方差不是一个规范MDP题目,典范静态计划道理不再合用。咱们从机能活络度的新角度研讨这一题目,获得了一些新的实际成果,进而将MDP实际研讨成果完成为数据驱动的危险敏感强化进修算法,操纵于风电与储能体系结合着力的动摇性按捺题目,来光滑风电着力的动摇性,进步风电操纵率。该方式还可操纵于金融体系危险办理、办事体系公允性优化等范畴。