Difference of convex functions programming for policy optimization in reinforcement learning

We formulate the problem of optimizing an agent's policy within the Markov decision process (MDP) model as a difference-of-convex functions (DC) program. The DC perspective enables optimizing the policy iteratively where each iteration constructs an easier-to-optimize lower bound on the value f...

Full description

Saved in:

Bibliographic Details
Main Author:	KUMAR, Akshat
Format:	text
Language:	English
Published:	Institutional Knowledge at Singapore Management University 2024
Subjects:	Agent policy Reinforcement learning optimization Difference-of-convex functions Reinforcement learning algorithm Artificial Intelligence and Robotics
Online Access:	https://ink.library.smu.edu.sg/sis_research/9926
Tags:	Add Tag No Tags, Be the first to tag this record!
Institution:	Singapore Management University
Language:	English

Be the first to leave a comment!

Difference of convex functions programming for policy optimization in reinforcement learning

Similar Items