Difference of convex functions programming for policy optimization in reinforcement learning

We formulate the problem of optimizing an agent's policy within the Markov decision process (MDP) model as a difference-of-convex functions (DC) program. The DC perspective enables optimizing the policy iteratively where each iteration constructs an easier-to-optimize lower bound on the value f...

وصف كامل

محفوظ في:
التفاصيل البيبلوغرافية
المؤلف الرئيسي: KUMAR, Akshat
التنسيق: text
اللغة:English
منشور في: Institutional Knowledge at Singapore Management University 2024
الموضوعات:
الوصول للمادة أونلاين:https://ink.library.smu.edu.sg/sis_research/9926
https://ink.library.smu.edu.sg/context/sis_research/article/10926/viewcontent/ConvexFunctionsProg_pvoa_cc_by.pdf
الوسوم: إضافة وسم
لا توجد وسوم, كن أول من يضع وسما على هذه التسجيلة!
المؤسسة: Singapore Management University
اللغة: English

مواد مشابهة