Reward penalties on augmented states for solving richly constrained RL effectively

Constrained Reinforcement Learning employs trajectory-based cost constraints (such as expected cost, Value at Risk, or Conditional VaR cost) to compute safe policies. The challenge lies in handling these constraints effectively while optimizing expected reward. Existing methods convert such trajecto...

وصف كامل

محفوظ في:

التفاصيل البيبلوغرافية
المؤلفون الرئيسيون:	HAO, Jiang, MAI, Tien, VARAKANTHAN, Pradeep, HOANG, Minh Huy
التنسيق:	text
اللغة:	English
منشور في:	Institutional Knowledge at Singapore Management University 2024
الموضوعات:	Safe reinforcement learning Reward penalties Constraint optimization Reinforcement learning Markov models (MDPs POMDPs) Stochastic optimization Artificial Intelligence and Robotics
الوصول للمادة أونلاين:	https://ink.library.smu.edu.sg/sis_research/9685 https://ink.library.smu.edu.sg/context/sis_research/article/10685/viewcontent/29962_Article_Text_34016_1_2_20240324.pdf
الوسوم:	إضافة وسم لا توجد وسوم, كن أول من يضع وسما على هذه التسجيلة!
المؤسسة:	Singapore Management University
اللغة:	English

الانترنت

https://ink.library.smu.edu.sg/sis_research/9685
https://ink.library.smu.edu.sg/context/sis_research/article/10685/viewcontent/29962_Article_Text_34016_1_2_20240324.pdf

Reward penalties on augmented states for solving richly constrained RL effectively

الانترنت

مواد مشابهة