(MDP) فرایند تصمیم گیری مارکوف

Markov Decision Process (MDP)

تعریف

یک چارچوب ریاضی است برای مدل‌سازی تصمیم‌گیری در شرایطی که نتایج تا حدودی تصادفی و تا حدودی تحت کنترل یک تصمیم‌گیر است. MDPs برای مطالعه طیف گسترده‌ای از مسائل بهینه سازی که از طریق برنامه‌نویسی پویا و تقویت یادگیری حل می‌شوند مفید است.

تصویر زیر یک نمونه ساده از MDP است:

این نمونه دارای ۳ حالت (دایره های سبز رنگ) و ۲ عمل (a0 , a1) و ۲ پاداش ( خط های نارنجی رنگ) است