فرایند تصمیم گیری مارکوف (MDP)

Markov Decision Process (MDP)

copy icon share icon print icon

تعریف

یک چارچوب ریاضی است برای مدل‌سازی تصمیم‌گیری در شرایطی که نتایج تا حدودی تصادفی و تا حدودی تحت کنترل یک تصمیم‌گیر است. MDPs برای مطالعه طیف گسترده‌ای از مسائل بهینه سازی که از طریق برنامه‌نویسی پویا و یادگیری تقویتی حل می‌شوند مفید است.

تصویر زیر یک نمونه ساده از MDP است:

این نمونه دارای ۳ حالت (دایره های سبز رنگ) و ۲ عمل (a0 , a1) و ۲ پاداش ( خط های نارنجی رنگ) است.