سیاست حریصانه اپسیلون

Epsilon Greedy Policy

تعریف

در یادگیری تقویتی (reinforcement learning) به سیاستی (policy) گفته می‌شود که با احتمال اپسیلون (epsilon) از یک سیاست تصادفی و در غیر این صورت از یک سیاست حریصانه پیروی کند. به عنوان مثال، اگر اپسیلون ۰.۹ باشد، در این صورت باید در ۹۰٪ مواقع از سیاست تصادفی و در ۱۰٪ مواقع از سیاست حریصانه پیروی کرد.

در قسمت‌های (episode) پیاپی، الگوریتم مقدار اپسیلون را کاهش می‌دهد تا به حای دنبال کردن یه سیاست تصادفی، از سیاست حریصانه پیروی کند. با تغییر سیاست، عامل (agent) ابتدا به صورت تصادفی محیط (environment) را جستجو می‌کند و سپس به صورت حریصانه از نتایج جستجوهای تصادفی بهره می‌برد.