معادله بلمن

Bellman Equation

تعریف

در یادگیری تقویتی (reinforcement learning) اتحاد زیر به وسیله تابع Q زیر بهینه می‌شود.

یادگیری تقویتی با اعمال این اتحاد به یادگیری Q با قاعده به‌روزرسانی زیر منجر می‌شود:

معادله بلمن علاوه بر یادگیری تقویتی کاربردهایی در برنامه‌نویسی پویا نیز دارد.

اطلاعات بیشتر: معادله بلمن در ویکی‌پدیا