یادگیری Q

Q-learning

در یادگیری تقویتی، الگوریتمی است که اجازه می‌دهد عامل مقدار بهینه تابع Q را در فرآیندهای تصمیم‌گیری مارکوف با استفاده از معادله بلمن یاد بگیرد. فرآیندهای تصمیم‌گیری مارکوف محیط را توصیف می‌کنند.

قبلی بعدی

آخرین ویرایش: ۶ مرداد ۱۴۰۰