یادگیری Q

Q-learning

تعریف

در یادگیری تقویتی، الگوریتمی است که اجازه می‌دهد عامل مقدار بهینه تابع Q را در فرآیندهای تصمیم‌گیری مارکوف با استفاده از معادله بلمن یاد بگیرد. فرآیندهای تصمیم‌گیری مارکوف محیط را توصیف می‌کنند.