بازده

Return

تعریف

در یادگیری تقویتی، با توجه به یک خط مشی و یک حالت خاص، بازده مجموع تمام امتیازاتی است که عامل انتظار دارد با دنبال کردن خط مشی از یک حالت تا پایان یک قسمت بدست بیاورد.

عامل بابت تاخیر نقل و انتقال بین حالت‌‌ها، یک ضریب کاهشی را برای محاسبه‌ی امتیاز در نظر می‌گیرد.

بنابراین اگر ضریب کاهشی γ باشد و امتیازها را تا انتهای قسمت مشخص کنیم، محاسبه بازده به شرح زیر است: