Q-function

در یادگیری تقویتی، تابعی‌ست که بازده مورد نظر را به ازای رخ دادن یک عمل در یک حالت پیش‌بینی می‌کند و سپس سیاست مشخص‌شده را دنبال می‌کند.

تابع Q هم‌چنین به نام تابع ارزش حالت-عمل نیز شناخته می‌شود.

Q-learning

در یادگیری تقویتی، الگوریتمی است که اجازه می‌دهد عامل مقدار بهینه تابع Q را در فرآیندهای تصمیم‌گیری مارکوف با استفاده از معادله بلمن یاد بگیرد. فرآیندهای تصمیم‌گیری مارکوف محیط را توصیف می‌کنند.

Quantile

هر دسته یا سطل در سطل‌بندی چندک‌ها (quantile bucketing).

Quantile Bucketing

توزیع مقادیر یک ویژگی در سطل‌ها به صورتی که هر کدام شامل تعدادی یکسان (یا تقریبا یکسان) از نمونه‌ها باشد. به عنوان مثال، در نمودار زیر ۴ نقطه در ۴ دسته تقسیم شده‌اند که هر کدام شامل ۱۱ نمونه است. برای این که هر سطل شامل تعداد یکسانی از نقاط باشد، عرض هر دسته می‌تواند مقدار متفاوتی را در راستای محور x داشته باشد.

Quantization

الگوریتمی که سطل‌بندی چندک‌ها را به ازای یک ویژگی مشخص در مجموعه داده پیاده‌سازی می‌کند.