مجموعه‌داده دسته نامتوازن

Class-imbalanced Dataset

تعریف

مشکلی است که در مساله‌های دسته‌بندی دوتایی (binary classification) پیش می‌آید که در آن تعداد برچسب‌های یک دسته با دیگری تفاوت زیادی دارد. به عنوان مثال، مجموعه داده‌ای مربوط به یک بیماری که در آن ۰.۰۰۰۱ داده‌ها برچسب مثبت و بقیه داده‌ها برچسب منفی دارند دچار مشکل مجموعه‌داده دسته نامتوازن است؛ اما مجموعه داده‌های مربوط به یک پیشگوی بازی فوتبال که در آن ۰.۵۱ داده‌ها برچسب برد یک تیم و ۰.۴۹ داده‌ها برچسب برد تیم دیگر را دارند دارای این مشکل نیست.