داده پرت

Outliers

تعریف

مقدارهای که از بقیه مقادیر فاصله‌ی زیادی دارند. در یادگیری ماشین، هر کدام از موارد زیر داده‌ی پرت حساب می‌شوند:

  • وزن‌هایی که قدر مطلق آن‌ها بسیار بزرگ باشد.
  • مقدارهای پیش‌بینی شده‌ای که از مقادیر واقعی بسیار دور باشند.
  • داده های ورودی‌ای که مقدار آن‌ها بیش از تقریبا ۳ برابر انحراف معیار از میانگین دور باشد.

داده‌های پرت معمولا در آموزش مدل‌ها اختلال ایجاد می‌کنند. بریده‌سازی (clipping) یکی از راه‌های مدیریت این داده‌هاست.