رگرسیون لجستیک

Logistic Regression

تعریف

رگرسیون لجستیک یا آمادی یک مدل طبقه‌بندی است که با استفاده از تابع sigmoid پیش‌بینی‌های خام یک مدل خطی (y') را به مقداری بین ۰ و ۱ تبدیل می‌کند. این مقدار بین ۰ و ۱ را می‌توان به یکی از روش‌های زیر تفسیر کرد:

  • احتمال این که در یک مساله دسته‌بندی دوتایی نمونه به کلاس مثبت تعلق داشته باشد.

  • مقداری که باید با حد آستانه دسته‌بندی مقایسه شود. اگر این مقدار برابر یا بزرگ‌تر از حد آستانه دسته‌بندی بود، سامانه نمونه را متعلق به کلاس مثبت درنظر می‌گیرد. در مقابل، اگر نمونه کوچک‌تر از حد آستانه تعیین‌شده بود، سامانه نمونه را متعلق به کلاس منفی درنظر می‌گیرد. به عنوان مثال، فرض کنید که آستانه دسته‌بندی برابر ۰.۸۲ است:

    • نمونه‌ای را تصور کنید که مقدار خام پیش‌بینی آن ۲.۶ بوده است. اگر این مقدار را به تابع sigmoid بدهیم، خروجی برابر ۰.۹۳ خواهد بود. با توجه به این که ۰.۹۳ از ۰.۸۲ بزرگ‌تر است، سامانه نمونه را متعلق به کلاس مثبت درنظر می‌گیرد.
    • نمونه دیگری را تصور کنید که مقدار خام پیش‌بینی مدل برای آن ۱.۳ است. مقدار تابع sigmoid به ازای این ورودی برابر ۰.۷۹ خواهد بود. چون ۰.۷۹ از ۰.۸۲ کوچک‌تر است، سامانه آن را به عنوان نمونه‌ای کلاس منفی درنظر می‌گیرد.

با وجود این که رگرسیون خطی معمولا در مساله‌های دسته‌بندی دوتایی استفاده می‌شود، اما می‌توان از آن در مسائل طبقه‌بندی چندتایی نیز استفاده کرد که به آن رگرسیون خطی چند‌دسته‌ای (multi-class logistic regression) یا رگرسیون چندجمله‌ای (multinomial regression) گفته می‌شود.