Calibration Layer

یک تعدیل پس از پیش‌بینی (post-prediction adjustment) که معمولا برای بررسی سوگیری پیش‌بینی (prediction bias) استفاده می‌شود. پیش‌بینی‌های تعدیل شده و احتمالاتشان باید با توزیع مجموعه‌ی بررسی‌شده‌ای از برچسب‌ها همخوانی داشته باشند.

Candidate Generation

مجموعه اولیه‌ای از پیشنهادات که توسط یک سامانه پیشنهادگر انتخاب شده‌اند. به عنوان مثال، کتاب‌فروشی‌ای که ۱۰۰۰۰۰ عنوان کتاب دارد را در نظر بگیرید. در مرحله تولید کاندیدا، مجموعه‌ی بسیار کوچک‌تری (مثلا ۵۰۰ عنوان) از کتاب‌های مناسب برای یک کاربر مشخص تولید می‌شود. اما ۵۰۰ عنوان نیز عدد بزرگی برای پیشنهاد به کاربر است. در مرحله بعدی (مانند امتیازدهی - ‌scoring یا رتبه‌بندی مجدد - re-ranking) - که گران‌تر نیز هست - یک سامانه پیشنهادگر تلاش می‌کند که آن ۵۰۰ عنوان را به مجموعه‌ای بسیار کوچک‌تر و کاربردی‌تر تبدیل کند.

Candidate Sampling

یک بهینه‌سازی در زمان آموزش که در آن احتمال تمامی برچسب‌های مثبت با استفاده از مثلا softmax محاسبه می‌شود؛ اما این کار تنها برای نمونه‌هایی تصادفی از برچسب‌های منفی می‌افتد. به عنوان مثال، برای یک نمونه که برچسب‌های بیگل (نوعی سگ) و سگ را داشته باشد، نمونه‌گیری داوطلبانه احتمالات و مقدار تابع زیان را برای کلاس‌های بیگل و داگ و همچنین برای یک زیرمجموعه تصادفی از باقی‌مانده کلاس‌ها (گربه، آب‌نبات و ...) محاسبه می‌کند. ایده کلی این است که کلاس‌های منفی می‌توانند با تقویت منفی با تکرار کمتر یاد گرفته شوند؛ در حالی که کلاس‌های مثبت همیشه به تقویت مثبت مناسب نیاز دارند. این مساله به صورت تجربی مشاهده می‌شود. هدف نمونه‌گیری در دسترس بهینه‌سازی محاسبات به دلیل محاسبه نکردن احتمالات برای همه کلاس‌های منفی است.

Categorical Data

ویژگی‌هایی که تنها می‌توانند مجموعه‌ی گسسته‌ای از مقادیر ممکن را داشته باشند. برای مثال یک داده‌ی رسته‌ای به نام نوع خانه را در نظر بگیرید، که می‌تواند سه مقدار ممکن ویلایی، آپارتمانی و برج را داشته باشد. با معرفی نوع خانه به عنوان یک داده کیفی مدل می‌تواند تاثیر جداگانه هریک از این سه را بر روی قیمت خانه یاد بگیرد.
گاهی اوقات مقادیر در مجموعه گسسته منحصربفرد هستند و تنها یک مقدار می‌توانند داشته باشند. برای مثال سازنده ماشین احتمالا تنها می‌تواند یک مقدار داشته باشد (مثلا تویوتا).
در سایر اوقات می‌توان بیش از یک مقدار نیز نسبت داد. یک ماشین می‌تواند چند رنگ باشد بنابراین داده رسته‌ای رنگ ماشین یک مثال از است که می‌تواند چندین مقدار داشته باشد. (برای مثال قرمز و سفید.)

داده های کیفی گاهی داده های گسسته نیز خوانده می‌شوند.

متضاد: داده کمی

Centroid-based Clustering


شاخه‌ای از الگوریتم‌های خوشه‌بندی یا clustering که داده‌ها را در خوشه‌های غیرسلسله‌ مراتبی سازمان‌دهی می‌کند. k-means از پراستفاده‌ترین الگوریتم‌های این شاخه است.

متضادها: خوشه‌بندی سلسله مراتبی (Hierarchical clustering)

Centroid

مرکز خوشه‌هایی که توسط الگوریتم‌های k-means یا k-median مشخص می‌شوند. به عنوان مثال، اگر k برابر ۳ باشد، الگوریتم‌های ‌k-means یا k-median سه مرکز خوشه یا centroid پیدا خواهند کرد.

Checkpoint

داده‌هایی که وضعیت متغیرهای یک مدل را در یک زمان مشخص ذخیره می‌کنند. با استفاده از این داده‌ها،‌ امکان خروجی گرفتن از وزن‌های مدل را در حالی که در نشست‌های (session) مختلف در حال آموزش است فراهم می‌شود. آن‌ها هم‌چنین این اجازه را می‌دهند که فرآیند آموزش پس از مواجه شدن با خطا (مثلا گرفتن سخت‌افزار مورد نیاز آموزش توسط دیگر برنامه‌ها) ادامه پیدا کند. توجه کنید که گراف به خودی خود در نقطه وارسی (checkpoint) ذخیره نمی‌شود.

Class-imbalanced Dataset

مشکلی است که در مساله‌های دسته‌بندی دوتایی (binary classification) پیش می‌آید که در آن تعداد برچسب‌های یک دسته با دیگری تفاوت زیادی دارد. به عنوان مثال، مجموعه داده‌ای مربوط به یک بیماری که در آن ۰.۰۰۰۱ داده‌ها برچسب مثبت و بقیه داده‌ها برچسب منفی دارند دچار مشکل مجموعه‌داده دسته نامتوازن است؛ اما مجموعه داده‌های مربوط به یک پیشگوی بازی فوتبال که در آن ۰.۵۱ داده‌ها برچسب برد یک تیم و ۰.۴۹ داده‌ها برچسب برد تیم دیگر را دارند دارای این مشکل نیست.

Class

هر کدام از مجموعه مقادیر ذکر شده که یک برچسب می‌تواند بپذیرد. برای مثال، در یک مدل دسته‌بندی دوتایی‌ که هرزنامه‌ها را تشخیص می‌دهد، «هرزنامه» و «غیر هرزنامه» دو دسته هستند. یا در یک مدل دسته‌بندی چندتایی که نژاد سگ را تشخیص می‌دهد، دسته‌ها پودل، بیگل، پاگ و ... خواهند بود.

Classification Model

نوعی از مدل‌های یادگیری ماشین که برای تمایز قائل شدن میان دو یا چند دسته مجزا استفاده می‌شوند. به عنوان مثال، یک مدل دسته‌بندی پردازش زبان طبیعی می‌تواند تشخیص دهد که جمله ورودی به کدام یک از زبان‌های فرانسوی، اسپانیایی یا ایتالیایی تعلق دارد. این لغت را با مدل‌های وایازشی (regression model) مقایسه کنید.

Classification Threshold

یک مقدار عددی معیار که بر روی امتیاز خروجی مدل اعمال می‌شود تا دسته مثبت را از دسته منفی جدا کند. از این مقدار زمانی استفاده می‌شود که نیاز است نگاشتی (mapping) بین نتیجه [وایازش آمادی (رگرسیون لجستیک [logistic regression])](/L/logistic_regression) و دسته‌بندی دوتایی ایجاد کنیم. به عنوان مثال، مدل رگرسیون لجستیکی را در نظر بگیرید که احتمال هرزنامه بودن یک پست الکترونیک را بررسی می‌کند. اگر مقدار آستانه دسته‌بندی در این مدل ۰.۹ باشد، خروجی‌های بالای ۰.۹ مدل رگرسیون لجستیک به عنوان هرزنامه و مقادیر زیر ۰.۹ به عنوان غیر هرزنامه دسته‌بندی می‌شوند.

Clipping

روشی برای رسیدگی به داده‌های پرت است. در این روش، ویژگی‌هایی که مقداری بیش از یک مقدار بیشینه مشخص دارند کاهش پیدا می‌کنند تا به آن مقدار بیشینه برسند. هم‌چنین، ویژگی‌هایی که مقداری کمتر از یک مقدار کمینه تعیین شده دارند تا رسیدن به آن مقدار افزایش پیدا می‌کنند.

به عنوان مثال، فرض کنید تنها تعداد محدودی ویژگی مقداری خارج از بازه ۴۰ الی ۶۰ دارند. در این صورت بریده‌سازی جهت از بین بردن داده‌های پرت کارهای زیر را انجام می‌دهد:

علاوه بر بردن داده‌های ورودی به یک بازه مشخص، بریده‌سازی هم‌چنین می‌تواند برای اطمینان از وجود مقدار گرادیان‌ها در یک بازه مشخص نیز استفاده شود.

Clustering

قرار دادن نمونه‌های مرتبط در یک گروه، به خصوص در حین یادگیری بدون نظارت (unsupervised learning). پس از این که تمامی نمونه‌ها در گروه‌ها قرار گرفتند، انسان‌ها می‌توانند به هر خوشه معنایی اختصاص دهند.

الگوریتم‌های خوشه‌بندی زیادی وجود دارند. به عنوان مثال، الگوریتم ‌‌k-means نمونه‌ها را بر اساس نزدیکی‌ آن‌ها به مرکز خوشه دسته‌بندی می‌کند.

cluster

یک محقق می‌تواند پس از اتمام فرآیند آن‌ها را بازبینی کند. به عنوان مثال در نمودار فوق می‌تواند خوشه ۱ را «نهال» و خوشه ۲ را «درخت کامل» نام‌گذاری کرد.

به عنوان مثالی دیگر، الگوریتم خوشه‌بندی دیگری که نمونه‌ها را بر اساس فاصله از نقطه مرکزی دسته‌بندی کند، نمودار زیر را رسم می‌کند.

ring cluster

Co-adaptation

هنگامی که نورون‌ها الگوهای موجود در داده‌های آموزش (training set) را به جای تکیه کردن بر رفتار شبکه به عنوان یک کل، تنها بر اساس خروجی برخی نورون‌های مشخص پیش‌بینی می‌کنند. اگر الگوهایی که باعث سازگاری می‌شوند در داده‌های اعتبارسنجی (validation set) وجود نداشته باشند، در این صورت سازگاری باعث پیش‌برازاندن (overfitting) می‌شود. حذف تصادفی (dropout regularization) باعث کاهش سازگاری می‌شود؛ چون فرآیند حذف تصادفی اطمینان حاصل می‌کند که نورون‌ها تنها به تعدادی نورون خاص وابسته نیستند.

Collaborative Filtering

پیش‌بینی کردن علاقه‌مندی‌های یک کاربر بر اساس علاقه‌مندی‌های کاربران دیگر. پالایش گروهی معمولا در سامانه‌های پیشنهادگر (recommendation systems) استفاده می‌شود.

Confirmation Bias

تمایل به جستجو، تفسیر، تصویب یا به‌ خاطر آوردن اطلاعات به صورتی که باورها یا فرضیه‌های موجود را تایید کند. توسعه‌دهندگان یادگیری ماشین ممکن است ناخواسته در روند جمع‌‌آوری یا برچسب زدن داده‌ها به شکلی عمل کنند که سیستم به خروجی‌ای مطابق با باورهای آنان دست پیدا کند.سوگیری تاییدی نوعی از سوگیری ضمنی‌ (implicit bias) است.

سوگیری چشم‌داشتی (experimenter's bias) حالتی از سوگیری تاییدی است که در آن آزمایش‌گر به آموزش مدل‌ها ادامه می‌دهد تا زمانی که فرضیه‌های موجود تایید شوند.

Confusion Matrix

یک ماتریس n×n که میزان موفقیت یک مدل دسته‌بندی در پیش‌بینی را طور مختصر نمایش می‌دهد. برای این کار هم‌بستگی بین برچسب‌ها و دسته‌بندی‌های مدل بررسی می‌شود. یک محور ماتریس درهم‌ریختگی برچسب‌های پیش‌بینی شده توسط مدل است و محور دیگر برچسب‌های واقعی. n بیانگر تعداد دسته‌هاست. در یک مساله دسته‌بندی دوتایی n برابر ۲ است. به عنوان مثال، جدول زیر یک ماتریس درهم‌ریختگی برای یک مساله دسته‌بندی دوتایی است.

غیر تومور (پیش‌بینی) تومور (پیش‌بینی)
۱ ۱۸ تومور (مقدار واقعی)
۴۵۲ ۶ غیر تومور (مقدار واقعی)

این ماتریس درهم‌ریختگی نشان می‌دهد که مدل از میان ۱۹ نمونه که تومور داشته‌اند، ۱۸ عدد را به درستی به عنوان تومور دسته‌بندی کرده است (۱۸ مثبت حقیقی (true positive)) و ۱ نمونه را به اشتباه در دسته بدون تومور قرار داده است (۱ منفی کاذب (false negative)). هم‌چنین، مدل از ۴۵۸ نمونه که تومور نداشته‌اند، ۴۵۲ عدد را به درستی دسته‌بندی کرده است (۴۵۲ منفی حقیقی (true negative)) و ۶ عدد را در دسته‌های اشتباه قرار داده است (۶ مثبت کاذب (false positive)).

ماتریس درهم‌ریختگی می‌تواند به تشخیص الگوهای اشتباه در یک مساله دسته‌بندی چندتایی کمک کند. به عنوان مثال، ماتریس درهم‌ریختگی می‌تواند آشکار کند که مدلی که برای تشخیص اعداد دست‌نویس آموزش دیده است، در تشخیص اعداد ۲ و ۳ اشتباه می‌کند.

ماتریس درهم‌ریختگی اطلاعات کافی برای محاسبه برخی از معیارهای عملکرد را دارد، مانند دقت (precision) و یادآوری (recall).

Continuous Feature

یک ویژگی اعشاری که می‌تواند بازه نامحدودی از اعداد را بپذیرد.

متضادها: ویژگی گسسته

Convenience Sampling

استفاده از مجموعه داده‌ای که به روش علمی جمع‌آوری نشده است، با هدف اجرای سریع‌تر آزمایش‌ها. در این صورت لازم است که بعدا مجموعه داده‌ای که با روش‌های علمی جمع‌آوری شده جایگزین آن گردد.

Convergence

معمولا به وضعیتی در روند آموزش شبکه اشاره دارد که در آن بعد از مدتی مقدار زیان داده‌های آموزش (training loss) و هم‌چنین مقدار زیان داده‌های اعتبارسنجی (validation loss) در هر تکرار (iteration) خیلی کم تغییر کند یا اصلا تغییر نکند. به بیان دیگر، یک مدل زمانی به همگرایی می‌رسد که ادامه دادن فرآیند آموزش بر روی داده‌های فعلی بهبودی در مدل حاصل نکند. در یادگیری عمیق، گاهی مقادیر تابع زیان قبل از کاهش در چندین گام ثابت می‌مانند که ممکن است به اشتباه همگرایی برداشت شود.

مطالعه بیشتر: توقف زودهنگام (early stopping) ، بهینه‌سازی محدب (Boyd and Vandenberghe, Convex Optimization)

Convex Function

تابعی که در آن فضای بالای گراف تابع یک مجموعه محدب باشد. نمونه اولیه تابع محدب شکلی شبیه حرف "U" دارد. به عنوان مثال، توابع زیر نمونه‌هایی از تابع محدب هستند.

در مقابل نمودارهای فوق، توابع زیر محدب نیستند. توجه کنید که فضای بالای گراف یک مجموعه محدب نیست.

یک تابع اکیدا محدب دقیقا یک نقطه کمینه محلی دارد که همان نقطه کمینه سراسری است. توایع U شکل نیز جزو توایع اکیدا محدب هستند. با این حال، برخی از توایع محدب، مانند خط صاف، U شکل نیستند.

تعداد زیادی از توابع زیان (loss functions) از جمله موارد زیر تابع محدب هستند.

تعداد زیادی از انواع الگوریتم‌های گرادیان کاهشی (gradient descent) تضمین می‌کنند که نقطه‌ای نزدیک به کمینه تابع اکیدا محدب را پیدا می‌کنند. هم‌چنین، تعداد زیادی از انواع الگوریتم های گرادیان کاهشی تصادفی (stochastic gradient descent) نیز شانس بالایی در پیدا کردن نقطه‌ای نزدیک به کمینه یک تابع اکیدا محدب دارند.

مجموع دو تابع محدب (به عنوان مثال، تابع زیان L2 + تنظیم L1) نیز تابعی محدب است.

مدل‌های عمیق هرگز توابع محدب نخواهند بود. باید توجه داشت که الگوریتم‌هایی که برای بهینه‌سازی محدب (convex optimization) طراحی شده‌اند تلاش می‌کنند تا به هر روش پاسخی مناسب برای شبکه‌های عمیق پیدا کنند، اما این پاسخ لزوما مقدار کمینه سراسری نخواهد بود.

Convex Optimization

فرآیند استفاده از تکنیک‌های ریاضی مانند گرادیان کاهشی (gradient descent) با هدف پیدا کردن مقدار کمینه یک تایع محدب. تحقیقات زیادی در حوزه یادگیری ماشین با تمرکز بر پیدا کردن قاعده‌ای جهت تبدیل مسائل مختلف به مساله بهینه‌سازی محدب و حل آن‌ها به روش بهینه‌تر انجام شده است.

مطالعه بیشتر: بهینه‌سازی محدب‌ (Boyd و Vandenberghe, Convex Optimization)

Convex Set

زیرمجموعه‌ای از فضای اقلیدسی به‌نحوی‌که هر پاره‌خطی که بین دو نقطه دلخواه از زیرمجموعه رسم شود، کاملاً درون زیرمجموعه باقی بماند. به‌عنوان‌مثال، شکل‌های زیر مجموعه محدب هستند:

در مقابل، شکل‌های زیرمجموعه محدب نیستند:

Convolution

یکی از توابع ریاضی که دو تابع را با یکدیگر ترکیب می‌کند. در یادگیری ماشین، عملیات کانولوشن فیلتر کانولونشی را با ماتریس ورودی ترکیب می‌کند و از این طریق به آموزش وزن‌ها می‌پردازد.

در یادگیری ماشین، اصطلاح "کانولوشن" معمولا یک واژه کوتاه برای ارجاع به عملیات کانولوشن یا لای پیچشی (کانولوشنی) است.

بدون عملیات کانولوشن، یک روش یادگیری ماشین نیازمند یادگیری وزن‌های جداگانه برای تمام درایه‌های یک تنسور بزرگ است. به عنوان مثال، یک روش یادگیری ماشین که روی تصاویری با ابعاد 2k*2k آموزش می‌بیند، نیازمند یافتن 4M وزن متفاوت است. با کمک کانولوشن‌ها، یک روش یادگیری ماشین، تنها نیازمند یافتن تمام وزن های فیلتر کانولوشنی است که این اتفاق به شدت حافظه مورد نیاز را کاهش می‌دهد.

زمانی که فیلتر کانولوشنی اعمال می‌شود، این فیلتر بر روی همه درایه‌ها تکثیر شده و هر بخش در درایه های متناظر با خود از فیلتر کانولوشنی ضرب می‌شود.

Convolutional Filter

یکی از دو عامل درگیر در عملگر پیچشی (convolutional operation). (عامل دیگر برشی از ماتریس ورودی است.) یک پالایه پیچشی ماتریسی با رتبه‌ای (rank) مشابه ماتریس ورودی است که ابعادی (shape) کوچک‌تر از آن دارد. به عنوان مثال، اگر ماتریس ورودی ۲۸ * ۲۸ باشد، پالایه می‌تواند هر ماتریسی با ابعادی کوچک‌تر از ۲۸ * ۲۸ باشد.

در پردازش تصویر، سلول‌های یک پالایه پیچشی معمولا با یک الگوی ثابت از ۰ و ۱ پر می‌شوند. در یادگیری ماشین، هر سلول پالایه پیچشی معمولا با عددی تصادفی مقداردهی می‌شود و سپس فرآیند آموزش آغاز می‌شود تا مقدار ایده‌آل مشخص شود.

Convolutional Layer

لایه‌ای از یک شبکه عصبی عمیق که در آن یک پالایه پیچشی (convolutional fliter) از روی ماتریس ورودی گذر می‌کند. به عنوان مثال، پالایه پیچشی ۳ * ۳ زیر را در نظر بگیرید:

انیمیشن زیر نشان می‌دهد که چطور لایه پیچشی از ۹ عملگر پیچشی که بر روی ماتریس ورودی ۵ * ۵ اعمال می‌شوند تشکیل شده است. توجه کنید که هر عملگر پیچشی بر روی برش ۳ * ۳ متفاوتی از ماتریس ورودی اعمال می‌شود. ماتریس ۳ * ۳ حاصل (سمت راست) از کنار هم قرار گرفتن نتایج ۹ عملگر پیچشی به وجود می‌آید.

Convolutional Neural Network

شبکه عصبی‌ای که در آن حداقل یک لایه کانولوشنی وجود داشته باشد. یک شبکه عصبی کانولوشنی عادی شامل ترکیبی از لایه‌های زیر است:

شبکه‌های عصبی کانولوشنی در مسائلی مانند بازشناسی تصویر به موفقیت‌های بسیاری دست یافته‌اند.

Convolutional Operation

عبارت است از عملگر ریاضی دو مرحله‌ای زیر:

  1. ضرب درایه به درایه پالایه کانولوشنی (convolutional fliter) و برشی از ماتریس ورودی. (برش مورد نظر از ماتریس ورودی مرتبه و اندازه‌ای مشابه پالایه کانولوشنی دارد.)
  2. محاسبه مجموع تمامی حاصل‌ضرب‌ها.

به عنوان مثال، ماتریس ۵ * ۵ زیر را به عنوان ورودی درنظر بگیرید.

هم‌چنین تصور کنید که پالایه کانولوشنی به شکل زیر باشد:

هر عملگر کانولوشنی یک برش ۲ * ۲ از ماتریس ورودی را درگیر می‌کند. به عنوان مثال، فرض کنید عملگر کانولوشنی بر روی برش ۲ * ۲ بالا - چپ ماتریس ورودی اعمال شود. در این صورت نتیجه به شکل زیر خواهد بود:

هر لایه کانولوشنی از تعدادی عملگر کانولوشنی استفاده می‌کند که هر کدام بر برش متفاوتی از ماتریس ورودی اعمال می‌شوند.

Cost

مترادفی برای زیان (loss) است.

Counterfactual Fairness

یک معیار تساوی (fairness metric) که بررسی می‌کند آیا یک طبقه‌بند (classifier) برای دو موجودیت همسان که تنها در برخی ویژگی‌های حساسیت‌برانگیز (sensitive attributes) با هم تفاوت دارند، نتایج مشابهی تولید می‌کند یا خیر. ارزیابی یک طبقه‌بند با معیار خلاف‌آمدی روشی برای بررسی خاستگاه سوگیری‌های مدل است.

مطالعه بیشتر: هنگامی که جهان‌ها برخورد می‌کنند، ادغام فرضیه‌های خلاف‌آمدی متفاوت در تساوی

Coverage Bias

سوگیری گزینش (selection bias) را ببینید.

Crash Blossom

جمله یا عبارتی با معنای مبهم. این عبارت به یک مساله مهم در درک زبان طبیعی اشاره (natural language understanding) دارد.

Critic

مترادف: Q-شبکه عمیق (Deep Q-Network)

Cross Entropy

تعمیمی از تابع زیان لگاریتمی (Log Loss) برای مسائل طبقه‌بندی چند دسته‌ای. آنتروپی متقاطع اختلاف بین دو توزیع احتمال را اندازه‌گیری می‌کند.

مطالعه بیشتر: سرگشتگی (perplexity)

Cross Validation

ساز و کاری برای پیش‌بینی این که مدل چقدر توانایی تعمیم برای داده‌های جدید را دارد. این کار با آزمایش مدل بر یک یا چند زیرمجموعه از داده‌های آموزش که با آن همپوشانی ندارند اتفاق می‌افتد.