در ترجمه کمک کنید

لغت‌نامه یادگیری ماشین

Machine Learning Glossary

A
A/B Testing آزمایش A/B

یک روش آماری است که به کمک آن می‌توان یک یا دو شیوه (تکنیک) را مقایسه کرد. به طور معمول یک وظیفه لازم در برابر رقیب جدید است که هدف آن تنها تعیین عملکرد بهتر نیست؛ بلکه برای اینکه درک کنیم آیا این تفاوت از نظر آماری معنادار است یا خیر نیز کاربرد دارد.

آزمایش A/B معمولاً تنها دو شیوه (تکنیک) را با استفاده از یک اندازه گیری در نظر می‌گیرد ، اما می‌تواند برای هر تعداد محدودی از تکنیک‌ها و اقدامات استفاده شود.

Accuracy کارایی

کسری از پیش‌بینی‌های درست یک مدل طبقه‌بندی است که در طبقه‌بندی چند کلاسه به صورت زیر تعریف می‌شود:

کارایی = تعداد کل نمونه‌ها/پیش‌بینی‌های درست

در طبقه‌بند دودویی کارایی به صورت زیر تعریف می‌شود :

مثبت واقعی + منفی واقعی/تعداد کل نمونه‌ها

Action عمل

ساز و کاری که توسط آن عامل بین حالت‌های محیط تغییر می‌کند.عامل عملش را با استفاده از خط مشی انتخاب می‌کند.

Activation Function تابع فعال‌ساز

تابعی که مجموع وزنی کلیه ورودی‌های لایه قبلی را می‌گیرد و سپس مقدار خروجی (به طور معمول غیرخطی است) را به لایه بعدی منتقل می‌کند. به عنوان مثال ReLU یا سیگموئید.

Active Learning یادگیری فعال

یک رویکرد آموزشی که در آن الگوریتم به صورت انتخابی طیف خاصی از نمونه های مورد نیاز برای یادگیری را جستجو می‌کند. استفاده از این روش هنگامی که دسترسی به داده پرهزینه باشد یا تعداد داده‌های برچسب گذاری شده اندک، کارآمد است.

Adagrad آداگراد

یک الگوریتم پیشرفته گرادیان کاهشی است که شیب هر پارامتر را ذخیره و به طور موثر به هر پارامتر یک نرخ یادگیری مستقل می‌دهد. برای توضیح کامل‌، به این مقاله مراجعه کنید.

Agent عامل

موجودیتی در یادگیری تقویتی است که با استفاده از خط مشی تلاش می‌‌کند تا بازده مورد انتظار از انتقال بین حالات محیط را به حداکثر برساند.

Agglomerative Clustering خوشه بندی آگلومره

خوشه بندی سلسله مراتبی را ببینید.

AR واقعیت افزوده (مخفف)

مخفف واقعیت افزوده.

Area under the PR curve منطقه زیر منحنی PR

PR AUC (ناحیه زیر منحنی PR) را ببینید.

Area under the ROC curve منطقه زیر منحنی ROC

AUC (ناحیه زیر منحنی ROC) را ببینید.

Artificial General Intelligence هوش‌ عمومی مصنوعی

مکانیسم غیر انسانی که طیف گسترده‌ای از حل مسئله‌، خلاقیت و سازگاری (تطبیق) را نشان می‌دهد. به عنوان مثال، برنامه‌ای که می‌تواند متن را ترجمه کند، سمفونی‌ها را سروده و در بازی هایی که هنوز اختراع نشده اند برتری پیدا کند، نشان دهنده هوش‌ عمومی مصنوعی است.

Artificial Intelligence هوش مصنوعی

برنامه یا الگوی غیر انسانی که می تواند کارهای پیچیده‌ای را حل کند. به عنوان مثال، برنامه یا مدلی که متن را ترجمه می‌کند یا بیماریهای ناشی از تصاویر رادیولوژی را شناسایی، هر دو دارای هوش مصنوعی هستند.

با وجود اینکه یادگیری ماشین یک حوزه فرعی از هوش مصنوعی است، در سال های اخیر برخی از سازمان ها اصطلاحات هوش مصنوعی و یادگیری ماشین را بجای یکدیگر استفاده می‌کنند.

Attribute صفت

مترادفی برای خصیصه (ویژگی) است. صفت‌ها اغلب به خصیصه‌های مربوط به افراد اشاره دارند.

AUC (Area Uder the ROC Curve) AUC (ناحیه زیر منحنی ROC)

یک معیار ارزیابی است که تمام آستانه‌های طبقه‌بندی ممکن را در نظر می‌گیرد.

ناحیه زیر منحنی ROC احتمالی است که در آن طبقه‌بند اطمینان بیشتری کسب کند که یک نمونه مثبت که به طور تصادفی انتخاب شده‌ است در واقع مثبت‌تر از آن است که یک نمونه منفی انتخاب شده به طور تصادفی مثبت باشد.

Augmented Reality واقعیت افزوده

تكنولوژی‌ای که با قرار دادن تصویر کامپیوتری از دنیای واقعی بر روی دید كاربر، نمای مرکبی را ارائه می‌دهد.

Automation Bias سوگیری فرایند خودکار

هنگامی که یک تصمیم گیرنده انسانی توصیه‌هایی که توسط یک سیستم خودکار انجام می‌شود را نسبت به اطلاعاتی که دستی تهیه شده اند برتری می‌دهد، حتی زمانی که سیستم خودکار خطا دارد.

Average Precision میانگین دقت

معیاری برای خلاصه کردن عملکرد یک دنباله‌ رتبه‌بندی شده از نتایج است، که با در نظر گرفتن میانگین مقادیر [صحیح]/P/precision/) مربوط برای هر نتیجه محاسبه می‌شود.

مطالعه بیشتر: منطقه زیر منحنی PR

B
Backpropagation انتشار معکوس

الگوریتمی برای شبکه‌های عصبی با بیش از یک لایه پنهان است، که برای محاسبه دقیق‌تر گرادیان وزن مورد استفاده قرار می‌گیرد. ابتدا مقادیر خروجی هر گره رو به جلو محاسبه می‌شود. سپس مشتقات جزئی خطا با توجه به هر پارامتر با بازگشت به عقب از طریق نمودار محاسبه می شود.

Bag of Words کیف کلمات

ارائه ای بدون ترتیب از لغات درون یک عبارت یا متن برای مثال در کیف کلمات سه عبارت زیر یکسان دیده میشوند.

  • سگ میپرد بالاتر

    بالاتر سگ میپرد

    میپرد بالاتر سگ

هر کلمه به یک شاخص (index) در بردار پراکنده (sparse vector) متصل میشود، جایی که بردار برای هر کلمه در واژگان یک شاخص در نظر گرفته است.

برای مثال عبارت سگ بالاتر میپرد به یک بردار ویژگی با مقادیر غیر صفر برای سه نمایه‌ی مرتبط به کلمات سگ، بالاتر و میپرد متصل میشود. مقادیر غیرصفر میتواند هریک از موارد زیر باشد:

- 1 تا حضور کلمه را نشان بدهد.

- تعداد دفعاتی که کلمه در کیف مشاهده شده است برای مثال اگر عبارت "سگ قهوه‌ای یک سگ با رنگی قهوه‌ای است." باشد هر دو کلمه سگ و قهوه ای با مقدار۲ نمایش داده میشوند، درحالی که سایر کلمات با ۱ نمایش داده خواهند شد.

- الگوریتم های دیگر مانند لگاریتم تعداد دفعات تکرار کلمه در کیف.

Baseline مبنا

مدلی که به عنوان مرجعی برای مقایسه میزان خوب بودن مدلی دیگر (معمولا یک مدل پیچیده تر) استفاده میشود. برای مثال یک logistic regression model ممکن است بتواند به عنوان یک مبنا‌ی خوب برای یک deep model باشد.

Batch دسته

مجموعه مواردی که در یک تکرار (یکبار بروزرسانی گرادیان ) از فرآیند آموزش مدل استفاده می‌شود.

مطالعه بیشتر: اندازه دسته (batch size)

Batch Normalization نرمال سازی دسته

نرمال سازی ورودی یا خروجی تابع فعال ساز در یک لایه‌ی مخفی. نرمال سازی دسته میتواند مزایای زیر را داشته باشد:

- شبکه‌های عصبی را به وسیله ی محافظت در برابر وزن داده‌های پرت پایدار تر میکند.

- نرخ یادگیری را بالاتر میبرد.

- بیش برازاندن (overfitting) را کاهش میدهد.

*

Batch Size اندازه دسته

تعداد مواردی که در یک دسته حضور دارند. مثلا اندازه دسته SGD عدد یک است، درحالی که اندازه دسته یک mini-batch معمولا عددی بین ۱ تا ۱۰۰۰ است. اندازه دسته معمولا در طول فرآیند آموزش و استنتاج ثابت است اگرچه تنسرفلو اجازه تعریف اندازه دسته پویا را نیز میدهد.

Bayesian Neural Network شبکه عصبی بیزین

یک شبکه عصبی احتمالی متکی به قضیه بیز است که عدم قطعیت در وزن‌ها و خروجی‌های شبکه را به خود اختصاص می‌دهد. بیزین بر خلاف یک مدل رگرسیون (پیش‌بینی یک مقیاس) براساس توزیع مقادیر پیش‌بینی می‌کند. به عنوان مثال ، یک مدل قیمت خانه را 853،000 و بیزین قیمت خانه را 853،000 با انحراف استاندارد 67200 پیش‌بینی می‌کند. با استفاده از بیزین می‌توان کمیت عدم قطعیت را تعیین کرد.(مانند مدل‌های مرتبط با دارو) همچنین از بیش‌برازش جلوگیری کرد.

Bellman Equation معادله بلمن

در یادگیری تقویتی (reinforcement learning) اتحاد زیر به وسیله تابع Q زیر بهینه می‌شود.

یادگیری تقویتی با اعمال این اتحاد به یادگیری Q با قاعده به‌روزرسانی زیر منجر می‌شود:

معادله بلمن علاوه بر یادگیری تقویتی کاربردهایی در برنامه‌نویسی پویا نیز دارد.

اطلاعات بیشتر: معادله بلمن در ویکی‌پدیا

Bias (Ethics/Fairness) سوگیری (اخلاق/عدالت)

۱. کلیشه سازی ، تعصب یا طرفداری از برخی چیزها ، افراد یا گروهها نسبت به دیگران. این سوگیری ها می تواند بر روی جمع آوری و تفسیر داده ها ، طراحی سیستم و نحوه تعامل کاربران با یک سیستم تأثیر بگذارد. انواع این نوع تعصب شامل موارد زیر است:

۲. خطای سیستمیک که توسط یک روش نمونه گیری یا گزارش گیری ارائه شده است. انواع این نوع سوگیری شامل موارد زیر است:

با اصطلاح سوگیری درمدل‌های یادگیری ماشین یا سوگیری پیش بینی اشتباه گرفته نشود.

Bias (Math) اریبی (ریاضی)

رهگیری یا انحراف از مبدا. در مدل‌های یادگیری ماشین اریبی (همچنین به عنوان مقدار اریبی نیز شناخته می‌شود.) به عنوان b یا w0 ارجاع داده می‌شود.

با سوگیری اخلاق و عدالت و سوگیری پیش بینی اشتباه گرفته نشود.

Bigram دو کلمه‌ای (دو گرم)

یک N-کلمه‌ای (N-گرم) که در آن N=2 باشد.

Binary Classification طبقه‌بندی دوتایی

نوعی از طبقه‌بندی که خروجی آن به یکی از دو دسته ناسازگار تعلق داشته باشد. به عنوان مثال، یک مدل یادگیری ماشین که پیام‌های الکترونیک را بررسی می‌کند و آن‌ها را در یکی از دو کلاس «هرزنامه» و «غیر هرزنامه» دسته‌بندی می‌کند یک طبقه‌بند دوتایی ست.

Binning پیاله‌بندی کردن

مترادف: سطل‌بندی کردن (bucketing)

Boosting تقویت کردن

یک تکنیک در یادگیری ماشین که به صورت پیاپی مجموعه‌ای از طیقه‌بندهای ساده و نه بسیار دقیق (طبقه‌بندهای ضعیف) را با یک طبقه‌بند با دقت بالا (طبقه‌بند قوی) با دادن وزن بیشتر به نمونه‌هایی که اشتباه طبقه‌بندی می‌شوند ترکیب می‌کند.

Bounding Box کادر محصورکننده

مختصات x و y مستطیلی به دور یک شی در یک تصویر، مانند سگ در تصویر زیر.

Broadcasting انتشار همگانی

گسترش ابعاد (shape) یک عملوند درگیر با یک عملگر ماتریسی به ابعادی که برای آن عملگر مناسب باشند. به عنوان مثال، در جبر خطی نیاز است که دو عملوند درگیر در یک جمع ماتریسی ابعاد مشابهی داشته باشند. به همین دلیل امکان جمع یک ماتریس با ابعاد (m, n) با یک بردار به طول n وجود ندارد. انتشار همگانی امکان این عملیات را با گسترش مجازی وکتور به طول n و تبدیل آن به ماتریس با ابعاد (m, n) که در هر ستون آن یک مقدار تکرار شده فراهم می‌کند.

به عنوان مثال، با مفروضات زیر، جبر خطی جمع ‌‌A و B را نامجاز می‌داند، چون آن‌ها ابعاد متفاوتی دارند.

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

اما انتشار همگانی با افزایش مجازی ابعاد B به ماتریس زیر، محاسبه A+B را ممکن می‌کند.

 [[2, 2, 2],
  [2, 2, 2]]

حال، A+B یک عملیات مجاز است.

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

اطلاعات بیشتر: انتشار همگانی در NumPy

Bucketing سطل‌بندی کردن

تبدیل یک ویژگی (feature) معمولا پیوسته بر اساس بازه مقادیر به چندین ویژگی دودویی که سطل (bucket) یا پیاله (bin) نامیده می‌شوند. به عنوان مثال، به جای بیان دما به عنوان یک ویژگی اعشاری پیوسته می‌توان آن را در چندین دسته گسسته با بازه‌های مشخص قرار داد. اگر داده‌های دما با حساسیت ۰.۱ درجه را داشته باشیم، داده‌هایی که دمایی بین ۰.۰ تا ۱۵.۰ درجه دارند می‌توانند در یک دسته قرار بگیرند، دماهای بین ۱۵.۱ تا ۳۰.۰ درجه در دسته دوم، و داده‌های با دمای بین ۳۰.۱ تا ۵۰.۰ در دسته سوم قرار می‌گیرند.

C
Calibration Layer لایه واسنجی

یک تعدیل پس از پیش‌بینی (post-prediction adjustment) که معمولا برای بررسی سوگیری پیش‌بینی (prediction bias) استفاده می‌شود. پیش‌بینی‌های تعدیل شده و احتمالاتشان باید با توزیع مجموعه‌ی بررسی‌شده‌ای از برچسب‌ها همخوانی داشته باشند.

Candidate Generation تولید کاندیدا

مجموعه اولیه‌ای از پیشنهادات که توسط یک سامانه پیشنهادگر انتخاب شده‌اند. به عنوان مثال، کتاب‌فروشی‌ای که ۱۰۰۰۰۰ عنوان کتاب دارد را در نظر بگیرید. در مرحله تولید کاندیدا، مجموعه‌ی بسیار کوچک‌تری (مثلا ۵۰۰ عنوان) از کتاب‌های مناسب برای یک کاربر مشخص تولید می‌شود. اما ۵۰۰ عنوان نیز عدد بزرگی برای پیشنهاد به کاربر است. در مرحله بعدی (مانند امتیازدهی - ‌scoring یا رتبه‌بندی مجدد - re-ranking) - که گران‌تر نیز هست - یک سامانه پیشنهادگر تلاش می‌کند که آن ۵۰۰ عنوان را به مجموعه‌ای بسیار کوچک‌تر و کاربردی‌تر تبدیل کند.

Candidate Sampling نمونه‌گیری در دسترس (داوطلبانه)

یک بهینه‌سازی در زمان آموزش که در آن احتمال تمامی برچسب‌های مثبت با استفاده از مثلا softmax محاسبه می‌شود؛ اما این کار تنها برای نمونه‌هایی تصادفی از برچسب‌های منفی می‌افتد. به عنوان مثال، برای یک نمونه که برچسب‌های بیگل (نوعی سگ) و سگ را داشته باشد، نمونه‌گیری داوطلبانه احتمالات و مقدار تابع زیان را برای کلاس‌های بیگل و داگ و همچنین برای یک زیرمجموعه تصادفی از باقی‌مانده کلاس‌ها (گربه، آب‌نبات و ...) محاسبه می‌کند. ایده کلی این است که کلاس‌های منفی می‌توانند با تقویت منفی با تکرار کمتر یاد گرفته شوند؛ در حالی که کلاس‌های مثبت همیشه به تقویت مثبت مناسب نیاز دارند. این مساله به صورت تجربی مشاهده می‌شود. هدف نمونه‌گیری در دسترس بهینه‌سازی محاسبات به دلیل محاسبه نکردن احتمالات برای همه کلاس‌های منفی است.

Categorical Data داده رسته‌ای

ویژگی‌هایی که تنها می‌توانند مجموعه‌ی گسسته‌ای از مقادیر ممکن را داشته باشند. برای مثال یک داده‌ی رسته‌ای به نام نوع خانه را در نظر بگیرید، که می‌تواند سه مقدار ممکن ویلایی، آپارتمانی و برج را داشته باشد. با معرفی نوع خانه به عنوان یک داده کیفی مدل می‌تواند تاثیر جداگانه هریک از این سه را بر روی قیمت خانه یاد بگیرد.
گاهی اوقات مقادیر در مجموعه گسسته منحصربفرد هستند و تنها یک مقدار می‌توانند داشته باشند. برای مثال سازنده ماشین احتمالا تنها می‌تواند یک مقدار داشته باشد (مثلا تویوتا).
در سایر اوقات می‌توان بیش از یک مقدار نیز نسبت داد. یک ماشین می‌تواند چند رنگ باشد بنابراین داده رسته‌ای رنگ ماشین یک مثال از است که می‌تواند چندین مقدار داشته باشد. (برای مثال قرمز و سفید.)

داده های کیفی گاهی داده های گسسته نیز خوانده می‌شوند.

متضاد: داده کمی

Centroid-based Clustering خوشه‌بندی بر اساس مرکز خوشه


شاخه‌ای از الگوریتم‌های خوشه‌بندی یا clustering که داده‌ها را در خوشه‌های غیرسلسله‌ مراتبی سازمان‌دهی می‌کند. k-means از پراستفاده‌ترین الگوریتم‌های این شاخه است.

متضادها: خوشه‌بندی سلسله مراتبی (Hierarchical clustering)

Centroid مرکز خوشه

مرکز خوشه‌هایی که توسط الگوریتم‌های k-means یا k-median مشخص می‌شوند. به عنوان مثال، اگر k برابر ۳ باشد، الگوریتم‌های ‌k-means یا k-median سه مرکز خوشه یا centroid پیدا خواهند کرد.

Checkpoint نقطه وارسی

داده‌هایی که وضعیت متغیرهای یک مدل را در یک زمان مشخص ذخیره می‌کنند. با استفاده از این داده‌ها،‌ امکان خروجی گرفتن از وزن‌های مدل را در حالی که در نشست‌های (session) مختلف در حال آموزش است فراهم می‌شود. آن‌ها هم‌چنین این اجازه را می‌دهند که فرآیند آموزش پس از مواجه شدن با خطا (مثلا گرفتن سخت‌افزار مورد نیاز آموزش توسط دیگر برنامه‌ها) ادامه پیدا کند. توجه کنید که گراف به خودی خود در نقطه وارسی (checkpoint) ذخیره نمی‌شود.

Class-imbalanced Dataset مجموعه‌داده دسته نامتوازن

مشکلی است که در مساله‌های دسته‌بندی دوتایی (binary classification) پیش می‌آید که در آن تعداد برچسب‌های یک دسته با دیگری تفاوت زیادی دارد. به عنوان مثال، مجموعه داده‌ای مربوط به یک بیماری که در آن ۰.۰۰۰۱ داده‌ها برچسب مثبت و بقیه داده‌ها برچسب منفی دارند دچار مشکل مجموعه‌داده دسته نامتوازن است؛ اما مجموعه داده‌های مربوط به یک پیشگوی بازی فوتبال که در آن ۰.۵۱ داده‌ها برچسب برد یک تیم و ۰.۴۹ داده‌ها برچسب برد تیم دیگر را دارند دارای این مشکل نیست.

Class دسته

هر کدام از مجموعه مقادیر ذکر شده که یک برچسب می‌تواند بپذیرد. برای مثال، در یک مدل دسته‌بندی دوتایی‌ که هرزنامه‌ها را تشخیص می‌دهد، «هرزنامه» و «غیر هرزنامه» دو دسته هستند. یا در یک مدل دسته‌بندی چندتایی که نژاد سگ را تشخیص می‌دهد، دسته‌ها پودل، بیگل، پاگ و ... خواهند بود.

Classification Model مدل دسته‌بندی

نوعی از مدل‌های یادگیری ماشین که برای تمایز قائل شدن میان دو یا چند دسته مجزا استفاده می‌شوند. به عنوان مثال، یک مدل دسته‌بندی پردازش زبان طبیعی می‌تواند تشخیص دهد که جمله ورودی به کدام یک از زبان‌های فرانسوی، اسپانیایی یا ایتالیایی تعلق دارد. این لغت را با مدل‌های وایازشی (regression model) مقایسه کنید.

Classification Threshold آستانه دسته‌بندی

یک مقدار عددی معیار که بر روی امتیاز خروجی مدل اعمال می‌شود تا دسته مثبت را از دسته منفی جدا کند. از این مقدار زمانی استفاده می‌شود که نیاز است نگاشتی (mapping) بین نتیجه [وایازش آمادی (رگرسیون لجستیک [logistic regression])](/L/logistic_regression) و دسته‌بندی دوتایی ایجاد کنیم. به عنوان مثال، مدل رگرسیون لجستیکی را در نظر بگیرید که احتمال هرزنامه بودن یک پست الکترونیک را بررسی می‌کند. اگر مقدار آستانه دسته‌بندی در این مدل ۰.۹ باشد، خروجی‌های بالای ۰.۹ مدل رگرسیون لجستیک به عنوان هرزنامه و مقادیر زیر ۰.۹ به عنوان غیر هرزنامه دسته‌بندی می‌شوند.

Clipping بریده‌سازی

روشی برای رسیدگی به داده‌های پرت است. در این روش، ویژگی‌هایی که مقداری بیش از یک مقدار بیشینه مشخص دارند کاهش پیدا می‌کنند تا به آن مقدار بیشینه برسند. هم‌چنین، ویژگی‌هایی که مقداری کمتر از یک مقدار کمینه تعیین شده دارند تا رسیدن به آن مقدار افزایش پیدا می‌کنند.

به عنوان مثال، فرض کنید تنها تعداد محدودی ویژگی مقداری خارج از بازه ۴۰ الی ۶۰ دارند. در این صورت بریده‌سازی جهت از بین بردن داده‌های پرت کارهای زیر را انجام می‌دهد:

  • تمام مقادیر بیش از ۶۰ را برابر ۶۰ قرار می‌دهد.
  • تمام مقادیر کمتر از ۴۰ را برابر ۴۰ قرار می‌دهد.

علاوه بر بردن داده‌های ورودی به یک بازه مشخص، بریده‌سازی هم‌چنین می‌تواند برای اطمینان از وجود مقدار گرادیان‌ها در یک بازه مشخص نیز استفاده شود.

Clustering خوشه‌بندی

قرار دادن نمونه‌های مرتبط در یک گروه، به خصوص در حین یادگیری بدون نظارت (unsupervised learning). پس از این که تمامی نمونه‌ها در گروه‌ها قرار گرفتند، انسان‌ها می‌توانند به هر خوشه معنایی اختصاص دهند.

الگوریتم‌های خوشه‌بندی زیادی وجود دارند. به عنوان مثال، الگوریتم ‌‌k-means نمونه‌ها را بر اساس نزدیکی‌ آن‌ها به مرکز خوشه دسته‌بندی می‌کند.

cluster

یک محقق می‌تواند پس از اتمام فرآیند آن‌ها را بازبینی کند. به عنوان مثال در نمودار فوق می‌تواند خوشه ۱ را «نهال» و خوشه ۲ را «درخت کامل» نام‌گذاری کرد.

به عنوان مثالی دیگر، الگوریتم خوشه‌بندی دیگری که نمونه‌ها را بر اساس فاصله از نقطه مرکزی دسته‌بندی کند، نمودار زیر را رسم می‌کند.

ring cluster

Co-adaptation سازگاری

هنگامی که نورون‌ها الگوهای موجود در داده‌های آموزش (training set) را به جای تکیه کردن بر رفتار شبکه به عنوان یک کل، تنها بر اساس خروجی برخی نورون‌های مشخص پیش‌بینی می‌کنند. اگر الگوهایی که باعث سازگاری می‌شوند در داده‌های اعتبارسنجی (validation set) وجود نداشته باشند، در این صورت سازگاری باعث پیش‌برازاندن (overfitting) می‌شود. حذف تصادفی (dropout regularization) باعث کاهش سازگاری می‌شود؛ چون فرآیند حذف تصادفی اطمینان حاصل می‌کند که نورون‌ها تنها به تعدادی نورون خاص وابسته نیستند.

Collaborative Filtering پالایش گروهی

پیش‌بینی کردن علاقه‌مندی‌های یک کاربر بر اساس علاقه‌مندی‌های کاربران دیگر. پالایش گروهی معمولا در سامانه‌های پیشنهادگر (recommendation systems) استفاده می‌شود.

Confirmation Bias سوگیری تاییدی

تمایل به جستجو، تفسیر، تصویب یا به‌ خاطر آوردن اطلاعات به صورتی که باورها یا فرضیه‌های موجود را تایید کند. توسعه‌دهندگان یادگیری ماشین ممکن است ناخواسته در روند جمع‌‌آوری یا برچسب زدن داده‌ها به شکلی عمل کنند که سیستم به خروجی‌ای مطابق با باورهای آنان دست پیدا کند.سوگیری تاییدی نوعی از سوگیری ضمنی‌ (implicit bias) است.

سوگیری چشم‌داشتی (experimenter's bias) حالتی از سوگیری تاییدی است که در آن آزمایش‌گر به آموزش مدل‌ها ادامه می‌دهد تا زمانی که فرضیه‌های موجود تایید شوند.

Confusion Matrix ماتریس درهم‌ریختگی

یک ماتریس n×n که میزان موفقیت یک مدل دسته‌بندی در پیش‌بینی را طور مختصر نمایش می‌دهد. برای این کار هم‌بستگی بین برچسب‌ها و دسته‌بندی‌های مدل بررسی می‌شود. یک محور ماتریس درهم‌ریختگی برچسب‌های پیش‌بینی شده توسط مدل است و محور دیگر برچسب‌های واقعی. n بیانگر تعداد دسته‌هاست. در یک مساله دسته‌بندی دوتایی n برابر ۲ است. به عنوان مثال، جدول زیر یک ماتریس درهم‌ریختگی برای یک مساله دسته‌بندی دوتایی است.

غیر تومور (پیش‌بینی) تومور (پیش‌بینی)
۱ ۱۸ تومور (مقدار واقعی)
۴۵۲ ۶ غیر تومور (مقدار واقعی)

این ماتریس درهم‌ریختگی نشان می‌دهد که مدل از میان ۱۹ نمونه که تومور داشته‌اند، ۱۸ عدد را به درستی به عنوان تومور دسته‌بندی کرده است (۱۸ مثبت حقیقی (true positive)) و ۱ نمونه را به اشتباه در دسته بدون تومور قرار داده است (۱ منفی کاذب (false negative)). هم‌چنین، مدل از ۴۵۸ نمونه که تومور نداشته‌اند، ۴۵۲ عدد را به درستی دسته‌بندی کرده است (۴۵۲ منفی حقیقی (true negative)) و ۶ عدد را در دسته‌های اشتباه قرار داده است (۶ مثبت کاذب (false positive)).

ماتریس درهم‌ریختگی می‌تواند به تشخیص الگوهای اشتباه در یک مساله دسته‌بندی چندتایی کمک کند. به عنوان مثال، ماتریس درهم‌ریختگی می‌تواند آشکار کند که مدلی که برای تشخیص اعداد دست‌نویس آموزش دیده است، در تشخیص اعداد ۲ و ۳ اشتباه می‌کند.

ماتریس درهم‌ریختگی اطلاعات کافی برای محاسبه برخی از معیارهای عملکرد را دارد، مانند دقت (precision) و یادآوری (recall).

Continuous Feature ویژگی پیوسته

یک ویژگی اعشاری که می‌تواند بازه نامحدودی از اعداد را بپذیرد.

متضادها: ویژگی گسسته

Convenience Sampling نمونه‌گیری آسان

استفاده از مجموعه داده‌ای که به روش علمی جمع‌آوری نشده است، با هدف اجرای سریع‌تر آزمایش‌ها. در این صورت لازم است که بعدا مجموعه داده‌ای که با روش‌های علمی جمع‌آوری شده جایگزین آن گردد.

Convergence همگرایی

معمولا به وضعیتی در روند آموزش شبکه اشاره دارد که در آن بعد از مدتی مقدار زیان داده‌های آموزش (training loss) و هم‌چنین مقدار زیان داده‌های اعتبارسنجی (validation loss) در هر تکرار (iteration) خیلی کم تغییر کند یا اصلا تغییر نکند. به بیان دیگر، یک مدل زمانی به همگرایی می‌رسد که ادامه دادن فرآیند آموزش بر روی داده‌های فعلی بهبودی در مدل حاصل نکند. در یادگیری عمیق، گاهی مقادیر تابع زیان قبل از کاهش در چندین گام ثابت می‌مانند که ممکن است به اشتباه همگرایی برداشت شود.

مطالعه بیشتر: توقف زودهنگام (early stopping) ، بهینه‌سازی محدب (Boyd and Vandenberghe, Convex Optimization)

Convex Function تابع محدب

تابعی که در آن فضای بالای گراف تابع یک مجموعه محدب باشد. نمونه اولیه تابع محدب شکلی شبیه حرف "U" دارد. به عنوان مثال، توابع زیر نمونه‌هایی از تابع محدب هستند.

در مقابل نمودارهای فوق، توابع زیر محدب نیستند. توجه کنید که فضای بالای گراف یک مجموعه محدب نیست.

یک تابع اکیدا محدب دقیقا یک نقطه کمینه محلی دارد که همان نقطه کمینه سراسری است. توایع U شکل نیز جزو توایع اکیدا محدب هستند. با این حال، برخی از توایع محدب، مانند خط صاف، U شکل نیستند.

تعداد زیادی از توابع زیان (loss functions) از جمله موارد زیر تابع محدب هستند.

تعداد زیادی از انواع الگوریتم‌های گرادیان کاهشی (gradient descent) تضمین می‌کنند که نقطه‌ای نزدیک به کمینه تابع اکیدا محدب را پیدا می‌کنند. هم‌چنین، تعداد زیادی از انواع الگوریتم های گرادیان کاهشی تصادفی (stochastic gradient descent) نیز شانس بالایی در پیدا کردن نقطه‌ای نزدیک به کمینه یک تابع اکیدا محدب دارند.

مجموع دو تابع محدب (به عنوان مثال، تابع زیان L2 + تنظیم L1) نیز تابعی محدب است.

مدل‌های عمیق هرگز توابع محدب نخواهند بود. باید توجه داشت که الگوریتم‌هایی که برای بهینه‌سازی محدب (convex optimization) طراحی شده‌اند تلاش می‌کنند تا به هر روش پاسخی مناسب برای شبکه‌های عمیق پیدا کنند، اما این پاسخ لزوما مقدار کمینه سراسری نخواهد بود.

Convex Optimization بهینه‌سازی محدب

فرآیند استفاده از تکنیک‌های ریاضی مانند گرادیان کاهشی (gradient descent) با هدف پیدا کردن مقدار کمینه یک تایع محدب. تحقیقات زیادی در حوزه یادگیری ماشین با تمرکز بر پیدا کردن قاعده‌ای جهت تبدیل مسائل مختلف به مساله بهینه‌سازی محدب و حل آن‌ها به روش بهینه‌تر انجام شده است.

مطالعه بیشتر: بهینه‌سازی محدب‌ (Boyd و Vandenberghe, Convex Optimization)

Convex Set مجموعه محدب

زیرمجموعه‌ای از فضای اقلیدسی به‌نحوی‌که هر پاره‌خطی که بین دو نقطه دلخواه از زیرمجموعه رسم شود، کاملاً درون زیرمجموعه باقی بماند. به‌عنوان‌مثال، شکل‌های زیر مجموعه محدب هستند:

در مقابل، شکل‌های زیرمجموعه محدب نیستند:

Convolution کانولوشن

یکی از توابع ریاضی که دو تابع را با یکدیگر ترکیب می‌کند. در یادگیری ماشین، عملیات کانولوشن فیلتر کانولونشی را با ماتریس ورودی ترکیب می‌کند و از این طریق به آموزش وزن‌ها می‌پردازد.

در یادگیری ماشین، اصطلاح "کانولوشن" معمولا یک واژه کوتاه برای ارجاع به عملیات کانولوشن یا لای پیچشی (کانولوشنی) است.

بدون عملیات کانولوشن، یک روش یادگیری ماشین نیازمند یادگیری وزن‌های جداگانه برای تمام درایه‌های یک تنسور بزرگ است. به عنوان مثال، یک روش یادگیری ماشین که روی تصاویری با ابعاد 2k*2k آموزش می‌بیند، نیازمند یافتن 4M وزن متفاوت است. با کمک کانولوشن‌ها، یک روش یادگیری ماشین، تنها نیازمند یافتن تمام وزن های فیلتر کانولوشنی است که این اتفاق به شدت حافظه مورد نیاز را کاهش می‌دهد.

زمانی که فیلتر کانولوشنی اعمال می‌شود، این فیلتر بر روی همه درایه‌ها تکثیر شده و هر بخش در درایه های متناظر با خود از فیلتر کانولوشنی ضرب می‌شود.

Convolutional Filter پالایه کانولوشنی (پیچشی)

یکی از دو عامل درگیر در عملگر پیچشی (convolutional operation). (عامل دیگر برشی از ماتریس ورودی است.) یک پالایه پیچشی ماتریسی با رتبه‌ای (rank) مشابه ماتریس ورودی است که ابعادی (shape) کوچک‌تر از آن دارد. به عنوان مثال، اگر ماتریس ورودی ۲۸ * ۲۸ باشد، پالایه می‌تواند هر ماتریسی با ابعادی کوچک‌تر از ۲۸ * ۲۸ باشد.

در پردازش تصویر، سلول‌های یک پالایه پیچشی معمولا با یک الگوی ثابت از ۰ و ۱ پر می‌شوند. در یادگیری ماشین، هر سلول پالایه پیچشی معمولا با عددی تصادفی مقداردهی می‌شود و سپس فرآیند آموزش آغاز می‌شود تا مقدار ایده‌آل مشخص شود.

Convolutional Layer لایه کانولوشنی (پیچشی)

لایه‌ای از یک شبکه عصبی عمیق که در آن یک پالایه پیچشی (convolutional fliter) از روی ماتریس ورودی گذر می‌کند. به عنوان مثال، پالایه پیچشی ۳ * ۳ زیر را در نظر بگیرید:

انیمیشن زیر نشان می‌دهد که چطور لایه پیچشی از ۹ عملگر پیچشی که بر روی ماتریس ورودی ۵ * ۵ اعمال می‌شوند تشکیل شده است. توجه کنید که هر عملگر پیچشی بر روی برش ۳ * ۳ متفاوتی از ماتریس ورودی اعمال می‌شود. ماتریس ۳ * ۳ حاصل (سمت راست) از کنار هم قرار گرفتن نتایج ۹ عملگر پیچشی به وجود می‌آید.

Convolutional Neural Network شبکه عصبی کانولوشنی (پیچشی)

شبکه عصبی‌ای که در آن حداقل یک لایه کانولوشنی وجود داشته باشد. یک شبکه عصبی کانولوشنی عادی شامل ترکیبی از لایه‌های زیر است:

شبکه‌های عصبی کانولوشنی در مسائلی مانند بازشناسی تصویر به موفقیت‌های بسیاری دست یافته‌اند.

Convolutional Operation عملگر کانولوشنی (پیچشی)

عبارت است از عملگر ریاضی دو مرحله‌ای زیر:

  1. ضرب درایه به درایه پالایه کانولوشنی (convolutional fliter) و برشی از ماتریس ورودی. (برش مورد نظر از ماتریس ورودی مرتبه و اندازه‌ای مشابه پالایه کانولوشنی دارد.)
  2. محاسبه مجموع تمامی حاصل‌ضرب‌ها.

به عنوان مثال، ماتریس ۵ * ۵ زیر را به عنوان ورودی درنظر بگیرید.

هم‌چنین تصور کنید که پالایه کانولوشنی به شکل زیر باشد:

هر عملگر کانولوشنی یک برش ۲ * ۲ از ماتریس ورودی را درگیر می‌کند. به عنوان مثال، فرض کنید عملگر کانولوشنی بر روی برش ۲ * ۲ بالا - چپ ماتریس ورودی اعمال شود. در این صورت نتیجه به شکل زیر خواهد بود:

هر لایه کانولوشنی از تعدادی عملگر کانولوشنی استفاده می‌کند که هر کدام بر برش متفاوتی از ماتریس ورودی اعمال می‌شوند.

Cost هزینه

مترادفی برای زیان (loss) است.

Counterfactual Fairness معیار خلاف‌آمدی

یک معیار تساوی (fairness metric) که بررسی می‌کند آیا یک طبقه‌بند (classifier) برای دو موجودیت همسان که تنها در برخی ویژگی‌های حساسیت‌برانگیز (sensitive attributes) با هم تفاوت دارند، نتایج مشابهی تولید می‌کند یا خیر. ارزیابی یک طبقه‌بند با معیار خلاف‌آمدی روشی برای بررسی خاستگاه سوگیری‌های مدل است.

مطالعه بیشتر: هنگامی که جهان‌ها برخورد می‌کنند، ادغام فرضیه‌های خلاف‌آمدی متفاوت در تساوی

Coverage Bias سوگیری پوشش

سوگیری گزینش (selection bias) را ببینید.

Crash Blossom برداشت نادرست معنایی

جمله یا عبارتی با معنای مبهم. این عبارت به یک مساله مهم در درک زبان طبیعی اشاره (natural language understanding) دارد.

Critic نقاد

مترادف: Q-شبکه عمیق (Deep Q-Network)

Cross Entropy آنتروپی متقاطع

تعمیمی از تابع زیان لگاریتمی (Log Loss) برای مسائل طبقه‌بندی چند دسته‌ای. آنتروپی متقاطع اختلاف بین دو توزیع احتمال را اندازه‌گیری می‌کند.

مطالعه بیشتر: سرگشتگی (perplexity)

Cross Validation اعتبارسنجی تقاطعی

ساز و کاری برای پیش‌بینی این که مدل چقدر توانایی تعمیم برای داده‌های جدید را دارد. این کار با آزمایش مدل بر یک یا چند زیرمجموعه از داده‌های آموزش که با آن همپوشانی ندارند اتفاق می‌افتد.

D
Data Analysis داده‌کاوی

درک داده‌ها با در نظر گرفتن نمونه‌ها و اندازه‌گیری و تصویرسازی از آن‌ها. داده‌کاوی به ویژه هنگامی که مجموعه داده‌ای برای اولین بار دریافت می‌شود می‌تواند برای فردی که می‌خواهد اولین مدل را آموزش دهد مفید باشد. همچنین این کار برای درک آزمایش‌ها و اشکال‌زدایی سیستم بسیار مهم است.

Data Augmentation داده‌افزایی

افزایش مصنوعی بازه و تعداد نمونه‌های آموزش با تغییر نمونه‌های موجود. به عنوان مثال، فرض کنید تصاویر یکی از ویژگی‌های مورد استفاده شما هستند، اما مجموعه داده تعداد کافی نمونه تصویر برای آموزش کاربردی مدل ندارد. در حالت ایده‌آل شما می‌توانید به اندازه کافی تصویر برچسب‌خورده به مجموعه داده اضافه کنید تا مدل درست آموزش داده شود. اگر این کار ممکن نباشد، داده‌افزایی می‌تواند با چرخش، کشیدن و بازتاب هر تصویر گونه‌های مختلفی از تصاویر اصلی ایجاد کنید که شما را به تعداد داده کافی برای آموزش برساند.

Dataset مجموعه داده

مجموعه‌ای از نمونه‌ها.

DataFrame قاب داده

یک نوع داده معروف برای نمایش مجموعه داده‌ها در pandas. DataFrame ساختاری مشابه جدول دارد. هر ستون آن یک نام یا سرتیتر‌ (header) دارد و هر ردیف با یک شماره مشخص می‌شود.

Decision Boundary مرز تصمیم‌گیری

مرزی که کلاس‌های مختلف را از هم جدا می‌کند و توسط یک مدل در یک مساله طبقه‌بندی دوتایی یا چندتایی یاد گرفته شده است. به عنوان مثال، در تصویر زیر که یک مساله دسته‌بندی دوتایی را نشان می‌دهد، مرز بین دو کلاس نارنجی و آبی مرز تصمیم‌گیری است.

Decision Threshold آستانه تصمیم‌گیری

مترادف‌‌ها: آستانه دسته‌بندی (classification threshold)

Decision Tree درخت تصمیم

مدلی که به عنوان دنباله ای از انشعاب‌ها نشان داده می‌شود. به عنوان مثال، درخت تصمیم‌ ساده‌سازی‌شده زیر برای پیش‌بینی قیمت خانه ( هزار دلار) دارای چندین شاخه است. بر اساس این درخت تصمیم، پیش‌بینی می‌شود که خانه‌ای بزرگ‌تر از ۱۶۰ متر مربع، دارای بیش از سه اتاق خواب و با عمری کم‌تر از ۱۰ سال، ۵۱۰ هزار دلار قیمت خواهد داشت.

یادگیری ماشین می‌تواند درخت‌های تصمیم عمیق تولید کند.

Deep Model مدل عمیق

نوعی از شبکه‌های عصبی که دارای چندین لایه پنهان (hidden layer) هستند.

متضاد: مدل‌های گسترده (wide model)

Deep Neural Network شبکه‌ی عصبی عمیق

مترادفی برای مدل عمیق است.

Deep Q-network (DQN) (DQN) شبکه عمیق-Q

در یادگیری Q ، یک شبکه‌ی عصبی عمیق است که توابع Q را پیش‌بینی می‌کند.

می‌توان گفت نقاد (Critic) مترادفی برای شبکه‌ی عمیق Q است.

Demographic Parity برابری جمعیتی

یک معیار سنجش برابری است برای زمانی که پاسخ مدل به یک ویژگی حساس وابسته نباشد.

به عنوان مثال اگر دو گروه از افراد کوتاه و بلند قامت برای یک دانشگاه درخواست بفرستند، در صورت پذیرش درصد مساوی از هر دو گروه صرف نظر از اینکه کدام یک واجد شرایط‌تر هستند برابری جمعیتی حاصل می‌شود.

تضاد با شانس برابر و برابری فرصت‌ها که به طبقه‌بند اجازه‌ می‌دهد به ویژگی‌های حساس وابسته باشد، اجازه نمی‌دهد نتایج طبقه‌بند برای یک سری برچسب‌های حقیقی خاص، وابسته به ویژگی های حساس باشد.

برای درک بهتر بهینه‌سازی برابری جمعیتی به "حمله به تبعیض با یادگیری ماشین هوشمند" مراجعه کنید.

Dense Feature ویژگی متراکم

ویژگی‌ای که در آن بیشتر مقادیر غیر صفراند . به طور معمول یک تنسور از مقادیر شناور، در تضاد با ویژگی پراکنده است.

Dense Layer لایه‌ متراکم

مترادفی برای لایه کاملاً همبند است.

Depth عمق

تعداد لایه‌ها(از جمله هر لایه‌ی تعبیه شده) در یک شبکه عصبی که وزن‌ها را یاد می‌گیرند. به عنوان مثال، یک شبکه عصبی با ۵ لایه پنهان و ۱ لایه خروجی دارای عمق ۶ است.

Depthwise Separable Convolutional Neural Network (sepcnn) (sepCNN) شبکه عصبی کانولوشنال تفکیک‌پذیر

یک معماری شبکه‌ی عصبی کانولوشنال مبتنی بر Inception است که ماژول‌های آن با کانولوشن کانال‌های تفکیک‌پذیر جایگزین می‌شوند. همچنین به عنوان Xception شناخته می‌شود.

کانولوشن کانال‌های تفکیک‌پذیر یک نتیجه‌گیری ۳ بعدی استاندارد را به دو عمل جابجایی جداگانه تبدیل می‌کند که از نظر محاسباتی کارآمد‌تر هستند: اول یک کانولوشن عمیق با عمق 1 (n * n * 1) و سپس یک کانولوشن نقطه‌ای با طول و عرض 1 (1 * 1 * n).

برای کسب اطلاعات بیشتر ، به Xception: Deep Learning with Depthwise Separable Convolutions مراجعه کنید.

Dimension Reduction کاهش بعد

کاهش تعداد ابعاد مورد استفاده برای نشان دادن یک ویژگی خاص درz یک بردار ویژگی که به طور معمول با تبدیل به تعبیه صورت می‌گیرد.

Dimensions ابعاد

با هر یک از عبارات زیر قابل تعریف است:

  • تعداد سطوح مختصات در یک تنسور. مثلا:
  1. یک مقیاس دارای ابعاد صفر است. به عنوان مثال : ["سلام"]
  2. یک وکتور یک بعد دارد. به عنوان مثال : [3 ، 5 ، 7 ، 11]
  3. یک ماتریس دارای دو بعد است. به عنوان مثال : [[2 ، 4 ، 18] ، [5 ، 7 ، 14]]

برای مشخص کردن یک درایه خاص را در یک بردار یک بعدی با یک مختصات و در یک ماتریس دو بعدی به دو مختصات نیاز است.

Discrete Feature ویژگی گسسته

یک ویژگی با مجموعه محدودی از مقادیر ممکن است. به عنوان مثال ویژگی‌ای که مقادیر آن فقط ممکن است حیوانی، نباتی یا معدنی باشد یک ویژگی گسسته یا طبقه بندی شده است.( در تضاد با ویژگی پیوسته)

Discriminative Model مدل تشخیص‌دهنده

مدلی که برچسب‌ها را از مجموعه‌ای از یک یا چند ویژگی، پیش‌بینی می‌کند. به طور کلی‌تر مدل‌های تشخیص‌دهنده احتمال شرطی یک خروجی را با توجه به ویژگی‌ها و وزن‌ها تعریف می‌کنند.

به این صورت که:

(خروجی | ویژگی‌ها ، وزن‌ها)p

به عنوان مثال مدلی که پیش‌بینی می‌کند آیا ایمیلی اسپم است یا خیر(از طریق ویژگی‌ها و وزن‌هایش) مدل تشخیص‌دهنده است.

اغلب الگوهای مبتنی بر یادگیری نظارت‌شده از جمله مدل‌های طبقه‌بندی و رگرسیون مدل‌های تشخیص‌دهنده هستند.(در تضاد با مدل‌های مولد)

Discriminator تشخیص‌دهنده

سیستمی که مشخص می‌کند نمونه‌ها واقعی یا ساختگی هستند و به عنوان یک زیر سیستم در شبکه‌ی مولد تخاصمی بر کار مولد نظارت می‌کند.

Disparate Impact تاثیر نابرابری

تصمیم‌گیری نامتناسب در مورد افرادی که تحت تاثیر گروه‌های مختلف جامعه قرار دارند. معمولا در شرایطی که یک فرآیند تصمیم‌گیری الگوریتمی بجای سود، به بعضی از زیر گروه‌ها آسیب می‌رساند.

به عنوان مثال الگوریتمی را در نظر بگیرید که صلاحیت لیلیپوتی را برای دریافت وام خانه‌ی مینیاتوری تعیین کند‌، احتمالا اگر آدرس پستی آن‌ها حاوی کد پستی خاصی باشد آن‌ها را به عنوان "غیرمجاز" طبقه بندی می‌کنند. حال اگر لیلیپوت‌های Big-Endian آدرس پستی مشابه‌ای با کد پستی لیلیپوت‌های Little-Endian داشته باشند، در این صورت ممکن است این الگوریتم دارای تاثیر متفاوتی باشد که موجب نابرابری می‌شود.

در تضاد با تبعیض(رفتار‌های نابرابر) است که بر نابرابری حاصل از ورودی ویژگی‌های زیر گروه به یک فرآیند تصمیم‌گیری الگوریتمی هستند.

Disparate Treatment رفتار نابرابر

ویژگی‌های حساس فاکتورسازی را به گونه‌ای در یک فرآیند تصمیم گیری الگوریتمی قرار می‌دهد که با زیر گروه‌های مختلف از مردم متفاوت رفتار می‌شود(تبعیض).

به عنوان مثال الگوریتمی را در نظر بگیرید که صلاحیت لیلیپوت‌ها را برای وام خانه کوچک براساس داده‌هایی که در برنامه وام خود ارائه می‌دهند تعیین کند. اگر این الگوریتم از وابستگی لیلیپوت به عنوان Big-Endian یا Little-Endian به عنوان ورودی استفاده کند، در همان بعد نابرابری رفتاری را اعمال می‌کند.

در تضاد با تاثیر نابرابری است که بر نابرابری در تاثیرات اجتماعی تصمیمات الگوریتمی در زیر گروه‌ها متمرکز است، صرف نظر از اینکه زیر گروه‌ها ورودی مدل هستند یا نه.

Divisive Clustering خوشه‌بندی تقسیم‌کننده

خوشه‌بندی سلسله مراتبی را ببینید.

Downsampling نمونه‌کاهی

با هر یک از عبارات زیر قابل تعریف است:

  • به منظور آموزش کارآمدتر مدل، مقدار اطلاعات موجود در یک ویژگی را کاهش می‌دهد. به عنوان مثال قبل از آموزش یک مدل تشخیص تصویر، تصاویر با وضوح بالا را به یک فرمت با وضوح پایین کاهش دهید.
  • آموزش بر روی درصد نامتناسب و نسبتا پایین نمونه‌هایی از کلاسی که بیش از حد تکرار شده‌ به منظور آموزش کارآمدتر مدل در کلاس‌های زیرمجموعه. به عنوان مثال در یک مجموعه داده نامتوازن، مدل‌ها تمایل دارند که درباره کلاسی که شامل اکثریت است چیزهای بیشتری بیاموزند و در مورد کلاس اقلیت کافی نیستند. نمونه‌کاهی به متعادل کردن میزان آموزش در کلاس‌های اکثریت و اقلیت کمک می‌کند.
DQN DQN

اختصار Deep Q-Network.

Dropout Regularization تنظیم حذف تصادفی

نوعی تنظیم کارآمد در آموزش شبکه‌های عصبی است که با حذف یک انتخاب تصادفی از تعداد ثابت واحدهای یک لایه شبکه کار می کند. هرچه واحدها بیشتر از بین بروند، نظم و انعطاف پذیری قوی‌تر می‌شود.که شبیه به آموزش شبکه برای تقلید از یک مجموعه نمایی بزرگ از شبکه‌های کوچک‌تر است. برای جزئیات کامل به "Dropout: A Simple Way to Prevent Neural Networks from Overfitting" مراجعه کنید.

Dynamic Model مدل پویا

مدلی که آنلاین و به صورت پیوسته آموزش داده می‌شود.یعنی داده‌ها بطور پیوسته وارد مدل می‌شوند.

E
Early Stopping توقف اولیه

روشی برای نظم‌دهی (regularization) که شامل توقف آموزش مدل قبل از به پایان رسیدن کاهش مقدار تابع زیان آموزش است. در این روش، فرآیند آموزش زمانی متوقف می‌شود که تابع زیان روی داده‌های اعتبارسنجی افزایش پیدا کند، که این زمانی‌ست که قدرت تعمیم مدل کاهش پیدا می‌کند.

Embedding Space فضای تعبیه شده

فضای برداری d بعدی که ویژگی‌ها از فضای برداری با ابعاد بیشتر به آن نگاشت داده می‌شوند. در حالت ایده‌آل، فضای تعبیه شده شامل ساختاری است که به نتایج ریاضی معناداری منجر می‌شود. به عنوان مثال، در فضای تعبیه شده ایده‌آل می‌توان مسائل قیاس کلمات را با استفاده از جمع و تفریق بردارها حل کرد.

ضرب داخلی دو تعبیه (embedding) شباهت آن دو را محاسبه می‌کند.

Embeddings تعبیه

یک یک ویژگی طبقه‌بندی که به شکل یک ویژگی با مقادیر پیوسته ارائه شود. معمولا، هر تعبیه (‌embedding) نگاشتی از یک بردار در فضای با ابعاد بالا به فضایی با ابعادی کمتر است. به عنوان مثال، کلمه موجود در یک عبارت را می‌توان به یکی از دو شکل زیر نمایش داد:

  • یک بردار پراکنده (sparse vector) با میلیون‌ها درایه (ابعاد بالا) که در آن تمامی درایه‌ها اعداد صحیح‌اند. هر سلول در بردار به یک کلمه تعلق دارد و مقدار آن سلول تعداد دفعات تکرار کلمه در عبارت را نشان می‌دهد. با توجه به این که هر جمله معمولا کمتر از ۵۰ کلمه دارد، بیشتر درایه‌های وکتور مقدار ۰ را خواهند داشت و بقیه سلول‌ها یک مقدار صحیح کوچک (معمولا ۱) خواهند داشت.
  • یک بردار متراکم (dense vector) با چند صد درایه (ابعاد پایین) که در آن هر درایه مقداری اعشاری بین ۰ و ۱ خواهد داشت. این حالت به تعبیه کلمات اشاره دارد.

در Tensorflow تعبیه‌ها مانند هر پارامتر دیگری در شبکه‌های عصبی با محاسبه تابع زیان و انتشار معکوس (backpropagation) محاسبه می‌شوند.

Empirical Risk Minimization (ERM) کمینه‌سازی ریسک تجربی

انتخاب تابعی که مقدار تابع زیان را بر روی داده‌های آموزش کمینه کند.

متضاد: کمینه‌سازی ریسک ساختاری

Ensemble گروه

ادغام‌گر پیش‌بینی‌های چندین مدل. برای ایجاد یک گروه می‌توان از یکی یا چند تا از روش‌های زیر برای آموزش مدل استفاده کرد:

مدل‌های عمیق و گسترده (‌‌Deep and wide models) نوعی از یادگیری جمعی هستند.

Environment محیط

در یادگیری تقویتی، دنیایی که شامل عامل است و به آن امکان مشاهده‌ی حالتش را می‌دهد. به عنوان مثال دنیای عامل می‌تواند یک بازی مانند شطرنج، یا یک دنیای فیزیکی مانند پیچ‌و‌خم باشد. با اقدام به عمل عامل، محیط بین حالات تغییر می‌کند.

Episode قسمت

در یادگیری تقویتی، هر یک از تلاش های مکرر عامل برای یادگیری یک محیط.

Epoch دوره

یک گذر کامل بر روی داده‌ها در فرآیند آموزش به گونه‌ای که هر نمونه یک بار مشاهده شده باشد. در این صورت یک دوره (epoch) شامل [ N / اندازه دسته ] تکرار (iteration) بر روی داده‌های آموزش است که N تعداد کل نمونه‌هاست.

Epsilon Greedy Policy سیاست حریصانه اپسیلون

در یادگیری تقویتی (reinforcement learning) به سیاستی (policy) گفته می‌شود که با احتمال اپسیلون (epsilon) از یک سیاست تصادفی و در غیر این صورت از یک سیاست حریصانه پیروی کند. به عنوان مثال، اگر اپسیلون ۰.۹ باشد، در این صورت باید در ۹۰٪ مواقع از سیاست تصادفی و در ۱۰٪ مواقع از سیاست حریصانه پیروی کرد.

در قسمت‌های (episode) پیاپی، الگوریتم مقدار اپسیلون را کاهش می‌دهد تا به حای دنبال کردن یه سیاست تصادفی، از سیاست حریصانه پیروی کند. با تغییر سیاست، عامل (agent) ابتدا به صورت تصادفی محیط (environment) را جستجو می‌کند و سپس به صورت حریصانه از نتایج جستجوهای تصادفی بهره می‌برد.

Equality of Opportunity برابری فرصت

یک معیار تساوی (fairness metric) که بررسی می‌کند به ازای یک برچسب ترجیحی (چیزی که سود یا امتیازی برای شخص به همراه داشته باشد) و یک صفت (attribute) مشخص، آیا طبقه‌بند (classifier) آن برچسب را برای مقادیر مختلف آن صفت به صورت برابر پیش‌بینی می‌کند یا خیر. به بیان دیگر، برابری فرصت بررسی می‌کند که آیا افرادی که باید از یک موقعیت بهره ببرند جدای از گروه‌های مختلفی که در آن هستند این امکان را دارند یا خیر.

به عنوان مثال، تصور کنید دانشگاه گلوب‌دوب‌دریب (Glubbdubdrib - اسامی به کتاب سفرهای گالیور مربوط هستند.) هم ساکنین لی‌لی‌پوت (Lilliputians) و هم ساکنین براب‌دینگ‌نگ (Brobdingnagians) را برای یک دوره پیشرفته ریاضی پذیرش می‌کند. مدارس متوسطه لی‌لی‌پوت یک برنامه درسی قوی برای کلاس‌های ریاضی ارائه می‌دهند و اکثریت قریب به اتفاق دانش آموزان واجد شرایط برنامه دانشگاه هستند. مدارس متوسطه براب‌دینگ‌نگ به هیچ وجه کلاس ریاضی ارائه نمی دهند و در نتیجه تعداد بسیار کمی از دانش آموزان آن‌ها واجد شرایط هستند. در این حالت برابری فرصت برای برچسب ترجیحی «پذیرفته‌شده» با توجه به «ملیت» در شرایطی برقرار است که دانشجویان واجد شرایط بدون توجه به این که ساکن لی‌لی‌پوت یا براب‌دینگ‌نگ هستند، شانس پذیرفته شدن برابری داشته باشند.

فرض کنید ۱۰۰ دانشجوی ساکن لی‌لی‌پوت و ۱۰۰ دانشجوی براب‌دینگ‌نگ برای دانشگاه گلوب‌دوب‌دریب درخواست داده باشند. و تصمیم پذیرش افراد به شکل زیر است:

جدول ۱ - درخواست‌های لی‌لی‌پوت (۹۰٪ افراد واجد شرایطند.)

فاقد شرایط واجد شرایط
۳ ۴۵ پذیرفته شده
۷ ۴۵ رد شده
۱۰ ۹۰ مجموع

درصد افراد واجد شرایط که پذیرش شده‌اند: ۴۵/۹۰ = ۵۰٪

درصد افراد فاقد شرایط که رد شده‌اند: ۷/۱۰ = ۷۰٪

درصد افراد ساکن لی‌لی‌پوت که پذیرش شده‌اند: ۴۸/۱۰۰ = ۴۸٪

جدول ۲ - درخواست‌های براب‌دینگ‌نگ (۱۰٪ افراد واجد شرایطند.)

فاقد شرایط واجد شرایط
۹ ۵ پذیرفته شده
۸۱ ۵ رد شده
۹۰ ۱۰ مجموع

درصد افراد واجد شرایط که پذیرش شده‌اند: ۵/۱۰ = ۵۰٪

درصد افراد فاقد شرایط که رد شده‌اند: ۸۱/۹۰ = ۹۰٪

درصد افراد ساکن براب‌دینگ‌نگ که پذیرش شده‌اند: ۱۴/۱۰۰ = ۱۴٪

در مثال فوق شرط برابری فرصت برقرار است چون افراد واجد شرایط لی‌لی‌پوت و براب‌دینگ‌نگ هر دو ۵۰٪ شانس پذیرش دارند.

توجه کنید که با وجود این که برابری فرصت برقرار است، دو معیار تساوی زیر وجود ندارند:

  • برابری جمعیتی (demographic parity) : نرخ حضور ساکنین لی‌لی‌پوت و براب‌دینگ‌نگ در دانشگاه متفاوت است. ۴۸٪ از ساکنین لی‌لی‌پوت پذیرفته شده‌اند در حالی که فقط ۱۴٪ از ساکنین براب‌دینگ‌نگ پذیرفته شده‌اند.
  • احتمال یکسان (equalized odds) : با وجود این که افراد واجد شرایط لی‌لی‌پوت و براب‌دینگ‌نگ هر دو شانس یکسانی برای پذیرش دارند، اما این شرط که افراد فاقد شرایط جدا از ملیت شانس یکسانی برای رد شدن داشته باشند برقرار نیست. ۷۰٪ ساکنین فاقد شرایط لی‌لی‌پوت رد می‌شوند در حالی که درخواست ۹۰٪ افراد ساکن براب‌دینگ‌نگ که فاقد شرایط هستند پذیرفته نمی‌شود.

مطالعه بیشتر: برابری فرصت در یادگیری با ناظر (Equality of Opportunity in Supervised Learning) - مقابله با تبعیض با یادگیری ماشین هوشمندتر (Attacking discrimination with smarter machine learning)

Equalized Odds احتمال یکسان

یک معیار تساوی (fairness metric) که بررسی می‌کند به ازای هر برچسب، آیا طبقه‌بند (classifier) آن را برای مقادیر مختلف یک صفت به صورت برابر پیش‌بینی می‌کند یا خیر.

به عنوان مثال، تصور کنید دانشگاه گلوب‌دوب‌دریب (Glubbdubdrib - اسامی به کتاب سفرهای گالیور مربوط هستند.) هم ساکنین لی‌لی‌پوت (Lilliputians) و هم ساکنین براب‌دینگ‌نگ (Brobdingnagians) را برای یک دوره پیشرفته ریاضی پذیرش می‌کند. مدارس متوسطه لی‌لی‌پوت یک برنامه درسی قوی برای کلاس‌های ریاضی ارائه می‌دهند و اکثریت قریب به اتفاق دانش آموزان واجد شرایط برنامه دانشگاه هستند. مدارس متوسطه براب‌دینگ‌نگ به هیچ وجه کلاس ریاضی ارائه نمی دهند و در نتیجه تعداد بسیار کمی از دانش آموزان آن‌ها واجد شرایط هستند. معیار احتمال یکسان زمانی برقرار است که این که درخواست‌دهنده ساکن لی‌لی‌پوت یا براب‌دینگ‌نگ است تفاوتی در نتیجه داوری ایجاد نکند. اگر فرد ساکن لی‌لی‌پوت و براب‌دینگ‌نگ واجد شرایطند، هر دو احتمال پذیرش یکسانی داشته باشند. هم‌چنین اگر این دو فرد فاقد شرایط باشند، هر دو باید احتمال رد شدن یکسانی داشته باشند.

فرض کنید ۱۰۰ دانشجوی ساکن لی‌لی‌پوت و ۱۰۰ دانشجوی براب‌دینگ‌نگ برای دانشگاه گلوب‌دوب‌دریب درخواست داده باشند. و تصمیم پذیرش افراد به شکل زیر است:

جدول ۳ - درخواست‌های لی‌لی‌پوت (۹۰٪ افراد واجد شرایطند.)

فاقد شرایط واجد شرایط
۲ ۴۵ پذیرفته شده
۸ ۴۵ رد شده
۱۰ ۹۰ مجموع

درصد افراد واجد شرایط که پذیرش شده‌اند: ۴۵/۹۰ = ۵۰٪

درصد افراد فاقد شرایط که رد شده‌اند: ۸/۱۰ = ۸۰٪

درصد افراد ساکن لی‌لی‌پوت که پذیرش شده‌اند: ۴۷/۱۰۰ = ۴۷٪

جدول ۴ - درخواست‌های براب‌دینگ‌نگ (۱۰٪ افراد واجد شرایطند.)

فاقد شرایط واجد شرایط
۱۸ ۵ پذیرفته شده
۷۲ ۵ رد شده
۹۰ ۱۰ مجموع

درصد افراد واجد شرایط که پذیرش شده‌اند: ۵/۱۰ = ۵۰٪

درصد افراد فاقد شرایط که رد شده‌اند: ۷۲/۹۰ = ۸۰٪

درصد افراد ساکن براب‌دینگ‌نگ که پذیرش شده‌اند: ۲۳/۱۰۰ = ۲۳٪

در مثال فوق احتمال یکسان برقرار است چون افراد واجد شرایط از لی‌لی‌پوت یا براب‌دینگ‌نگ هر دو ۵۰٪ شانس پذیرش دارند، و افراد فاقد شرایط هر دو شهر نیز ۸۰٪ احتمال رد شدن دارند.

توجه کنید که با این که احتمال یکسان در مثال فوق برقرار است، اما برابری جمعیتی (demographic parity) برقرار نیست. نرخ حضور ساکنین لی‌لی‌پوت و براب‌دینگ‌نگ در دانشگاه متفاوت است. ۴۷٪ از ساکنین لی‌لی‌پوت پذیرفته شده‌اند در حالی که فقط ۲۳٪ از ساکنین براب‌دینگ‌نگ پذیرفته شده‌اند.

احتمال یکسان به صورت رسمی در برابری فرصت در یادگیری با ناظر (Equality of Opportunity in Supervised Learning) تعریف شده است.

این معیار را با حالت آسان‌گیرانه‌تر معیار برابری فرصت (equality of opportunity) مقایسه کنید.

Example نمونه

یک سطر از مجموعه داده. یک نمونه شامل یک یا چند خصیصه و احتمالا یک برچسب است.

اطلاعات بیشتر: نمونه برچسب‌ خورده، نمونه بدون برچسب

Experience Replay تکرار تجربه

یک تکنیک مربوط به ‌DQN در یادگیری تقویتی که با هدف کاهش هم‌بستگی زمانی در مجموعه‌داده‌های آموزش استفاده می‌شود. عامل انتقال بین حالت‌ها را در یک بافر تکرار ذخیره می‌کند، و سپس با نمونه‌گیری از انتقال‌های درون بافر تکرار داده‌های آموزش را ایجاد می‌کند.

Experimenter's Bias سوگیری چشم‌داشتی

سوگیری تاییدی (confirmation bias) را ببینید.

Exploding Gradient Problem مشکل انفجار گرادیان

تمایل گرادیان‌ها در یک شبکه عصبی عمیق (به‌خصوص شبکه‌های عصبی بازگشتی) برای پذیرفتن مقادیر بالا. گرادیان‌های بالا باعث به‌روزرسانی شدید در وزن‌ها در هر گره (node) در شبکه عصبی عمیق می‌شود.

آموزش مدل‌هایی که با مشکل انفجار گرادیان مواجه هستند سخت یا گاهی غیرممکن است. محدود کردن شیب (gradient clipping) می‌تواند در رفع این مشکل موثر باشد.

مقایسه شود با محوشدگی گرادیان (vanishing gradient problem).

F
Fairness Constraint قید تساوی

اضافه کردن یک قید به الگوریتم برای اطمینان پیدا کردن از این که در نتیجه یک یا چند تعریف از تساوی برقرار است. به عنوان نمونه‌هایی از قیدهای محدودیت می‌توان به موارد زیر اشاره کرد:

Fairness Metric معیار تساوی

یک تعریف ریاضی از «تساوی» که قابل اندازه‌گیری باشد. بعضی از معیارهای تساوی پر کاربرد عبارتند از:

بسیاری از معیارهای تساوی با هم ناسازگار هستند.

اطلاعات بیشتر: ناسازگاری معیارهای عدالت

False Negative (FN) منفی کاذب

نمونه‌ای که در آن مدل به اشتباه یک کلاس منفی را پیش‌بینی کرده است. به عنوان مثال، مدل استنباط کرده است که یک پیام الکترونیکی هرزنامه نیست (کلاس منفی)، در حالی که آن پیام در واقع هرزنامه بوده است.

False Positive (FP) مثبت کاذب

نمونه‌ای که در آن مدل به اشتباه کلاسی مثبت را پیش‌بینی می‌کند. به عنوان مثال، مدل استنباط می‌کند که یک پیام الکترونیکی مشخص هرزنامه است‌ (کلاس مثبت)؛ در حال که آن پیام در واقع هرزنامه نیست.

False Positive Rate (FPR) نرخ مثبت کاذب

محور افقی در منحنی ROC. نرخ مثبت کاذب به شکل زیر تعریف می‌شود:

Feature ویژگی

یک متغیر ورودی که برای پیش‌بینی کردن استفاده می‌شود.

Feature Cross تلاقی ویژگی

یک ویژگی مصنوعی که با محاسبه حاصل ضرب دکارتی ویژگی‌های دوتایی منفرد حاصل از داده‌های رسته‌ای یا از ویژگی‌های پیوسته پس از سطل‌بندی کردن (bucketing)، به‌وجود می‌آید. تلاقی ویژگی به نمایش روابط غیرخطی کمک می‌کنند.

Feature Engineering مهندسی ویژگی

روند تعیین این که کدام ویژگی‌ها ممکن است در آموزش مدل مورد استفاده قرار بگیرند، و سپس تبدیل داده‌های خام موجود در منابع مختلف به آن نوع از ویژگی‌ها. در Tensorflow، مهندسی ویژگی معمولا به معنای تبدیل فایل‌های گزارش (log files) به tf.Example است. مهندسی ویژگی گاهی استخراج ویژگی (feature extraction) نیز نامیده می‌شود.

اطلاعات بیشتر: tf.Transform

Feature Extraction استخراج ویژگی

این عبارت می‌تواند یکی از دو معنی زیر را داشته باشد:

Feature Set مجموعه ویژگی

گروهی از ویژگی‌ها که مدل یادگیری ماشین شما بر روی آن‌ها آموزش می‌بیند. به عنوان مثال، کد پستی، اندازه و وضعیت ملک یک مجموعه ویژگی ساده را تشکیل می‌دهند که مدل پیش‌بینی قیمت خانه می‌تواند بر روی آن‌ها آموزش ببیند.

Feature Vector بردار ویژگی

مجموعه‌ای از ویژگی‌ها که در کنار هم به عنوان یک نمونه به مدل داده می‌شوند.

Federated Learning یادگیری مشارکتی

یک رویکرد یادگیری ماشین توزیع‌شده که ماشین‌های برای آموزش مدل از نمونه‌های غیرمتمرکز موجود در دستگاه‌هایی مانند تلفن‌های هوشمند استفاده می‌کنند. در یادگیری مشارکتی، برخی از دستگاه‌ها مدل فعلی را از یک سرور هماهنگ‌کننده‌ی مرکزی بارگیری می‌کنند. دستگاه‌ها از نمونه‌های ذخیره شده در خود برای بهبود مدل استفاده می‌کنند و سپس مدل‌های بهبود یافته (و نه نمونه‌های آموزش را) را در سرور بارگذاری می‌کنند. در سرور تمامی مدل‌های بهبود یافته شده جمع می‌شوند تا یک مدل جهانی بهینه ارائه دهند. پس از این کار، دیگر نیازی به مدل‌های به‌روزرسانی شده توسط دستگاه‌ها نیست و می‌توانند کنار گذاشته شوند.

از آن‌جا که نمونه‌های آموزشی هرگز بارگذاری نمی‌شوند، آموزش مشارکتی از اصول حفظ حریم خصوصی با توجه به جمع‌آوری داده‌ها و به حداقل رساندن انتقال داده‌ها پیروی می‌کند.

اطلاعات بیشتر: یادگیری مشارکتی

Feedback Loop حلقه بازخورد

در یادگیری ماشین، وضعیتی که در آن پیش‌بینی‌های یک مدل بر داده‌های آموزش برای همان مدل یا مدل دیگر تاثیر می‌گذارد. به عنوان مثال، مدلی که برای پیشنهاد فیلم استفاده می‌شود بر روی فیلم‌هایی که مردم می‌بینند تاثیر می‌گذارد، که این اتفاق خود بر مدل‌های پیشنهاد فیلم دیگر تاثیر می‌گذارد.

Feedforward Neural Network (FFN) شبکه عصبی پیش‌خور

یک شبکه عصبی بدون ارتباطات چرخه‌ای یا بازگشتی. به عنوان مثال، شبکه عصبی عمیق نمونه‌ای از شبکه‌های عصبی پیش‌خور است. در مقابل، شبکه عصبی بازگشتی از نوع چرخه‌ای است.

Few-Shot Learning یادگیری با مجموعه داده محدود

یک رویکرد یادگیری ماشین، که اغلب برای طبقه‌بندی اشیا استفاده می‌شود، و برای آموزش طبقه‌بندهای موثر با استفاده از نمونه‌های آموزش محدود و با تعداد کم است.

اطلاعات بیشتر: یادگیری با یک یا چند داده (One-Shot Learning)

Fine Tuning تنظیم دقیق

انجام یک بهینه‌سازی ثانویه با هدف تنظیم پارامترهای یک مدل از قبل آموزش دیده برای یک مساله جدید. تنظیم دقیق اغلب به تغییر وزن‌های یک مدل حاصل از آموزش بدون نظارت (unsupervised learning) دیده برای یک مساله یادگیری نظارت‌شده (supervised learning) اشاره دارد.

Forget Gate دروازه فراموشی

بخشی از سلول‌های حافظه طولانی کوتاه-مدت (LSTM) که جریان اطلاعات در سلول را تنظیم می‌کند. این دروازه تعیین می‌کند که چقدر از اطلاعات قدیمی فراموش شوند.

Full Softmax Softmax کامل (تابع بیشینه هموار)

مطالعه بیشتر: softmax (تابع بیشینه هموار)

متضادها: نمونه‌گیری در دسترس (داوطلبانه)

Fully Connected Layer لایه‌ی کاملا همبند

یک لایه پنهان که در آن هر گره به تمامی گره‌های لایه‌ی پنهان بعدی متصل است.

مترادف: لایه متراکم

G
Gan GAN

مخفف شبکه مولد تخاصمی.(generative adversarial network.)

Generalization تعمیم

به توانایی مدل در ارائه پیش‌بینی‌های صحیح در مورد داده‌های جدید برای آموزش مدل اشاره دارد.

Generalization Curve منحنی تعمیم

منحنی‌ای که میزان اتلاف مجموعه آموزش و مجموعه اعتبار سنجی را نشان می‌دهد. یک منحنی تعمیم می‌تواند در تشخیص بیش‌برازش کمک کند. به عنوان مثال منحنی تعمیم زیر نشان می‌دهد که دچار بیش‌برازش شده است زیرا از بین رفتن مجموعه اعتبارسنجی در نهایت به طور قابل توجهی بیشتر از مجموعه آموزش می‌شود.

Generalized Linear Model مدل خطی تعمیم یافته

تعمیم مدل‌های رگرسیون کمترین مربعات که مبتنی بر نویز گوسی است، به سایر مدل‌های مبتنی بر انواع دیگر نویز، مانند نویز پواسون یا نویزهای طبقه‌ای. نمونه‌هایی از مدل‌های خطی تعمیم یافته عبارت‌اند از:

پارامترهای یک مدل خطی تعمیم یافته را می‌توان از طریق بهینه‌سازی محدب یافت.

مدل‌های خطی تعمیم یافته دارای ویژگی‌های زیر هستند:

  • پیش‌بینی متوسط مدل رگرسیون کمترین مربعات بهینه، با متوسط برچسب داده‌های آموزش برابر است.

    احتمال پیش‌بینی متوسط توسط مدل رگرسیون لجستیک بهینه، با متوسط برچسب داده‌های آموزش است.

توانایی یک مدل خطی عمومی، محدود به ویژگی‌های آن است. برخلاف یک مدل عمیق، یک مدل خطی تعمیم یافته نمی‌تواند "ویژگی‌های جدید را یاد بگیرد".

Generative Adversarial Network (Gan) شبکه های مولد تخاصمی

سیستمی برای ایجاد داده‌های جدید است که در آن مولد داده ایجاد می‌کند و یک تشخیص دهنده بررسی می‌کند که داد‌ه‌های ایجاد شده معتبر هستند یا نامعتبر هستند.

Generative Model مدل مولد

از نظر عملی مدلی است که یکی از موارد زیر را انجام دهد:

نمونه‌های جدیدی را از مجموعه داده‌های آموزشی ایجاد می‌کند. به عنوان مثال یک مدل مولد می‌تواند پس از آموزش بر روی مجموعه‌ای از اشعار، شعر ایجاد کند. بخش مولد یک شبکه‌ی مولد تخاصمی در این گروه قرار می‌گیرد.

احتمال اینکه نمونه‌ی جدید از مجموعه آموزشی است یا از همان مکانیسم ایجاد شده برای مجموعه آموزش ایجاد شده را مشخص می‌کند. به عنوان مثال پس از آموزش روی مجموعه داده‌ای متشکل از جملات انگلیسی، می‌تواند احتمال اعتبار ورودی جدید یک جمله انگلیسی را تعیین کند.

یک مدل مولد از لحاظ نظری می‌تواند توزیع نمونه‌ها یا ویژگی‌های خاص در یک مجموعه داده را تشخیص دهد. به این معنا که: (مثال)P

الگوهای یادگیری بدون نظارت مولد هستند.

متضاد: مدل‌های تشخیص‌دهنده

Generator مولد

زیر سیستم در یک شبکه‌ی مولد تخاصمی که نمونه‌های جدیدی ایجاد می‌کند.

متضاد: تشخیص‌دهنده

Gradient شیب

به بردار مشتقات جزئی با توجه به تمام متغیرهای مستقل گویند که در یادگیری ماشین، شیب بردار مشتقات جزئی از عملکرد مدل است.(شیب در جهت صعودی حرکت می‌کند)

Gradient Clipping محدود کردن شیب

مکانیسمی متداول برای کاهش شیب، در مسئله‌ی گسترش بیش‌ از اندازه‌ی شیب است که، از طریق محدود کردن مصنوعی حداکثر ارزش آن هنگام آموزش مدل از طریق کاهش شیب به کار می‌رود.

Gradient Descent کاهش شیب

یک روش برای به حداقل رساندن میزان افت، با محاسبه‌ی شیب آن توجه به پارامترهای مدل و داده های آموزشی است. می‌توان گفت کاهش شیب، به طور تکراری پارامترها را تنظیم می‌کند و به تدریج بهترین ترکیب وزن‌ها و مقدار پیش‌فرض را می‌یابد تا میزان افت به حداقل برسد.

Greedy Policy خط‌مشی حریصانه

در یادگیری تقویتی، خط‌مشی‌ای که همیشه عملی با بالاترین بازده مورد انتظار را انتخاب می‌کند.

Ground Truth حقیقت مبنا

پاسخ درست یا واقعیت است. از آنجا که واقعیت غالباً ذهنی است، معمولا کارشناسان ارزیاب تعیین‌کننده حقیقت مبنا(یافته‌های عینی) هستند.

Group Attribution Bias انتساب گروهی مقدار پیش‌فرض

به فرض اینکه آنچه برای یک فرد صادق است، برای همه افراد در آن گروه نیز صادق است، در صورت نمونه‌گیری راحت برای جمع آوری داده‌ها، اثرات انتساب گروهی مقدار پیش‌فرض می‌تواند تشدید شود. در یک نمونه‌ی غیر نماینده، ممکن است باعث تصوراتی که منعکس کننده‌ی واقعیت نیست شود.


مطالعه بیشتر: out-group homogeneity bias و in-group bias

H
Hashing درهم‌سازی

در یادگیری ماشین مکانیزمی است برای جمع آوری داده‌های دسته‌بندی شده، به ویژه هنگامی که تعدادشان زیاد باشد، اما تعداد دسته‌های نسبتا کمی در مجموعه داده ظاهر شوند.

به عنوان مثال زمین محل زندگی حدود ۶۰۰۰۰ گونه درخت است که می‌توان هر یک از این گونه‌ها را در ۶۰۰۰۰ گروه، دسته‌بندی جداگانه نشان داد. متناوبا اگر فقط ۲۰۰ گونه از درختان واقعا در یک مجموعه داده ظاهر شوند، می‌توان از درهم‌سازی برای تقسیم گونه‌های درختی به ۵۰۰ گروه استفاده کرد.

یک گروه می‌تواند شامل چندین گونه درخت باشد، که به عنوان مثال می‌توان با درهم‌سازی بائوباب و افرا قرمز - دو گونه متفاوت از نظر ژنتیکی - را در یک گروه قرار داد. صرف‌نظر از این‌، درهم‌سازی هنوز هم روش مناسبی برای نقشه‌برداری از مجموعه‌های بزرگ دسته‌ای به تعداد دلخواهی گروه است. درهم‌سازی با یک روش معین گروه بندی مقادیر یک ویژگی دسته‌ای را که دارای تعداد زیادی مقادیر ممکن است، به تعداد بسیار کمتری از مقادیر تبدیل می‌کند.

برای کسب اطلاعات بیشتر در مورد درهم‌سازی، به قسمت Feature Columns در راهنمای برنامه‌نویسان TensorFlow مراجعه کنید.

Heuristic ابتکاری

یک راه حل سریع برای یک مسئله، که ممکن است بهترین راه حل باشد یا نباشد. به عنوان مثال "با یک ابتکار، ما به دقت ۸۶٪ دست یافتیم ولی هنگامی که از شبکه عصبی عمیق استفاده کردیم، دقت تا ۹۸٪ افزایش یافت."

Hidden Layer لایه پنهان

در شبکه عصبی یک لایه ساختگی(مصنوعی) بین لایه ورودی (یعنی ویژگی‌ها) و لایه خروجی (پیش‌بینی) است. لایه‌های پنهان اغلب دارای یک تابع فعال سازی (مانند ReLU) برای آموزش هستند. یک شبکه عصبی عمیق بیش از یک لایه پنهان را شامل می‌شود.

Hidden State حافظه نهان

نورون‌هایی از یک شبکه عصبی بازگشتی که مانند حافظه مدل عمل می‌کنند. حافظه نهان یک شبکه عصبی بازگشتی باید اطلاعات موجود در داده‌هایی که قبلا توسط مدل دیده شده را در خود ذخیره کند تا در پیش‌بینی‌های مربوط به گام‌های زمانی بعد از آن‌ها استفاده کند.

Hierarchical Clustering خوشه‌بندی سلسله مراتبی

دسته‌ای از الگوریتم‌های خوشه‌بندی، که درختی از خوشه‌ها را ایجاد می‌کنند. این الگوریتم‌ها برای داده‌های سلسله مراتبی مانند طبقه‌بندی‌های گیاهی مناسب هستند. دو نوع الگوریتم خوشه‌بندی سلسله مراتبی وجود دارد:

  • خوشه‌بندی جمع‌کننده: ابتدا هر مثالی را به یک خوشه اختصاص داده و به طور تکراری نزدیک‌ترین خوشه‌ها را برای ایجاد یک درخت سلسله مراتبی ادغام می‌کند.
  • خوشه‌بندی تقسیم‌کننده: ابتدا تمامی مثال‌ها را به یک خوشه گروه‌بندی می‌کند و سپس خوشه را به صورت تکراری به یک درخت سلسله مراتبی تقسیم می‌کند.

متضاد: خوشه‌بندی مبتنی بر مرکز

Hinge Loss hinge هزینه‌ی

خانواده‌ای از توابع هزینه که برای طبقه‌بندی طراحی شده‌اند تا مرز تصمیم گیری را تا جایی که ممکن است از هر نمونه آموزش پیدا کنند. بنابراین تفاوت بین مثال‌ها و مرز تصمیم را به حداکثر می‌رساند. KSVMs ها از هزینه‌ی hinge (یا عملکرد مربوطه مانند هزینه‌ی مربع hinge) استفاده می‌کنند. برای طبقه‌بندی باینری، عملکردهزینه‌ی hinge به صورت زیر تعریف می‌شود:

که در آن y برچسب واقعی است، یا -1 یا 1+ و y 'خروجی خام مدل طبقه‌بندی است:

در نتیجه یک نمودار هزینه‌ی hinge در مقابل (y * y ') به صورت زیر است:

Holdout Data داده‌های نگه‌داری

نمونه‌هایی از داده که عمدا در حین آموزش استفاده نشده‌اند(نگه داشته شده). مجموعه داده‌های اعتبار سنجی و آزمایشی، نمونه‌هایی از داده‌های نگه‌داری هستند. داده‌های نگه‌داری می‌توانند به ارزیابی توانایی مدل برای تعمیم به داده‌های جدا از داده‌هایی که روی آن‌ها آموزش داده شده است‌، کمک کنند. هزینه در مجموعه نگه‌داری ، تخمین بهتری از هزینه‌ی یک مجموعه داده مشاهده نشده نسبت به هزینه‌ی مجموعه آموزش ارائه می‌دهد.

Hyperparameter ابر پارامتر

پارامتر‌هایی که در طول دوره‌های متوالی آموزش یک مدل تغییر می‌دهید. به عنوان مثال میزان یادگیری یک ابر پارامتر است.

متضاد: پارامتر

Hyperplane ابر صفحه

مرزی که یک فضا را به دو زیر فضا تقسیم می‌کند. به عنوان مثال خط، یک صفحه‌ی دو بعدی است و صفحه یک ابر صفحه‌ی سه بعدی است. به طور معمول در یادگیری ماشینی‌، ابر صفحه‌ مرزی است که یک فضای با ابعاد بالا را جدا می‌کند. Kernel Support Machines اغلب در یک فضای بسیار بزرگ با استفاده از ابر صفحه‌‌ها کلاس‌های مثبت را از کلاس‌های منفی جدا می‌کند.

I
i.i.d. i.i.d.

مخفف توزیع شده به صورت مستقل و یکسان.

Image Recognition تشخیص تصویر

پروسه ای که طی ان شی (اشیا), الگو(ها) یا مفهوم(مفاهیم) موجود در یک عکس طبقه بندی می شوند.تشخیص تصویر به عنوان طبقه بندی تصویر نیز شناخته می شود.

برای اطلاعات بیشتر این لینک را مشاهده کنید.

Imbalanced Dataset مجموعه‌داده نامتوازن

مترادفی برای مجموعه‌داده دسته نامتوازن است.

Implicit Bias سوگیری ضمنی

فرد براساس الگوی فکری و خاطراتش ارتباط یا گمانی به طور غیرارادی فرض می کند.سوگیری ضمنی می تواند بر موارد زیر تاییر بگذارد:

  • چگونگی جمع اوری و دسته بندی داده
  • چگونگی طراحی و توسعه سیستم های یادگیری ماشین

برای مثال در طراحی یک سیستم تشخیص عکس مراسم عروسی, یک مهندس ممکن است وجود لباس سفید در عکس را به عنوان یک ویژگی در نظر بگیرد درحالیکه لباس سفید فقط در دوره های زمانی و فرهنگ های مشخصی به عنوان عرف بوده است. مطالعه بیشتر: سوگیری تاییدی

In-group Bias سوگیری بین گروهی

طرفداری یا تعصب نشان دادن برای گروه یا مشخصات خود.اگر ازمونگر ها و ارزیاب ها (یک پروژه یادگیری ماشین) دوستان, خانواده یا همکاران توسعه دهنده یادگیری ماشین باشند, سوگیری بین گروهی می تواند ازمایش محصول یا دیتاست را بی اعتبار کند.

سوگیری بین گروهی نوعی از انتساب گروهی مقدار پیش فرض می باشد.

مطالعه بیشتر: سوگیری همگنی خارج از گروهی

Incompatibility Of Fairness Metrics ناسازگاری معیارهای عدالت

این گمان که برخی از مفاهیم عدالت با یکدیگر ناسازگارند و نمی توانند به طور همزمان ارضا شوند.در نتیجه این گمان, یک معیار جهانی برای کمی سازی عدالت که در همه مسائل یادگیری ماشین قابل پیاده سازی باشد وجود ندارد.

با اینکه این گمان ممکن است دلسردکننده به نظر برسد بدین معنی نیست که تلاشها برای برقراری عدالت (در مسائل یادگیری ماشین) بی نتیجه می باشند در عوض پیشنهاد می دهد که عدالت باید با توجه به مفاد و محتوای (مسئله یادگیری ماشین) برای مسئله یادگیری ماشین داده شده با هدف جلوگیری از اسیب زدن به موارد استفاده از ان تعریف شود.

برای اطلاعات بیشتر این مقاله را مطالعه کنید.

Independently and Identically Distributed (i.i.d) توزیع شده به شکل مستقل و یکسان

داه ای که از توزیعی گرفته شده است که تغییر نمی کند و هر مقدار گرفته شده در این داده ارتباطی با مقداری که از قبل گرفته شده است ندارد.یک i.i.d گاز ایده ال یادگیری ماشین است - یک ساختار ریاضی مفید که تقریبا اصلا در دنیای واقعی اتفاق نمی افتد.برای مثال توزیع بازدیدکنندگان یک صفحه وب می تواند در یک بازه ی کوتاهی از زمان یک i.i.d باشد زیرا توزیع ان در این بازه کوتاه تغییر نمی کند و بازدید یک فرد از ان صفحه از بازدید فرد دیگر از ان صفحه مستقل می باشد. با اینحال اگر این بازه را بسط بدهیم در (توزیع) بازدیدکنندگان ممکن است تفاوت هایی پدیدار شود.

Individual Fairness تساوی فردی

معیار تساوی که بررسی می کند ایا افراد مشابه یکسان طبقه بندی شده اند یا خیر.برای مثال یک دانشگاه برای برقرار کردن تساوی و انصاف ممکن است اطمینان حاصل کند که حتما دو دانش اموز با نمرات یکسان و نمرات ازمون استاندارد یکسان شانس پذیرش یکسانی دارند.

درنظر داشته باشید که تساوی فردی بسیار وابسته به این هست که شما شباهت را چگونه تعریف می کنید (در مورد بالا نمرات ازمون) و این ریسک وجود دارد که مشکلات تساوی و انصاف جدیدی بوجود بیایند اگر این معیار های شباهت درست انتخاب نشده و اطلاعات مهم را در نظر نگیرند (برای مثال در مثال بالا درجه سختی برنامه درسی داش اموز).

برای اطلاعات بیشتر می توانید این مقاله را مطالعه کنید.

Inference استنباط

در یادگیری ماشین, معمولا به فرایند پیش بینی کردن از طریق اجرا کردن نمونه های بدون برچسب روی مدل اموزش دیده گفته می شود.در امار, به فرایند برازاندن مولفه های یک توزیع براساس برخی از داده های مشاهده شده گفته می شود.

برای اطلاعات بیشتر این مقاله را در ویکی پدیا مطالعه کنید.

Input Layer لایه ورودی

اولین لایه در یک شبکه عصبی (که داده ی ورودی را دریافت می کند.)

Instance نمونه

هم معنی نمونه.

Inter-rater Agreement توافق بین ارزیابان

سنجش میزان توافق بین ارزیابان در هنگام انجام یک کار.(یک نمره که درجه ی همگونی و توافق را در ارزیابی های داده شده توسط چندین کارشناس معین می کند.).اگر ارزیابان (هنگام انجام یک کار) یا یکدیگر مخالف کنند, دستورالعمل های ان کار ممکن است نیاز به بهبود داشته باشد.این توافق گاهی توافق بین حاشیه نویسان و یا پایایی بین ارزیابان هم نامیده می شود.

می توانید این مقاله در مورد کاپای کوهن را در ویکی پدیا مطالعه کنید که یکی از پرطرفدارترین معیار های اندازه گیری توافق بین ارزیابان می باشد.

Interpretability تفسیرپذیری

درجه سختی توضیح پیش بینی های یک مدل.مدل های عمیق معمولا غیرقابل تفسیر می باشند بدین معنی که لایه های مختلف یک مدل عمیق به سختی قابل رمزگشایی می باشند.در مقابل ان مدل های رگرسیون خطی و مدل های گسترده معمولا بسیار قابل تفسیرتر می باشند.

Intersection Over Union (iou) اشتراک بر اجتماع

اشتراک دو مجموعه تقسیم بر اجتماعشان.در یادگیری ماشین در کارهای تشخیص در تصویر اشتراک بر اجتماع برای اندازه گیری دقت کادر محصورکننده پیش بینی شده توسط مدل در مقایسه با کادر محصورکننده حقیقی استفاده می شود.در این مورد, اشتراک بر اجتماع دو کادر برابر است با نسبت مساحت همپوشانی به مساحت کل و مقدار این نسبت بین ۰(هیچ همپوشانی بین کادر محصورکننده پیش بینی شده توسط مدل و کادر محصورکننده حقیقی وجود ندارد) تا ۱(مختصات کادر محصورکننده پیش بینی شده توسط مدل و کادرمحصورکننده حقیقی دقیقا یکسان است) تغییر می کند.

برای مثال در تصویر زیر:

  • کادر محصورکننده پیش بینی شده توسط مدل (مختصاتی که تعیین می کند مدل, میز شب را در کجای این نقاشی پیش بینی کرده) با رنگ بنفش مشخص شده است.
  • کادر محصورکننده حقیقی (مختصاتی که مکان واقعی میز شب را در نقاشی مشخص می کند) با رنگ سبز مشخص شده است.

در تصویر زیر اشتراک کادر محصورکننده پیش بینی شده توسط مدل با کادر محصورکننده حقیقی ۱ و اجتماع انها (تصویر اخر) ۷ می باشد پس میزان اشتراک بر اجتماعشان ۱/۷ می باشد.

IoU اشتراک بر اجتماع

مخفف اشتراک بر اجتماع یا Intersection Over Union است.

Item Matrix ماتریس آیتم

ماتریسی که در سیستم‌های توصیه‌گر از ویژگی‌های ساخته شده توسط عامل‌بندی ماتریس که سیگنال‌های نهفته درباره هر آیتم را نگهداری می‌کند ایجاد می‌شود. هر ردیف از ماتریس آیتم، مقدار یک ویژگی نهفته را برای همه موارد نشان می‌دهد. به عنوان مثال، یک سیستم توصیه‌گر درباره فیلم‌ها را در نظر بگیرید. هر ستون در ماتریس آیتم نشان‌دهنده یک فیلم است. سیگنال‌های نهفته ممکن است نشان‌دهنده‌ی ژانرها باشند، یا ممکن است سیگنال‌های سخت-تفسیری باشند که ارتباطات پیچیده‌ای بین سبک فیلم، امتیاز، سال ساخت یا عوامل دیگر را شامل شود.

ماتریس آیتم همان تعداد ستون دارد که ماتریس عامل‌بندی هدف باید داشته باشد. به عنوان مثال، ماتریس آیتم یک سیستم توصیه‌گر فیلم که ۱۰۰۰۰ فیلم را ارزیابی می‌کند، ۱۰۰۰۰ ستون خواهد داشت.

Items موارد (آیتم‌ها)

اقلامی که یک سیستم توصیه‌گر از بین آن‌ها پیشنهاد می‌دهد. به عنوان مثال، برای یک سیستم توصیه‌گر در یک کتاب‌فروشی، کتاب‌ها آیتم حساب می‌شوند.

Iteration تکرار

هر بروزرسانی بر روی وزن‌های مدل در حین فرآیند آموزش. یک تکرار شامل محاسبه گرادیان‌های پارامترهای شبکه با در نظر گرفتن مقدار زیان شبکه بر روی یک دسته (batch) از داده‌ها است.

J
K
K-means K-means

یکی از الگوریتم‌های محبوب خوشه‌بندی است که برای گروه‌بندی دسته‌ها در یادگیری بدون نظارت استفاده می‌شود. الگوریتم k-means بطور کلی موارد زیر را انجام می‌دهد:

  • با تکرار بهترین نقاط مرکز k را تعیین می‌کند(معروف به centroids).
  • هر نمونه را به نزدیک‌ترین مرکز اختصاص می‌دهد. نمونه‌های نزدیک به مرکز، متعلق به یک گروه هستند.

الگوریتم k-means مکان‌های مرکزی را انتخاب می‌کند تا مربع تجمعی فواصل هر مثال، تا نزدیک‌ترین مرکز خود را به حداقل برساند.

به عنوان مثال نمودار زیر را از قد سگ تا عرض سگ در نظر بگیرید:

اگر k = 3 باشد‌، الگوریتم k-mean سه مرکز را معین می‌کند. هر مثال به نزدیک‌ترین مرکز خود اختصاص داده شده که دارای سه گروه است:

تصور کنید که یک تولید کننده می‌خواهد اندازه‌های ایده‌آل ژاکت‌های کوچک، متوسط و بزرگ را برای سگ‌ها مشخص کند. سه مرکز نمایانگر متوسط قد و عرض هر سگ را در آن خوشه است. بنابراین تولید کننده احتمالا باید اندازه ژاکت را براساس این سه مرکز تولید کند. توجه داشته باشید که مرکز خوشه معمولا نمونه‌ای در خوشه نیست.

تصاویر قبلی k-Mean را برای مثال‌هایی با تنها دو ویژگی (قد و عرض) نشان می‌دهداما این الگوریتم می‌تواند مثال‌ها را در بسیاری از ویژگی‌ها گروه بندی کند.

K-median K-median

یک الگوریتم خوشه‌بندی که مرتبط با k-means است. تفاوت عملی بین این دو به صورت زیر است:

  • در k-means، مرکزها با به حداقل رساندن مجموع مربعات فاصله بین یک کاندیدای مرکز و هر یک از نمونه‌های آن تعیین می شوند.
  • در k-median، مرکزها با به حداقل رساندن مجموع فاصله بین یک کاندیدای مرکز و هر یک از نمون‌ های آن تعیین می شوند.

توجه داشته باشید که تعاریف فاصله نیز متفاوت است:

k-mean به فاصله اقلیدسی از مرکز تا یک مثال متکی است. (در دو بعد، فاصله‌ی اقلیدسی به معنای استفاده از قضیه فیثاغورث برای محاسبه وتر است.) به عنوان مثال k-means بین (2،2) و (5 ، -2) خواهد بود:

k-median به فاصله منهتن از مرکز تا یک مثال متکی است. این فاصله جمع دلتاهای مطلق در هر بعد است. به عنوان مثال ، فاصله k-median بین (2،2) و (5 ، -2) خواهد بود:

Keras کراس

کراس یک API پایتونی محبوب یادگیری ماشین است که با چندین چارچوب یادگیری عمیق، از جمله تنسورفلو اجرا می‌شود.(به عنوان tf.keras در دسترس است)

مطالعه بیشتر: keras.io

Kernel Support Vector Machines(ksvms) ماشین‌های بردار پشتیبانی (KSVMs)

یک الگوریتم طبقه‌بندی است که با نگاشت بردارهای داده ورودی به فضای بعدی بالاتر، حاشیه بین طبقات مثبت و منفی را به حداکثر می‌رساند. به عنوان مثال یک مسئله‌ی طبقه‌بندی را در نظر بگیرید که در آن مجموعه داده ورودی دارای صد ویژگی باشد. برای به حداکثر رساندن حاشیه بین طبقات مثبت و منفی، یک KSVM می‌تواند این ویژگی‌ها را به صورت داخلی در یک فضای یک میلیون بعدی قرار دهد. KSVM ها از یک تابع زیانی به نام هزینه‌ی hinge استفاده می‌کنند.

Keypoints نقاط کلیدی

نقاط کلیدی شامل مختصات ویژگی‌های خاص، در یک تصویر هستند. به عنوان مثال برای یک مدل تشخیص تصویر که گونه‌های گل را از یکدیگر متمایز می‌کند، نقاط کلیدی ممکن است مرکز هر گلبرگ، ساقه، پرچم و غیره باشد.

L
L1 loss تابع زیان L1

تابع زبانی بر اساس قدرمطلق تفاضل مقدار پیش‌بینی شده توسط مدل و مقدار واقعی برچسب. تابع زیان L1 نسبت به تابع زیان L2 کمتر به استثنائات حساس است.

L1 Regularization نظم‌دهی L1

نوعی از نظم‌دهی (regularization) که وزن‌ها را به نسبت مجموع مقدار قدر مطلق آن‌ها کاهش می‌دهد. در مدل‌هایی که بر ویژگی‌های پراکنده (sparse features) تکیه دارند، نظم‌دهی L1 کمک می‌کند تا وزن ویژگی‌های نامربوط یا کم‌ارتباط به دقیقا ۰ برسد. این کار آن ویژگی‌ها را از مدل حذف می‌کند.

متضادها: نظم‌دهی L2 (L2 regularization)

L2 Loss تابع زیان L2

تابع زیان مربعات (squared loss) را ببینید.

L2 Regularization نظم‌دهی L2

نوعی از نظم‌دهی که وزن‌ها را به نسبت مجموع مربعات آن‌ها کاهش می‌دهد. نظم‌دهی ‌L2 تلاش می‌کند تا وزن‌های استثناء (آن‌هایی که مقدار مثبت بسیار بالا یا مقدار منفی بسیار پایین دارند) به صفر نزدیک شوند اما دقیقا صفر نشوند. این نظم‌دهی همیشه قدرت تعمیم مدل‌های خطی را بالا می‌برد.

متضاد: نظم‌دهی ‌L1

Label برچسب

در یادگیری با ناظر به «پاسخ» یا «نتیجه» مورد انتظار به ازای یک نمونه برچسب می‌گویند. هر نمونه در یک مجموعه داده برچسب‌خورده از یک یا بیشتر ویژگی و یک برچسب تشکیل می‌شود. به عنوان مثال، در یک مجموعه داده اطلاعات ساختمان‌ها، ویژگی‌ها می‌توانند تعداد اتاق‌ها، تعداد حمام‌ها و سن خانه باشند و برچسب می‌تواند قیمت خانه باشد. در یک مجموعه داده تشخیص هرزنامه، ویژگی‌ها می‌توانند موضوع، فرسنتنده و محتوای پیام باشند و برچسب می‌تواند احتمال هرزنامه بودن یا نبودن باشد.

Labeled Example نمونه برچسب‌خورده

نمونه‌ای که شامل ویژگی‌ها و یک برچسب است. در یادگیری با ناظر، مدل‌ها از نمونه‌های برچسب‌خورده یاد می‌گیرند.

Lambda لامبدا (لامدا)

مترادف: نرخ نظم‌دهی

این یک اصطلاح با معانی مختلف است. در این‌جا بر معنی مربوط به نظم‌دهی (regularization) تمرکز شده است.

Landmarks نشانگرها

مترادف: نقاط کلیدی (keypoints)

Layer لایه

مجموعه‌ای از نورون‌ها در یک شبکه عصبی که مجموعه ویژگی‌های ورودی یا خروجی نورون‌های دیگر را پردازش می‌کنند.

Learning Rate نرخ یادگیری

یک مقدار عددی که در آموزش مدل با روش کاهش شیب (gradient descent) استفاده می‌شود. در هر گام، الگوریتم کاهش شیب مقدار نرخ یادگیری را در گرادیان‌ها یا شیب‌ها ضرب می‌کند. حاصل ضرب این‌ها گام شیب نامیده می‌شود.

نرخ یادگیری یک ابرپارامتر (hyperparameter) کلیدی است.

Least Squares Regression رگرسیون کمترین مربعات

یک مدل رگرسیون خطی که با کمینه کردن تابع خطای L2 آموزش دیده است.

Linear Model مدل خطی

مدلی که برای پیش‌بینی کردن به هر ویژگی یک وزن اختصاص می‌دهد. (مدل‌های خطی همچنین یک مقدار اریبی را با حاصل جمع ادغام می‌کنند.) در مقابل مدل‌های خطی، رابطه وزن‌ها با ویژگی‌ها در مدل‌های عمیق یک به یک نیست.

یک مدل خطی از فرمول زیر پیروی می‌کند:

در فرمول فوق:

  • y' مقدار پیش‌بینی خام است. (در برخی از انواع مدل‌های خطی، این مقدار خام بعدا تغییر می‌‌کند. به عنوان مثال رگرسیون لجستیک را ببینید.)
  • b مقدار اریبی است.
  • w یک وزن است. w1 وزن ویژگی اول، w2 وزن ویژگی دوم و ... است.
  • x یک ویژگی است. x1 مقدار ویژگی اول، x2 مقدار ویژگی دوم و ... است.

به عنوان مثال فرض کنید که یک مدل خطی برای سه ویژگی وزن‌ها و مقدار اریبی زیر را آموزش دیده است.

  • b = 7
  • w1 = -2.5
  • w2 = -1.2
  • w3 = 1.4

در این صورت برای سه ویژگی x1، x2 و x3 مدل از معادله زیر جهت پیش‌بینی استفاده می‌کند:

فرض کنید که در یک نمونه ویژگی‌ها مقادیر زیر را داشته باشند:

  • x1 = 4
  • x2 = -10
  • x3 = 5

با قرار دادن آن‌ها در معادله فوق مقدار پیش‌بینی‌شده به شکل زیر خواهد بود:

مدل‌های خطی راحت‌تر از مدل‌های خطی آموزش داده و تحلیل می‌شوند. اما مدل‌های عمیق می‌تواند روابط پیچیده‌تری بین ویژگی‌ها را درک کنند.

رگرسیون خطی و رگرسیون لجستیک دو مدل از انواع مدل‌های خطی هستند. مدل‌خای خطی نه تنها شامل مدل‌هایی که از یک معادله خطی پیروی می‌کنند می‌شود، بلکه به مدل‌هایی که بخشی از فرمول آن‌ها یک معادله خطی باشد نیز اطلاق می‌شود. به عنوان مثال، رگرسیون لجستیک مقدار خام پیش‌بینی‌شده را جهت اعلام نتیجه نهایی پس‌پردازش می‌کند.

Linear Regression رگرسیون خطی

استفاده از خروجی خام (y') یک مدل خطی به عنوان نتیجه نهایی یک مدل رگرسیون. هدف مساله‌های رگرسیون یک پیش‌بینی با ارزش واقعی ات. به عنوان مثال، اگر مقدار خروجی مدل خطی ۸.۳۷ باشد، مقدار پیش‌بینی نیز ۸.۳۷ خواهد بود.

متضادها: رگرسیون لجستیک، دسته‌بندی (این مدل‌ها در مقابل رگرسیون به صورت کلی قرار می‌گیرند.)

Log-odds لگاریتم احتمالات

لگاریتم احتمالات چندین پیشامد.

اگر پیشامد به یک احتمال دودویی اشاره کند، در این صورت odds به نسبت موفقیت (p) بر روی شکست (1-p) اشاره می‌کند. به عنوان مثال، فرض کنید که پیشامدی ۹۰٪ احتمال موفقیت و ۱۰٪ احتمال شکست دارد. در این صورت داریم:

لگاریتم احتمالا به لگاریتم مقدار فوق گفته می‌شود. قرارداد شده است که منظور از لگاریتم، لگاریتم طبیعی است، اما در واقع می‌تواند لگاریتم هر مقداری بزرگ‌تر از ۱ باشد. با در نظر گرفتن قرارداد، در مثال گفته شده داریم:

لگاریتم احتمال معکوس خروجی تابع sigmoid است.

Log Loss تابع زیان لگاریتمی

تابع زیانی که در مساله‌های رگرسیون خطی دو کلاسه استفاده می‌شود.

Logistic Regression رگرسیون لجستیک

رگرسیون لجستیک یا آمادی یک مدل طبقه‌بندی است که با استفاده از تابع sigmoid پیش‌بینی‌های خام یک مدل خطی (y') را به مقداری بین ۰ و ۱ تبدیل می‌کند. این مقدار بین ۰ و ۱ را می‌توان به یکی از روش‌های زیر تفسیر کرد:

  • احتمال این که در یک مساله دسته‌بندی دوتایی نمونه به کلاس مثبت تعلق داشته باشد.

  • مقداری که باید با حد آستانه دسته‌بندی مقایسه شود. اگر این مقدار برابر یا بزرگ‌تر از حد آستانه دسته‌بندی بود، سامانه نمونه را متعلق به کلاس مثبت درنظر می‌گیرد. در مقابل، اگر نمونه کوچک‌تر از حد آستانه تعیین‌شده بود، سامانه نمونه را متعلق به کلاس منفی درنظر می‌گیرد. به عنوان مثال، فرض کنید که آستانه دسته‌بندی برابر ۰.۸۲ است:

    • نمونه‌ای را تصور کنید که مقدار خام پیش‌بینی آن ۲.۶ بوده است. اگر این مقدار را به تابع sigmoid بدهیم، خروجی برابر ۰.۹۳ خواهد بود. با توجه به این که ۰.۹۳ از ۰.۸۲ بزرگ‌تر است، سامانه نمونه را متعلق به کلاس مثبت درنظر می‌گیرد.
    • نمونه دیگری را تصور کنید که مقدار خام پیش‌بینی مدل برای آن ۱.۳ است. مقدار تابع sigmoid به ازای این ورودی برابر ۰.۷۹ خواهد بود. چون ۰.۷۹ از ۰.۸۲ کوچک‌تر است، سامانه آن را به عنوان نمونه‌ای کلاس منفی درنظر می‌گیرد.

با وجود این که رگرسیون خطی معمولا در مساله‌های دسته‌بندی دوتایی استفاده می‌شود، اما می‌توان از آن در مسائل طبقه‌بندی چندتایی نیز استفاده کرد که به آن رگرسیون خطی چند‌دسته‌ای (multi-class logistic regression) یا رگرسیون چندجمله‌ای (multinomial regression) گفته می‌شود.

Logits لوجیت

برداری از پیش‌بینی‌های خام (نرمال نشده) که یک مدل طبقه‌بندی تولید می‌کند، و در شرایط عادی به عنوان ورودی به یک تابع نرمال‌سازی پاس داده ‌می‌شوند. اگر مدل یک مساله طبقه‌بندی چند-دسته‌ای را حل کند، لوجیت‌ها معمولا ورودی تابع softmax خواهند بود. این تابع برداری از احتمالات نرمال‌شده برمی‌گرداند که به ازای هر کلاس یک مقدار دارد.

هم‌چنین، لوجیت گاهی به معنای معکوس درایه به درایه تایع sigmoid نیز هست. برای اطلاعات بیشتر، این صفحه را ببینید.

Long Short-Term Memory (LSTM) حافظه بلند کوتاه-مدت

نوعی از نورون‌های سازنده یک شبکه عصبی بازگشتی که برای پردازش دنباله‌ای از داده‌ها در حوزه‌هایی مانند تشخیص دست‌نوشته، ترجمه ماشینی و شرح تصاویر استفاده می‌شود. آن‌ها مشکل محوشدگی گرادیان را که به خاطر رشته‌های طولانی داده‌ها در آموزش شبکه‌های عصبی بازگشتی (RNN) رخ می‌داد، با نگهداری تاریخچه در یک حافظه داخلی بر اساس ورودی جدید و مقدار قبلی سلول مشخص کردند.

Loss زیان

معیاری برای اندازه‌گیری این که پیش‌بینی‌های مدل چقدر از برچسب‌ها دورند. به بیان دیگر، این معیار برای اندازه‌گیری مقدار بد بودن مدل است. برای مشخص شدن این مقدار، باید برای مدل یک تابع زیان تعریف شود. به عنوان مثال، مدل‌های رگرسیون خطی معمولا از میانگین مربع خطاها (mean squared error) به عنوان تابع زیان استفاده می‌کنند، در حالی که مدل‌های رگرسیون لجستیک (logistic regression) از تابع زیان لگاریتمی استفاده می‌کنند.

Loss Curve منحنی زیان

نمودار مقادیر تابع زیان به عنوان تابعی از گام‌های آموزش. به عنوان مثال نمودار زیر را درنظر بگیرید:

منحنی زیان برای تشخیص همگرایی، بیش‌برازشی (overfitting) و کم‌برازشی (underfitting) مدل استفاده می‌شود.

Loss Function تابع زیان

تابعی که جهت اندازه‌گیری مقدار بد عمل کردن یک مدل تعریف می‌شود. به بیان دیگر، تابع زیان تابعی‌ست که نگاشتی از وضعیت مدل به یک مقدار حقیقی که تحت عنوان زیان شناخته می‌شود برقرار می‌سازد.

Loss Surface نمای زیان

نموداری از وزن(ها) در برابر مقدار تابع زیان. الگوریتم کاهش شیب (gradient descent) تلاش می‌کند تا وزنی را پیدا کند که به ازای آن مقدار نمای زیان در نقطه کمینه محلی باشد.

LSTM LSTM

مخفف حافظه طولانی کوتاه-مدت (Long Short-Term Memory).

M
Machine Learning یادگیری ماشین

برنامه یا سیستمی که از داده های ورودی، یک مدل پیش بینی کننده را ایجاد می‌کند (آموزش می دهد). این سیستم با استفاده از مدل یادگرفته شده، پش‌بینی‌های مفیدی را از داده های جدید (قبلاً هرگز دیده نشده) که از همان توزیع داده‌های ورودی است، می‌کند. یادگیری ماشین به رشته تحصیلی مربوط به این حوزه هم اشاره دارد.

Majority Class کلاس اکثریت

نامی که در مجموعه‌داده دسته نامتوازن به کلاس دارای داده بیشتر گفته می شود. به عنوان مثال در مجموعه داده‌ای که ۹۹ درصد برچسب داده ها غیر هرزنامه و ۱ درصد برچسب ها هرزنامه باشد. کلاس با برچسب غیرهرزنامه کلاس اکثریت نامیده می‌شود.

Markov Decision Process (MDP) (MDP) فرایند تصمیم گیری مارکوف

یک چارچوب ریاضی است برای مدل‌سازی تصمیم‌گیری در شرایطی که نتایج تا حدودی تصادفی و تا حدودی تحت کنترل یک تصمیم‌گیر است. MDPs برای مطالعه طیف گسترده‌ای از مسائل بهینه سازی که از طریق برنامه‌نویسی پویا و تقویت یادگیری حل می‌شوند مفید است.

تصویر زیر یک نمونه ساده از MDP است:

این نمونه دارای ۳ حالت (دایره های سبز رنگ) و ۲ عمل (a0 , a1) و ۲ پاداش ( خط های نارنجی رنگ) است

Markov Property ویژگی مارکوف

ویژگی از محیط های قطعی که اطلاعات جاجایی در بین حالت ها با داشتن حالت فعلی و عمل عامل به صورت کاملا قطعی مشخص شده است.

matplotlib matplotlib

کتابخانه ای در زبان برنامه نویس پایتون که برای رسم نمودار و بصری سازی استفاده می‌شود.

Matrix Factorization ماتریس عامل‌بندی

در ریاضیات، مکانیزمی برای یافتن ماتریس هایی که حاصلضرب آنها به یک ماتریس هدف نزدیک است. گفته می‌شود.

در سامانه پیشنهادگر, ماتریس هدف امتیاز کاربر ها براساس آیتم هاست. برای مثال، ماتریس هدف یک سامانه پیشنهادگر فیلم چیزی شبیه جدول زیر است که عدد مثبت به معنای امتیاز کاربر به فیلم و صفر به معنی امتیاز ندادن کاربر است.

Casablanca The Philadelphia Story Black Panther Wonder Woman Pulp Fiction
کاربر ۱ 5.0 3.0 0.0 2.0 0.0
کاربر ۲ 4.0 0.0 0.0 1.0 5.0

سامانه پیشنهادگر فیلم هدف‌اش این است که امتیاز برای فیلم های بدون امتیاز پیش بینی می‌کند. مثلا آیا کاربر ۱ فیلمBlack Panther را دوست دارد؟ هدف سامانه های پیشنهادگر این است که با استفاده از ماتریس عامل‌بندی دو ماتریس، ماتریس آیتم و ماتریس کاربر را تولید کند.

برای مثالو با استفاده از ماتریس عامل‌بندی در ۳ کاربر و ۵ آیتم بالا، ماتریس آیتم و کاربر زیر را داریم:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

که حاصل ضرب دو ماتریس بالا به ما ماتریس پیشنهادگر را می‌دهد که هم شامل امتیاز واقعی کاربران و هم شامل امتیاز پیش بینی شده برای فیلم هایی که کاربر هنوز مشاهده نکرده.

Mean Absolute Error (MAE) میانگین خطا مطلق

یک معیار اندازه گیری خطا به صورت میانگین گیری از خطای مطلق محاسبه می‌شود. در مبحث خطای های مدل. MAE میانگین تفاوت بین مقدار واقعی و مقدار پیش‌بینی شده بر روی تمام نمونه های آموزش است. مثلا برای n نمونه آزمایش، برای هر مقدار واقعی y و مقدار پیش‌بینی شده y^ فرمول MAEبه صورت زیر است:

Mean Squared Error (MSE) میانگین مجذور خطا

میانگین مجذورخطا در در نمونه، MSE با تقسیم مجذور خطا بر تعداد نمونه ها. به صورت پیش فرض در تنسورفلو برای خطای آموزش و خطای آزمایش از این MSE استفاده می‌کنند.

Metric معیار

عددی که برای شما مهم است. ممکن است به صورت مستقیم در سامانه یادگیری ماشین بهینه نشود

Metrics API (tf.metrics) ماژول معیارها

یک ماژول در پکیج تنسرفلو که مجموعه فعالیت های مربوط به بررسی مدل

برای مثال: tf.metrics.accuracy` برای مشخص کردن اینکه چقدر پیش‌بینی های مدل درست بوده است، استفاده می‌شود.

Mini Batch دسته کوچک

یک دسته کوچک و اتفاقی از دسته های کل نمونه ها که باهم در یک حلقه آموزش یا اجرا می‌شوند.
اندازه دسته‌ی یک دسته کوچک معمولا بین ۱۰ تا ۱۰۰۰ است. محاسبه خطا بر روی دسته کوچک بهینه تر از محاسبه خطا بر روی کل نمونه های آموزش است.

mini-batch Stochastic Gradient Descent (SGD) کاهش شیب تصادفی دسته کوچک

الگوریتم کاهش شیب که از دسته کوچک استفاده می‌کند. می‌توان گفت که کاهش شیب با دسته کوچک، کاهش شیب را براساس مقدار کوچکی از داده های آموزش تخمین می‌زند. کاهش شیب تصادفی از سایز دسته کوچک ۱ استفاده می‌کند.

Minimax Loss خطا مینی‌مکس

تابع خطایی که برای شبکه های مولد تخاصمی است،که بر اساس آنتروپی متقاطع بین توزیع داده های تولید شده و داده واقعی است.

این خطا در اولین مقاله‌ای که برای توضیح شبکه‌های مولد تخاصمی استفاده شده است.

Minority Class کلاس اقلیت

نامی که در مجموعه‌داده دسته نامتوازن به کلاس دارای داده کمتر گفته می شود. به عنوان مثال در مجموعه داده‌ای که ۹۹ درصد برچسب داده ها غیر هرزنامه و ۱ درصد برچسب ها هرزنامه باشد. کلاس با برچسب هرزنامه کلاس اقلیت نامیده می‌شود.

ML یادگیری ماشین

مخففی از کلمه یادگیری ماشین

MINST minst مجموعه داده

مجموعه داده با دسترسی رایگان و عمومی جمع‌آوری شده LeCun, Cortes, and Burges حدود ۶۰۰۰۰ تصویر، هر تصویر یک عدد از ۰ -۹ از دستخط افراد مختلف است. هر تصویر در سایر ۲۸ در ۲۸ ذخیره شده‌اند. تصاویر به صورت خاکستری ذخیره شده‌اند یعنی تنها یک آرایه از اعداد بین ۰ تا ۲۵۵ هستند.

این مجموعه‌داده یکی از مجموعه‌داده استاندار و معتبر در حوزه یادگیری ماشین است برای رویکرد های جدید یادگیری ماشین استفاده می‌شود.

Model مدل

نمایشی از آنچه یک سامانه یادگیری ماشین از داده‌های آموزش یاد گرفته است. در Tensorflow مدل می‌تواند بیش از یک معنی داشته باشد که عبارتند از:

  • یک گراف Tensorflow که ساختار محاسبه پیش‌بینی‌ها را نمایش می‌دهد.
  • وزن‌ها و مقدار اریبی‌ها (bias) در یک گراف Tensorflow که در روند آموزش تعیین شده‌اند.
Model Capacity ظرفیت مدل

پیچیدگی مساله هایی که مدل میتونه حل کنه. هرچقدر مساله پیچیده‌تر باشه،مدل برای اینکه بتونه حل کنه باید ظرفیت بیشتری داشته باشه. که ظرفیت مدل وقتی زیاد میشه که تعداد پارامتر های مدل بیشتر بشه.

Model Training آموزش مدل

مراحل تعیین بهترین مدل

Momentum الگوریتم مومنتوم

یک الگوریتم کاهش شیب پیچیده که در آن یک نرخ یادگیری نه تنها به مشتق در مرحله فعلی، بلکه به مشتقات مرحله (های) بلافاصله قبل از آن نیز بستگی دارد. مومنتوم شامل محاسبه میانگین متحرک با وزن نمایی از گرادیان ها در طول زمان است که مشابه تکانه در فیزیک است. حرکت گاهی اوقات مانع از گیرکردن در حداقل‌های محلی می شود.

multi-class Classification طبقه‌بندی چندکلاسه

یک مساله طبقه‌بندی که دارای بیشتر از ۲ کلاس است، برای مثال تقریبا ۱۲۸ گونه درخت افرا وجود دارد، بنابراین مدلی که گونه‌های درخت افرا را طبقه‌بندی می‌کند، چند کلاسه است. برعکس، مدلی که ایمیل ها را تنها به دو دسته تقسیم می‌کند (هرزنامه و غیرهرزنامه) یک مدل طبقه‌بندی باینری خواهد بود.

multi-class Logistic Regression رگرسیون لجستیک چندکلاسه

استفاده از رگرسیون لجستیک در طبقه بندی چند کلاس

Multinomial Classification طبقه بندی چندکلاسه

معادلی برای طبقه بندی چندکلاسه.

N
N-gram N کلمه‌ای

یک دنباله‌ی ترتیبی از N کلمه. به عنوان مثال، «واژه شروع» یک دو کلمه‌ای است. با توجه این که ترتیب در دنباله‌ها اهمیت دارد، «شروع واژه» یک دو کلمه‌ای متفاوت است.

N نام نمونه
2 دو کلمه‌ای (bigram) برای رفتن، رفتن برای، خوردن ناهار، خوردن شام
3 سه کلمه‌ای (trigram) بسیار زیاد خوردن، سه موش کور
4 چهار کلمه‌ای راه رفتن در پارک، ذره غبار در باد

بسیاری از مدل‌های درک زبان طبیعی از N کلمه‌ای‌ها جهت پیش‌بینی کلمه‌ بعدی کاربر استفاده می‌کنند. به عنوان مثال، فرض کنید یک کاربر عبارت «سه موش» را بنویسد. یک مدل درک زبان طبیعی بر اساس سه‌ کلمه‌ای‌ها احتمالا کلمه بعدی کاربر را «موش» پیش‌بینی خواهد کرد.

متضادها: کیف کلمات (bag of words) که مجموعه‌ای از کلمات بدون در نظر گرفتن ترتیب است

NaN Trap تله ناعدد

هنگامی که یک عدد در فرآیند آموزش مدل تبدیل به ناعدد (NaN - Not a Number) شود، باعث می‌شود برخی یا همه اعداد در مدل به ناعدد تبدیل شوند.

Natural Language Understanding فهم زبان‌ طبیعی

درک مقصود کاربر با توجه به آنچه گفته یا نوشته است. به عنوان مثال، یک موتور جستجو از فهم زبان طبیعی جهت تشخیص این که کاربر به دنبال چه می‌گردد استفاده می‌کند.

Negative Class کلاس منفی

در طبقه‌بندی دوتایی، یکی از دسته‌ها کلاس مثبت و دیگری کلاس منفی نام‌گذاری می‌شود. کلاس مثبت شامل آن چیزی است که به دنبال آن می‌گردیم و کلاس منفی فاقد آن است. به عنوان مثال، در یک تست پزشکی کلاس منفی می‌تواند «بدون تومور» باشد، یا در یک مساله دسته‌بندی پیام‌های الکترونیکی می‌تواند به «غیر هرزنامه» اشاره کند.

مطالعه بیشتر: کلاس مثبت

Neural Network شبکه عصبی

مدلی که از ساختار مغز الهام گرفته شده است و شامل چندین لایه (حداقل یک لایه مخفی) است. در هر لایه چندین واحد یا نورون ساده وجود دارد که یک تابع غیرخطی بر روی نتایج آن‌ها اعمال می‌شود.

Neuron نورون

گرهی در شبکه عصبی که معمولا چندین ورودی را دریافت کرده و یک خروحی تولید می‌کند. نورون‌ها مقدار خروجی را با اعمال یک تابع فعال‌ساز غیرخطی (activity function) بر روی حاصل جمع وزن‌دار مقادیر ورودی محاسبه می‌کنند.

NLU درک زبان طبیعی

مخفف Natural Language Understanding یا درک زبان طبیعی است.

Node (Neural Network) گره (شبکه عصبی)

نورونی در یک لایه پنهان شبکه عصبی.

Noise نوفه

به صورت کلی، هر چیزی که باعث ابهام در سیگنالی از مجموعه داده بشود. نوفه یا نویز به اشکال متفاوتی در داده ایجاد شود. به عنوان مثال:

  • اپراتورهای انسانی در برچسب زدن داده‌ها اشتباه کنند.
  • انسان‌ها یا دستگاه‌ها مقادیر ویژگی‌ها را حذف و یا اشتباه ضبط کنند.
Non-response Bias سوگیری عدم پاسخ

مترادف: سوگیری انتخاب

Normalization بهنجارش

روند تبدیل بازه واقعی مقادیر به یک بازه استاندارد. (معمولا بین ۱- و ۱+، یا ۰ و ۱+) به عنوان مثال، فرض کنید که بازه طبیعی یک ویژگی مشخص بین ۸۰۰ تا ۶۰۰۰ است. با استفاده از تفریق و تقسیم، شما می‌توانید مقادیر را بین ۱- و ۱+ نرمال کنید.

مطالعه بیشتر: مقیاس‌گذاری (scaling)

Numerical Data داده عددی

ویژگی‌هایی که به شکل اعداد حقیقی یا صحیح نمایش داده می‌شوند. به عنوان مثال، در یک مدل مشاور املاک، اندازه خانه (با واحد متر مربع) به شکل یک داده عددی نمایش داده می‌شود. نمایش دادن ویژگی‌ها تحت عنوان داده‌های عددی بیان می‌کند که مقادیر آن ویژگی‌ها با هم رابطه ریاضی دارند و احتمالا می‌توان آن‌ها را برچسب‌گذاری کرد. به عنوان مثال، نشان دادن اندازه خانه به شکل داده‌های عددی بیان می‌کند که یک خانه ۲۰۰ متر مربعی دو برابر بزرگ‌تر از یک خانه با مساحت ۱۰۰ متر مربع است. علاوه بر این، بیان می‌کند که احتمالا بین اندازه خانه و قیمت آن نیز یک رابطه ریاضی برقرار است.

تمامی داده‌های صحیح نباید به شکل داده‌های عددی نمایش داده شوند. به عنوان مثال، کد پستی یک عدد صحیح است؛ با این حال آن‌ها را نباید به شکل داده‌ی عددی در مدل‌ها نمایش داد. زیرا کد پستی ۲۰۰۰۰ دو برابر (یا نصف) کد پستی ۱۰۰۰۰ اهمیت ندارد. هم‌چنین، با وجود این که کد پستی‌های متفاوت می‌توانند بر روی قیمت قیمت خانه تاثیر بگذارند، اما نمی‌توان فرض کرد که خانه‌هایی با کد پستی ۲۰۰۰۰ دو برابر ارزشمندتر از خانه‌هایی با کد پستی ۱۰۰۰۰ هستند. به جای این کار، کدهای پستی به شکل داده‌های داده‌های رسته‌ای (categorical) نمایش داده می‌شوند.

داده‌های عددی گاهی داده‌های پیوسته نیز نامیده می‌شوند.

Numpy نامپای

یک کتابخانه متن‌باز ریاضی که امکان اجرای عملیات وکتوری به صورت بهینه را فراهم می‌کند. کتابخانه pandas نیز با استفاده از این کتابخانه ساخته شده است.

O
Objective هدف

یک معیار که الگوریتم‌ها تلاش می‌کنند آن‌ را بهینه کنند.

Objective Function تابع هدف

یک عبارت ریاضی یا معیار که یک مدل تلاش می‌کند تا آن را بهینه کند. به عنوان مثال، تابع هدف برای مسائل رگرسیون خطی معمولا تابع خطای توان دوم (squared loss) است. بنابراین، هنگامی که یک مدل رگرسیون خطی آموزش می‌بیند، هدف کمینه کردن تابع خطای توان دوم است.

در برخی موارد، هدف می‌تواند بیشینه کردن تابع هدف باشد. به عنوان مثال، اگر تابع هدف کارایی باشد، هدف بیشینه کردن کارایی است.

مطالعه بیشتر: زیان

Offline Inference استنباط برون‌خط

تولید دسته‌ای از پیش‌بینی‌ها، ذخیره آن پیش‌بینی‌ها و بازیابی آن پیش‌بینی‌ها در صورت نیاز.

متضادها: استنباط درون‌خط

One-hot Encoding کدگذاری وان‌هات

یک بردار پراکنده (sparse) که در آن:

  • مقدار یک درایه ۱ است
  • مقدار بقیه‌ی درایه‌ها ۰ است

این نوع کدگذاری جهت نمایش شناسه‌هایی که مقادیر محدودی می‌پذیرند معمول است. به عنوان مثال، یک مجموعه داده گیاه‌شناسی شامل ۱۵۰۰۰ گونه متفاوت را درنظر بگیرید که هر کدام با یک رشته منحصربه‌فرد معرفی می‌شوند. به عنوان یک مرحله از مهندسی ویژگی‌، شما احتمالا آن رشته‌ها به شکل بردارهای one-hot با اندازه ۱۵۰۰۰ درمی‌آورید.

One-shot Learning یادگیری تک‌مرحله‌ای

یک رویکرد یادگیری ماشین است که معمولا در مسائل طبقه‌بندی اشیا استفاده می‌شود و طراحی شده است تا بتواند طبقه‌بند‌های موثر از یک نمونه آموزش دهد.

اطلاعات بیشتر: یادگیری چندمرحله‌ای (few-shot learning)

One-vs.-All یک در مقابل همه

در یک مساله طبقه‌بندی با N پاسخ ممکن، یک رویکرد «یک در مقابل همه» شامل N طبقه‌بند دوتایی (یک طبقه‌بند دوتایی برای هر خروجی ممکن) است. به عنوان مثال، مدلی که نمونه‌ها را به عنوان حیوان، سبزیجات یا کانی طبقه‌بندی می‌کند، یک رویکرد «یک در مقابل همه» سه طبقه‌بند دوتایی زیر را تولید می‌کند:

  • حیوان در برابر غیرحیوان
  • سبزیجات در برابر غیر سبزیجات
  • کانی در برابر غیر کانی
Online Inference استنباط برخط

تولید پیش‌بینی‌ها در لحظه نیاز.

متضادها: استنباط برون‌خط (offline inference)

Optimizer بهینه‌ساز

یک ‌پیاده‌سازی خاص از الگوریتم کاهش شیب (gradient descent). بهینه‌سازهای پرکاربرد عبارتند از:

  • بهینه‌ساز AdaGrad که از ADAptive GRADient descent (کاهش شیب سازگار) گرفته شده است.
  • بهینه‌ساز Adam که از ADAptive with Momentum (سازگار با تکانه) گرفته شده است.

بهینه‌سازهای مختلف ممکن است با ایجاد تفاوت یک یا چند مورد از مفاهیم زیر تاثیر الگوریتم کاهش شیب (gradient descent) را بر روی یک مجموعه داده آموزش تغییر دهند:

حتی می‌توان بهینه‌سازهای مبتنی بر شبکه‌های عصبی را نیز متصور شد.

Out-Group Homogeneity Bias سوگیری همگنی خارج گروهی

گرایش به این که در هنگام مقایسه مقادیر و شاخص‌های خارج گروه را شبیه‌تر از اعضای درون گروه ببینیم. درون‌گروهی به معنای افرادی است که به طور منظم با آن‌ها برخورد دارید و خارج‌گروهی به افرادی گفته می‌شود که معمولا با آن‌ها برخورد نداشته باشید. اگر با پرسش از افراد درباره ویژگی‌های اعضای خارج از گروه یک مجموعه داده جمع‌آوری کنید، این ویژگی‌ها نسبت به شاخصه‌های اعضای درون گروه با ظرافت کمتر و کلیشه‌ای‌تر خواهند بود.

به عنوان مثال، لی‌لی‌پوتی‌ها ممکن است خانه‌ی دیگر لی‌لی‌پوتی‌ها را با جزئیات بالا و تفاوت‌های ریز در معماری، سبک پنجره‌ها و درها و اندازه توصیف کنند؛ در حالی که همان لی‌لی‌پوتی‌ها معتقدند که ساکنان براب‌دینگ‌نگ همگی در خانه‌های یکسانی زندگی می‌کنند.

سوگیری همگنی خارج از گروهی نوعی از انتساب گروهی مقدار پیش‌فرض (group attribution bias) است.

مطالعه بیشتر: سوگیری بین‌گروهی (in-group bias)

Outliers داده پرت

مقدارهای که از بقیه مقادیر فاصله‌ی زیادی دارند. در یادگیری ماشین، هر کدام از موارد زیر داده‌ی پرت حساب می‌شوند:

  • وزن‌هایی که قدر مطلق آن‌ها بسیار بزرگ باشد.
  • مقدارهای پیش‌بینی شده‌ای که از مقادیر واقعی بسیار دور باشند.
  • داده های ورودی‌ای که مقدار آن‌ها بیش از تقریبا ۳ برابر انحراف معیار از میانگین دور باشد.

داده‌های پرت معمولا در آموزش مدل‌ها اختلال ایجاد می‌کنند. بریده‌سازی (clipping) یکی از راه‌های مدیریت این داده‌هاست.

Output Layer لایه خروجی

آخرین لایه در یک شبکه عصبی. این لایه حاوی جواب‌های مساله است.

Overfitting بیش‌برازش

ایجاد یک مدل که به نمونه‌های مجموعه داده آموزش بسیار نزدیک شده است؛ به طوری که در پیش‌بینی داده‌های جدید به مشکل می‌خورد.

P
Pandas پاندا

یک رابط برنامه‌نویسی تحلیل داده ستون‌گرا. بسیاری از فریم‌ورک‌های یادگیری ماشین، از جمله TensorFlow، از ساختار داده‌ی pandas به عنوان ورودی پشتیبانی می‌کنند.

اطلاعات بیشتر: اسناد مربوط به pandas

Parameter پارامتر

هر متغیر در مدل که سیستم یادگیری ماشین مقدار آن را خود یاد می‌گیرد. به عنوان مثال، وزن‌ها پارامترهایی هستند که سیستم یادگیری ماشین در تکرارهای متوالی فرآیند آموزش مقدار آن را فرا می‌گیرد.

متضادها: ابرپارامتر (hyperparameter)

Parameter Update بروزرسانی پارامتر

عملیات تنظیم کردن پارامترهای مدل در حین فرآیند آموزش، که معمولا در یک تکرار (iteration) از الگوریتم کاهش شیب (gradient descent) اتفاق می‌افتد.

Partial Derivative مشتق جزئی

نوعی از مشتق‌گیری که در آن همه‌ی متغیرها به جز یکی ثابت در نظر گرفته می‌شوند. به عنوان مثال، مشتق جزئی تابع f(x,y) نسبت به x به معنای مشتق تابع f است درحالی که f تابعی تنها بر حسب x فرض می‌شود. (که این معادل ثابت در نظر گرفتن y است.) مشتق جزئی تابع f نسبت به x تنها بر تغییرات x تمرکز دارد و بقیه متغیرهای موجود در عبارت را نادیده می‌گیرد.

Participation Bias سوگیری در مشارکت

مترادف سوگیری عدم پاسخ (non-response bias) است.

اطلاعات بیشتر: سوگیری انتخاب

Partitioning Strategy راهبرد افراز

الگوریتمی که به‌وسیله آن متغیرها بین سرورهای پارامتری تقسیم می‌شوند.

Perceptron پرسپترون

یک سیستم (نرم‌افزاری یا سخت‌افزاری) که یا چند مقدار ورودی دریافت کند، و جهت محاسبه مقدار خروجی یک تابع بر روی حاصل جمع وزن‌دار ورودی‌ها اعمال کند. در یادگیری ماشین، این تابع معمولا غیرخطی (مانند ReLU، sigmoid یا tanh) است. به عنوان مثال، پرسپترون زیر برای پردازش سه مقدار ورودی از تابع sigmiod استفاده می‌کند:

در تصویر زیر، پرسپترون سه مقدار ورودی می‌گیرد که هر کدام قبل از وارد شدن به پرسپترون در یک مقدار وزن ضرب می‌شوند:

پرسپترون‌ها همان گره‌ها (node) در شبکه‌های عصبی عمیق هستند. در واقع شبکه‌های عصبی عمیق از چندین پرسپترون متصل به هم تشکیل شده که از الگوریتم انتشار معکوس (backpropagation) جهت بازخورد استفاده می‌کند.

Performance کارآیی

این واژه می‌تواند یکی از معانی زیر را داشته باشد:

  • معنای سنتی آن در مبحث مهندسی نرم‌افزار عبارت است از این که این بخش از نرم‌افزار با چه سرعتی (یا چقدر بهینه) اجرا می‌شود.
  • معنای آن در یادگیری ماشین که این‌جا مدنظر است به این سوال پاسخ می‌دهد که چقدر از پاسخ‌های مدل درست هستند، یا به بیان دیگر پیش‌بینی مدل چقدر خوب است.
Perplexity سرگشتگی

یک معیار جهت اندازه‌گیری میزان خوب بودن یک مدل در انجام وظیفه. به عنوان مثال، فرض کنید وظیفه شما خواندن چند حرف اول کلمه‌ای است که کاربر در صفحه کلید تلفن هوشمند خود تایپ می‌کند تا با توجه به آن لیستی از کلمات احتمالی جهت تکمیل آن حروف ارائه کنید. سرگشتگی (P) در این وظیفه تقریبا برابر تعداد حدس‌هایی است که نیاز است شما بزنید قبل از این که کلمه هدف کاربر را پیشنهاد دهید.

سرگشتگی با فرمول زیر به آنتروپی متقاطع (cross-entropy) مرتبط می‌شود:

Pipeline خط لوله

هر یک از زیرساخت‌ها در الگوریتم‌های یادگیری ماشین. یک خط لوله (pipeline) شامل جمع‌آوری داده، تبدیل داده‌ها به داده‌های آموزش مدل، آموزش یک یا چند مدل و تبدیل مدل‌ها به محصولات نهایی است.

Policy سیاست

در یادگیری تقویتی، به نگاشت احتمالی عامل (agent) از حالت‌ها (states) به عمل‌ها (actions) گفته می‌شود.

Pooling ادغام

کوچک کردن ماتریس (یا ماتریس‌هایی) که حاصل لایه کانولوشنی (پیچشی) قبلی هستند. ادغام معمولا به معنای پیدا کردن مقدار بیشینه یا محاسبه میانگین در ناحیه در حال ادغام است. به عنوان مثال، فرض کنید که ماتریس ۳*۳ زیر موجود است:

عملیات ادغام یا pooling نیز مانند عملیات کانولوشن، ماتریس را به چندین برش تقسیم می‌کند و با در نظر گرفتن قدم (stride) در هر مرحله عملیات ادغام را انجام می‌دهد. به عنوان مثال، فرض کنید که عملیات ادغام ماتریس را به یک برش‌های ۲*۲ تقسیم می‌کند و با قدم‌های ۱*۱ بر روی آن حرکت می‌کند. همان طور که نمودار زیر نشان می‌دهد، چهار عملیات ادغام اتفاق می‌افتد. تصور کنید که هر عملیات ادغام مقدار بیشینه را از بین چهار مقدار در پنجره انتخاب می‌کند. در این صورت داریم:

لایه‌های ادغام به تحقق ناوردایی انتقالی (translational invariance) در ماتریس ورودی کمک می‌کنند.

ادغام در حوزه بینایی ماشین معمولا به نام «ادغام مکانی» شناخته می‌شود،‌ اما در کاربردهای آن در حوزه سری‌های زمانی معمولا به آن «ادغام زمانی» گفته می‌شود. هم‌چنین، گاهی به آن «نمونه‌کاهی» (subsampling یا downsampling) گفته می‌شود.

Positive Class دسته مثبت

در طبقه‌بندی دوتایی، دو طبقه ممکن به نام‌های «دسته مثبت» و «دسته منفی» شناخته می‌شوند. دسته مثبت همان چیزی است که ما به دنبال آن هستیم. به عنوان مثال، دسته مثبت در یک آزمایش پزشکی می‌تواند «تومور» باشد، یا در مساله طبقه‌بندی پیام‌های الکترونیکی، «هرزنامه» می‌تواند به عنوان دسته مثبت انتخاب شود.

متضاد: دسته منفی

Post-Processing پس‌پردازش

پردازش خروجی مدل بعد از اجرای آن. پس‌پردازش‌ها می‌توانند بدون ایجاد تغییر در مدل‌ها به متحقق شدن قیدهای تساوی کمک کنند.

به عنوان مثال، یک نمونه پس‌پردازش در یک طبقه‌بند دوتایی می‌تواند انتخاب حد آستانه‌ای باشد که با بررسی یکسان بودن نرخ مثبت حقیقی (True Positive Rate) برای همه گروه‌ها به برابری فرصت (equality of opportunity) منجر شود.

PR AUC (area under the PR curve) ناحیه زیر منحنی PR

ناحیه زیر منحنی دقت-بازخوانی (precision-recall) که با رسم کردن نقاط دقت و بازخوانی به ازای مقادیر مختلف آستانه دسته‌بندی به دست می‌آید. بسته به نحوه محاسبه آن، این نمودار می‌تواند معادل میانگین دقت مدل باشد.

Pre-trained Model مدل از پیش آموزش داده شده

مدل یا بخشی از مدل (مانند تعبیه (embeddings)) که قبلا آموزش دیده است. گاهی اوقات شما تعبیه‌های یک مدل از قبل آموزش داده شده را به عنوان ورودی به یک شبکه عصبی می‌دهید. در دیگر مواقع، مدل به جای اتکا به تعبیه‌های یک مدل از پیش آموزش دیده، خود جهت محاسبه تعبیه‌ها آموزش می‌بیند.

Precision-Recall Curve منحنی دقت-بازخوانی

منحنی حاصل از محاسبه دقت (precision) و بازخوانی (recall) به ازای مقادیر مختلف آستانه دسته‌بندی.

Precision دقت

یک معیار که برای مدل‌های دسته‌بندی استفاده می‌شود. دقت (precision) نسبت جواب‌های درستی را مشخص می‌کند که مدل هنگامی که پیش‌بینی‌اش دسته مثبت است دارد.

Prediction پیش‌بینی

خروجی مدل که به ازای یک نمونه ورودی تولید می‌شود.

Prediction Bias سوگیری پیش‌بینی

مقداری که بیان می‌کند که میانگین پیش‌بینی‌های مدل چقدر از میانگین برچسب‌ها در مجموعه داده فاصله دارد.

این لغت نباید با اریبی در مدل‌های یادگیری ماشین یا با سوگیری در اخلاق و عدالت اشتباه گرفته شود.

Predictive Parity برابری پیش‌نگر

یک معیار تساوی که بررسی می‌کند آیا یک طبقه‌بند برای تمام زیرگروه‌هایی که تحت شرایطی تعریف شده‌اند دقت برابری دارد یا خیر.

به عنوان مثال، یک مدل که احتمال پذیرش در دانشگاه را پیش‌بینی می‌کند دارای برابری پیش‌نگر خواهد بود اگر نرخ دقت آن برای لی‌لی‌پوتی‌ها و ساکنین براب‌دینگ‌نگ یکسان باشد.

برابری پیش‌نگر گاهی برابری نرخ پیش‌نگر (predictive rate parity) نیز خوانده می‌شود.

اطلاعات بیشتر: توضیح تعاریف عدالت، بخش ۳.۲.۱

Predictive Rate Parity برابری نرخ پیش‌نگر

نام دیگری برای برابری پیش‌نگر.

Preprocessing پیش‌پردازش

پردازش داده‌ها قبل از این که مدل از آن‌ها استفاده کند. پیش‌پردازش می‌تواند بسیار ساده (حذف کردن کلمه‌هایی از متن نگلیسی که در دیکشنری انگلیسی وجود ندارند) یا بسیار پیچیده (تنظیم مجدد نقاط داده‌ها به صوزتی که ویژگی‌های مرتبط با ویژگی‌های حساسیت برانگیز را از بین ببرد) باشد. انجام پیش‌پردازش می‌تواند به برقراری قیدهای تساوی (fairness constraint) کمک کند.

Prior Belief باور قبلی

آنچه قبل از شروع روند آموزش، درباره داده‌ها به آن اعتقاد دارید. به عنوان مثال، نظم‌دهی L2 به این باور قبلی متکی است که وزن‌ها باید اعدادی کوچک باشند که حوال عدد صفر دارای توزیع نرمال هستند.

Proxy (Sensitive Attributes) پیش‌کار

یک ویژگی که به عنوان جایگزین ویژگی‌های حساسیت‌برانگیز استفاده می‌شود. به عنوان مثال، کد پستی یک شخص می‌تواند به عنوان پیش‌کار برای درآمد، نژاد یا قومیت آن فرد درنظر گرفته شود.

An attribute used as a stand-in for a sensitive attribute. For example, an individual's postal code might be used as a proxy for their income, race, or ethnicity.

Proxy Labels برچسب‌های پیش‌کار

داده‌هایی که برای تقریب برچسب‌هایی که مستقیماً در مجموعه داده در دسترس نیستند استفاده می‌شوند.

به عنوان مثال، فرض کنید شما می‌خواهید «باران می‌بارد؟» را به عنوان یک برچسب دودویی در مجموعه داده‌ی خود داشته باشید، اما مجموعه داده حاوی این برچسب نیست. اگر عکس در دسترس باشد، می‌توانید وجود تصاویر افرادی را که چتر حمل می‌کنند به عنوان برچسب پیش‌کار برای «باران می‌بارد؟» استفاده کنید. با این حال، برچسب‌های پیش‌کار ممکن است نتایج را تحریف کنند. به عنوان مثال، در بعضی از نقاط، حمل چتر بیشتر با هدف محافظت در برابر آفتاب استفاده می‌شود تا باران.

Q
Q-function تابع Q

در یادگیری تقویتی، تابعی‌ست که بازده مورد نظر را به ازای رخ دادن یک عمل در یک حالت پیش‌بینی می‌کند و سپس سیاست مشخص‌شده را دنبال می‌کند.

تابع Q هم‌چنین به نام تابع ارزش حالت-عمل نیز شناخته می‌شود.

Q-learning یادگیری Q

در یادگیری تقویتی، الگوریتمی است که اجازه می‌دهد عامل مقدار بهینه تابع Q را در فرآیندهای تصمیم‌گیری مارکوف با استفاده از معادله بلمن یاد بگیرد. فرآیندهای تصمیم‌گیری مارکوف محیط را توصیف می‌کنند.

Quantile چندک

هر دسته یا سطل در سطل‌بندی چندک‌ها (quantile bucketing).

Quantile Bucketing سطل‌بندی چندک‌ها

توزیع مقادیر یک ویژگی در سطل‌ها به صورتی که هر کدام شامل تعدادی یکسان (یا تقریبا یکسان) از نمونه‌ها باشد. به عنوان مثال، در نمودار زیر ۴ نقطه در ۴ دسته تقسیم شده‌اند که هر کدام شامل ۱۱ نمونه است. برای این که هر سطل شامل تعداد یکسانی از نقاط باشد، عرض هر دسته می‌تواند مقدار متفاوتی را در راستای محور x داشته باشد.

Quantization چندی‌سازی

الگوریتمی که سطل‌بندی چندک‌ها را به ازای یک ویژگی مشخص در مجموعه داده پیاده‌سازی می‌کند.

R
Random Forest جنگل تصادفی

یک روش گروه ادغام (ensemble) برای پیدا کردن بهترین درخت تصمیم‌گیری‌ بر روی داده‌های آموزش. در این روش چندین درخت تصمیم‌گیری ساخته می‌شود و سپس میانگین آن‌ها محاسبه می‌شود. کلمه «تصادفی» به این مساله اشاره دارد که هر کدام از درخت‌های تصمیم‌گیری بر اساس برخی ویژگی‌ها که به صورت تصادفی انتخاب شده‌اند شکل می‌گیرد. کلمه «درخت» به مجموعه درخت‌های تصمیم‌گیری اشاره دارد.

Random Policy سیاست تصادفی

در یادگیری تقویتی، به سیاستی گفته می‌شود که اعمال را به صورت تصادفی انتخاب می‌کند.

Rank (Ordinality) رتبه

موقعیت معمول یک دسته در یک مساله یادگیری ماشین که دسته‌ها را از بالا به پایین طبقه‌بندی می‌کند. به عنوان مثال، یک سامانه رتبه‌بندی رفتار می‌تواند پاداش یک سگ را از بالا (استیک) به پایین (کلم‌پیچ پژمرده) رتبه‌بندی کند.

Rater ارزیاب

فردی که برای نمونه‌ها برچسب تولید می‌کند. این فرد حاشیه‌نویس یا annotator نیز نامیده می‌شود.

Re-ranking رتبه‌بندی مجدد

مرحله پایانی در یک سامانه پیشنهادگر، که در آن المان‌هایی که به آن‌ها امتیاز نسبت داده شده ممکن است مجددا با الگوریتم‌های دیگر (معمولا غیر یادگیری ماشینی) امتیازدهی شوند. رتبه‌بندی مجدد لیست المان‌هایی که در مرحله رتبه‌بندی تولید می‌شوند را با روش‌هایی مانند موارد زیر ارزیابی می‌کند:

  • حذف مواردی که کاربر قبلاً خریداری کرده است
  • افزایش نمره موارد جدیدتر
Recall بازخوانی

معیاری که جهت ارزیابی مدل‌های طبقه‌بندی استفاده می‌شود و به به این سوال پاسخ می‌دهد که «از بین تمامی برچسب‌های مثبت، چقدر از آن‌ها توسط مدل درست تشخیص داده شده‌اند؟» چگونگی محاسبه این معیار به شکل زیر است:

Recommendation System سامانه پیشنهادگر

سامانه‌ای که برای هر کاربر مجموعه نسبتا مطلوبی از موارد مطلوب را از میان یک گروه بزرگ انتخاب می‌کند. به عنوان مثال، یک سامانه توصیه‌گر فیلم ممکن است از میان ۱۰۰۰۰۰ فیلم دو مورد را به هر کاربر پیشنهاد دهد. این سامانه ممکن است در پیشنهاداتش عامل‌های زیر را درنظر بگیرد:

  • فیلم‌هایی که شبیه به مواردی هستند که کاربر آن‌ها را تماشا کرده یا به آن‌ها امتیاز داده.
  • ژانر، کارگردان، بازیگران و ...
Rectified Linear Unit (ReLU) واحد یکسوشده‌ی خطی

یک تابع فعال‌ساز با شزایط زیر:

  • اگر مقدار ورودی منفی یا صفر باشد، خروجی صفر است.
  • اگر مقدار ورودی مثبت باشد، خروجی برابر ورودی است.
Recurrent Neural Network شبکه عصبی بازگشتی

یک شبکه عصبی که طراحی شده تا چندین بار اجرا شود و بخش‌هایی از هر اجرا به عنوان ورودی در اجرای بعدی استفاده می‌شوند. به بیان دقیق‌تر، لایه‌های مخفی اجرای قبلی بخشی از ورودی همان لایه‌ها در اجرای بعدی هستند. شبکه‌های عصبی بازگشتی برای بررسی توالی‌ها مورد استفاده قرار می‌گیرند تا از لایه‌های مخفی آن‌ها جهت به یاد سپاری بخش‌های ابتدایی توالی از اجراهای قبلی استفاده شود.

به عنوان مثال، تصویر زیر یک شبکه عصبی بازگشتی را نشان می‌دهد که چهار بار اجرا شده است. توجه کنید که مقادیری که لایه‌های مخفی در اجرای اول یاد گرفته‌اند، به عنوان بخشی از ورودی همان لایه در اجرای دوم مورد استفاده قرار گرفته‌اند. این باعث می‌شود تا شبکه‌های عصبی بازگشتی معنای کل توالی را درک کنند، نه فقط اجزای تشکیل‌دهنده آن را.

Regression Model مدل رگرسیون

نوعی از مدل‌ها که خروجی آن‌ها مقادیر پیوسته (معمولا اعشاری) است. این مدل‌ها در برابر مدل‌های دسته‌بندی قرار می‌گیرند که در آن‌ها خروجی مقداری گسسته و محدود، مانند اعداد طبیعی بین ۱ تا ۱۰ دارد. در مساله‌های دسته‌بندی معمولا هر عدد به یک دسته، مانند تصاویر «زنبق» یا «رز» اشاره می‌کند.

Regularization نظم‌دهی

جریمه‌ای برای پیچیدگی‌های مدل. نظم‌دهی به ما در جلوگیری از بیش‌برازش (overfitting) کمک می‌کند. انواع مختلفی از نظم‌دهی وجود دارد که از آن‌ها می‌توان به موارد زیر اشاره کرد:

Regularization Rate نرخ نظم‌دهی

یک مقدار نرده‌ای (اسکالر) که با لاندا نمایش داده می‌شود و اهمیت نسبی تابع نظم‌دهی را مشخص می‌کند. عبارت تابع زیان ساده‌شده زیر تاثیر نرخ نظم‌دهی را نشان می‌دهد:

افزایش نرخ نظم‌دهی بیش‌برازش را کاهش می‌دهد اما می‌تواند باعث کم شدن کارایی مدل نیز بشود.

Reinforcement Learning (RL) یادگیری تقویتی

دسته‌ای از الگوریتم‌ها که یک سیاست بهینه را با هدف بیشینه کردن بازده در تعامل با محیط یاد می‌گیرند. به عنوان مثال، پاداش نهایی اکثر بازی‌ها پیروزی است. یادگیری تقویتی می‌تواند با ارزیابی حرکات در بازی‌های قبلی که در نهایت به پیروزی یا شکست منجر شده‌اند در بسیاری از بازی‌های پیچیده متخصص شود.

Replay Buffer بافر تکرار

در الگوریتم‌هایی مانند DQN، به حافظه‌ای گفته می‌شود که توسط عامل جهت ذخیره انتقالات بین حالات در تکرار تجربه استفاده می‌شود.

Reporting Bias سوگیری گزارش

این واقعیت که فراوانی نوشتن افراد درباره اعمال، نتایج یا ویژگی‌ها بازتابی از فراوانی آن‌ها در دنیای واقعی یا میزانی که یک ویژگی در اعضای یک دسته مشخص است، نیست. سوگیری گزارش می‌تواند بر ترکیب داده‌هایی که سیستم‌های یادگیری ماشین از آن‌ها می‌آموزند تاثیر بگذارد.

به عنوان مثال، در کتاب‌ها کلمه «خندید» بیشتر از «نفس کشید» تکرار می‌شود. یک مدل یادگیری ماشین که تعداد نسبی خنده و تنفس را از یک مجموعه کتاب برآورد می‌کند، احتمالاً تصور می‌کند که خندیدن بیشتر از نفس کشیدن رایج است.

Representation بازنمایی

فرآیند نگاشت داده‌ها به ویژگی‌های پرکاربرد.

Return بازده

در یادگیری تقویتی، با توجه به یک خط مشی و یک حالت خاص، بازده مجموع تمام امتیازاتی است که عامل انتظار دارد با دنبال کردن خط مشی از یک حالت تا پایان یک قسمت بدست بیاورد.

عامل بابت تاخیر نقل و انتقال بین حالت‌‌ها، یک ضریب کاهشی را برای محاسبه‌ی امتیاز در نظر می‌گیرد.

بنابراین اگر ضریب کاهشی γ باشد و امتیازها را تا انتهای قسمت مشخص کنیم، محاسبه بازده به شرح زیر است:

Reward پاداش

در یادگیری تقویتی، نتیجه کمی انجام یک عمل در یک حالت که در یک محیط تعریف شده‌اند.

Ridge Regularization نظم‌دهی ستیغی

مترادف: نظم‌دهی L2

واژه نظم‌دهی ستیغی بیشتر در زمینه‌های آماری خالص کاربرد دارد، درحالی که نظم‌دهی L2 بیشتر در حوزه یادگیری ماشین به کار می‌رود.

RNN شبکه عصبی بازگشتی

مخفف Recurrent Neural Network یا شبکه عصبی بازگشتی است.

ROC (Receiver Operating Characteristic) Curve منحنی ROC

منحنی‌ای که مقدار نرخ مثبت حقیقی و نرخ مثبت کاذب به ازای حد آستانه‌های دسته‌بندی مختلف نمایش می‌دهد.

اطلاعات بیشتر: AUC

Root Mean Squared Error (RMSE) ریشه میانگین مجذور خطا

ریشه دوم میانگین مجذور خطا.

Rotational Invariance ناوردایی چرخشی

در یک مساله دسته‌بندی تصویر، به توانایی الگوریتم در دسته‌بندی درست تصاویر در صورت چرخش آن‌ها گفته می‌شود. به عنوان مثال، الگوریتم باید تصویر یک راکت تنیس را در هر جهتی تشخیص دهد. توجه کنید که ناوردایی چرخشی همیشه قابل دستیابی نیست. به عنوان مثال، تصویری از ۷ که وارونه شده است باید ۸ تشخیص داده شود.

مطالعه بیشتر: ناوردایی انتقالی و ناوردایی اندازه‌ای

S
Sampling Bias سوگیری نمونه‌برداری

سوگیری انتخاب را مشاهده کنید.

Scalar اسکالر

یک عدد یا یک رشته منفرد که می‌تواند به عنوان تنسور درجه ۰ نمایش داده شود. به عنوان مثال کدهای زیر هر کدام یک مقیاس را در TensorFlow ایجاد می‌کنند:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)
Scaling مقیاس‌گذاری

روشی معمول در مهندسی ویژگی که برای تعدیل دامنه مقادیر یک ویژگی، برای مطابقت با دامنه‌ی سایر ویژگی‌های مجموعه داده مورد استفاده قرار می‌گیرد. به عنوان مثال فرض کنید می‌خواهید همه ویژگی‌های شناور در مجموعه داده مقادیری در بازه‌ی ۰ تا ۱ داشته باشند. با توجه به محدوده ۰ تا ۵۰۰ یک ویژگی خاص، می‌توان با تقسیم هر مقدار بر ۵۰۰، آن ویژگی را مقیاس بندی کرد.

به نرمال سازی نیز مراجعه کنید.

Scikit-Learn Scikit-Learn

یک پلتفرم محبوب مخزن باز یادگیری ماشین است. برای اطلاعات بیشتر به سایت  www.scikit-learn.org مراجعه کنید.

Scoring رتبه‌بندی

بخشی از یک سیستم توصیه‌گر که برای هر مورد تولید شده به عنوان نامزد پیشنهادی، یک مقدار یا رتبه‌ را ایجاد می‌کند.

Selection Bias سوگیری انتخاب

علت بروز خطا در نتیجه‌گیری از داده‌های نمونه‌گیری شده، فرایند انتخاب است که ضمن آن تفاوت‌های سیستماتیک بین نمونه‌های مشاهده شده در مجموعه داده‌ها و موارد مشاهده نشده ایجاد می‌شود.

اشکال زیر از سوگیری انتخاب وجود دارد:

سوگیری پوشش: جمعیت نشان داده شده در مجموعه داده‌ها با جمعیتی که مدل یادگیری ماشین پیش بینی کرده است مطابقت ندارد.

سوگیری نمونه‌‌برداری: داده‌ها به صورت تصادفی از گروه هدف جمع آوری نمی‌شوند.

سوگیری عدم پاسخگویی یا سوگیری مشارکت: کاربران گرو‌‌ه‌های خاصی نسبت به کاربران گروه‌های دیگر از نظرسنجی انصراف می‌دهند.

برای مثال، فرض کنید قرار است یک مدل یادگیری ماشین طراحی کنید که میزان علاقه مردم به یک فیلم را پیش‌بینی می‌کند. برای جمع آوری داده‌های آموزشی، نظرسنجی را برای همه افرادی که در ردیف اول سالن نمایش فیلم هستند، انجام می دهید. به صورت ناخواسته، ممکن است این روش منطقی برای جمع آوری مجموعه داده به نظر برسد. با این حال، این شکل از جمع آوری داده‌ها ممکن است اشکال زیر از سوگیری انتخاب را ایجاد کند:

  • سوگیری پوشش: با نمونه‌گیری از جمعیتی که تماشای فیلم را انتخاب کرده‌اند، ممکن است  پیش‌بینی‌های(خروجی) مدل به افرادی که قبلاً آن میزان علاقه به فیلم را ابراز نکرده‌اند تعمیم ندهد.
  • سوگیری نمونه‌برداری: به جای نمونه برداری تصادفی از جمعیت مورد نظر (همه افراد حاضر در فیلم)، فقط از افرادی که در ردیف اول هستند نمونه برداری کردید. این احتمال وجود دارد که افراد حاضر در ردیف اول،  بیشتر از کسانی که در ردیف‌های دیگر بودند به فیلم علاقه مند باشند.
  • سوگیری بدون پاسخ: به طور کلی افرادی با نظرات قوی‌تر، بیشتر از افرادی که نظرات ملایم دارند به نظرسنجی های اختیاری پاسخ می‌دهند. از آنجا که نظرسنجی فیلم به صورت اختیاری انجام می‌شود، محتمل است پاسخ‌ها یک توزیع دو بعدی تشکیل دهند تا یک توزیع معمولی (به شکل زنگ).
Semi-Supervised Learning یادگیری نیمه نظارت شده

آموزش مدلی بر روی داده ها که در برخی از نمونه های آموزش دارای برچسب است اما در برخی دیگر اینگونه نیست. یک روش برای یادگیری نیمه نظارت ، استنباط برچسب برای مثالهای بدون برچسب و سپس آموزش بر روی برچسب های استنباط شده برای ایجاد یک مدل جدید است. اگر به دست آوردن برچسب ها گران باشد اما نمونه های بدون برچسب فراوان ، یادگیری نیمه نظارت شده می تواند مفید باشد.

Sensitive Attribute ویژگی حساسیت‌برانگیز

یک ویژگی انسانی که ممکن است به دلایل حقوقی، اخلاقی، اجتماعی یا شخصی مورد توجه ویژه قرار گیرد.

Sentiment Analysis تحلیل احساسات

استفاده از الگوریتم های آماری یا یادگیری ماشین برای تعیین نگرش کلی یک گروه - مثبت یا منفی - نسبت به یک خدمت، محصول، سازمان یا موضوع. به عنوان مثال، یک الگوریتم می‌تواند با استفاده از درک زبان طبیعی، دیدگاه افراد را از بین بازخوردهای متنی یک دوره دانشگاهی تجزیه و تحلیل کند تا میزان علاقه دانش‌آموزان به آن دوره را مشخص کند.

Sequence Model مدل توالی

مدلی که در آن ورودی‌ها به یک توالی وابسته هستند. به عنوان مثال، پیش‌بینی فریم بعدی در یک ویدیو بر اساس فریم‌های قبلی‌ای که از آن مشاهده شده.

Serving استقرار

مترادف‌: استنباط

Shape (Tensor) شکل

تعداد المان‌هایی که در هر یک از ابعاد از یک تنسور قرار می‌گیرند. شکل یک تنسور به شکل لیستی از اعداد نشان داده می‌شود. به عنوان مثال، شکل تنسور دوبعدی زیر [3, 4] است:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]
Sigmoid Function تابع سیگموید

تابعی که خروجی رگرسیون چندجمله‌ای یا لجستیک را به احتمال نگاشت می‌دهد و مقداری بین ۰ و ۱ برمی‌گرداند. تابع سیگوید به صورت زیر تعریف شده است:

که سیگما در مساله‌های رگرسیون لجستیک به سادگی به شکل زیر تعریف می‌شود:

به بیان دیگر، تابع سیگموید مقدار ورودی را تبدیل به احتمالی بین ۰ و ۱ می‌کند.

در برخی از شبکه‌های عصبی، از تابع سیگموید به عنوان تابع فعال‌ساز استفاده می‌شود.

Similarity Measure اندازه‌گیری شباهت

در الگوریتم‌های خوشه‌بندی، به معیاری گفته می‌شود که برای تعیین این که چقدر دو نمونه به هم شبیهند، استفاده می‌شود.

Size Invariance ناوردایی اندازه‌ای

در یک مساله دسته‌بندی تصاویر، به توانایی یک الگوریتم در دسته‌بندی درست با وجود تغییر در اندازه تصویر گفته می‌شود. به عنوان مثال، الگوریتم باید بتواند یک خودرو را در تصویر تشخیص دهد، بدون توجه به این که اندازه آن دو میلیون پیکسل است یا دویست هزار پیکسل. توجه کنید که حتی بهترین الگوریتم‌های طبقه‌بندی تصاویر هم هنوز محدودیت‌هایی درباره این مساله دارند. به عنوان مثال، یک الگوریتم (یا انسان) بعید است که بتواند به درستی گربه‌ای را که تنها ۲۰ پیکسل است طبقه‌بندی کند.

مطالعه بیشتر: ناوردایی انتقالی - ناوردایی چرخشی

Sketching ترسیم

دسته‌ای از الگوریتم‌ها در یادگیری بدون نظارت، که یک تحلیل شباهت اولیه بر روی داده‌ها انجام می‌دهد. الگوریتم‌های ترسیم از تابع درهم‌سازی (hash) حساس به مکان استفاده می‌‌کند تا مواردی را که به احتمال زیاد مشابه هستند تشخیص دهد و آن‌ها را در پیاله‌ها گروه‌بندی می‌کند.

استفاده از الگوریتم‌های ترسیم، محاسبات لازم برای محاسبه شباهت بر روی مجموعه داده‌های بزرگ را کاهش می‌دهد. به جای محاسبه شباهت برای هر کدام از نمونه‌های موجود در مجموعه داده، ما شباهت را فقط برای هر جفت نقطه در هر سطل محاسبه می‌کنیم.

Softmax تابع بیشینه هموار

تابعی که به ازای هر دسته در یک مدل طبقه‌بندی چندکلاسه احتمال را محاسبه می‌کند. مجموع احتمالات برابر ۱ خواهد بود. به عنوان مثال، تابع بیشینه هموار ممکن است تشخیص دهد که احتمال این که یک تصویر مشخص متعلق به دسته «سگ» باشد برابر ۰.۹، «گربه» برابر ۰.۰۸ و «سگ» برابر ۰.۰۲ است. این تابع همچنین تابع بیشینه هموار کامل (full softmax) نیز نامیده می‌شود.

متضادها: نمونه‌گیری در دسترس (داوطلبانه)

Sparse Feature ویژگی پراکنده

یک بردار ویژگی که مقادیر آن اکثرا صفر یا خالی هستند. به عنوان مثال، یک بردار که تنها یک مقدار ۱ و میلیون‌ها مقدار صفر دارد پراکنده است. به عنوان مثال دیگر، کلماتی که در عبارت مورد جست‌و‌جو قرار دارند می‌توانند یک بردار پراکنده باشند. (در هر زبان کلمات بسیار زیادی وجود دارد اما تنها تعداد محدودی از آن‌ها در یک عبارت فرضی وجود دارند.)

متضاد: ویژگی متراکم

Sparse Representation بازنمایی پراکنده

بازنمایی از یک تنسور که تنها المان‌های غیر صفر را نگهداری می‌کند.

به عنوان مثال، زبان انگلیسی شامل حدود یک میلیون کلمه است. دو روش زیر را برای نمایش تعداد کلمات به کار رفته در یک جمله انگلیسی را در نظر بگیرید:

  • یک بازنمایی متراکم از این جمله دارای یک عدد صحیح به ازای تمامی یک میلیون سلول است. اکثر این سلول‌ها با صفر پر می‌شوند و تنها در برخی از آن‌ها یک عدد صحیح کوچک وجود دارد.
  • یک بازنمایی پراکنده از این جمله تنها سلول‌هایی را ذخیره می‌کند که نمایانگر کلماتی هستند که در جمله وجود دارد. بنابراین اگر در جمله ۲۰ کلمه منحصربفرد وجود داشته باشد، بازنمایی پراکنده آن جمله تنها ۲۰ سلول با مقادیر صحیح خواهد داشت.
Sparse Vector بردار پراکنده

یک بردار که بیشتر مقادیرش صفر هستند.

مطالعه بیشتر: ویژگی پراکنده

Sparsity پراکندگی

تعداد المان‌هایی از یک بردار یا ماتریس که صفر هستند تقسیم بر تعداد کل المان‌ها. به عنوان مثال، یک ماتریس ۱۰*۱۰ با ۹۸ سلول برابر صفر را درنظر بگیرید. مقدار پراکندگی در این مثال برابر است با:

پراکندگی ویژگی به پراکندگی در یک بردار ویژگی، و پراکندگی مدل به پراکندگی در وزن‌های یک مدل اشاره می‌کند.

Spatial Pooling ادغام مکانی

اطلاعات بیشتر: ادغام

Squared Hinge Loss مجذور خطای Hinge

مربع خطای Hinge. مجذور خطای hinge داده‌های پرت را شدیدتر از خطای hinge عادی سرکوب می‌کند.

Squared Loss مجذور خطا

تابع خطای مورد استفاده در مساله‌های رگرسیون خطی که تحت عنوان زیان L2 نیز شناخته می‌شود. این تابع مجذور اختلاف بین مقدار پیش‌بینی‌شده توسط مدل و برچسب واقعی یک نمونه برچسب‌زده‌شده را محاسبه می‌کند. با توجه به مربع شدن، این تابع خطا تاثیر پیش‌بینی‌های اشتباه را بیشتر می‌کند. به همین دلیل، تابع مجذور خطا به نسبت خطای L1 شدیدتر به داده‌های پرت واکنش نشان می‌دهد.

State-Action Value Function تابع ارزش حالت-عمل

مترادف: تابع Q

State حالت

در یادگیری تقویتی، مقادیر پارامتر که تنظیمات فعلی محیطی را توصیف می‌کند‌، که عامل برای انتخاب یک عمل از آن استفاده می‌کند.

Static Model مدل ایستا

مدلی که به صورت برون‌خطی (offline) آموزش دیده است.

Stationarity ایستایی

یک ویژگی در داده‌های موجود در یک مجموعه داده، که بیانگر ثابت ماندن توزیع داده‌ها در یک یا چند بعد می‌باشد. این بعد معمولا زمان است، و به این معناست که داده‌هایی که نشان‌دهنده‌ی ایستایی هستند، با گذشت زمان تغییر نمی‌کنند.

Step گام

بک ارزیابی رو‌به‌جلو و معکوس بر روی یک دسته از داده‌ها.

Step Size طول گام

مترادف: نرخ یادگیری (learning rate)

Stochastic Gradient Descent (SGD) کاهش شیب تصادفی

یک الگوریتم کاهش شیب که در آن تعداد داده‌های یک دسته برابر یک است. به بیان دیگر، این الگوریتم برای تخمین شیب در هر گام، تنها به یک نمونه داده که به صورت تصادفی از میان مجموعه داده انتخاب شده نیاز دارد.

Stride قدم

در هر عملگر کانولوشنی یا ادغام، به فاصله بین سری‌های داده‌های ورودی در هر بعد گفته می‌شود. به عنوان مثال، در نمونه زیر می‌توانید یک عملگر کانولوشنی با قدم‌های (۱,۱) را ببینید. بنابراین هر برش از داده‌ی ورودی به اندازه یک خانه به سمت راست از برش قبلی آغاز می‌شود. هنگامی که عملگر به لبه انتهایی سمت راست می‌رسد، برش بعدی از سمت چپ و با فاصله یک خانه به سمت پایین شروع می‌شود.

An input 5x5 matrix and a 3x3 convolutional filter. Because thestride is (1,1), a convolutional filter will be applied 9 times. The firstconvolutional slice evaluates the top-left 3x3 submatrix of the inputmatrix. The second slice evaluates the top-middle 3x3submatrix. The third convolutional slice evaluates the top-right 3x3submatrix.  The fourth slice evaluates the middle-left 3x3 submatrix.The fifth slice evaluates the middle 3x3 submatrix. The sixth sliceevaluates the middle-right 3x3 submatrix. The seventh slice evaluatesthe bottom-left 3x3 submatrix.  The eighth slice evaluates thebottom-middle 3x3 submatrix. The ninth slice evaluates the bottom-right 3x3submatrix.

مثال فوق نشان‌دهنده‌ی یک قدم دوبعدی است. اگر ماتریس ورودی سه‌بعدی باشد، قدم‌ها نیز باید سه‌بعدی باشند.

Structural Risk Minimization (SRM) کمینه‌سازی ریسک ساختاری

الگوریتمی که بین دو هدف زیر تعادل برقرار می‌کند:

  • تمایل به ساخت پیش‌بینی‌کننده‌ترین مدل (مثلا با کمترین خطا)
  • تمایل به ساده نگه داشتن مدل تا حد امکان (مثلا استفاده از نظم‌دهی قوی)

به عنوان مثال، تابعی که مقدار خطا + نظم‌دهی را بر روی مجموعه داده آموزش کمینه می‌کند یک الگوریتم کمینه‌سازی ریسک ساختاری است.

متضاد: کمینه‌سازی ریسک تجربی

Subsampling نمونه‌کاهی

به ادغام رجوع کنید.

Supervised Machine Learning یادگیری ماشین با ناظر

آموزش یک مدل بر اساس داده‌های ورودی و برچسب‌های متناظر آن‌ها. یادگیری ماشین با ناظر مانند دانش آموزی است که با مطالعه‌ی مجموعه‌ای از سوالات و پاسخ‌های مربوط به آن‌ها، موضوعی را یاد می‌گیرد. بعد از تسلط بر روی نگاشت بین سوال‌ها و پاسخ‌ها، دانش‌آموز می‌تواند برای سوالاتی از آن موضوع که قبلا ندیده جواب تولید کند.

متضاد: یادگیری ماشین بدون نظارت

Synthetic Feature ویژگی مصنوعی

ویژگی‌ای که در بین ویژگی‌های ورودی قرار ندارد، بلکه با استفاده از یک یا چند مورد از آن‌ها ساخته می‌شود. برای معرفی نمونه‌هایی از این ویژگی‌ها می‌توان به موارد زیر اشاره کرد:

ویژگی‌های حاصل از بهنجارش (normalization) و مقیاس‌گذاری (scaling) به تنهایی به عنوان ویژگی مصنوعی درنظر گرفته نمی‌شوند.

T
Tabular Q-Learning جدول یادگیری-Q

در یادگیری تقویتی با استفاده از یک جدول برای ذخیره توابع Q برای هر ترکیبی از حالت و عملکرد می‌توان یادگیری Q را پیاده سازی کرد.

Target هدف

مترادف برچسب است.

Target Network شبکه هدف

در یادگیری عمیق Q، شبکه عصبی‌ای است که یک تقریب پایدار از شبکه عصبی اصلی باشد که در آن شبکه عصبی اصلی، یک تابع Q یا یک خط‌مشی را پیاده سازی می‌کند. می‌توان شبکه اصلی را روی مقادیر Q پیش‌بینی شده توسط شبکه هدف آموزش داد تا از حلقه‌ی بازخوردی که در هنگام تمرین شبکه اصلی روی مقادیر Q که توسط خودش پیش‌بینی می‌شود جلوگیری کرد. با اجتناب از این بازخورد،‌ آموزش تمرین افزایش می‌یابد.

Temporal Data داده‌های زمانی

داده‌هایی هستند که در زمان‌های مختلف ثبت می‌شوند. به عنوان مثال فروش پالتو زمستانه ثبت شده برای هر روز از سال، نمونه‌ای از داده‌های زمانی است.

Termination Condition شرط فسخ

در یادگیری تقویتی، شرایطی است که زمان پایان یک قسمت را تعیین می‌کنند بطور مثال زمانی که عامل به حالت خاصی می‌رسد یا از یک حد انتقال حالت گذر می‌کند. به عنوان مثال در tic-tac-toe بازی زمانی خاتمه می‌یابد که یک بازیکن سه فاصله متوالی را علامت گذاری می‌کند یا وقتی که تمام فاصله‌ها مشخص می‌شوند.

Test Set مجموعه آزمایش

زیرمجموعه‌ای از مجموعه داده‌ای که برای آزمایش مدل استفاده می‌شود، بعد از اینکه مدل بررسی اولیه را با مجموعه اعتبار سنجی انجام داد.

در تضاد با مجموعه آموزشی و اعتبار سنجی است.

Time Series Analysis تجزیه و تحلیل سری زمانی

زیرمجموعه‌ای از یادگیری ماشین و آمار که داده‌های زمانی را تجزیه و تحلیل می‌کند. بسیاری از انواع مسائل یادگیری ماشین به تجزیه و تحلیل سری زمانی نیاز دارند. از جمله طبقه بندی، خوشه بندی، پیش‌بینی و تشخیص ناهنجاری. به عنوان مثال می‌توان با استفاده از تجزیه و تحلیل سری زمانی، فروش آینده کت‌های زمستانی را بر اساس سوابق داده‌های فروش پیش‌بینی کرد.

Timestep گام زمانی

یک سلول باز نشده (unrolled) در یک شبکه عصبی بازگشتی است. به عنوان مثال شکل زیر سه گام را نشان می‌دهد (با زیرنویس‌های t-1 ،t و با برچسب t + 1):

Tower برج(Tower)

یک جزء(component) از شبکه عصبی عمیق است، که فاقد لایه خروجی است. به طور معمول هر برج از یک منبع داده مستقل می‌خواند و تا زمانی که خروجی آن‌ها در یک لایه نهایی ترکیب نشود، مستقل هستند.

Training آموزش

روند تعیین پارامترهای ایده آل متشکل از یک مدل است.

Training Set مجموعه آموزش

زیر مجموعه‌ای از مجموعه داده که برای آموزش مدل استفاده می‌شود.

در تضاد با مجموعه اعتبارسنجی و آزمون است.

Trajectory مسیر حرکت

در یادگیری تقویتی دنباله‌ای از چندتایی‌ها(tuples) که نمایانگر توالی انتقال حالت عامل هستند، طوری که هر چندتایی مربوط به حالت، عمل، پاداش و حالت بعدی برای یک انتقال حالت معین است.

Transfer Learning یادگیری انتقال

انتقال اطلاعات از یک کاربرد یادگیری ماشین به کاربرد دیگر. به عنوان مثال، در یادگیری چند-وظیفه‌ای، یک مدل چندین مساله را حل می‌کند، مثل یک مدل عمیق که برای حل مساله‌های مختلف چندین گره خروجی دارد. یادگیری انتقال می‌تواند به معنای انتقال دانش حل یک مساله ساده‌تر به یک مساله پیچیده‌تر باشد، یا به معنای انتقال دانش از یک مساله به داده‌های زیاد به مساله‌ای با داده‌ی کمتر باشد.

بیشتر سامانه‌هایی که از یادگیری ماشین استفاده می‌کنند یک مساله را حل می‌کنند. یادگیری انتقال گام اولیه به سمت هوش مصنوعی‌ای است که در آن یک برنامه بتواند چندین وظیفه داشته باشد.

Translational Invariance ناوردایی انتقالی

در یک مساله طبقه‌بندی تصاویر، به توانایی الگوریتم در دسته‌بندی درست عکس در شرایطی که جایگاه اشیا در تصویر تغییر می‌کند گفته می‌شود. به عنوان مثال، الگوریتم باید بتواند سگ را در تصویر تشخیص دهد، چه سگ در مرکز تصویر باشد و چه در سمت راست یا چپ آن.

مطالعه بیشتر: ناوردایی اندازه‌ای (size invariance) ، ناوردایی چرخشی (rotational invariance)

Trigram سه کلمه‌ای

یک N-کلمه‌ای که در آن مقدار N برابر ۳ است.

True Negative (TN) منفی واقعی

مثالی که در آن مدل کلاس منفی را به درستی پیش‌بینی کرده است. به عنوان مثال، این مدل استنباط می‌کند که یک پیام الکترونیکی خاص اسپم نیست و آن پیام واقعا اسپم نبوده است.

True Positive (TP) مثبت واقعی

مثالی که در آن مدل به درستی کلاس مثبت را پیش‌بینی کرده است. به عنوان مثال، این مدل استنباط می‌کند که یک پیام الکترونیکی خاص هرزنامه است و آن پیام واقعا هرزنامه بوده است.

True Positive Rate (TPR) نرخ مثبت حقیقی

نرخ مثبت حقیقی به شکل زیر محاسبه می‌شود:

این مقدار بر روی محور y ها در منحنی ROC نوشته می‌شود.

مترادف: بازخوانی (recall)

U
Unawareness(To A Sensitive Attribute) ناآگاهی (به یک ویژگی حساس)

موقعیتی که در آن ویژگی‌های حساس وجود دارند، اما در میان داد‌ه‌های آموزش نیستند. از آنجایی که ویژگی‌های حساس اغلب با سایر ویژگی‌های داده‌ ارتباط دارند، مدلی که با عدم آگاهی نسبت به یک ویژگی حساس آموزش داده شده است، می‌تواند تاثیر متفاوتی نسبت به آن ویژگی داشته باشد یا سایر محدودیت‌های انصاف را نقض کند.

Underfitting کم‌برازش

زمانی رخ می‌دهد که مدل پیچیدگی داده‌های آموزش را به دست نیاورده است و توانایی پیش‌بینی آن ضعیف است. بسیاری از مسائل می‌توانند باعث کم‌برازش شوند از جمله:

  • آموزش مجموعه‌ی اشتباه از ویژگی‌ها.
  • دوره‌های آموزشی بسیار کم یا با سرعت یادگیری بسیار پایین.
  • آموزش با سرعت زیاد با پارامتر نظم‌دهی.
  • استفاده‌ از لایه‌های پنهان بسیار اندک در یک شبکه‌ی عصبی عمیق.
Unlabeled Example نمونه‌ای بدون برچسب

نمونه‌ای که شامل یک سری ویژگی، اما فاقد برچسب است. نمونه‌های بدون برچسب ورودی استنتاجی هستند که در حین آموزش یادگیری نیمه نظارت شده و بدون نظارت از آن‌ها استفاده می‌شود.

Unsupervised Machine Learning یادگیری ماشین بدون نظارت

آموزش یک مدل برای یافتن الگوها در یک مجموعه داده که به طور معمول یک مجموعه داده بدون برچسب است.

متداول‌ترین کاربرد یادگیری ماشین بدون نظارت، خوشه‌بندی داده‌ها در گروه‌هایی از نمونه‌های مشابه است. به عنوان مثال این الگوریتم می‌تواند آهنگ‌ها را براساس ویژگی‌های مختلف موسیقی خوشه‌بندی کند که خوشه‌های حاصل می‌توانند به ورودی دیگری، برای الگوریتم‌های یادگیری ماشین (به عنوان مثال برای یک سرویس توصیه موسیقی) تبدیل شوند. در دامنه‌هایی که به سختی می‌توان برچسب واقعی را به دست آورد، استفاده از خوشه‌بندی می‌تواند مفید باشد. به عنوان مثال در حوزه‌هایی مانند ضد سو استفاده و تقلب می‌توانند به درک بهتر انسان از داده‌ها کمک کنند.

مثالی دیگر از یادگیری ماشین بدون نظارت، تحلیل مولفه اصلی(PCA) است. استفاده از PCA بر روی یک مجموعه داده که حاوی محتوای میلیون‌ها سبد خرید، ممکن است نشان دهد که سبدهای خرید حاوی لیمو به طور مکرر دارای آنتی اسیدها نیز هستند.

مقایسه با یادگیری ماشین تحت نظارت.

Upweighting افزودن وزن

افزودن وزن برای کلاس نمونه‌کاهی برابر با فاکتوری که در آن نمونه برداری صورت گرفته است.

User Matrix ماتریس کاربر

در سیستم‌های توصیه‌گر یک تعبیه است، که توسط فاکتوراسیون ماتریس ایجاد می‌شود و سیگنال‌های نهان درباره تنظیمات کاربر را در خود نگه می‌دارد.

هر ردیف از ماتریس کاربر، اطلاعاتی در مورد قدرت نسبی سیگنال‌های نهان مختلف برای یک کاربر خاص را دارد. به عنوان مثال یک سیستم توصیه فیلم را در نظر بگیرید، در این سیستم سیگنال‌های نهان در ماتریس کاربر ممکن است نشان دهنده‌ی علاقه هر کاربر به ژانرهای خاص باشد یا تفسیر سیگنال‌های سخت‌تری که شامل تعاملات پیچیده در چندین عامل است.

ماتریس کاربر برای هر ویژگی نهان یک ستون و برای هر کاربر یک ردیف دارد. یعنی ماتریس کاربر همان تعداد ردیف با ماتریس هدف را دارد که فاکتور می‌شود. به عنوان مثال با توجه به سیستم توصیه فیلم برای 1،000،000 کاربر، ماتریس کاربر 1،000،000 ردیف خواهد داشت.

V
Validation اعتبار‌ سنجی

فرایندی که به عنوان بخشی از آموزش با استفاده از مجموعه اعتبار سنجی، برای ارزیابی کارایی مدل یادگیری ماشین استفاده می‌شود. از آنجا که این مجموعه از مجموعه آموزش جداست، اعتبار سنجی به شما اطمینان می‌دهد که عملکرد مدل فراتر از مجموعه آموزش است.

در تضاد با مجموعه آزمایش است.

Validation Set مجموعه اعتبار سنجی

زیرمجموعه‌ای از مجموعه داده - جدا از مجموعه‌ی آموزش - که در اعتبار سنجی استفاده می‌شود.

در تضاد با مجموعه آموزش و مجموعه آزمایش است.

Vanishing Gradient Problem مشکل محو شدگی گرادیان

گرایش شیب لایه‌های پنهان اولیه در برخی از شبکه‌های عصبی عمیق به طور شگفت انگیزی مسطح (کم) می‌شود. شیب‌های فزاینده کمتر منجر به تغییرات فزاینده‌ی کوچک‌تر در وزن گره‌های یک شبکه عصبی عمیق می‌شود که منجر به یادگیری کم یا عدم یادگیری می‌شود. آموزش مدل‌هایی که مشکل محو شدگی گرادیان دارند دشوار یا غیرممکن است که با استفاده از سلول‌های حافظه طولانی کوتاه-مدت می‌توان این مسئله را برطرف کرد.

مقایسه با مشکل انفجار گرادیان.

W
Wasserstein Loss هزینه‌ی Wasserstein

یکی از توابع هزینه است که بر اساس فاصله زمین متحرک (EMD) بین توزیع داده‌های تولید شده و داده‌های واقعی است و معمولا در شبکه‌های مولد تخاصمی استفاده می‌شود.

هزینه‌ی Wasserstein عملکرد از دست رفته پیش فرض در TF-GAN است.

Weight وزن

ضریب یک ویژگی در یک مدل خطی یا یک لبه در شبکه عمیق است. هدف از آموزش یک مدل خطی، تعیین وزن ایده‌آل برای هر ویژگی است. اگر وزنی 0 باشد، ویژگی مربوط به آن به مدل کمکی نمی‌کند.

Weighted Alternating Least Squares(wals) حداقل مربعات متناوب (WALS)

الگوریتمی برای به حداقل رساندن تابع هدف هنگام فاکتورگیری ماتریس در سیستم‌های توصیه‌گر که می‌تواند وزنه‌ای سبک برای نمونه‌های ازدست رفته باشد. WALS خطای مربع وزنی بین ماتریس اصلی و بازسازی را با تناوبی بین تثبیت ردیف و ستون فاکتور گذاری به حداقل می‌رساند. هر یک از این بهینه سازی‌ها را می‌توان با حداقل بهینه سازی محدب مربع حل کرد. برای جزئیات بیشتر به دوره سیستم‌های توصیه‌گر مراجعه کنید.

Wide Model مدل گسترده

یک مدل خطی که به طور معمول شامل تعداد زیادی ویژگی‌های ورودی پراکنده است و ما از آن به عنوان "گسترده" یاد می‌کنیم زیرا چنین مدلی نوع خاصی از شبکه عصبی با تعداد زیادی ورودی است که مستقیم به گره خروجی متصل می‌شوند. با وجود اینکه اشکال زدایی و بازرسی از مدل های گسترده اغلب راحت تر از مدل‌های عمیق است، این مدل‌ها نمی توانند غیرخطی بودن را از طریق لایه‌های نهان بیان کنند. اما می توانند از تغییراتی مانند عبور از ویژگی‌ها و جفت‌بندی برای مدل سازی غیرخطی‌ها به روش‌های مختلف استفاده کنند( برخلاف مدل عمیق).

Width عرض

به تعداد سلول‌های عصبی در یک لایه‌ی خاص از شبکه‌ی عصبی گفته می‌شود.

X
Y
Z