A/B Testing آزمایش A/B
یک روش آماری است که به کمک آن میتوان یک یا دو شیوه (تکنیک) را مقایسه کرد. به طور معمول یک وظیفه لازم در برابر رقیب جدید است که هدف آن تنها تعیین عملکرد بهتر نیست؛ بلکه برای اینکه درک کنیم آیا این تفاوت از نظر آماری معنادار است یا خیر نیز کاربرد دارد.
آزمایش A/B معمولاً تنها دو شیوه (تکنیک) را با استفاده از یک اندازه گیری در نظر میگیرد ، اما میتواند برای هر تعداد محدودی از تکنیکها و اقدامات استفاده شود.
Accuracy کارایی
کسری از پیشبینیهای درست یک مدل طبقهبندی است که در طبقهبندی چند کلاسه به صورت زیر تعریف میشود:
کارایی = تعداد کل نمونهها/پیشبینیهای درست
در طبقهبند دودویی کارایی به صورت زیر تعریف میشود :
مثبت واقعی + منفی واقعی/تعداد کل نمونهها
Action عمل
ساز و کاری که توسط آن عامل بین حالتهای محیط تغییر میکند.عامل عملش را با استفاده از خط مشی انتخاب میکند.
Activation Function تابع فعالساز
تابعی که مجموع وزنی کلیه ورودیهای لایه قبلی را میگیرد و سپس مقدار خروجی (به طور معمول غیرخطی است) را به لایه بعدی منتقل میکند. به عنوان مثال ReLU یا سیگموئید.
Active Learning یادگیری فعال
یک رویکرد آموزشی که در آن الگوریتم به صورت انتخابی طیف خاصی از نمونه های مورد نیاز برای یادگیری را جستجو میکند. استفاده از این روش هنگامی که دسترسی به داده پرهزینه باشد یا تعداد دادههای برچسب گذاری شده اندک، کارآمد است.
Adagrad آداگراد
یک الگوریتم پیشرفته گرادیان کاهشی است که شیب هر پارامتر را ذخیره و به طور موثر به هر پارامتر یک نرخ یادگیری مستقل میدهد. برای توضیح کامل، به این مقاله مراجعه کنید.
Agent عامل
موجودیتی در یادگیری تقویتی است که با استفاده از خط مشی تلاش میکند تا بازده مورد انتظار از انتقال بین حالات محیط را به حداکثر برساند.
Agglomerative Clustering خوشه بندی آگلومره
خوشه بندی سلسله مراتبی را ببینید.
AR واقعیت افزوده (مخفف)
Area under the PR curve منطقه زیر منحنی PR
Area under the ROC curve منطقه زیر منحنی ROC
Artificial General Intelligence هوش عمومی مصنوعی
مکانیسم غیر انسانی که طیف گستردهای از حل مسئله، خلاقیت و سازگاری (تطبیق) را نشان میدهد. به عنوان مثال، برنامهای که میتواند متن را ترجمه کند، سمفونیها را سروده و در بازی هایی که هنوز اختراع نشده اند برتری پیدا کند، نشان دهنده هوش عمومی مصنوعی است.
Artificial Intelligence هوش مصنوعی
برنامه یا الگوی غیر انسانی که می تواند کارهای پیچیدهای را حل کند. به عنوان مثال، برنامه یا مدلی که متن را ترجمه میکند یا بیماریهای ناشی از تصاویر رادیولوژی را شناسایی، هر دو دارای هوش مصنوعی هستند.
با وجود اینکه یادگیری ماشین یک حوزه فرعی از هوش مصنوعی است، در سال های اخیر برخی از سازمان ها اصطلاحات هوش مصنوعی و یادگیری ماشین را بجای یکدیگر استفاده میکنند.
Attribute صفت
مترادفی برای خصیصه (ویژگی) است. صفتها اغلب به خصیصههای مربوط به افراد اشاره دارند.
AUC (Area Uder the ROC Curve) AUC (ناحیه زیر منحنی ROC)
یک معیار ارزیابی است که تمام آستانههای طبقهبندی ممکن را در نظر میگیرد.
ناحیه زیر منحنی ROC احتمالی است که در آن طبقهبند اطمینان بیشتری کسب کند که یک نمونه مثبت که به طور تصادفی انتخاب شده است در واقع مثبتتر از آن است که یک نمونه منفی انتخاب شده به طور تصادفی مثبت باشد.
Augmented Reality واقعیت افزوده
تكنولوژیای که با قرار دادن تصویر کامپیوتری از دنیای واقعی بر روی دید كاربر، نمای مرکبی را ارائه میدهد.
Automation Bias سوگیری فرایند خودکار
هنگامی که یک تصمیم گیرنده انسانی توصیههایی که توسط یک سیستم خودکار انجام میشود را نسبت به اطلاعاتی که دستی تهیه شده اند برتری میدهد، حتی زمانی که سیستم خودکار خطا دارد.
Average Precision میانگین دقت
معیاری برای خلاصه کردن عملکرد یک دنباله رتبهبندی شده از نتایج است، که با در نظر گرفتن میانگین مقادیر [صحیح]/P/precision/) مربوط برای هر نتیجه محاسبه میشود.
مطالعه بیشتر: منطقه زیر منحنی PR
Backpropagation انتشار معکوس
الگوریتمی برای شبکههای عصبی با بیش از یک لایه پنهان است، که برای محاسبه دقیقتر گرادیان وزن مورد استفاده قرار میگیرد. ابتدا مقادیر خروجی هر گره رو به جلو محاسبه میشود. سپس مشتقات جزئی خطا با توجه به هر پارامتر با بازگشت به عقب از طریق نمودار محاسبه می شود.
Bag of Words کیف کلمات
ارائه ای بدون ترتیب از لغات درون یک عبارت یا متن برای مثال در کیف کلمات سه عبارت زیر یکسان دیده میشوند.
-
سگ میپرد بالاتر
بالاتر سگ میپرد
میپرد بالاتر سگ
هر کلمه به یک شاخص (index) در بردار پراکنده (sparse vector) متصل میشود، جایی که بردار برای هر کلمه در واژگان یک شاخص در نظر گرفته است.
برای مثال عبارت سگ بالاتر میپرد به یک بردار ویژگی با مقادیر غیر صفر برای سه نمایهی مرتبط به کلمات سگ، بالاتر و میپرد متصل میشود. مقادیر غیرصفر میتواند هریک از موارد زیر باشد:
- 1 تا حضور کلمه را نشان بدهد.
- تعداد دفعاتی که کلمه در کیف مشاهده شده است برای مثال اگر عبارت "سگ قهوهای یک سگ با رنگی قهوهای است." باشد هر دو کلمه سگ و قهوه ای با مقدار۲ نمایش داده میشوند، درحالی که سایر کلمات با ۱ نمایش داده خواهند شد.
- الگوریتم های دیگر مانند لگاریتم تعداد دفعات تکرار کلمه در کیف.
Baseline مبنا
مدلی که به عنوان مرجعی برای مقایسه میزان خوب بودن مدلی دیگر (معمولا یک مدل پیچیده تر) استفاده میشود. برای مثال یک logistic regression model ممکن است بتواند به عنوان یک مبنای خوب برای یک deep model باشد.
Batch دسته
مجموعه مواردی که در یک تکرار (یکبار بروزرسانی گرادیان ) از فرآیند آموزش مدل استفاده میشود.
مطالعه بیشتر: اندازه دسته (batch size)
Batch Normalization نرمال سازی دسته
نرمال سازی ورودی یا خروجی تابع فعال ساز در یک لایهی مخفی. نرمال سازی دسته میتواند مزایای زیر را داشته باشد:
- شبکههای عصبی را به وسیله ی محافظت در برابر وزن دادههای پرت پایدار تر میکند.
- نرخ یادگیری را بالاتر میبرد.
- بیش برازاندن (overfitting) را کاهش میدهد.
*
Batch Size اندازه دسته
تعداد مواردی که در یک دسته حضور دارند. مثلا اندازه دسته SGD عدد یک است، درحالی که اندازه دسته یک mini-batch معمولا عددی بین ۱ تا ۱۰۰۰ است. اندازه دسته معمولا در طول فرآیند آموزش و استنتاج ثابت است اگرچه تنسرفلو اجازه تعریف اندازه دسته پویا را نیز میدهد.
Bayesian Neural Network شبکه عصبی بیزین
یک شبکه عصبی احتمالی متکی به قضیه بیز است که عدم قطعیت در وزنها و خروجیهای شبکه را به خود اختصاص میدهد. بیزین بر خلاف یک مدل رگرسیون (پیشبینی یک مقیاس) براساس توزیع مقادیر پیشبینی میکند. به عنوان مثال ، یک مدل قیمت خانه را 853،000 و بیزین قیمت خانه را 853،000 با انحراف استاندارد 67200 پیشبینی میکند. با استفاده از بیزین میتوان کمیت عدم قطعیت را تعیین کرد.(مانند مدلهای مرتبط با دارو) همچنین از بیشبرازش جلوگیری کرد.
Bellman Equation معادله بلمن
در یادگیری تقویتی (reinforcement learning) اتحاد زیر به وسیله تابع Q زیر بهینه میشود.
یادگیری تقویتی با اعمال این اتحاد به یادگیری Q با قاعده بهروزرسانی زیر منجر میشود:
معادله بلمن علاوه بر یادگیری تقویتی کاربردهایی در برنامهنویسی پویا نیز دارد.
اطلاعات بیشتر: معادله بلمن در ویکیپدیا
Bias (Ethics/Fairness) سوگیری (اخلاق/عدالت)
۱. کلیشه سازی ، تعصب یا طرفداری از برخی چیزها ، افراد یا گروهها نسبت به دیگران. این سوگیری ها می تواند بر روی جمع آوری و تفسیر داده ها ، طراحی سیستم و نحوه تعامل کاربران با یک سیستم تأثیر بگذارد. انواع این نوع تعصب شامل موارد زیر است:
- سوگیری فرآیندخودکار
- سوگیری تاییدی
- سوگیری آزمایشکننده
- سوگیری ویژگیهای گروهی
- سوگیری ضمنی
- سوگیری درون گروهی
- سوگیری همگن برون گروهی
۲. خطای سیستمیک که توسط یک روش نمونه گیری یا گزارش گیری ارائه شده است. انواع این نوع سوگیری شامل موارد زیر است:
با اصطلاح سوگیری درمدلهای یادگیری ماشین یا سوگیری پیش بینی اشتباه گرفته نشود.
Bias (Math) اریبی (ریاضی)
رهگیری یا انحراف از مبدا. در مدلهای یادگیری ماشین اریبی (همچنین به عنوان مقدار اریبی نیز شناخته میشود.) به عنوان b یا w0 ارجاع داده میشود.
با سوگیری اخلاق و عدالت و سوگیری پیش بینی اشتباه گرفته نشود.
Bigram دو کلمهای (دو گرم)
یک N-کلمهای (N-گرم) که در آن N=2 باشد.
Binary Classification طبقهبندی دوتایی
نوعی از طبقهبندی که خروجی آن به یکی از دو دسته ناسازگار تعلق داشته باشد. به عنوان مثال، یک مدل یادگیری ماشین که پیامهای الکترونیک را بررسی میکند و آنها را در یکی از دو کلاس «هرزنامه» و «غیر هرزنامه» دستهبندی میکند یک طبقهبند دوتایی ست.
Binning پیالهبندی کردن
مترادف: سطلبندی کردن (bucketing)
Boosting تقویت کردن
یک تکنیک در یادگیری ماشین که به صورت پیاپی مجموعهای از طیقهبندهای ساده و نه بسیار دقیق (طبقهبندهای ضعیف) را با یک طبقهبند با دقت بالا (طبقهبند قوی) با دادن وزن بیشتر به نمونههایی که اشتباه طبقهبندی میشوند ترکیب میکند.
Broadcasting انتشار همگانی
گسترش ابعاد (shape) یک عملوند درگیر با یک عملگر ماتریسی به ابعادی که برای آن عملگر مناسب باشند. به عنوان مثال، در جبر خطی نیاز است که دو عملوند درگیر در یک جمع ماتریسی ابعاد مشابهی داشته باشند. به همین دلیل امکان جمع یک ماتریس با ابعاد (m, n) با یک بردار به طول n وجود ندارد. انتشار همگانی امکان این عملیات را با گسترش مجازی وکتور به طول n و تبدیل آن به ماتریس با ابعاد (m, n) که در هر ستون آن یک مقدار تکرار شده فراهم میکند.
به عنوان مثال، با مفروضات زیر، جبر خطی جمع A و B را نامجاز میداند، چون آنها ابعاد متفاوتی دارند.
A = [[7, 10, 4],
[13, 5, 9]]
B = [2]
اما انتشار همگانی با افزایش مجازی ابعاد B به ماتریس زیر، محاسبه A+B را ممکن میکند.
[[2, 2, 2],
[2, 2, 2]]
حال، A+B یک عملیات مجاز است.
[[7, 10, 4], + [[2, 2, 2], = [[ 9, 12, 6],
[13, 5, 9]] [2, 2, 2]] [15, 7, 11]]
اطلاعات بیشتر: انتشار همگانی در NumPy
Bucketing سطلبندی کردن
تبدیل یک ویژگی (feature) معمولا پیوسته بر اساس بازه مقادیر به چندین ویژگی دودویی که سطل (bucket) یا پیاله (bin) نامیده میشوند. به عنوان مثال، به جای بیان دما به عنوان یک ویژگی اعشاری پیوسته میتوان آن را در چندین دسته گسسته با بازههای مشخص قرار داد. اگر دادههای دما با حساسیت ۰.۱ درجه را داشته باشیم، دادههایی که دمایی بین ۰.۰ تا ۱۵.۰ درجه دارند میتوانند در یک دسته قرار بگیرند، دماهای بین ۱۵.۱ تا ۳۰.۰ درجه در دسته دوم، و دادههای با دمای بین ۳۰.۱ تا ۵۰.۰ در دسته سوم قرار میگیرند.
Calibration Layer لایه واسنجی
یک تعدیل پس از پیشبینی (post-prediction adjustment) که معمولا برای بررسی سوگیری پیشبینی (prediction bias) استفاده میشود. پیشبینیهای تعدیل شده و احتمالاتشان باید با توزیع مجموعهی بررسیشدهای از برچسبها همخوانی داشته باشند.
Candidate Generation تولید کاندیدا
مجموعه اولیهای از پیشنهادات که توسط یک سامانه پیشنهادگر انتخاب شدهاند. به عنوان مثال، کتابفروشیای که ۱۰۰۰۰۰ عنوان کتاب دارد را در نظر بگیرید. در مرحله تولید کاندیدا، مجموعهی بسیار کوچکتری (مثلا ۵۰۰ عنوان) از کتابهای مناسب برای یک کاربر مشخص تولید میشود. اما ۵۰۰ عنوان نیز عدد بزرگی برای پیشنهاد به کاربر است. در مرحله بعدی (مانند امتیازدهی - scoring یا رتبهبندی مجدد - re-ranking) - که گرانتر نیز هست - یک سامانه پیشنهادگر تلاش میکند که آن ۵۰۰ عنوان را به مجموعهای بسیار کوچکتر و کاربردیتر تبدیل کند.
Candidate Sampling نمونهگیری در دسترس (داوطلبانه)
یک بهینهسازی در زمان آموزش که در آن احتمال تمامی برچسبهای مثبت با استفاده از مثلا softmax محاسبه میشود؛ اما این کار تنها برای نمونههایی تصادفی از برچسبهای منفی میافتد. به عنوان مثال، برای یک نمونه که برچسبهای بیگل (نوعی سگ) و سگ را داشته باشد، نمونهگیری داوطلبانه احتمالات و مقدار تابع زیان را برای کلاسهای بیگل و داگ و همچنین برای یک زیرمجموعه تصادفی از باقیمانده کلاسها (گربه، آبنبات و ...) محاسبه میکند. ایده کلی این است که کلاسهای منفی میتوانند با تقویت منفی با تکرار کمتر یاد گرفته شوند؛ در حالی که کلاسهای مثبت همیشه به تقویت مثبت مناسب نیاز دارند. این مساله به صورت تجربی مشاهده میشود. هدف نمونهگیری در دسترس بهینهسازی محاسبات به دلیل محاسبه نکردن احتمالات برای همه کلاسهای منفی است.
Categorical Data داده رستهای
ویژگیهایی که تنها میتوانند مجموعهی گسستهای از مقادیر ممکن را داشته باشند. برای مثال یک دادهی رستهای به نام نوع خانه را در نظر بگیرید، که میتواند سه مقدار ممکن ویلایی، آپارتمانی و برج را داشته باشد. با معرفی نوع خانه به عنوان یک داده کیفی مدل میتواند تاثیر جداگانه هریک از این سه را بر روی قیمت خانه یاد بگیرد.
گاهی اوقات مقادیر در مجموعه گسسته منحصربفرد هستند و تنها یک مقدار میتوانند داشته باشند. برای مثال سازنده ماشین احتمالا تنها میتواند یک مقدار داشته باشد (مثلا تویوتا).
در سایر اوقات میتوان بیش از یک مقدار نیز نسبت داد. یک ماشین میتواند چند رنگ باشد بنابراین داده رستهای رنگ ماشین یک مثال از است که میتواند چندین مقدار داشته باشد. (برای مثال قرمز و سفید.)
داده های کیفی گاهی داده های گسسته نیز خوانده میشوند.
متضاد: داده کمی
Centroid-based Clustering خوشهبندی بر اساس مرکز خوشه
شاخهای از الگوریتمهای خوشهبندی یا clustering که دادهها را در خوشههای غیرسلسله مراتبی سازماندهی میکند. k-means از پراستفادهترین الگوریتمهای این شاخه است.
Centroid مرکز خوشه
مرکز خوشههایی که توسط الگوریتمهای k-means یا k-median مشخص میشوند. به عنوان مثال، اگر k برابر ۳ باشد، الگوریتمهای k-means یا k-median سه مرکز خوشه یا centroid پیدا خواهند کرد.
Checkpoint نقطه وارسی
دادههایی که وضعیت متغیرهای یک مدل را در یک زمان مشخص ذخیره میکنند. با استفاده از این دادهها، امکان خروجی گرفتن از وزنهای مدل را در حالی که در نشستهای (session) مختلف در حال آموزش است فراهم میشود. آنها همچنین این اجازه را میدهند که فرآیند آموزش پس از مواجه شدن با خطا (مثلا گرفتن سختافزار مورد نیاز آموزش توسط دیگر برنامهها) ادامه پیدا کند. توجه کنید که گراف به خودی خود در نقطه وارسی (checkpoint) ذخیره نمیشود.
Class-imbalanced Dataset مجموعهداده دسته نامتوازن
مشکلی است که در مسالههای دستهبندی دوتایی (binary classification) پیش میآید که در آن تعداد برچسبهای یک دسته با دیگری تفاوت زیادی دارد. به عنوان مثال، مجموعه دادهای مربوط به یک بیماری که در آن ۰.۰۰۰۱ دادهها برچسب مثبت و بقیه دادهها برچسب منفی دارند دچار مشکل مجموعهداده دسته نامتوازن است؛ اما مجموعه دادههای مربوط به یک پیشگوی بازی فوتبال که در آن ۰.۵۱ دادهها برچسب برد یک تیم و ۰.۴۹ دادهها برچسب برد تیم دیگر را دارند دارای این مشکل نیست.
Class دسته
هر کدام از مجموعه مقادیر ذکر شده که یک برچسب میتواند بپذیرد. برای مثال، در یک مدل دستهبندی دوتایی که هرزنامهها را تشخیص میدهد، «هرزنامه» و «غیر هرزنامه» دو دسته هستند. یا در یک مدل دستهبندی چندتایی که نژاد سگ را تشخیص میدهد، دستهها پودل، بیگل، پاگ و ... خواهند بود.
Classification Model مدل دستهبندی
نوعی از مدلهای یادگیری ماشین که برای تمایز قائل شدن میان دو یا چند دسته مجزا استفاده میشوند. به عنوان مثال، یک مدل دستهبندی پردازش زبان طبیعی میتواند تشخیص دهد که جمله ورودی به کدام یک از زبانهای فرانسوی، اسپانیایی یا ایتالیایی تعلق دارد. این لغت را با مدلهای وایازشی (regression model) مقایسه کنید.
Classification Threshold آستانه دستهبندی
یک مقدار عددی معیار که بر روی امتیاز خروجی مدل اعمال میشود تا دسته مثبت را از دسته منفی جدا کند. از این مقدار زمانی استفاده میشود که نیاز است نگاشتی (mapping) بین نتیجه [وایازش آمادی (رگرسیون لجستیک [logistic regression])](/L/logistic_regression) و دستهبندی دوتایی ایجاد کنیم. به عنوان مثال، مدل رگرسیون لجستیکی را در نظر بگیرید که احتمال هرزنامه بودن یک پست الکترونیک را بررسی میکند. اگر مقدار آستانه دستهبندی در این مدل ۰.۹ باشد، خروجیهای بالای ۰.۹ مدل رگرسیون لجستیک به عنوان هرزنامه و مقادیر زیر ۰.۹ به عنوان غیر هرزنامه دستهبندی میشوند.
Clipping بریدهسازی
روشی برای رسیدگی به دادههای پرت است. در این روش، ویژگیهایی که مقداری بیش از یک مقدار بیشینه مشخص دارند کاهش پیدا میکنند تا به آن مقدار بیشینه برسند. همچنین، ویژگیهایی که مقداری کمتر از یک مقدار کمینه تعیین شده دارند تا رسیدن به آن مقدار افزایش پیدا میکنند.
به عنوان مثال، فرض کنید تنها تعداد محدودی ویژگی مقداری خارج از بازه ۴۰ الی ۶۰ دارند. در این صورت بریدهسازی جهت از بین بردن دادههای پرت کارهای زیر را انجام میدهد:
- تمام مقادیر بیش از ۶۰ را برابر ۶۰ قرار میدهد.
- تمام مقادیر کمتر از ۴۰ را برابر ۴۰ قرار میدهد.
علاوه بر بردن دادههای ورودی به یک بازه مشخص، بریدهسازی همچنین میتواند برای اطمینان از وجود مقدار گرادیانها در یک بازه مشخص نیز استفاده شود.
Clustering خوشهبندی
قرار دادن نمونههای مرتبط در یک گروه، به خصوص در حین یادگیری بدون نظارت (unsupervised learning). پس از این که تمامی نمونهها در گروهها قرار گرفتند، انسانها میتوانند به هر خوشه معنایی اختصاص دهند.
الگوریتمهای خوشهبندی زیادی وجود دارند. به عنوان مثال، الگوریتم k-means نمونهها را بر اساس نزدیکی آنها به مرکز خوشه دستهبندی میکند.
یک محقق میتواند پس از اتمام فرآیند آنها را بازبینی کند. به عنوان مثال در نمودار فوق میتواند خوشه ۱ را «نهال» و خوشه ۲ را «درخت کامل» نامگذاری کرد.
به عنوان مثالی دیگر، الگوریتم خوشهبندی دیگری که نمونهها را بر اساس فاصله از نقطه مرکزی دستهبندی کند، نمودار زیر را رسم میکند.
Co-adaptation سازگاری
هنگامی که نورونها الگوهای موجود در دادههای آموزش (training set) را به جای تکیه کردن بر رفتار شبکه به عنوان یک کل، تنها بر اساس خروجی برخی نورونهای مشخص پیشبینی میکنند. اگر الگوهایی که باعث سازگاری میشوند در دادههای اعتبارسنجی (validation set) وجود نداشته باشند، در این صورت سازگاری باعث پیشبرازاندن (overfitting) میشود. حذف تصادفی (dropout regularization) باعث کاهش سازگاری میشود؛ چون فرآیند حذف تصادفی اطمینان حاصل میکند که نورونها تنها به تعدادی نورون خاص وابسته نیستند.
Collaborative Filtering پالایش گروهی
پیشبینی کردن علاقهمندیهای یک کاربر بر اساس علاقهمندیهای کاربران دیگر. پالایش گروهی معمولا در سامانههای پیشنهادگر (recommendation systems) استفاده میشود.
Confirmation Bias سوگیری تاییدی
تمایل به جستجو، تفسیر، تصویب یا به خاطر آوردن اطلاعات به صورتی که باورها یا فرضیههای موجود را تایید کند. توسعهدهندگان یادگیری ماشین ممکن است ناخواسته در روند جمعآوری یا برچسب زدن دادهها به شکلی عمل کنند که سیستم به خروجیای مطابق با باورهای آنان دست پیدا کند.سوگیری تاییدی نوعی از سوگیری ضمنی (implicit bias) است.
سوگیری چشمداشتی (experimenter's bias) حالتی از سوگیری تاییدی است که در آن آزمایشگر به آموزش مدلها ادامه میدهد تا زمانی که فرضیههای موجود تایید شوند.
Confusion Matrix ماتریس درهمریختگی
یک ماتریس n×n که میزان موفقیت یک مدل دستهبندی در پیشبینی را طور مختصر نمایش میدهد. برای این کار همبستگی بین برچسبها و دستهبندیهای مدل بررسی میشود. یک محور ماتریس درهمریختگی برچسبهای پیشبینی شده توسط مدل است و محور دیگر برچسبهای واقعی. n بیانگر تعداد دستههاست. در یک مساله دستهبندی دوتایی n برابر ۲ است. به عنوان مثال، جدول زیر یک ماتریس درهمریختگی برای یک مساله دستهبندی دوتایی است.
غیر تومور (پیشبینی) | تومور (پیشبینی) | |
---|---|---|
۱ | ۱۸ | تومور (مقدار واقعی) |
۴۵۲ | ۶ | غیر تومور (مقدار واقعی) |
این ماتریس درهمریختگی نشان میدهد که مدل از میان ۱۹ نمونه که تومور داشتهاند، ۱۸ عدد را به درستی به عنوان تومور دستهبندی کرده است (۱۸ مثبت حقیقی (true positive)) و ۱ نمونه را به اشتباه در دسته بدون تومور قرار داده است (۱ منفی کاذب (false negative)). همچنین، مدل از ۴۵۸ نمونه که تومور نداشتهاند، ۴۵۲ عدد را به درستی دستهبندی کرده است (۴۵۲ منفی حقیقی (true negative)) و ۶ عدد را در دستههای اشتباه قرار داده است (۶ مثبت کاذب (false positive)).
ماتریس درهمریختگی میتواند به تشخیص الگوهای اشتباه در یک مساله دستهبندی چندتایی کمک کند. به عنوان مثال، ماتریس درهمریختگی میتواند آشکار کند که مدلی که برای تشخیص اعداد دستنویس آموزش دیده است، در تشخیص اعداد ۲ و ۳ اشتباه میکند.
ماتریس درهمریختگی اطلاعات کافی برای محاسبه برخی از معیارهای عملکرد را دارد، مانند دقت (precision) و یادآوری (recall).
Continuous Feature ویژگی پیوسته
یک ویژگی اعشاری که میتواند بازه نامحدودی از اعداد را بپذیرد.
متضادها: ویژگی گسسته
Convenience Sampling نمونهگیری آسان
استفاده از مجموعه دادهای که به روش علمی جمعآوری نشده است، با هدف اجرای سریعتر آزمایشها. در این صورت لازم است که بعدا مجموعه دادهای که با روشهای علمی جمعآوری شده جایگزین آن گردد.
Convergence همگرایی
معمولا به وضعیتی در روند آموزش شبکه اشاره دارد که در آن بعد از مدتی مقدار زیان دادههای آموزش (training loss) و همچنین مقدار زیان دادههای اعتبارسنجی (validation loss) در هر تکرار (iteration) خیلی کم تغییر کند یا اصلا تغییر نکند. به بیان دیگر، یک مدل زمانی به همگرایی میرسد که ادامه دادن فرآیند آموزش بر روی دادههای فعلی بهبودی در مدل حاصل نکند. در یادگیری عمیق، گاهی مقادیر تابع زیان قبل از کاهش در چندین گام ثابت میمانند که ممکن است به اشتباه همگرایی برداشت شود.
مطالعه بیشتر: توقف زودهنگام (early stopping) ، بهینهسازی محدب (Boyd and Vandenberghe, Convex Optimization)
Convex Function تابع محدب
تابعی که در آن فضای بالای گراف تابع یک مجموعه محدب باشد. نمونه اولیه تابع محدب شکلی شبیه حرف "U" دارد. به عنوان مثال، توابع زیر نمونههایی از تابع محدب هستند.
در مقابل نمودارهای فوق، توابع زیر محدب نیستند. توجه کنید که فضای بالای گراف یک مجموعه محدب نیست.
یک تابع اکیدا محدب دقیقا یک نقطه کمینه محلی دارد که همان نقطه کمینه سراسری است. توایع U شکل نیز جزو توایع اکیدا محدب هستند. با این حال، برخی از توایع محدب، مانند خط صاف، U شکل نیستند.
تعداد زیادی از توابع زیان (loss functions) از جمله موارد زیر تابع محدب هستند.
- تابع زیان L2 (L2 loss)
- تابع زیان لگاریتمی (Log loss)
- تنظیم L1 (L1 regularization)
- تنظیم L2 (L2 regularization)
تعداد زیادی از انواع الگوریتمهای گرادیان کاهشی (gradient descent) تضمین میکنند که نقطهای نزدیک به کمینه تابع اکیدا محدب را پیدا میکنند. همچنین، تعداد زیادی از انواع الگوریتم های گرادیان کاهشی تصادفی (stochastic gradient descent) نیز شانس بالایی در پیدا کردن نقطهای نزدیک به کمینه یک تابع اکیدا محدب دارند.
مجموع دو تابع محدب (به عنوان مثال، تابع زیان L2 + تنظیم L1) نیز تابعی محدب است.
مدلهای عمیق هرگز توابع محدب نخواهند بود. باید توجه داشت که الگوریتمهایی که برای بهینهسازی محدب (convex optimization) طراحی شدهاند تلاش میکنند تا به هر روش پاسخی مناسب برای شبکههای عمیق پیدا کنند، اما این پاسخ لزوما مقدار کمینه سراسری نخواهد بود.
Convex Optimization بهینهسازی محدب
فرآیند استفاده از تکنیکهای ریاضی مانند گرادیان کاهشی (gradient descent) با هدف پیدا کردن مقدار کمینه یک تایع محدب. تحقیقات زیادی در حوزه یادگیری ماشین با تمرکز بر پیدا کردن قاعدهای جهت تبدیل مسائل مختلف به مساله بهینهسازی محدب و حل آنها به روش بهینهتر انجام شده است.
مطالعه بیشتر: بهینهسازی محدب (Boyd و Vandenberghe, Convex Optimization)
Convex Set مجموعه محدب
زیرمجموعهای از فضای اقلیدسی بهنحویکه هر پارهخطی که بین دو نقطه دلخواه از زیرمجموعه رسم شود، کاملاً درون زیرمجموعه باقی بماند. بهعنوانمثال، شکلهای زیر مجموعه محدب هستند:
در مقابل، شکلهای زیرمجموعه محدب نیستند:
Convolution کانولوشن
یکی از توابع ریاضی که دو تابع را با یکدیگر ترکیب میکند. در یادگیری ماشین، عملیات کانولوشن فیلتر کانولونشی را با ماتریس ورودی ترکیب میکند و از این طریق به آموزش وزنها میپردازد.
در یادگیری ماشین، اصطلاح "کانولوشن" معمولا یک واژه کوتاه برای ارجاع به عملیات کانولوشن یا لای پیچشی (کانولوشنی) است.
بدون عملیات کانولوشن، یک روش یادگیری ماشین نیازمند یادگیری وزنهای جداگانه برای تمام درایههای یک تنسور بزرگ است. به عنوان مثال، یک روش یادگیری ماشین که روی تصاویری با ابعاد 2k*2k آموزش میبیند، نیازمند یافتن 4M وزن متفاوت است. با کمک کانولوشنها، یک روش یادگیری ماشین، تنها نیازمند یافتن تمام وزن های فیلتر کانولوشنی است که این اتفاق به شدت حافظه مورد نیاز را کاهش میدهد.
زمانی که فیلتر کانولوشنی اعمال میشود، این فیلتر بر روی همه درایهها تکثیر شده و هر بخش در درایه های متناظر با خود از فیلتر کانولوشنی ضرب میشود.
Convolutional Filter پالایه کانولوشنی (پیچشی)
یکی از دو عامل درگیر در عملگر پیچشی (convolutional operation). (عامل دیگر برشی از ماتریس ورودی است.) یک پالایه پیچشی ماتریسی با رتبهای (rank) مشابه ماتریس ورودی است که ابعادی (shape) کوچکتر از آن دارد. به عنوان مثال، اگر ماتریس ورودی ۲۸ * ۲۸ باشد، پالایه میتواند هر ماتریسی با ابعادی کوچکتر از ۲۸ * ۲۸ باشد.
در پردازش تصویر، سلولهای یک پالایه پیچشی معمولا با یک الگوی ثابت از ۰ و ۱ پر میشوند. در یادگیری ماشین، هر سلول پالایه پیچشی معمولا با عددی تصادفی مقداردهی میشود و سپس فرآیند آموزش آغاز میشود تا مقدار ایدهآل مشخص شود.
Convolutional Layer لایه کانولوشنی (پیچشی)
لایهای از یک شبکه عصبی عمیق که در آن یک پالایه پیچشی (convolutional fliter) از روی ماتریس ورودی گذر میکند. به عنوان مثال، پالایه پیچشی ۳ * ۳ زیر را در نظر بگیرید:
انیمیشن زیر نشان میدهد که چطور لایه پیچشی از ۹ عملگر پیچشی که بر روی ماتریس ورودی ۵ * ۵ اعمال میشوند تشکیل شده است. توجه کنید که هر عملگر پیچشی بر روی برش ۳ * ۳ متفاوتی از ماتریس ورودی اعمال میشود. ماتریس ۳ * ۳ حاصل (سمت راست) از کنار هم قرار گرفتن نتایج ۹ عملگر پیچشی به وجود میآید.
Convolutional Neural Network شبکه عصبی کانولوشنی (پیچشی)
شبکه عصبیای که در آن حداقل یک لایه کانولوشنی وجود داشته باشد. یک شبکه عصبی کانولوشنی عادی شامل ترکیبی از لایههای زیر است:
شبکههای عصبی کانولوشنی در مسائلی مانند بازشناسی تصویر به موفقیتهای بسیاری دست یافتهاند.
Convolutional Operation عملگر کانولوشنی (پیچشی)
عبارت است از عملگر ریاضی دو مرحلهای زیر:
- ضرب درایه به درایه پالایه کانولوشنی (convolutional fliter) و برشی از ماتریس ورودی. (برش مورد نظر از ماتریس ورودی مرتبه و اندازهای مشابه پالایه کانولوشنی دارد.)
- محاسبه مجموع تمامی حاصلضربها.
به عنوان مثال، ماتریس ۵ * ۵ زیر را به عنوان ورودی درنظر بگیرید.
همچنین تصور کنید که پالایه کانولوشنی به شکل زیر باشد:
هر عملگر کانولوشنی یک برش ۲ * ۲ از ماتریس ورودی را درگیر میکند. به عنوان مثال، فرض کنید عملگر کانولوشنی بر روی برش ۲ * ۲ بالا - چپ ماتریس ورودی اعمال شود. در این صورت نتیجه به شکل زیر خواهد بود:
هر لایه کانولوشنی از تعدادی عملگر کانولوشنی استفاده میکند که هر کدام بر برش متفاوتی از ماتریس ورودی اعمال میشوند.
Cost هزینه
مترادفی برای زیان (loss) است.
Counterfactual Fairness معیار خلافآمدی
یک معیار تساوی (fairness metric) که بررسی میکند آیا یک طبقهبند (classifier) برای دو موجودیت همسان که تنها در برخی ویژگیهای حساسیتبرانگیز (sensitive attributes) با هم تفاوت دارند، نتایج مشابهی تولید میکند یا خیر. ارزیابی یک طبقهبند با معیار خلافآمدی روشی برای بررسی خاستگاه سوگیریهای مدل است.
مطالعه بیشتر: هنگامی که جهانها برخورد میکنند، ادغام فرضیههای خلافآمدی متفاوت در تساوی
Coverage Bias سوگیری پوشش
سوگیری گزینش (selection bias) را ببینید.
Crash Blossom برداشت نادرست معنایی
جمله یا عبارتی با معنای مبهم. این عبارت به یک مساله مهم در درک زبان طبیعی اشاره (natural language understanding) دارد.
Critic نقاد
مترادف: Q-شبکه عمیق (Deep Q-Network)
Cross Entropy آنتروپی متقاطع
تعمیمی از تابع زیان لگاریتمی (Log Loss) برای مسائل طبقهبندی چند دستهای. آنتروپی متقاطع اختلاف بین دو توزیع احتمال را اندازهگیری میکند.
مطالعه بیشتر: سرگشتگی (perplexity)
Cross Validation اعتبارسنجی تقاطعی
ساز و کاری برای پیشبینی این که مدل چقدر توانایی تعمیم برای دادههای جدید را دارد. این کار با آزمایش مدل بر یک یا چند زیرمجموعه از دادههای آموزش که با آن همپوشانی ندارند اتفاق میافتد.
Data Analysis دادهکاوی
درک دادهها با در نظر گرفتن نمونهها و اندازهگیری و تصویرسازی از آنها. دادهکاوی به ویژه هنگامی که مجموعه دادهای برای اولین بار دریافت میشود میتواند برای فردی که میخواهد اولین مدل را آموزش دهد مفید باشد. همچنین این کار برای درک آزمایشها و اشکالزدایی سیستم بسیار مهم است.
Data Augmentation دادهافزایی
افزایش مصنوعی بازه و تعداد نمونههای آموزش با تغییر نمونههای موجود. به عنوان مثال، فرض کنید تصاویر یکی از ویژگیهای مورد استفاده شما هستند، اما مجموعه داده تعداد کافی نمونه تصویر برای آموزش کاربردی مدل ندارد. در حالت ایدهآل شما میتوانید به اندازه کافی تصویر برچسبخورده به مجموعه داده اضافه کنید تا مدل درست آموزش داده شود. اگر این کار ممکن نباشد، دادهافزایی میتواند با چرخش، کشیدن و بازتاب هر تصویر گونههای مختلفی از تصاویر اصلی ایجاد کنید که شما را به تعداد داده کافی برای آموزش برساند.
DataFrame قاب داده
یک نوع داده معروف برای نمایش مجموعه دادهها در pandas. DataFrame ساختاری مشابه جدول دارد. هر ستون آن یک نام یا سرتیتر (header) دارد و هر ردیف با یک شماره مشخص میشود.
Decision Boundary مرز تصمیمگیری
مرزی که کلاسهای مختلف را از هم جدا میکند و توسط یک مدل در یک مساله طبقهبندی دوتایی یا چندتایی یاد گرفته شده است. به عنوان مثال، در تصویر زیر که یک مساله دستهبندی دوتایی را نشان میدهد، مرز بین دو کلاس نارنجی و آبی مرز تصمیمگیری است.
Decision Threshold آستانه تصمیمگیری
مترادفها: آستانه دستهبندی (classification threshold)
Decision Tree درخت تصمیم
مدلی که به عنوان دنباله ای از انشعابها نشان داده میشود. به عنوان مثال، درخت تصمیم سادهسازیشده زیر برای پیشبینی قیمت خانه ( هزار دلار) دارای چندین شاخه است. بر اساس این درخت تصمیم، پیشبینی میشود که خانهای بزرگتر از ۱۶۰ متر مربع، دارای بیش از سه اتاق خواب و با عمری کمتر از ۱۰ سال، ۵۱۰ هزار دلار قیمت خواهد داشت.
یادگیری ماشین میتواند درختهای تصمیم عمیق تولید کند.
Deep Model مدل عمیق
نوعی از شبکههای عصبی که دارای چندین لایه پنهان (hidden layer) هستند.
متضاد: مدلهای گسترده (wide model)
Deep Neural Network شبکهی عصبی عمیق
مترادفی برای مدل عمیق است.
Deep Q-network (DQN) (DQN) شبکه عمیق-Q
در یادگیری Q ، یک شبکهی عصبی عمیق است که توابع Q را پیشبینی میکند.
میتوان گفت نقاد (Critic) مترادفی برای شبکهی عمیق Q است.
Demographic Parity برابری جمعیتی
یک معیار سنجش برابری است برای زمانی که پاسخ مدل به یک ویژگی حساس وابسته نباشد.
به عنوان مثال اگر دو گروه از افراد کوتاه و بلند قامت برای یک دانشگاه درخواست بفرستند، در صورت پذیرش درصد مساوی از هر دو گروه صرف نظر از اینکه کدام یک واجد شرایطتر هستند برابری جمعیتی حاصل میشود.
تضاد با شانس برابر و برابری فرصتها که به طبقهبند اجازه میدهد به ویژگیهای حساس وابسته باشد، اجازه نمیدهد نتایج طبقهبند برای یک سری برچسبهای حقیقی خاص، وابسته به ویژگی های حساس باشد.
برای درک بهتر بهینهسازی برابری جمعیتی به "حمله به تبعیض با یادگیری ماشین هوشمند" مراجعه کنید.
Dense Feature ویژگی متراکم
ویژگیای که در آن بیشتر مقادیر غیر صفراند . به طور معمول یک تنسور از مقادیر شناور، در تضاد با ویژگی پراکنده است.
Dense Layer لایه متراکم
مترادفی برای لایه کاملاً همبند است.
Depth عمق
تعداد لایهها(از جمله هر لایهی تعبیه شده) در یک شبکه عصبی که وزنها را یاد میگیرند. به عنوان مثال، یک شبکه عصبی با ۵ لایه پنهان و ۱ لایه خروجی دارای عمق ۶ است.
Depthwise Separable Convolutional Neural Network (sepcnn) (sepCNN) شبکه عصبی کانولوشنال تفکیکپذیر
یک معماری شبکهی عصبی کانولوشنال مبتنی بر Inception است که ماژولهای آن با کانولوشن کانالهای تفکیکپذیر جایگزین میشوند. همچنین به عنوان Xception شناخته میشود.
کانولوشن کانالهای تفکیکپذیر یک نتیجهگیری ۳ بعدی استاندارد را به دو عمل جابجایی جداگانه تبدیل میکند که از نظر محاسباتی کارآمدتر هستند: اول یک کانولوشن عمیق با عمق 1 (n * n * 1) و سپس یک کانولوشن نقطهای با طول و عرض 1 (1 * 1 * n).
برای کسب اطلاعات بیشتر ، به Xception: Deep Learning with Depthwise Separable Convolutions مراجعه کنید.
Dimension Reduction کاهش بعد
کاهش تعداد ابعاد مورد استفاده برای نشان دادن یک ویژگی خاص درz یک بردار ویژگی که به طور معمول با تبدیل به تعبیه صورت میگیرد.
Dimensions ابعاد
با هر یک از عبارات زیر قابل تعریف است:
- تعداد سطوح مختصات در یک تنسور. مثلا:
- یک مقیاس دارای ابعاد صفر است. به عنوان مثال : ["سلام"]
- یک وکتور یک بعد دارد. به عنوان مثال : [3 ، 5 ، 7 ، 11]
- یک ماتریس دارای دو بعد است. به عنوان مثال : [[2 ، 4 ، 18] ، [5 ، 7 ، 14]]
برای مشخص کردن یک درایه خاص را در یک بردار یک بعدی با یک مختصات و در یک ماتریس دو بعدی به دو مختصات نیاز است.
- تعداد درایهها در یک بردار ویژگی.
- تعداد عناصر موجود در یک لایه تعبیه شده.
Discrete Feature ویژگی گسسته
یک ویژگی با مجموعه محدودی از مقادیر ممکن است. به عنوان مثال ویژگیای که مقادیر آن فقط ممکن است حیوانی، نباتی یا معدنی باشد یک ویژگی گسسته یا طبقه بندی شده است.( در تضاد با ویژگی پیوسته)
Discriminative Model مدل تشخیصدهنده
مدلی که برچسبها را از مجموعهای از یک یا چند ویژگی، پیشبینی میکند. به طور کلیتر مدلهای تشخیصدهنده احتمال شرطی یک خروجی را با توجه به ویژگیها و وزنها تعریف میکنند.
به این صورت که:
(خروجی | ویژگیها ، وزنها)p
به عنوان مثال مدلی که پیشبینی میکند آیا ایمیلی اسپم است یا خیر(از طریق ویژگیها و وزنهایش) مدل تشخیصدهنده است.
اغلب الگوهای مبتنی بر یادگیری نظارتشده از جمله مدلهای طبقهبندی و رگرسیون مدلهای تشخیصدهنده هستند.(در تضاد با مدلهای مولد)
Discriminator تشخیصدهنده
سیستمی که مشخص میکند نمونهها واقعی یا ساختگی هستند و به عنوان یک زیر سیستم در شبکهی مولد تخاصمی بر کار مولد نظارت میکند.
Disparate Impact تاثیر نابرابری
تصمیمگیری نامتناسب در مورد افرادی که تحت تاثیر گروههای مختلف جامعه قرار دارند. معمولا در شرایطی که یک فرآیند تصمیمگیری الگوریتمی بجای سود، به بعضی از زیر گروهها آسیب میرساند.
به عنوان مثال الگوریتمی را در نظر بگیرید که صلاحیت لیلیپوتی را برای دریافت وام خانهی مینیاتوری تعیین کند، احتمالا اگر آدرس پستی آنها حاوی کد پستی خاصی باشد آنها را به عنوان "غیرمجاز" طبقه بندی میکنند. حال اگر لیلیپوتهای Big-Endian آدرس پستی مشابهای با کد پستی لیلیپوتهای Little-Endian داشته باشند، در این صورت ممکن است این الگوریتم دارای تاثیر متفاوتی باشد که موجب نابرابری میشود.
در تضاد با تبعیض(رفتارهای نابرابر) است که بر نابرابری حاصل از ورودی ویژگیهای زیر گروه به یک فرآیند تصمیمگیری الگوریتمی هستند.
Disparate Treatment رفتار نابرابر
ویژگیهای حساس فاکتورسازی را به گونهای در یک فرآیند تصمیم گیری الگوریتمی قرار میدهد که با زیر گروههای مختلف از مردم متفاوت رفتار میشود(تبعیض).
به عنوان مثال الگوریتمی را در نظر بگیرید که صلاحیت لیلیپوتها را برای وام خانه کوچک براساس دادههایی که در برنامه وام خود ارائه میدهند تعیین کند. اگر این الگوریتم از وابستگی لیلیپوت به عنوان Big-Endian یا Little-Endian به عنوان ورودی استفاده کند، در همان بعد نابرابری رفتاری را اعمال میکند.
در تضاد با تاثیر نابرابری است که بر نابرابری در تاثیرات اجتماعی تصمیمات الگوریتمی در زیر گروهها متمرکز است، صرف نظر از اینکه زیر گروهها ورودی مدل هستند یا نه.
Divisive Clustering خوشهبندی تقسیمکننده
خوشهبندی سلسله مراتبی را ببینید.
Downsampling نمونهکاهی
با هر یک از عبارات زیر قابل تعریف است:
- به منظور آموزش کارآمدتر مدل، مقدار اطلاعات موجود در یک ویژگی را کاهش میدهد. به عنوان مثال قبل از آموزش یک مدل تشخیص تصویر، تصاویر با وضوح بالا را به یک فرمت با وضوح پایین کاهش دهید.
- آموزش بر روی درصد نامتناسب و نسبتا پایین نمونههایی از کلاسی که بیش از حد تکرار شده به منظور آموزش کارآمدتر مدل در کلاسهای زیرمجموعه. به عنوان مثال در یک مجموعه داده نامتوازن، مدلها تمایل دارند که درباره کلاسی که شامل اکثریت است چیزهای بیشتری بیاموزند و در مورد کلاس اقلیت کافی نیستند. نمونهکاهی به متعادل کردن میزان آموزش در کلاسهای اکثریت و اقلیت کمک میکند.
DQN DQN
اختصار Deep Q-Network.
Dropout Regularization تنظیم حذف تصادفی
نوعی تنظیم کارآمد در آموزش شبکههای عصبی است که با حذف یک انتخاب تصادفی از تعداد ثابت واحدهای یک لایه شبکه کار می کند. هرچه واحدها بیشتر از بین بروند، نظم و انعطاف پذیری قویتر میشود.که شبیه به آموزش شبکه برای تقلید از یک مجموعه نمایی بزرگ از شبکههای کوچکتر است. برای جزئیات کامل به "Dropout: A Simple Way to Prevent Neural Networks from Overfitting" مراجعه کنید.
Dynamic Model مدل پویا
مدلی که آنلاین و به صورت پیوسته آموزش داده میشود.یعنی دادهها بطور پیوسته وارد مدل میشوند.
Early Stopping توقف اولیه
روشی برای نظمدهی (regularization) که شامل توقف آموزش مدل قبل از به پایان رسیدن کاهش مقدار تابع زیان آموزش است. در این روش، فرآیند آموزش زمانی متوقف میشود که تابع زیان روی دادههای اعتبارسنجی افزایش پیدا کند، که این زمانیست که قدرت تعمیم مدل کاهش پیدا میکند.
Embedding Space فضای تعبیه شده
فضای برداری d بعدی که ویژگیها از فضای برداری با ابعاد بیشتر به آن نگاشت داده میشوند. در حالت ایدهآل، فضای تعبیه شده شامل ساختاری است که به نتایج ریاضی معناداری منجر میشود. به عنوان مثال، در فضای تعبیه شده ایدهآل میتوان مسائل قیاس کلمات را با استفاده از جمع و تفریق بردارها حل کرد.
ضرب داخلی دو تعبیه (embedding) شباهت آن دو را محاسبه میکند.
Embeddings تعبیه
یک یک ویژگی طبقهبندی که به شکل یک ویژگی با مقادیر پیوسته ارائه شود. معمولا، هر تعبیه (embedding) نگاشتی از یک بردار در فضای با ابعاد بالا به فضایی با ابعادی کمتر است. به عنوان مثال، کلمه موجود در یک عبارت را میتوان به یکی از دو شکل زیر نمایش داد:
- یک بردار پراکنده (sparse vector) با میلیونها درایه (ابعاد بالا) که در آن تمامی درایهها اعداد صحیحاند. هر سلول در بردار به یک کلمه تعلق دارد و مقدار آن سلول تعداد دفعات تکرار کلمه در عبارت را نشان میدهد. با توجه به این که هر جمله معمولا کمتر از ۵۰ کلمه دارد، بیشتر درایههای وکتور مقدار ۰ را خواهند داشت و بقیه سلولها یک مقدار صحیح کوچک (معمولا ۱) خواهند داشت.
- یک بردار متراکم (dense vector) با چند صد درایه (ابعاد پایین) که در آن هر درایه مقداری اعشاری بین ۰ و ۱ خواهد داشت. این حالت به تعبیه کلمات اشاره دارد.
در Tensorflow تعبیهها مانند هر پارامتر دیگری در شبکههای عصبی با محاسبه تابع زیان و انتشار معکوس (backpropagation) محاسبه میشوند.
Empirical Risk Minimization (ERM) کمینهسازی ریسک تجربی
انتخاب تابعی که مقدار تابع زیان را بر روی دادههای آموزش کمینه کند.
متضاد: کمینهسازی ریسک ساختاری
Ensemble گروه
ادغامگر پیشبینیهای چندین مدل. برای ایجاد یک گروه میتوان از یکی یا چند تا از روشهای زیر برای آموزش مدل استفاده کرد:
- مقداردهیهای اولیه متفاوت
- هایپرپارامترهای متفاوت
- ساختار کلی متفاوت
مدلهای عمیق و گسترده (Deep and wide models) نوعی از یادگیری جمعی هستند.
Environment محیط
در یادگیری تقویتی، دنیایی که شامل عامل است و به آن امکان مشاهدهی حالتش را میدهد. به عنوان مثال دنیای عامل میتواند یک بازی مانند شطرنج، یا یک دنیای فیزیکی مانند پیچوخم باشد. با اقدام به عمل عامل، محیط بین حالات تغییر میکند.
Epoch دوره
یک گذر کامل بر روی دادهها در فرآیند آموزش به گونهای که هر نمونه یک بار مشاهده شده باشد. در این صورت یک دوره (epoch) شامل [ N / اندازه دسته ] تکرار (iteration) بر روی دادههای آموزش است که N تعداد کل نمونههاست.
Epsilon Greedy Policy سیاست حریصانه اپسیلون
در یادگیری تقویتی (reinforcement learning) به سیاستی (policy) گفته میشود که با احتمال اپسیلون (epsilon) از یک سیاست تصادفی و در غیر این صورت از یک سیاست حریصانه پیروی کند. به عنوان مثال، اگر اپسیلون ۰.۹ باشد، در این صورت باید در ۹۰٪ مواقع از سیاست تصادفی و در ۱۰٪ مواقع از سیاست حریصانه پیروی کرد.
در قسمتهای (episode) پیاپی، الگوریتم مقدار اپسیلون را کاهش میدهد تا به حای دنبال کردن یه سیاست تصادفی، از سیاست حریصانه پیروی کند. با تغییر سیاست، عامل (agent) ابتدا به صورت تصادفی محیط (environment) را جستجو میکند و سپس به صورت حریصانه از نتایج جستجوهای تصادفی بهره میبرد.
Equality of Opportunity برابری فرصت
یک معیار تساوی (fairness metric) که بررسی میکند به ازای یک برچسب ترجیحی (چیزی که سود یا امتیازی برای شخص به همراه داشته باشد) و یک صفت (attribute) مشخص، آیا طبقهبند (classifier) آن برچسب را برای مقادیر مختلف آن صفت به صورت برابر پیشبینی میکند یا خیر. به بیان دیگر، برابری فرصت بررسی میکند که آیا افرادی که باید از یک موقعیت بهره ببرند جدای از گروههای مختلفی که در آن هستند این امکان را دارند یا خیر.
به عنوان مثال، تصور کنید دانشگاه گلوبدوبدریب (Glubbdubdrib - اسامی به کتاب سفرهای گالیور مربوط هستند.) هم ساکنین لیلیپوت (Lilliputians) و هم ساکنین برابدینگنگ (Brobdingnagians) را برای یک دوره پیشرفته ریاضی پذیرش میکند. مدارس متوسطه لیلیپوت یک برنامه درسی قوی برای کلاسهای ریاضی ارائه میدهند و اکثریت قریب به اتفاق دانش آموزان واجد شرایط برنامه دانشگاه هستند. مدارس متوسطه برابدینگنگ به هیچ وجه کلاس ریاضی ارائه نمی دهند و در نتیجه تعداد بسیار کمی از دانش آموزان آنها واجد شرایط هستند. در این حالت برابری فرصت برای برچسب ترجیحی «پذیرفتهشده» با توجه به «ملیت» در شرایطی برقرار است که دانشجویان واجد شرایط بدون توجه به این که ساکن لیلیپوت یا برابدینگنگ هستند، شانس پذیرفته شدن برابری داشته باشند.
فرض کنید ۱۰۰ دانشجوی ساکن لیلیپوت و ۱۰۰ دانشجوی برابدینگنگ برای دانشگاه گلوبدوبدریب درخواست داده باشند. و تصمیم پذیرش افراد به شکل زیر است:
جدول ۱ - درخواستهای لیلیپوت (۹۰٪ افراد واجد شرایطند.)
فاقد شرایط | واجد شرایط | |
---|---|---|
۳ | ۴۵ | پذیرفته شده |
۷ | ۴۵ | رد شده |
۱۰ | ۹۰ | مجموع |
درصد افراد واجد شرایط که پذیرش شدهاند: ۴۵/۹۰ = ۵۰٪
درصد افراد فاقد شرایط که رد شدهاند: ۷/۱۰ = ۷۰٪
درصد افراد ساکن لیلیپوت که پذیرش شدهاند: ۴۸/۱۰۰ = ۴۸٪
جدول ۲ - درخواستهای برابدینگنگ (۱۰٪ افراد واجد شرایطند.)
فاقد شرایط | واجد شرایط | |
---|---|---|
۹ | ۵ | پذیرفته شده |
۸۱ | ۵ | رد شده |
۹۰ | ۱۰ | مجموع |
درصد افراد واجد شرایط که پذیرش شدهاند: ۵/۱۰ = ۵۰٪
درصد افراد فاقد شرایط که رد شدهاند: ۸۱/۹۰ = ۹۰٪
درصد افراد ساکن برابدینگنگ که پذیرش شدهاند: ۱۴/۱۰۰ = ۱۴٪
در مثال فوق شرط برابری فرصت برقرار است چون افراد واجد شرایط لیلیپوت و برابدینگنگ هر دو ۵۰٪ شانس پذیرش دارند.
توجه کنید که با وجود این که برابری فرصت برقرار است، دو معیار تساوی زیر وجود ندارند:
- برابری جمعیتی (demographic parity) : نرخ حضور ساکنین لیلیپوت و برابدینگنگ در دانشگاه متفاوت است. ۴۸٪ از ساکنین لیلیپوت پذیرفته شدهاند در حالی که فقط ۱۴٪ از ساکنین برابدینگنگ پذیرفته شدهاند.
- احتمال یکسان (equalized odds) : با وجود این که افراد واجد شرایط لیلیپوت و برابدینگنگ هر دو شانس یکسانی برای پذیرش دارند، اما این شرط که افراد فاقد شرایط جدا از ملیت شانس یکسانی برای رد شدن داشته باشند برقرار نیست. ۷۰٪ ساکنین فاقد شرایط لیلیپوت رد میشوند در حالی که درخواست ۹۰٪ افراد ساکن برابدینگنگ که فاقد شرایط هستند پذیرفته نمیشود.
مطالعه بیشتر: برابری فرصت در یادگیری با ناظر (Equality of Opportunity in Supervised Learning) - مقابله با تبعیض با یادگیری ماشین هوشمندتر (Attacking discrimination with smarter machine learning)
Equalized Odds احتمال یکسان
یک معیار تساوی (fairness metric) که بررسی میکند به ازای هر برچسب، آیا طبقهبند (classifier) آن را برای مقادیر مختلف یک صفت به صورت برابر پیشبینی میکند یا خیر.
به عنوان مثال، تصور کنید دانشگاه گلوبدوبدریب (Glubbdubdrib - اسامی به کتاب سفرهای گالیور مربوط هستند.) هم ساکنین لیلیپوت (Lilliputians) و هم ساکنین برابدینگنگ (Brobdingnagians) را برای یک دوره پیشرفته ریاضی پذیرش میکند. مدارس متوسطه لیلیپوت یک برنامه درسی قوی برای کلاسهای ریاضی ارائه میدهند و اکثریت قریب به اتفاق دانش آموزان واجد شرایط برنامه دانشگاه هستند. مدارس متوسطه برابدینگنگ به هیچ وجه کلاس ریاضی ارائه نمی دهند و در نتیجه تعداد بسیار کمی از دانش آموزان آنها واجد شرایط هستند. معیار احتمال یکسان زمانی برقرار است که این که درخواستدهنده ساکن لیلیپوت یا برابدینگنگ است تفاوتی در نتیجه داوری ایجاد نکند. اگر فرد ساکن لیلیپوت و برابدینگنگ واجد شرایطند، هر دو احتمال پذیرش یکسانی داشته باشند. همچنین اگر این دو فرد فاقد شرایط باشند، هر دو باید احتمال رد شدن یکسانی داشته باشند.
فرض کنید ۱۰۰ دانشجوی ساکن لیلیپوت و ۱۰۰ دانشجوی برابدینگنگ برای دانشگاه گلوبدوبدریب درخواست داده باشند. و تصمیم پذیرش افراد به شکل زیر است:
جدول ۳ - درخواستهای لیلیپوت (۹۰٪ افراد واجد شرایطند.)
فاقد شرایط | واجد شرایط | |
---|---|---|
۲ | ۴۵ | پذیرفته شده |
۸ | ۴۵ | رد شده |
۱۰ | ۹۰ | مجموع |
درصد افراد واجد شرایط که پذیرش شدهاند: ۴۵/۹۰ = ۵۰٪
درصد افراد فاقد شرایط که رد شدهاند: ۸/۱۰ = ۸۰٪
درصد افراد ساکن لیلیپوت که پذیرش شدهاند: ۴۷/۱۰۰ = ۴۷٪
جدول ۴ - درخواستهای برابدینگنگ (۱۰٪ افراد واجد شرایطند.)
فاقد شرایط | واجد شرایط | |
---|---|---|
۱۸ | ۵ | پذیرفته شده |
۷۲ | ۵ | رد شده |
۹۰ | ۱۰ | مجموع |
درصد افراد واجد شرایط که پذیرش شدهاند: ۵/۱۰ = ۵۰٪
درصد افراد فاقد شرایط که رد شدهاند: ۷۲/۹۰ = ۸۰٪
درصد افراد ساکن برابدینگنگ که پذیرش شدهاند: ۲۳/۱۰۰ = ۲۳٪
در مثال فوق احتمال یکسان برقرار است چون افراد واجد شرایط از لیلیپوت یا برابدینگنگ هر دو ۵۰٪ شانس پذیرش دارند، و افراد فاقد شرایط هر دو شهر نیز ۸۰٪ احتمال رد شدن دارند.
توجه کنید که با این که احتمال یکسان در مثال فوق برقرار است، اما برابری جمعیتی (demographic parity) برقرار نیست. نرخ حضور ساکنین لیلیپوت و برابدینگنگ در دانشگاه متفاوت است. ۴۷٪ از ساکنین لیلیپوت پذیرفته شدهاند در حالی که فقط ۲۳٪ از ساکنین برابدینگنگ پذیرفته شدهاند.
احتمال یکسان به صورت رسمی در برابری فرصت در یادگیری با ناظر (Equality of Opportunity in Supervised Learning) تعریف شده است.
این معیار را با حالت آسانگیرانهتر معیار برابری فرصت (equality of opportunity) مقایسه کنید.
Example نمونه
یک سطر از مجموعه داده. یک نمونه شامل یک یا چند خصیصه و احتمالا یک برچسب است.
اطلاعات بیشتر: نمونه برچسب خورده، نمونه بدون برچسب
Experience Replay تکرار تجربه
یک تکنیک مربوط به DQN در یادگیری تقویتی که با هدف کاهش همبستگی زمانی در مجموعهدادههای آموزش استفاده میشود. عامل انتقال بین حالتها را در یک بافر تکرار ذخیره میکند، و سپس با نمونهگیری از انتقالهای درون بافر تکرار دادههای آموزش را ایجاد میکند.
Experimenter's Bias سوگیری چشمداشتی
سوگیری تاییدی (confirmation bias) را ببینید.
Exploding Gradient Problem مشکل انفجار گرادیان
تمایل گرادیانها در یک شبکه عصبی عمیق (بهخصوص شبکههای عصبی بازگشتی) برای پذیرفتن مقادیر بالا. گرادیانهای بالا باعث بهروزرسانی شدید در وزنها در هر گره (node) در شبکه عصبی عمیق میشود.
آموزش مدلهایی که با مشکل انفجار گرادیان مواجه هستند سخت یا گاهی غیرممکن است. محدود کردن شیب (gradient clipping) میتواند در رفع این مشکل موثر باشد.
مقایسه شود با محوشدگی گرادیان (vanishing gradient problem).
Fairness Constraint قید تساوی
اضافه کردن یک قید به الگوریتم برای اطمینان پیدا کردن از این که در نتیجه یک یا چند تعریف از تساوی برقرار است. به عنوان نمونههایی از قیدهای محدودیت میتوان به موارد زیر اشاره کرد:
- اعمال پسپردازش بر روی خروجی مدل
- تغییر تابع زیان به صورتی که با نقض یک معیار تساوی جریمه اعمال شود
- اضافه کردن مستقیم یک قید ریاضی به مساله بهینهسازی
Fairness Metric معیار تساوی
یک تعریف ریاضی از «تساوی» که قابل اندازهگیری باشد. بعضی از معیارهای تساوی پر کاربرد عبارتند از:
- احتمال یکسان (equalized odds)
- برابری پیشگویانه (predictive parity)
- معیار خلافآمدی (counterfactual fairness)
- برابری جمعیتی (demographic parity)
بسیاری از معیارهای تساوی با هم ناسازگار هستند.
اطلاعات بیشتر: ناسازگاری معیارهای عدالت
False Negative (FN) منفی کاذب
نمونهای که در آن مدل به اشتباه یک کلاس منفی را پیشبینی کرده است. به عنوان مثال، مدل استنباط کرده است که یک پیام الکترونیکی هرزنامه نیست (کلاس منفی)، در حالی که آن پیام در واقع هرزنامه بوده است.
False Positive (FP) مثبت کاذب
نمونهای که در آن مدل به اشتباه کلاسی مثبت را پیشبینی میکند. به عنوان مثال، مدل استنباط میکند که یک پیام الکترونیکی مشخص هرزنامه است (کلاس مثبت)؛ در حال که آن پیام در واقع هرزنامه نیست.
False Positive Rate (FPR) نرخ مثبت کاذب
محور افقی در منحنی ROC. نرخ مثبت کاذب به شکل زیر تعریف میشود:
Feature Cross تلاقی ویژگی
یک ویژگی مصنوعی که با محاسبه حاصل ضرب دکارتی ویژگیهای دوتایی منفرد حاصل از دادههای رستهای یا از ویژگیهای پیوسته پس از سطلبندی کردن (bucketing)، بهوجود میآید. تلاقی ویژگی به نمایش روابط غیرخطی کمک میکنند.
Feature Engineering مهندسی ویژگی
روند تعیین این که کدام ویژگیها ممکن است در آموزش مدل مورد استفاده قرار بگیرند، و سپس تبدیل دادههای خام موجود در منابع مختلف به آن نوع از ویژگیها. در Tensorflow، مهندسی ویژگی معمولا به معنای تبدیل فایلهای گزارش (log files) به tf.Example است. مهندسی ویژگی گاهی استخراج ویژگی (feature extraction) نیز نامیده میشود.
اطلاعات بیشتر: tf.Transform
Feature Extraction استخراج ویژگی
این عبارت میتواند یکی از دو معنی زیر را داشته باشد:
- بازیابی ویژگی میانی محاسبه شده توسط یک مدل بدون ناظر (unsupervised) یا یک مدل از قبل آموزش داده شده (pretrained model) برای استفاده در مدل دیگری به عنوان ورودی. به عنوان مثال میتوان از مقادیر لایه پنهان در یک شبکه عصبی به عنوان ورودی شبکه دیگری استفاده کرد.
- مترادفی برای مهندسی ویژگی.
Feature Set مجموعه ویژگی
گروهی از ویژگیها که مدل یادگیری ماشین شما بر روی آنها آموزش میبیند. به عنوان مثال، کد پستی، اندازه و وضعیت ملک یک مجموعه ویژگی ساده را تشکیل میدهند که مدل پیشبینی قیمت خانه میتواند بر روی آنها آموزش ببیند.
Feature Vector بردار ویژگی
مجموعهای از ویژگیها که در کنار هم به عنوان یک نمونه به مدل داده میشوند.
Federated Learning یادگیری مشارکتی
یک رویکرد یادگیری ماشین توزیعشده که ماشینهای برای آموزش مدل از نمونههای غیرمتمرکز موجود در دستگاههایی مانند تلفنهای هوشمند استفاده میکنند. در یادگیری مشارکتی، برخی از دستگاهها مدل فعلی را از یک سرور هماهنگکنندهی مرکزی بارگیری میکنند. دستگاهها از نمونههای ذخیره شده در خود برای بهبود مدل استفاده میکنند و سپس مدلهای بهبود یافته (و نه نمونههای آموزش را) را در سرور بارگذاری میکنند. در سرور تمامی مدلهای بهبود یافته شده جمع میشوند تا یک مدل جهانی بهینه ارائه دهند. پس از این کار، دیگر نیازی به مدلهای بهروزرسانی شده توسط دستگاهها نیست و میتوانند کنار گذاشته شوند.
از آنجا که نمونههای آموزشی هرگز بارگذاری نمیشوند، آموزش مشارکتی از اصول حفظ حریم خصوصی با توجه به جمعآوری دادهها و به حداقل رساندن انتقال دادهها پیروی میکند.
اطلاعات بیشتر: یادگیری مشارکتی
Feedback Loop حلقه بازخورد
در یادگیری ماشین، وضعیتی که در آن پیشبینیهای یک مدل بر دادههای آموزش برای همان مدل یا مدل دیگر تاثیر میگذارد. به عنوان مثال، مدلی که برای پیشنهاد فیلم استفاده میشود بر روی فیلمهایی که مردم میبینند تاثیر میگذارد، که این اتفاق خود بر مدلهای پیشنهاد فیلم دیگر تاثیر میگذارد.
Feedforward Neural Network (FFN) شبکه عصبی پیشخور
یک شبکه عصبی بدون ارتباطات چرخهای یا بازگشتی. به عنوان مثال، شبکه عصبی عمیق نمونهای از شبکههای عصبی پیشخور است. در مقابل، شبکه عصبی بازگشتی از نوع چرخهای است.
Few-Shot Learning یادگیری با مجموعه داده محدود
یک رویکرد یادگیری ماشین، که اغلب برای طبقهبندی اشیا استفاده میشود، و برای آموزش طبقهبندهای موثر با استفاده از نمونههای آموزش محدود و با تعداد کم است.
اطلاعات بیشتر: یادگیری با یک یا چند داده (One-Shot Learning)
Fine Tuning تنظیم دقیق
انجام یک بهینهسازی ثانویه با هدف تنظیم پارامترهای یک مدل از قبل آموزش دیده برای یک مساله جدید. تنظیم دقیق اغلب به تغییر وزنهای یک مدل حاصل از آموزش بدون نظارت (unsupervised learning) دیده برای یک مساله یادگیری نظارتشده (supervised learning) اشاره دارد.
Forget Gate دروازه فراموشی
بخشی از سلولهای حافظه طولانی کوتاه-مدت (LSTM) که جریان اطلاعات در سلول را تنظیم میکند. این دروازه تعیین میکند که چقدر از اطلاعات قدیمی فراموش شوند.
Full Softmax Softmax کامل (تابع بیشینه هموار)
مطالعه بیشتر: softmax (تابع بیشینه هموار)
متضادها: نمونهگیری در دسترس (داوطلبانه)
Fully Connected Layer لایهی کاملا همبند
یک لایه پنهان که در آن هر گره به تمامی گرههای لایهی پنهان بعدی متصل است.
مترادف: لایه متراکم
Gan GAN
مخفف شبکه مولد تخاصمی.(generative adversarial network.)
Generalization تعمیم
به توانایی مدل در ارائه پیشبینیهای صحیح در مورد دادههای جدید برای آموزش مدل اشاره دارد.
Generalization Curve منحنی تعمیم
منحنیای که میزان اتلاف مجموعه آموزش و مجموعه اعتبار سنجی را نشان میدهد. یک منحنی تعمیم میتواند در تشخیص بیشبرازش کمک کند. به عنوان مثال منحنی تعمیم زیر نشان میدهد که دچار بیشبرازش شده است زیرا از بین رفتن مجموعه اعتبارسنجی در نهایت به طور قابل توجهی بیشتر از مجموعه آموزش میشود.
Generalized Linear Model مدل خطی تعمیم یافته
تعمیم مدلهای رگرسیون کمترین مربعات که مبتنی بر نویز گوسی است، به سایر مدلهای مبتنی بر انواع دیگر نویز، مانند نویز پواسون یا نویزهای طبقهای. نمونههایی از مدلهای خطی تعمیم یافته عبارتاند از:
-
رگرسیون کمترین مربعات
پارامترهای یک مدل خطی تعمیم یافته را میتوان از طریق بهینهسازی محدب یافت.
مدلهای خطی تعمیم یافته دارای ویژگیهای زیر هستند:
-
پیشبینی متوسط مدل رگرسیون کمترین مربعات بهینه، با متوسط برچسب دادههای آموزش برابر است.
احتمال پیشبینی متوسط توسط مدل رگرسیون لجستیک بهینه، با متوسط برچسب دادههای آموزش است.
توانایی یک مدل خطی عمومی، محدود به ویژگیهای آن است. برخلاف یک مدل عمیق، یک مدل خطی تعمیم یافته نمیتواند "ویژگیهای جدید را یاد بگیرد".
Generative Adversarial Network (Gan) شبکه های مولد تخاصمی
سیستمی برای ایجاد دادههای جدید است که در آن مولد داده ایجاد میکند و یک تشخیص دهنده بررسی میکند که دادههای ایجاد شده معتبر هستند یا نامعتبر هستند.
Generative Model مدل مولد
از نظر عملی مدلی است که یکی از موارد زیر را انجام دهد:
نمونههای جدیدی را از مجموعه دادههای آموزشی ایجاد میکند. به عنوان مثال یک مدل مولد میتواند پس از آموزش بر روی مجموعهای از اشعار، شعر ایجاد کند. بخش مولد یک شبکهی مولد تخاصمی در این گروه قرار میگیرد.
احتمال اینکه نمونهی جدید از مجموعه آموزشی است یا از همان مکانیسم ایجاد شده برای مجموعه آموزش ایجاد شده را مشخص میکند. به عنوان مثال پس از آموزش روی مجموعه دادهای متشکل از جملات انگلیسی، میتواند احتمال اعتبار ورودی جدید یک جمله انگلیسی را تعیین کند.
یک مدل مولد از لحاظ نظری میتواند توزیع نمونهها یا ویژگیهای خاص در یک مجموعه داده را تشخیص دهد. به این معنا که: (مثال)P
الگوهای یادگیری بدون نظارت مولد هستند.
متضاد: مدلهای تشخیصدهنده
Generator مولد
زیر سیستم در یک شبکهی مولد تخاصمی که نمونههای جدیدی ایجاد میکند.
متضاد: تشخیصدهنده
Gradient شیب
به بردار مشتقات جزئی با توجه به تمام متغیرهای مستقل گویند که در یادگیری ماشین، شیب بردار مشتقات جزئی از عملکرد مدل است.(شیب در جهت صعودی حرکت میکند)
Gradient Clipping محدود کردن شیب
مکانیسمی متداول برای کاهش شیب، در مسئلهی گسترش بیش از اندازهی شیب است که، از طریق محدود کردن مصنوعی حداکثر ارزش آن هنگام آموزش مدل از طریق کاهش شیب به کار میرود.
Gradient Descent کاهش شیب
یک روش برای به حداقل رساندن میزان افت، با محاسبهی شیب آن توجه به پارامترهای مدل و داده های آموزشی است. میتوان گفت کاهش شیب، به طور تکراری پارامترها را تنظیم میکند و به تدریج بهترین ترکیب وزنها و مقدار پیشفرض را مییابد تا میزان افت به حداقل برسد.
Greedy Policy خطمشی حریصانه
در یادگیری تقویتی، خطمشیای که همیشه عملی با بالاترین بازده مورد انتظار را انتخاب میکند.
Ground Truth حقیقت مبنا
پاسخ درست یا واقعیت است. از آنجا که واقعیت غالباً ذهنی است، معمولا کارشناسان ارزیاب تعیینکننده حقیقت مبنا(یافتههای عینی) هستند.
Group Attribution Bias انتساب گروهی مقدار پیشفرض
به فرض اینکه آنچه برای یک فرد صادق است، برای همه افراد در آن گروه نیز صادق است، در صورت نمونهگیری راحت برای جمع آوری دادهها، اثرات انتساب گروهی مقدار پیشفرض میتواند تشدید شود. در یک نمونهی غیر نماینده، ممکن است باعث تصوراتی که منعکس کنندهی واقعیت نیست شود.
مطالعه بیشتر: out-group homogeneity bias و in-group bias
Hashing درهمسازی
در یادگیری ماشین مکانیزمی است برای جمع آوری دادههای دستهبندی شده، به ویژه هنگامی که تعدادشان زیاد باشد، اما تعداد دستههای نسبتا کمی در مجموعه داده ظاهر شوند.
به عنوان مثال زمین محل زندگی حدود ۶۰۰۰۰ گونه درخت است که میتوان هر یک از این گونهها را در ۶۰۰۰۰ گروه، دستهبندی جداگانه نشان داد. متناوبا اگر فقط ۲۰۰ گونه از درختان واقعا در یک مجموعه داده ظاهر شوند، میتوان از درهمسازی برای تقسیم گونههای درختی به ۵۰۰ گروه استفاده کرد.
یک گروه میتواند شامل چندین گونه درخت باشد، که به عنوان مثال میتوان با درهمسازی بائوباب و افرا قرمز - دو گونه متفاوت از نظر ژنتیکی - را در یک گروه قرار داد. صرفنظر از این، درهمسازی هنوز هم روش مناسبی برای نقشهبرداری از مجموعههای بزرگ دستهای به تعداد دلخواهی گروه است. درهمسازی با یک روش معین گروه بندی مقادیر یک ویژگی دستهای را که دارای تعداد زیادی مقادیر ممکن است، به تعداد بسیار کمتری از مقادیر تبدیل میکند.
برای کسب اطلاعات بیشتر در مورد درهمسازی، به قسمت Feature Columns در راهنمای برنامهنویسان TensorFlow مراجعه کنید.
Heuristic ابتکاری
یک راه حل سریع برای یک مسئله، که ممکن است بهترین راه حل باشد یا نباشد. به عنوان مثال "با یک ابتکار، ما به دقت ۸۶٪ دست یافتیم ولی هنگامی که از شبکه عصبی عمیق استفاده کردیم، دقت تا ۹۸٪ افزایش یافت."
Hidden Layer لایه پنهان
در شبکه عصبی یک لایه ساختگی(مصنوعی) بین لایه ورودی (یعنی ویژگیها) و لایه خروجی (پیشبینی) است. لایههای پنهان اغلب دارای یک تابع فعال سازی (مانند ReLU) برای آموزش هستند. یک شبکه عصبی عمیق بیش از یک لایه پنهان را شامل میشود.
Hidden State حافظه نهان
نورونهایی از یک شبکه عصبی بازگشتی که مانند حافظه مدل عمل میکنند. حافظه نهان یک شبکه عصبی بازگشتی باید اطلاعات موجود در دادههایی که قبلا توسط مدل دیده شده را در خود ذخیره کند تا در پیشبینیهای مربوط به گامهای زمانی بعد از آنها استفاده کند.
Hierarchical Clustering خوشهبندی سلسله مراتبی
دستهای از الگوریتمهای خوشهبندی، که درختی از خوشهها را ایجاد میکنند. این الگوریتمها برای دادههای سلسله مراتبی مانند طبقهبندیهای گیاهی مناسب هستند. دو نوع الگوریتم خوشهبندی سلسله مراتبی وجود دارد:
- خوشهبندی جمعکننده: ابتدا هر مثالی را به یک خوشه اختصاص داده و به طور تکراری نزدیکترین خوشهها را برای ایجاد یک درخت سلسله مراتبی ادغام میکند.
- خوشهبندی تقسیمکننده: ابتدا تمامی مثالها را به یک خوشه گروهبندی میکند و سپس خوشه را به صورت تکراری به یک درخت سلسله مراتبی تقسیم میکند.
متضاد: خوشهبندی مبتنی بر مرکز
Hinge Loss hinge هزینهی
خانوادهای از توابع هزینه که برای طبقهبندی طراحی شدهاند تا مرز تصمیم گیری را تا جایی که ممکن است از هر نمونه آموزش پیدا کنند. بنابراین تفاوت بین مثالها و مرز تصمیم را به حداکثر میرساند. KSVMs ها از هزینهی hinge (یا عملکرد مربوطه مانند هزینهی مربع hinge) استفاده میکنند. برای طبقهبندی باینری، عملکردهزینهی hinge به صورت زیر تعریف میشود:
که در آن y برچسب واقعی است، یا -1 یا 1+ و y 'خروجی خام مدل طبقهبندی است:
در نتیجه یک نمودار هزینهی hinge در مقابل (y * y ') به صورت زیر است:
Holdout Data دادههای نگهداری
نمونههایی از داده که عمدا در حین آموزش استفاده نشدهاند(نگه داشته شده). مجموعه دادههای اعتبار سنجی و آزمایشی، نمونههایی از دادههای نگهداری هستند. دادههای نگهداری میتوانند به ارزیابی توانایی مدل برای تعمیم به دادههای جدا از دادههایی که روی آنها آموزش داده شده است، کمک کنند. هزینه در مجموعه نگهداری ، تخمین بهتری از هزینهی یک مجموعه داده مشاهده نشده نسبت به هزینهی مجموعه آموزش ارائه میدهد.
Hyperparameter ابر پارامتر
پارامترهایی که در طول دورههای متوالی آموزش یک مدل تغییر میدهید. به عنوان مثال میزان یادگیری یک ابر پارامتر است.
متضاد: پارامتر
Hyperplane ابر صفحه
مرزی که یک فضا را به دو زیر فضا تقسیم میکند. به عنوان مثال خط، یک صفحهی دو بعدی است و صفحه یک ابر صفحهی سه بعدی است. به طور معمول در یادگیری ماشینی، ابر صفحه مرزی است که یک فضای با ابعاد بالا را جدا میکند. Kernel Support Machines اغلب در یک فضای بسیار بزرگ با استفاده از ابر صفحهها کلاسهای مثبت را از کلاسهای منفی جدا میکند.
i.i.d. i.i.d.
Image Recognition تشخیص تصویر
پروسه ای که طی ان شی (اشیا), الگو(ها) یا مفهوم(مفاهیم) موجود در یک عکس طبقه بندی می شوند.تشخیص تصویر به عنوان طبقه بندی تصویر نیز شناخته می شود.
برای اطلاعات بیشتر این لینک را مشاهده کنید.
Imbalanced Dataset مجموعهداده نامتوازن
مترادفی برای مجموعهداده دسته نامتوازن است.
Implicit Bias سوگیری ضمنی
فرد براساس الگوی فکری و خاطراتش ارتباط یا گمانی به طور غیرارادی فرض می کند.سوگیری ضمنی می تواند بر موارد زیر تاییر بگذارد:
- چگونگی جمع اوری و دسته بندی داده
- چگونگی طراحی و توسعه سیستم های یادگیری ماشین
برای مثال در طراحی یک سیستم تشخیص عکس مراسم عروسی, یک مهندس ممکن است وجود لباس سفید در عکس را به عنوان یک ویژگی در نظر بگیرد درحالیکه لباس سفید فقط در دوره های زمانی و فرهنگ های مشخصی به عنوان عرف بوده است. مطالعه بیشتر: سوگیری تاییدی
In-group Bias سوگیری بین گروهی
طرفداری یا تعصب نشان دادن برای گروه یا مشخصات خود.اگر ازمونگر ها و ارزیاب ها (یک پروژه یادگیری ماشین) دوستان, خانواده یا همکاران توسعه دهنده یادگیری ماشین باشند, سوگیری بین گروهی می تواند ازمایش محصول یا دیتاست را بی اعتبار کند.
سوگیری بین گروهی نوعی از انتساب گروهی مقدار پیش فرض می باشد.
مطالعه بیشتر: سوگیری همگنی خارج از گروهی
Incompatibility Of Fairness Metrics ناسازگاری معیارهای عدالت
این گمان که برخی از مفاهیم عدالت با یکدیگر ناسازگارند و نمی توانند به طور همزمان ارضا شوند.در نتیجه این گمان, یک معیار جهانی برای کمی سازی عدالت که در همه مسائل یادگیری ماشین قابل پیاده سازی باشد وجود ندارد.
با اینکه این گمان ممکن است دلسردکننده به نظر برسد بدین معنی نیست که تلاشها برای برقراری عدالت (در مسائل یادگیری ماشین) بی نتیجه می باشند در عوض پیشنهاد می دهد که عدالت باید با توجه به مفاد و محتوای (مسئله یادگیری ماشین) برای مسئله یادگیری ماشین داده شده با هدف جلوگیری از اسیب زدن به موارد استفاده از ان تعریف شود.
برای اطلاعات بیشتر این مقاله را مطالعه کنید.
Independently and Identically Distributed (i.i.d) توزیع شده به شکل مستقل و یکسان
داه ای که از توزیعی گرفته شده است که تغییر نمی کند و هر مقدار گرفته شده در این داده ارتباطی با مقداری که از قبل گرفته شده است ندارد.یک i.i.d گاز ایده ال یادگیری ماشین است - یک ساختار ریاضی مفید که تقریبا اصلا در دنیای واقعی اتفاق نمی افتد.برای مثال توزیع بازدیدکنندگان یک صفحه وب می تواند در یک بازه ی کوتاهی از زمان یک i.i.d باشد زیرا توزیع ان در این بازه کوتاه تغییر نمی کند و بازدید یک فرد از ان صفحه از بازدید فرد دیگر از ان صفحه مستقل می باشد. با اینحال اگر این بازه را بسط بدهیم در (توزیع) بازدیدکنندگان ممکن است تفاوت هایی پدیدار شود.
Individual Fairness تساوی فردی
معیار تساوی که بررسی می کند ایا افراد مشابه یکسان طبقه بندی شده اند یا خیر.برای مثال یک دانشگاه برای برقرار کردن تساوی و انصاف ممکن است اطمینان حاصل کند که حتما دو دانش اموز با نمرات یکسان و نمرات ازمون استاندارد یکسان شانس پذیرش یکسانی دارند.
درنظر داشته باشید که تساوی فردی بسیار وابسته به این هست که شما شباهت را چگونه تعریف می کنید (در مورد بالا نمرات ازمون) و این ریسک وجود دارد که مشکلات تساوی و انصاف جدیدی بوجود بیایند اگر این معیار های شباهت درست انتخاب نشده و اطلاعات مهم را در نظر نگیرند (برای مثال در مثال بالا درجه سختی برنامه درسی داش اموز).
برای اطلاعات بیشتر می توانید این مقاله را مطالعه کنید.
Inference استنباط
در یادگیری ماشین, معمولا به فرایند پیش بینی کردن از طریق اجرا کردن نمونه های بدون برچسب روی مدل اموزش دیده گفته می شود.در امار, به فرایند برازاندن مولفه های یک توزیع براساس برخی از داده های مشاهده شده گفته می شود.
برای اطلاعات بیشتر این مقاله را در ویکی پدیا مطالعه کنید.
Input Layer لایه ورودی
اولین لایه در یک شبکه عصبی (که داده ی ورودی را دریافت می کند.)
Inter-rater Agreement توافق بین ارزیابان
سنجش میزان توافق بین ارزیابان در هنگام انجام یک کار.(یک نمره که درجه ی همگونی و توافق را در ارزیابی های داده شده توسط چندین کارشناس معین می کند.).اگر ارزیابان (هنگام انجام یک کار) یا یکدیگر مخالف کنند, دستورالعمل های ان کار ممکن است نیاز به بهبود داشته باشد.این توافق گاهی توافق بین حاشیه نویسان و یا پایایی بین ارزیابان هم نامیده می شود.
می توانید این مقاله در مورد کاپای کوهن را در ویکی پدیا مطالعه کنید که یکی از پرطرفدارترین معیار های اندازه گیری توافق بین ارزیابان می باشد.
Interpretability تفسیرپذیری
درجه سختی توضیح پیش بینی های یک مدل.مدل های عمیق معمولا غیرقابل تفسیر می باشند بدین معنی که لایه های مختلف یک مدل عمیق به سختی قابل رمزگشایی می باشند.در مقابل ان مدل های رگرسیون خطی و مدل های گسترده معمولا بسیار قابل تفسیرتر می باشند.
Intersection Over Union (iou) اشتراک بر اجتماع
اشتراک دو مجموعه تقسیم بر اجتماعشان.در یادگیری ماشین در کارهای تشخیص در تصویر اشتراک بر اجتماع برای اندازه گیری دقت کادر محصورکننده پیش بینی شده توسط مدل در مقایسه با کادر محصورکننده حقیقی استفاده می شود.در این مورد, اشتراک بر اجتماع دو کادر برابر است با نسبت مساحت همپوشانی به مساحت کل و مقدار این نسبت بین ۰(هیچ همپوشانی بین کادر محصورکننده پیش بینی شده توسط مدل و کادر محصورکننده حقیقی وجود ندارد) تا ۱(مختصات کادر محصورکننده پیش بینی شده توسط مدل و کادرمحصورکننده حقیقی دقیقا یکسان است) تغییر می کند.
برای مثال در تصویر زیر:
- کادر محصورکننده پیش بینی شده توسط مدل (مختصاتی که تعیین می کند مدل, میز شب را در کجای این نقاشی پیش بینی کرده) با رنگ بنفش مشخص شده است.
- کادر محصورکننده حقیقی (مختصاتی که مکان واقعی میز شب را در نقاشی مشخص می کند) با رنگ سبز مشخص شده است.
در تصویر زیر اشتراک کادر محصورکننده پیش بینی شده توسط مدل با کادر محصورکننده حقیقی ۱ و اجتماع انها (تصویر اخر) ۷ می باشد پس میزان اشتراک بر اجتماعشان ۱/۷ می باشد.
IoU اشتراک بر اجتماع
Item Matrix ماتریس آیتم
ماتریسی که در سیستمهای توصیهگر از ویژگیهای ساخته شده توسط عاملبندی ماتریس که سیگنالهای نهفته درباره هر آیتم را نگهداری میکند ایجاد میشود. هر ردیف از ماتریس آیتم، مقدار یک ویژگی نهفته را برای همه موارد نشان میدهد. به عنوان مثال، یک سیستم توصیهگر درباره فیلمها را در نظر بگیرید. هر ستون در ماتریس آیتم نشاندهنده یک فیلم است. سیگنالهای نهفته ممکن است نشاندهندهی ژانرها باشند، یا ممکن است سیگنالهای سخت-تفسیری باشند که ارتباطات پیچیدهای بین سبک فیلم، امتیاز، سال ساخت یا عوامل دیگر را شامل شود.
ماتریس آیتم همان تعداد ستون دارد که ماتریس عاملبندی هدف باید داشته باشد. به عنوان مثال، ماتریس آیتم یک سیستم توصیهگر فیلم که ۱۰۰۰۰ فیلم را ارزیابی میکند، ۱۰۰۰۰ ستون خواهد داشت.
Items موارد (آیتمها)
اقلامی که یک سیستم توصیهگر از بین آنها پیشنهاد میدهد. به عنوان مثال، برای یک سیستم توصیهگر در یک کتابفروشی، کتابها آیتم حساب میشوند.
Iteration تکرار
هر بروزرسانی بر روی وزنهای مدل در حین فرآیند آموزش. یک تکرار شامل محاسبه گرادیانهای پارامترهای شبکه با در نظر گرفتن مقدار زیان شبکه بر روی یک دسته (batch) از دادهها است.
K-means K-means
یکی از الگوریتمهای محبوب خوشهبندی است که برای گروهبندی دستهها در یادگیری بدون نظارت استفاده میشود. الگوریتم k-means بطور کلی موارد زیر را انجام میدهد:
- با تکرار بهترین نقاط مرکز k را تعیین میکند(معروف به centroids).
- هر نمونه را به نزدیکترین مرکز اختصاص میدهد. نمونههای نزدیک به مرکز، متعلق به یک گروه هستند.
الگوریتم k-means مکانهای مرکزی را انتخاب میکند تا مربع تجمعی فواصل هر مثال، تا نزدیکترین مرکز خود را به حداقل برساند.
به عنوان مثال نمودار زیر را از قد سگ تا عرض سگ در نظر بگیرید:
اگر k = 3 باشد، الگوریتم k-mean سه مرکز را معین میکند. هر مثال به نزدیکترین مرکز خود اختصاص داده شده که دارای سه گروه است:
تصور کنید که یک تولید کننده میخواهد اندازههای ایدهآل ژاکتهای کوچک، متوسط و بزرگ را برای سگها مشخص کند. سه مرکز نمایانگر متوسط قد و عرض هر سگ را در آن خوشه است. بنابراین تولید کننده احتمالا باید اندازه ژاکت را براساس این سه مرکز تولید کند. توجه داشته باشید که مرکز خوشه معمولا نمونهای در خوشه نیست.
تصاویر قبلی k-Mean را برای مثالهایی با تنها دو ویژگی (قد و عرض) نشان میدهداما این الگوریتم میتواند مثالها را در بسیاری از ویژگیها گروه بندی کند.
K-median K-median
یک الگوریتم خوشهبندی که مرتبط با k-means است. تفاوت عملی بین این دو به صورت زیر است:
- در k-means، مرکزها با به حداقل رساندن مجموع مربعات فاصله بین یک کاندیدای مرکز و هر یک از نمونههای آن تعیین می شوند.
- در k-median، مرکزها با به حداقل رساندن مجموع فاصله بین یک کاندیدای مرکز و هر یک از نمون های آن تعیین می شوند.
توجه داشته باشید که تعاریف فاصله نیز متفاوت است:
k-mean به فاصله اقلیدسی از مرکز تا یک مثال متکی است. (در دو بعد، فاصلهی اقلیدسی به معنای استفاده از قضیه فیثاغورث برای محاسبه وتر است.) به عنوان مثال k-means بین (2،2) و (5 ، -2) خواهد بود:
k-median به فاصله منهتن از مرکز تا یک مثال متکی است. این فاصله جمع دلتاهای مطلق در هر بعد است. به عنوان مثال ، فاصله k-median بین (2،2) و (5 ، -2) خواهد بود:
Keras کراس
کراس یک API پایتونی محبوب یادگیری ماشین است که با چندین چارچوب یادگیری عمیق، از جمله تنسورفلو اجرا میشود.(به عنوان tf.keras در دسترس است)
مطالعه بیشتر: keras.io
Kernel Support Vector Machines(ksvms) ماشینهای بردار پشتیبانی (KSVMs)
یک الگوریتم طبقهبندی است که با نگاشت بردارهای داده ورودی به فضای بعدی بالاتر، حاشیه بین طبقات مثبت و منفی را به حداکثر میرساند. به عنوان مثال یک مسئلهی طبقهبندی را در نظر بگیرید که در آن مجموعه داده ورودی دارای صد ویژگی باشد. برای به حداکثر رساندن حاشیه بین طبقات مثبت و منفی، یک KSVM میتواند این ویژگیها را به صورت داخلی در یک فضای یک میلیون بعدی قرار دهد. KSVM ها از یک تابع زیانی به نام هزینهی hinge استفاده میکنند.
Keypoints نقاط کلیدی
نقاط کلیدی شامل مختصات ویژگیهای خاص، در یک تصویر هستند. به عنوان مثال برای یک مدل تشخیص تصویر که گونههای گل را از یکدیگر متمایز میکند، نقاط کلیدی ممکن است مرکز هر گلبرگ، ساقه، پرچم و غیره باشد.
L1 loss تابع زیان L1
تابع زبانی بر اساس قدرمطلق تفاضل مقدار پیشبینی شده توسط مدل و مقدار واقعی برچسب. تابع زیان L1 نسبت به تابع زیان L2 کمتر به استثنائات حساس است.
L1 Regularization نظمدهی L1
نوعی از نظمدهی (regularization) که وزنها را به نسبت مجموع مقدار قدر مطلق آنها کاهش میدهد. در مدلهایی که بر ویژگیهای پراکنده (sparse features) تکیه دارند، نظمدهی L1 کمک میکند تا وزن ویژگیهای نامربوط یا کمارتباط به دقیقا ۰ برسد. این کار آن ویژگیها را از مدل حذف میکند.
متضادها: نظمدهی L2 (L2 regularization)
L2 Loss تابع زیان L2
تابع زیان مربعات (squared loss) را ببینید.
L2 Regularization نظمدهی L2
نوعی از نظمدهی که وزنها را به نسبت مجموع مربعات آنها کاهش میدهد. نظمدهی L2 تلاش میکند تا وزنهای استثناء (آنهایی که مقدار مثبت بسیار بالا یا مقدار منفی بسیار پایین دارند) به صفر نزدیک شوند اما دقیقا صفر نشوند. این نظمدهی همیشه قدرت تعمیم مدلهای خطی را بالا میبرد.
متضاد: نظمدهی L1
Label برچسب
در یادگیری با ناظر به «پاسخ» یا «نتیجه» مورد انتظار به ازای یک نمونه برچسب میگویند. هر نمونه در یک مجموعه داده برچسبخورده از یک یا بیشتر ویژگی و یک برچسب تشکیل میشود. به عنوان مثال، در یک مجموعه داده اطلاعات ساختمانها، ویژگیها میتوانند تعداد اتاقها، تعداد حمامها و سن خانه باشند و برچسب میتواند قیمت خانه باشد. در یک مجموعه داده تشخیص هرزنامه، ویژگیها میتوانند موضوع، فرسنتنده و محتوای پیام باشند و برچسب میتواند احتمال هرزنامه بودن یا نبودن باشد.
Labeled Example نمونه برچسبخورده
نمونهای که شامل ویژگیها و یک برچسب است. در یادگیری با ناظر، مدلها از نمونههای برچسبخورده یاد میگیرند.
Lambda لامبدا (لامدا)
مترادف: نرخ نظمدهی
این یک اصطلاح با معانی مختلف است. در اینجا بر معنی مربوط به نظمدهی (regularization) تمرکز شده است.
Landmarks نشانگرها
مترادف: نقاط کلیدی (keypoints)
Layer لایه
مجموعهای از نورونها در یک شبکه عصبی که مجموعه ویژگیهای ورودی یا خروجی نورونهای دیگر را پردازش میکنند.
Learning Rate نرخ یادگیری
یک مقدار عددی که در آموزش مدل با روش کاهش شیب (gradient descent) استفاده میشود. در هر گام، الگوریتم کاهش شیب مقدار نرخ یادگیری را در گرادیانها یا شیبها ضرب میکند. حاصل ضرب اینها گام شیب نامیده میشود.
نرخ یادگیری یک ابرپارامتر (hyperparameter) کلیدی است.
Least Squares Regression رگرسیون کمترین مربعات
یک مدل رگرسیون خطی که با کمینه کردن تابع خطای L2 آموزش دیده است.
Linear Model مدل خطی
مدلی که برای پیشبینی کردن به هر ویژگی یک وزن اختصاص میدهد. (مدلهای خطی همچنین یک مقدار اریبی را با حاصل جمع ادغام میکنند.) در مقابل مدلهای خطی، رابطه وزنها با ویژگیها در مدلهای عمیق یک به یک نیست.
یک مدل خطی از فرمول زیر پیروی میکند:
در فرمول فوق:
- y' مقدار پیشبینی خام است. (در برخی از انواع مدلهای خطی، این مقدار خام بعدا تغییر میکند. به عنوان مثال رگرسیون لجستیک را ببینید.)
- b مقدار اریبی است.
- w یک وزن است. w1 وزن ویژگی اول، w2 وزن ویژگی دوم و ... است.
- x یک ویژگی است. x1 مقدار ویژگی اول، x2 مقدار ویژگی دوم و ... است.
به عنوان مثال فرض کنید که یک مدل خطی برای سه ویژگی وزنها و مقدار اریبی زیر را آموزش دیده است.
- b = 7
- w1 = -2.5
- w2 = -1.2
- w3 = 1.4
در این صورت برای سه ویژگی x1، x2 و x3 مدل از معادله زیر جهت پیشبینی استفاده میکند:
فرض کنید که در یک نمونه ویژگیها مقادیر زیر را داشته باشند:
- x1 = 4
- x2 = -10
- x3 = 5
با قرار دادن آنها در معادله فوق مقدار پیشبینیشده به شکل زیر خواهد بود:
مدلهای خطی راحتتر از مدلهای خطی آموزش داده و تحلیل میشوند. اما مدلهای عمیق میتواند روابط پیچیدهتری بین ویژگیها را درک کنند.
رگرسیون خطی و رگرسیون لجستیک دو مدل از انواع مدلهای خطی هستند. مدلخای خطی نه تنها شامل مدلهایی که از یک معادله خطی پیروی میکنند میشود، بلکه به مدلهایی که بخشی از فرمول آنها یک معادله خطی باشد نیز اطلاق میشود. به عنوان مثال، رگرسیون لجستیک مقدار خام پیشبینیشده را جهت اعلام نتیجه نهایی پسپردازش میکند.
Linear Regression رگرسیون خطی
استفاده از خروجی خام (y') یک مدل خطی به عنوان نتیجه نهایی یک مدل رگرسیون. هدف مسالههای رگرسیون یک پیشبینی با ارزش واقعی ات. به عنوان مثال، اگر مقدار خروجی مدل خطی ۸.۳۷ باشد، مقدار پیشبینی نیز ۸.۳۷ خواهد بود.
متضادها: رگرسیون لجستیک، دستهبندی (این مدلها در مقابل رگرسیون به صورت کلی قرار میگیرند.)
Log-odds لگاریتم احتمالات
لگاریتم احتمالات چندین پیشامد.
اگر پیشامد به یک احتمال دودویی اشاره کند، در این صورت odds به نسبت موفقیت (p) بر روی شکست (1-p) اشاره میکند. به عنوان مثال، فرض کنید که پیشامدی ۹۰٪ احتمال موفقیت و ۱۰٪ احتمال شکست دارد. در این صورت داریم:
لگاریتم احتمالا به لگاریتم مقدار فوق گفته میشود. قرارداد شده است که منظور از لگاریتم، لگاریتم طبیعی است، اما در واقع میتواند لگاریتم هر مقداری بزرگتر از ۱ باشد. با در نظر گرفتن قرارداد، در مثال گفته شده داریم:
لگاریتم احتمال معکوس خروجی تابع sigmoid است.
Log Loss تابع زیان لگاریتمی
تابع زیانی که در مسالههای رگرسیون خطی دو کلاسه استفاده میشود.
Logistic Regression رگرسیون لجستیک
رگرسیون لجستیک یا آمادی یک مدل طبقهبندی است که با استفاده از تابع sigmoid پیشبینیهای خام یک مدل خطی (y') را به مقداری بین ۰ و ۱ تبدیل میکند. این مقدار بین ۰ و ۱ را میتوان به یکی از روشهای زیر تفسیر کرد:
-
احتمال این که در یک مساله دستهبندی دوتایی نمونه به کلاس مثبت تعلق داشته باشد.
-
مقداری که باید با حد آستانه دستهبندی مقایسه شود. اگر این مقدار برابر یا بزرگتر از حد آستانه دستهبندی بود، سامانه نمونه را متعلق به کلاس مثبت درنظر میگیرد. در مقابل، اگر نمونه کوچکتر از حد آستانه تعیینشده بود، سامانه نمونه را متعلق به کلاس منفی درنظر میگیرد. به عنوان مثال، فرض کنید که آستانه دستهبندی برابر ۰.۸۲ است:
- نمونهای را تصور کنید که مقدار خام پیشبینی آن ۲.۶ بوده است. اگر این مقدار را به تابع sigmoid بدهیم، خروجی برابر ۰.۹۳ خواهد بود. با توجه به این که ۰.۹۳ از ۰.۸۲ بزرگتر است، سامانه نمونه را متعلق به کلاس مثبت درنظر میگیرد.
- نمونه دیگری را تصور کنید که مقدار خام پیشبینی مدل برای آن ۱.۳ است. مقدار تابع sigmoid به ازای این ورودی برابر ۰.۷۹ خواهد بود. چون ۰.۷۹ از ۰.۸۲ کوچکتر است، سامانه آن را به عنوان نمونهای کلاس منفی درنظر میگیرد.
با وجود این که رگرسیون خطی معمولا در مسالههای دستهبندی دوتایی استفاده میشود، اما میتوان از آن در مسائل طبقهبندی چندتایی نیز استفاده کرد که به آن رگرسیون خطی چنددستهای (multi-class logistic regression) یا رگرسیون چندجملهای (multinomial regression) گفته میشود.
Logits لوجیت
برداری از پیشبینیهای خام (نرمال نشده) که یک مدل طبقهبندی تولید میکند، و در شرایط عادی به عنوان ورودی به یک تابع نرمالسازی پاس داده میشوند. اگر مدل یک مساله طبقهبندی چند-دستهای را حل کند، لوجیتها معمولا ورودی تابع softmax خواهند بود. این تابع برداری از احتمالات نرمالشده برمیگرداند که به ازای هر کلاس یک مقدار دارد.
همچنین، لوجیت گاهی به معنای معکوس درایه به درایه تایع sigmoid نیز هست. برای اطلاعات بیشتر، این صفحه را ببینید.
Long Short-Term Memory (LSTM) حافظه بلند کوتاه-مدت
نوعی از نورونهای سازنده یک شبکه عصبی بازگشتی که برای پردازش دنبالهای از دادهها در حوزههایی مانند تشخیص دستنوشته، ترجمه ماشینی و شرح تصاویر استفاده میشود. آنها مشکل محوشدگی گرادیان را که به خاطر رشتههای طولانی دادهها در آموزش شبکههای عصبی بازگشتی (RNN) رخ میداد، با نگهداری تاریخچه در یک حافظه داخلی بر اساس ورودی جدید و مقدار قبلی سلول مشخص کردند.
Loss زیان
معیاری برای اندازهگیری این که پیشبینیهای مدل چقدر از برچسبها دورند. به بیان دیگر، این معیار برای اندازهگیری مقدار بد بودن مدل است. برای مشخص شدن این مقدار، باید برای مدل یک تابع زیان تعریف شود. به عنوان مثال، مدلهای رگرسیون خطی معمولا از میانگین مربع خطاها (mean squared error) به عنوان تابع زیان استفاده میکنند، در حالی که مدلهای رگرسیون لجستیک (logistic regression) از تابع زیان لگاریتمی استفاده میکنند.
Loss Curve منحنی زیان
نمودار مقادیر تابع زیان به عنوان تابعی از گامهای آموزش. به عنوان مثال نمودار زیر را درنظر بگیرید:
منحنی زیان برای تشخیص همگرایی، بیشبرازشی (overfitting) و کمبرازشی (underfitting) مدل استفاده میشود.
Loss Function تابع زیان
تابعی که جهت اندازهگیری مقدار بد عمل کردن یک مدل تعریف میشود. به بیان دیگر، تابع زیان تابعیست که نگاشتی از وضعیت مدل به یک مقدار حقیقی که تحت عنوان زیان شناخته میشود برقرار میسازد.
Loss Surface نمای زیان
نموداری از وزن(ها) در برابر مقدار تابع زیان. الگوریتم کاهش شیب (gradient descent) تلاش میکند تا وزنی را پیدا کند که به ازای آن مقدار نمای زیان در نقطه کمینه محلی باشد.
Machine Learning یادگیری ماشین
برنامه یا سیستمی که از داده های ورودی، یک مدل پیش بینی کننده را ایجاد میکند (آموزش می دهد). این سیستم با استفاده از مدل یادگرفته شده، پشبینیهای مفیدی را از داده های جدید (قبلاً هرگز دیده نشده) که از همان توزیع دادههای ورودی است، میکند. یادگیری ماشین به رشته تحصیلی مربوط به این حوزه هم اشاره دارد.
Majority Class کلاس اکثریت
نامی که در مجموعهداده دسته نامتوازن به کلاس دارای داده بیشتر گفته می شود. به عنوان مثال در مجموعه دادهای که ۹۹ درصد برچسب داده ها غیر هرزنامه و ۱ درصد برچسب ها هرزنامه باشد. کلاس با برچسب غیرهرزنامه کلاس اکثریت نامیده میشود.
Markov Decision Process (MDP) (MDP) فرایند تصمیم گیری مارکوف
یک چارچوب ریاضی است برای مدلسازی تصمیمگیری در شرایطی که نتایج تا حدودی تصادفی و تا حدودی تحت کنترل یک تصمیمگیر است. MDPs برای مطالعه طیف گستردهای از مسائل بهینه سازی که از طریق برنامهنویسی پویا و تقویت یادگیری حل میشوند مفید است.
تصویر زیر یک نمونه ساده از MDP است:
این نمونه دارای ۳ حالت (دایره های سبز رنگ) و ۲ عمل (a0 , a1) و ۲ پاداش ( خط های نارنجی رنگ) است
Markov Property ویژگی مارکوف
ویژگی از محیط های قطعی که اطلاعات جاجایی در بین حالت ها با داشتن حالت فعلی و عمل عامل به صورت کاملا قطعی مشخص شده است.
matplotlib matplotlib
کتابخانه ای در زبان برنامه نویس پایتون که برای رسم نمودار و بصری سازی استفاده میشود.
Matrix Factorization ماتریس عاملبندی
در ریاضیات، مکانیزمی برای یافتن ماتریس هایی که حاصلضرب آنها به یک ماتریس هدف نزدیک است. گفته میشود.
در سامانه پیشنهادگر, ماتریس هدف امتیاز کاربر ها براساس آیتم هاست. برای مثال، ماتریس هدف یک سامانه پیشنهادگر فیلم چیزی شبیه جدول زیر است که عدد مثبت به معنای امتیاز کاربر به فیلم و صفر به معنی امتیاز ندادن کاربر است.
Casablanca | The Philadelphia Story | Black Panther | Wonder Woman | Pulp Fiction | |
---|---|---|---|---|---|
کاربر ۱ | 5.0 | 3.0 | 0.0 | 2.0 | 0.0 |
کاربر ۲ | 4.0 | 0.0 | 0.0 | 1.0 | 5.0 |
سامانه پیشنهادگر فیلم هدفاش این است که امتیاز برای فیلم های بدون امتیاز پیش بینی میکند. مثلا آیا کاربر ۱ فیلمBlack Panther را دوست دارد؟ هدف سامانه های پیشنهادگر این است که با استفاده از ماتریس عاملبندی دو ماتریس، ماتریس آیتم و ماتریس کاربر را تولید کند.
برای مثالو با استفاده از ماتریس عاملبندی در ۳ کاربر و ۵ آیتم بالا، ماتریس آیتم و کاربر زیر را داریم:
User Matrix Item Matrix
1.1 2.3 0.9 0.2 1.4 2.0 1.2
0.6 2.0 1.7 1.2 1.2 -0.1 2.1
2.5 0.5
که حاصل ضرب دو ماتریس بالا به ما ماتریس پیشنهادگر را میدهد که هم شامل امتیاز واقعی کاربران و هم شامل امتیاز پیش بینی شده برای فیلم هایی که کاربر هنوز مشاهده نکرده.
Mean Absolute Error (MAE) میانگین خطا مطلق
یک معیار اندازه گیری خطا به صورت میانگین گیری از خطای مطلق محاسبه میشود. در مبحث خطای های مدل. MAE میانگین تفاوت بین مقدار واقعی و مقدار پیشبینی شده بر روی تمام نمونه های آموزش است. مثلا برای n نمونه آزمایش، برای هر مقدار واقعی y و مقدار پیشبینی شده y^ فرمول MAEبه صورت زیر است:
Mean Squared Error (MSE) میانگین مجذور خطا
میانگین مجذورخطا در در نمونه، MSE با تقسیم مجذور خطا بر تعداد نمونه ها. به صورت پیش فرض در تنسورفلو برای خطای آموزش و خطای آزمایش از این MSE استفاده میکنند.
Metric معیار
عددی که برای شما مهم است. ممکن است به صورت مستقیم در سامانه یادگیری ماشین بهینه نشود
Metrics API (tf.metrics) ماژول معیارها
یک ماژول در پکیج تنسرفلو که مجموعه فعالیت های مربوط به بررسی مدل
برای مثال: tf.metrics.accuracy` برای مشخص کردن اینکه چقدر پیشبینی های مدل درست بوده است، استفاده میشود.
Mini Batch دسته کوچک
یک دسته کوچک و اتفاقی از دسته های کل نمونه ها که باهم در یک حلقه آموزش یا اجرا میشوند.
اندازه دستهی یک دسته کوچک معمولا بین ۱۰ تا ۱۰۰۰ است. محاسبه خطا بر روی دسته کوچک بهینه تر از محاسبه خطا بر روی کل نمونه های آموزش است.
mini-batch Stochastic Gradient Descent (SGD) کاهش شیب تصادفی دسته کوچک
الگوریتم کاهش شیب که از دسته کوچک استفاده میکند. میتوان گفت که کاهش شیب با دسته کوچک، کاهش شیب را براساس مقدار کوچکی از داده های آموزش تخمین میزند. کاهش شیب تصادفی از سایز دسته کوچک ۱ استفاده میکند.
Minimax Loss خطا مینیمکس
تابع خطایی که برای شبکه های مولد تخاصمی است،که بر اساس آنتروپی متقاطع بین توزیع داده های تولید شده و داده واقعی است.
این خطا در اولین مقالهای که برای توضیح شبکههای مولد تخاصمی استفاده شده است.
Minority Class کلاس اقلیت
نامی که در مجموعهداده دسته نامتوازن به کلاس دارای داده کمتر گفته می شود. به عنوان مثال در مجموعه دادهای که ۹۹ درصد برچسب داده ها غیر هرزنامه و ۱ درصد برچسب ها هرزنامه باشد. کلاس با برچسب هرزنامه کلاس اقلیت نامیده میشود.
ML یادگیری ماشین
مخففی از کلمه یادگیری ماشین
MINST minst مجموعه داده
مجموعه داده با دسترسی رایگان و عمومی جمعآوری شده LeCun, Cortes, and Burges حدود ۶۰۰۰۰ تصویر، هر تصویر یک عدد از ۰ -۹ از دستخط افراد مختلف است. هر تصویر در سایر ۲۸ در ۲۸ ذخیره شدهاند. تصاویر به صورت خاکستری ذخیره شدهاند یعنی تنها یک آرایه از اعداد بین ۰ تا ۲۵۵ هستند.
این مجموعهداده یکی از مجموعهداده استاندار و معتبر در حوزه یادگیری ماشین است برای رویکرد های جدید یادگیری ماشین استفاده میشود.
Model مدل
نمایشی از آنچه یک سامانه یادگیری ماشین از دادههای آموزش یاد گرفته است. در Tensorflow مدل میتواند بیش از یک معنی داشته باشد که عبارتند از:
- یک گراف Tensorflow که ساختار محاسبه پیشبینیها را نمایش میدهد.
- وزنها و مقدار اریبیها (bias) در یک گراف Tensorflow که در روند آموزش تعیین شدهاند.
Model Capacity ظرفیت مدل
پیچیدگی مساله هایی که مدل میتونه حل کنه. هرچقدر مساله پیچیدهتر باشه،مدل برای اینکه بتونه حل کنه باید ظرفیت بیشتری داشته باشه. که ظرفیت مدل وقتی زیاد میشه که تعداد پارامتر های مدل بیشتر بشه.
Model Training آموزش مدل
مراحل تعیین بهترین مدل
Momentum الگوریتم مومنتوم
یک الگوریتم کاهش شیب پیچیده که در آن یک نرخ یادگیری نه تنها به مشتق در مرحله فعلی، بلکه به مشتقات مرحله (های) بلافاصله قبل از آن نیز بستگی دارد. مومنتوم شامل محاسبه میانگین متحرک با وزن نمایی از گرادیان ها در طول زمان است که مشابه تکانه در فیزیک است. حرکت گاهی اوقات مانع از گیرکردن در حداقلهای محلی می شود.
multi-class Classification طبقهبندی چندکلاسه
یک مساله طبقهبندی که دارای بیشتر از ۲ کلاس است، برای مثال تقریبا ۱۲۸ گونه درخت افرا وجود دارد، بنابراین مدلی که گونههای درخت افرا را طبقهبندی میکند، چند کلاسه است. برعکس، مدلی که ایمیل ها را تنها به دو دسته تقسیم میکند (هرزنامه و غیرهرزنامه) یک مدل طبقهبندی باینری خواهد بود.
multi-class Logistic Regression رگرسیون لجستیک چندکلاسه
استفاده از رگرسیون لجستیک در طبقه بندی چند کلاس
Multinomial Classification طبقه بندی چندکلاسه
معادلی برای طبقه بندی چندکلاسه.
N-gram N کلمهای
یک دنبالهی ترتیبی از N کلمه. به عنوان مثال، «واژه شروع» یک دو کلمهای است. با توجه این که ترتیب در دنبالهها اهمیت دارد، «شروع واژه» یک دو کلمهای متفاوت است.
N | نام | نمونه |
---|---|---|
2 | دو کلمهای (bigram) | برای رفتن، رفتن برای، خوردن ناهار، خوردن شام |
3 | سه کلمهای (trigram) | بسیار زیاد خوردن، سه موش کور |
4 | چهار کلمهای | راه رفتن در پارک، ذره غبار در باد |
بسیاری از مدلهای درک زبان طبیعی از N کلمهایها جهت پیشبینی کلمه بعدی کاربر استفاده میکنند. به عنوان مثال، فرض کنید یک کاربر عبارت «سه موش» را بنویسد. یک مدل درک زبان طبیعی بر اساس سه کلمهایها احتمالا کلمه بعدی کاربر را «موش» پیشبینی خواهد کرد.
متضادها: کیف کلمات (bag of words) که مجموعهای از کلمات بدون در نظر گرفتن ترتیب است
NaN Trap تله ناعدد
هنگامی که یک عدد در فرآیند آموزش مدل تبدیل به ناعدد (NaN - Not a Number) شود، باعث میشود برخی یا همه اعداد در مدل به ناعدد تبدیل شوند.
Natural Language Understanding فهم زبان طبیعی
درک مقصود کاربر با توجه به آنچه گفته یا نوشته است. به عنوان مثال، یک موتور جستجو از فهم زبان طبیعی جهت تشخیص این که کاربر به دنبال چه میگردد استفاده میکند.
Negative Class کلاس منفی
در طبقهبندی دوتایی، یکی از دستهها کلاس مثبت و دیگری کلاس منفی نامگذاری میشود. کلاس مثبت شامل آن چیزی است که به دنبال آن میگردیم و کلاس منفی فاقد آن است. به عنوان مثال، در یک تست پزشکی کلاس منفی میتواند «بدون تومور» باشد، یا در یک مساله دستهبندی پیامهای الکترونیکی میتواند به «غیر هرزنامه» اشاره کند.
مطالعه بیشتر: کلاس مثبت
Neural Network شبکه عصبی
مدلی که از ساختار مغز الهام گرفته شده است و شامل چندین لایه (حداقل یک لایه مخفی) است. در هر لایه چندین واحد یا نورون ساده وجود دارد که یک تابع غیرخطی بر روی نتایج آنها اعمال میشود.
Neuron نورون
گرهی در شبکه عصبی که معمولا چندین ورودی را دریافت کرده و یک خروحی تولید میکند. نورونها مقدار خروجی را با اعمال یک تابع فعالساز غیرخطی (activity function) بر روی حاصل جمع وزندار مقادیر ورودی محاسبه میکنند.
NLU درک زبان طبیعی
Node (Neural Network) گره (شبکه عصبی)
نورونی در یک لایه پنهان شبکه عصبی.
Noise نوفه
به صورت کلی، هر چیزی که باعث ابهام در سیگنالی از مجموعه داده بشود. نوفه یا نویز به اشکال متفاوتی در داده ایجاد شود. به عنوان مثال:
- اپراتورهای انسانی در برچسب زدن دادهها اشتباه کنند.
- انسانها یا دستگاهها مقادیر ویژگیها را حذف و یا اشتباه ضبط کنند.
Non-response Bias سوگیری عدم پاسخ
مترادف: سوگیری انتخاب
Normalization بهنجارش
روند تبدیل بازه واقعی مقادیر به یک بازه استاندارد. (معمولا بین ۱- و ۱+، یا ۰ و ۱+) به عنوان مثال، فرض کنید که بازه طبیعی یک ویژگی مشخص بین ۸۰۰ تا ۶۰۰۰ است. با استفاده از تفریق و تقسیم، شما میتوانید مقادیر را بین ۱- و ۱+ نرمال کنید.
مطالعه بیشتر: مقیاسگذاری (scaling)
Numerical Data داده عددی
ویژگیهایی که به شکل اعداد حقیقی یا صحیح نمایش داده میشوند. به عنوان مثال، در یک مدل مشاور املاک، اندازه خانه (با واحد متر مربع) به شکل یک داده عددی نمایش داده میشود. نمایش دادن ویژگیها تحت عنوان دادههای عددی بیان میکند که مقادیر آن ویژگیها با هم رابطه ریاضی دارند و احتمالا میتوان آنها را برچسبگذاری کرد. به عنوان مثال، نشان دادن اندازه خانه به شکل دادههای عددی بیان میکند که یک خانه ۲۰۰ متر مربعی دو برابر بزرگتر از یک خانه با مساحت ۱۰۰ متر مربع است. علاوه بر این، بیان میکند که احتمالا بین اندازه خانه و قیمت آن نیز یک رابطه ریاضی برقرار است.
تمامی دادههای صحیح نباید به شکل دادههای عددی نمایش داده شوند. به عنوان مثال، کد پستی یک عدد صحیح است؛ با این حال آنها را نباید به شکل دادهی عددی در مدلها نمایش داد. زیرا کد پستی ۲۰۰۰۰ دو برابر (یا نصف) کد پستی ۱۰۰۰۰ اهمیت ندارد. همچنین، با وجود این که کد پستیهای متفاوت میتوانند بر روی قیمت قیمت خانه تاثیر بگذارند، اما نمیتوان فرض کرد که خانههایی با کد پستی ۲۰۰۰۰ دو برابر ارزشمندتر از خانههایی با کد پستی ۱۰۰۰۰ هستند. به جای این کار، کدهای پستی به شکل دادههای دادههای رستهای (categorical) نمایش داده میشوند.
دادههای عددی گاهی دادههای پیوسته نیز نامیده میشوند.
Numpy نامپای
یک کتابخانه متنباز ریاضی که امکان اجرای عملیات وکتوری به صورت بهینه را فراهم میکند. کتابخانه pandas نیز با استفاده از این کتابخانه ساخته شده است.
Objective هدف
یک معیار که الگوریتمها تلاش میکنند آن را بهینه کنند.
Objective Function تابع هدف
یک عبارت ریاضی یا معیار که یک مدل تلاش میکند تا آن را بهینه کند. به عنوان مثال، تابع هدف برای مسائل رگرسیون خطی معمولا تابع خطای توان دوم (squared loss) است. بنابراین، هنگامی که یک مدل رگرسیون خطی آموزش میبیند، هدف کمینه کردن تابع خطای توان دوم است.
در برخی موارد، هدف میتواند بیشینه کردن تابع هدف باشد. به عنوان مثال، اگر تابع هدف کارایی باشد، هدف بیشینه کردن کارایی است.
مطالعه بیشتر: زیان
Offline Inference استنباط برونخط
تولید دستهای از پیشبینیها، ذخیره آن پیشبینیها و بازیابی آن پیشبینیها در صورت نیاز.
متضادها: استنباط درونخط
One-hot Encoding کدگذاری وانهات
یک بردار پراکنده (sparse) که در آن:
- مقدار یک درایه ۱ است
- مقدار بقیهی درایهها ۰ است
این نوع کدگذاری جهت نمایش شناسههایی که مقادیر محدودی میپذیرند معمول است. به عنوان مثال، یک مجموعه داده گیاهشناسی شامل ۱۵۰۰۰ گونه متفاوت را درنظر بگیرید که هر کدام با یک رشته منحصربهفرد معرفی میشوند. به عنوان یک مرحله از مهندسی ویژگی، شما احتمالا آن رشتهها به شکل بردارهای one-hot با اندازه ۱۵۰۰۰ درمیآورید.
One-shot Learning یادگیری تکمرحلهای
یک رویکرد یادگیری ماشین است که معمولا در مسائل طبقهبندی اشیا استفاده میشود و طراحی شده است تا بتواند طبقهبندهای موثر از یک نمونه آموزش دهد.
اطلاعات بیشتر: یادگیری چندمرحلهای (few-shot learning)
One-vs.-All یک در مقابل همه
در یک مساله طبقهبندی با N پاسخ ممکن، یک رویکرد «یک در مقابل همه» شامل N طبقهبند دوتایی (یک طبقهبند دوتایی برای هر خروجی ممکن) است. به عنوان مثال، مدلی که نمونهها را به عنوان حیوان، سبزیجات یا کانی طبقهبندی میکند، یک رویکرد «یک در مقابل همه» سه طبقهبند دوتایی زیر را تولید میکند:
- حیوان در برابر غیرحیوان
- سبزیجات در برابر غیر سبزیجات
- کانی در برابر غیر کانی
Online Inference استنباط برخط
تولید پیشبینیها در لحظه نیاز.
متضادها: استنباط برونخط (offline inference)
Optimizer بهینهساز
یک پیادهسازی خاص از الگوریتم کاهش شیب (gradient descent). بهینهسازهای پرکاربرد عبارتند از:
- بهینهساز AdaGrad که از ADAptive GRADient descent (کاهش شیب سازگار) گرفته شده است.
- بهینهساز Adam که از ADAptive with Momentum (سازگار با تکانه) گرفته شده است.
بهینهسازهای مختلف ممکن است با ایجاد تفاوت یک یا چند مورد از مفاهیم زیر تاثیر الگوریتم کاهش شیب (gradient descent) را بر روی یک مجموعه داده آموزش تغییر دهند:
- تکانه (momentum)
- بسامد بهروزرسانی
- پراکندگی / نظمدهی (Ftrl)
- ریاضیات پیچیدهتر (نزدیک مبدا بودن یا Proximal و ...)
حتی میتوان بهینهسازهای مبتنی بر شبکههای عصبی را نیز متصور شد.
Out-Group Homogeneity Bias سوگیری همگنی خارج گروهی
گرایش به این که در هنگام مقایسه مقادیر و شاخصهای خارج گروه را شبیهتر از اعضای درون گروه ببینیم. درونگروهی به معنای افرادی است که به طور منظم با آنها برخورد دارید و خارجگروهی به افرادی گفته میشود که معمولا با آنها برخورد نداشته باشید. اگر با پرسش از افراد درباره ویژگیهای اعضای خارج از گروه یک مجموعه داده جمعآوری کنید، این ویژگیها نسبت به شاخصههای اعضای درون گروه با ظرافت کمتر و کلیشهایتر خواهند بود.
به عنوان مثال، لیلیپوتیها ممکن است خانهی دیگر لیلیپوتیها را با جزئیات بالا و تفاوتهای ریز در معماری، سبک پنجرهها و درها و اندازه توصیف کنند؛ در حالی که همان لیلیپوتیها معتقدند که ساکنان برابدینگنگ همگی در خانههای یکسانی زندگی میکنند.
سوگیری همگنی خارج از گروهی نوعی از انتساب گروهی مقدار پیشفرض (group attribution bias) است.
مطالعه بیشتر: سوگیری بینگروهی (in-group bias)
Outliers داده پرت
مقدارهای که از بقیه مقادیر فاصلهی زیادی دارند. در یادگیری ماشین، هر کدام از موارد زیر دادهی پرت حساب میشوند:
- وزنهایی که قدر مطلق آنها بسیار بزرگ باشد.
- مقدارهای پیشبینی شدهای که از مقادیر واقعی بسیار دور باشند.
- داده های ورودیای که مقدار آنها بیش از تقریبا ۳ برابر انحراف معیار از میانگین دور باشد.
دادههای پرت معمولا در آموزش مدلها اختلال ایجاد میکنند. بریدهسازی (clipping) یکی از راههای مدیریت این دادههاست.
Output Layer لایه خروجی
آخرین لایه در یک شبکه عصبی. این لایه حاوی جوابهای مساله است.
Overfitting بیشبرازش
ایجاد یک مدل که به نمونههای مجموعه داده آموزش بسیار نزدیک شده است؛ به طوری که در پیشبینی دادههای جدید به مشکل میخورد.
Pandas پاندا
یک رابط برنامهنویسی تحلیل داده ستونگرا. بسیاری از فریمورکهای یادگیری ماشین، از جمله TensorFlow، از ساختار دادهی pandas به عنوان ورودی پشتیبانی میکنند.
اطلاعات بیشتر: اسناد مربوط به pandas
Parameter پارامتر
هر متغیر در مدل که سیستم یادگیری ماشین مقدار آن را خود یاد میگیرد. به عنوان مثال، وزنها پارامترهایی هستند که سیستم یادگیری ماشین در تکرارهای متوالی فرآیند آموزش مقدار آن را فرا میگیرد.
متضادها: ابرپارامتر (hyperparameter)
Parameter Update بروزرسانی پارامتر
عملیات تنظیم کردن پارامترهای مدل در حین فرآیند آموزش، که معمولا در یک تکرار (iteration) از الگوریتم کاهش شیب (gradient descent) اتفاق میافتد.
Partial Derivative مشتق جزئی
نوعی از مشتقگیری که در آن همهی متغیرها به جز یکی ثابت در نظر گرفته میشوند. به عنوان مثال، مشتق جزئی تابع f(x,y) نسبت به x به معنای مشتق تابع f است درحالی که f تابعی تنها بر حسب x فرض میشود. (که این معادل ثابت در نظر گرفتن y است.) مشتق جزئی تابع f نسبت به x تنها بر تغییرات x تمرکز دارد و بقیه متغیرهای موجود در عبارت را نادیده میگیرد.
Participation Bias سوگیری در مشارکت
مترادف سوگیری عدم پاسخ (non-response bias) است.
اطلاعات بیشتر: سوگیری انتخاب
Partitioning Strategy راهبرد افراز
الگوریتمی که بهوسیله آن متغیرها بین سرورهای پارامتری تقسیم میشوند.
Perceptron پرسپترون
یک سیستم (نرمافزاری یا سختافزاری) که یا چند مقدار ورودی دریافت کند، و جهت محاسبه مقدار خروجی یک تابع بر روی حاصل جمع وزندار ورودیها اعمال کند. در یادگیری ماشین، این تابع معمولا غیرخطی (مانند ReLU، sigmoid یا tanh) است. به عنوان مثال، پرسپترون زیر برای پردازش سه مقدار ورودی از تابع sigmiod استفاده میکند:
در تصویر زیر، پرسپترون سه مقدار ورودی میگیرد که هر کدام قبل از وارد شدن به پرسپترون در یک مقدار وزن ضرب میشوند:
پرسپترونها همان گرهها (node) در شبکههای عصبی عمیق هستند. در واقع شبکههای عصبی عمیق از چندین پرسپترون متصل به هم تشکیل شده که از الگوریتم انتشار معکوس (backpropagation) جهت بازخورد استفاده میکند.
Performance کارآیی
این واژه میتواند یکی از معانی زیر را داشته باشد:
- معنای سنتی آن در مبحث مهندسی نرمافزار عبارت است از این که این بخش از نرمافزار با چه سرعتی (یا چقدر بهینه) اجرا میشود.
- معنای آن در یادگیری ماشین که اینجا مدنظر است به این سوال پاسخ میدهد که چقدر از پاسخهای مدل درست هستند، یا به بیان دیگر پیشبینی مدل چقدر خوب است.
Perplexity سرگشتگی
یک معیار جهت اندازهگیری میزان خوب بودن یک مدل در انجام وظیفه. به عنوان مثال، فرض کنید وظیفه شما خواندن چند حرف اول کلمهای است که کاربر در صفحه کلید تلفن هوشمند خود تایپ میکند تا با توجه به آن لیستی از کلمات احتمالی جهت تکمیل آن حروف ارائه کنید. سرگشتگی (P) در این وظیفه تقریبا برابر تعداد حدسهایی است که نیاز است شما بزنید قبل از این که کلمه هدف کاربر را پیشنهاد دهید.
سرگشتگی با فرمول زیر به آنتروپی متقاطع (cross-entropy) مرتبط میشود:
Pipeline خط لوله
هر یک از زیرساختها در الگوریتمهای یادگیری ماشین. یک خط لوله (pipeline) شامل جمعآوری داده، تبدیل دادهها به دادههای آموزش مدل، آموزش یک یا چند مدل و تبدیل مدلها به محصولات نهایی است.
Policy سیاست
در یادگیری تقویتی، به نگاشت احتمالی عامل (agent) از حالتها (states) به عملها (actions) گفته میشود.
Pooling ادغام
کوچک کردن ماتریس (یا ماتریسهایی) که حاصل لایه کانولوشنی (پیچشی) قبلی هستند. ادغام معمولا به معنای پیدا کردن مقدار بیشینه یا محاسبه میانگین در ناحیه در حال ادغام است. به عنوان مثال، فرض کنید که ماتریس ۳*۳ زیر موجود است:
عملیات ادغام یا pooling نیز مانند عملیات کانولوشن، ماتریس را به چندین برش تقسیم میکند و با در نظر گرفتن قدم (stride) در هر مرحله عملیات ادغام را انجام میدهد. به عنوان مثال، فرض کنید که عملیات ادغام ماتریس را به یک برشهای ۲*۲ تقسیم میکند و با قدمهای ۱*۱ بر روی آن حرکت میکند. همان طور که نمودار زیر نشان میدهد، چهار عملیات ادغام اتفاق میافتد. تصور کنید که هر عملیات ادغام مقدار بیشینه را از بین چهار مقدار در پنجره انتخاب میکند. در این صورت داریم:
لایههای ادغام به تحقق ناوردایی انتقالی (translational invariance) در ماتریس ورودی کمک میکنند.
ادغام در حوزه بینایی ماشین معمولا به نام «ادغام مکانی» شناخته میشود، اما در کاربردهای آن در حوزه سریهای زمانی معمولا به آن «ادغام زمانی» گفته میشود. همچنین، گاهی به آن «نمونهکاهی» (subsampling یا downsampling) گفته میشود.
Positive Class دسته مثبت
در طبقهبندی دوتایی، دو طبقه ممکن به نامهای «دسته مثبت» و «دسته منفی» شناخته میشوند. دسته مثبت همان چیزی است که ما به دنبال آن هستیم. به عنوان مثال، دسته مثبت در یک آزمایش پزشکی میتواند «تومور» باشد، یا در مساله طبقهبندی پیامهای الکترونیکی، «هرزنامه» میتواند به عنوان دسته مثبت انتخاب شود.
متضاد: دسته منفی
Post-Processing پسپردازش
پردازش خروجی مدل بعد از اجرای آن. پسپردازشها میتوانند بدون ایجاد تغییر در مدلها به متحقق شدن قیدهای تساوی کمک کنند.
به عنوان مثال، یک نمونه پسپردازش در یک طبقهبند دوتایی میتواند انتخاب حد آستانهای باشد که با بررسی یکسان بودن نرخ مثبت حقیقی (True Positive Rate) برای همه گروهها به برابری فرصت (equality of opportunity) منجر شود.
PR AUC (area under the PR curve) ناحیه زیر منحنی PR
ناحیه زیر منحنی دقت-بازخوانی (precision-recall) که با رسم کردن نقاط دقت و بازخوانی به ازای مقادیر مختلف آستانه دستهبندی به دست میآید. بسته به نحوه محاسبه آن، این نمودار میتواند معادل میانگین دقت مدل باشد.
Pre-trained Model مدل از پیش آموزش داده شده
مدل یا بخشی از مدل (مانند تعبیه (embeddings)) که قبلا آموزش دیده است. گاهی اوقات شما تعبیههای یک مدل از قبل آموزش داده شده را به عنوان ورودی به یک شبکه عصبی میدهید. در دیگر مواقع، مدل به جای اتکا به تعبیههای یک مدل از پیش آموزش دیده، خود جهت محاسبه تعبیهها آموزش میبیند.
Precision-Recall Curve منحنی دقت-بازخوانی
منحنی حاصل از محاسبه دقت (precision) و بازخوانی (recall) به ازای مقادیر مختلف آستانه دستهبندی.
Precision دقت
یک معیار که برای مدلهای دستهبندی استفاده میشود. دقت (precision) نسبت جوابهای درستی را مشخص میکند که مدل هنگامی که پیشبینیاش دسته مثبت است دارد.
Prediction پیشبینی
خروجی مدل که به ازای یک نمونه ورودی تولید میشود.
Prediction Bias سوگیری پیشبینی
مقداری که بیان میکند که میانگین پیشبینیهای مدل چقدر از میانگین برچسبها در مجموعه داده فاصله دارد.
این لغت نباید با اریبی در مدلهای یادگیری ماشین یا با سوگیری در اخلاق و عدالت اشتباه گرفته شود.
Predictive Parity برابری پیشنگر
یک معیار تساوی که بررسی میکند آیا یک طبقهبند برای تمام زیرگروههایی که تحت شرایطی تعریف شدهاند دقت برابری دارد یا خیر.
به عنوان مثال، یک مدل که احتمال پذیرش در دانشگاه را پیشبینی میکند دارای برابری پیشنگر خواهد بود اگر نرخ دقت آن برای لیلیپوتیها و ساکنین برابدینگنگ یکسان باشد.
برابری پیشنگر گاهی برابری نرخ پیشنگر (predictive rate parity) نیز خوانده میشود.
اطلاعات بیشتر: توضیح تعاریف عدالت، بخش ۳.۲.۱
Predictive Rate Parity برابری نرخ پیشنگر
نام دیگری برای برابری پیشنگر.
Preprocessing پیشپردازش
پردازش دادهها قبل از این که مدل از آنها استفاده کند. پیشپردازش میتواند بسیار ساده (حذف کردن کلمههایی از متن نگلیسی که در دیکشنری انگلیسی وجود ندارند) یا بسیار پیچیده (تنظیم مجدد نقاط دادهها به صوزتی که ویژگیهای مرتبط با ویژگیهای حساسیت برانگیز را از بین ببرد) باشد. انجام پیشپردازش میتواند به برقراری قیدهای تساوی (fairness constraint) کمک کند.
Prior Belief باور قبلی
آنچه قبل از شروع روند آموزش، درباره دادهها به آن اعتقاد دارید. به عنوان مثال، نظمدهی L2 به این باور قبلی متکی است که وزنها باید اعدادی کوچک باشند که حوال عدد صفر دارای توزیع نرمال هستند.
Proxy (Sensitive Attributes) پیشکار
یک ویژگی که به عنوان جایگزین ویژگیهای حساسیتبرانگیز استفاده میشود. به عنوان مثال، کد پستی یک شخص میتواند به عنوان پیشکار برای درآمد، نژاد یا قومیت آن فرد درنظر گرفته شود.
An attribute used as a stand-in for a sensitive attribute. For example, an individual's postal code might be used as a proxy for their income, race, or ethnicity.
Proxy Labels برچسبهای پیشکار
دادههایی که برای تقریب برچسبهایی که مستقیماً در مجموعه داده در دسترس نیستند استفاده میشوند.
به عنوان مثال، فرض کنید شما میخواهید «باران میبارد؟» را به عنوان یک برچسب دودویی در مجموعه دادهی خود داشته باشید، اما مجموعه داده حاوی این برچسب نیست. اگر عکس در دسترس باشد، میتوانید وجود تصاویر افرادی را که چتر حمل میکنند به عنوان برچسب پیشکار برای «باران میبارد؟» استفاده کنید. با این حال، برچسبهای پیشکار ممکن است نتایج را تحریف کنند. به عنوان مثال، در بعضی از نقاط، حمل چتر بیشتر با هدف محافظت در برابر آفتاب استفاده میشود تا باران.
Q-function تابع Q
در یادگیری تقویتی، تابعیست که بازده مورد نظر را به ازای رخ دادن یک عمل در یک حالت پیشبینی میکند و سپس سیاست مشخصشده را دنبال میکند.
تابع Q همچنین به نام تابع ارزش حالت-عمل نیز شناخته میشود.
Q-learning یادگیری Q
در یادگیری تقویتی، الگوریتمی است که اجازه میدهد عامل مقدار بهینه تابع Q را در فرآیندهای تصمیمگیری مارکوف با استفاده از معادله بلمن یاد بگیرد. فرآیندهای تصمیمگیری مارکوف محیط را توصیف میکنند.
Quantile چندک
هر دسته یا سطل در سطلبندی چندکها (quantile bucketing).
Quantile Bucketing سطلبندی چندکها
توزیع مقادیر یک ویژگی در سطلها به صورتی که هر کدام شامل تعدادی یکسان (یا تقریبا یکسان) از نمونهها باشد. به عنوان مثال، در نمودار زیر ۴ نقطه در ۴ دسته تقسیم شدهاند که هر کدام شامل ۱۱ نمونه است. برای این که هر سطل شامل تعداد یکسانی از نقاط باشد، عرض هر دسته میتواند مقدار متفاوتی را در راستای محور x داشته باشد.
Quantization چندیسازی
الگوریتمی که سطلبندی چندکها را به ازای یک ویژگی مشخص در مجموعه داده پیادهسازی میکند.
Random Forest جنگل تصادفی
یک روش گروه ادغام (ensemble) برای پیدا کردن بهترین درخت تصمیمگیری بر روی دادههای آموزش. در این روش چندین درخت تصمیمگیری ساخته میشود و سپس میانگین آنها محاسبه میشود. کلمه «تصادفی» به این مساله اشاره دارد که هر کدام از درختهای تصمیمگیری بر اساس برخی ویژگیها که به صورت تصادفی انتخاب شدهاند شکل میگیرد. کلمه «درخت» به مجموعه درختهای تصمیمگیری اشاره دارد.
Random Policy سیاست تصادفی
در یادگیری تقویتی، به سیاستی گفته میشود که اعمال را به صورت تصادفی انتخاب میکند.
Rank (Ordinality) رتبه
موقعیت معمول یک دسته در یک مساله یادگیری ماشین که دستهها را از بالا به پایین طبقهبندی میکند. به عنوان مثال، یک سامانه رتبهبندی رفتار میتواند پاداش یک سگ را از بالا (استیک) به پایین (کلمپیچ پژمرده) رتبهبندی کند.
Rater ارزیاب
فردی که برای نمونهها برچسب تولید میکند. این فرد حاشیهنویس یا annotator نیز نامیده میشود.
Re-ranking رتبهبندی مجدد
مرحله پایانی در یک سامانه پیشنهادگر، که در آن المانهایی که به آنها امتیاز نسبت داده شده ممکن است مجددا با الگوریتمهای دیگر (معمولا غیر یادگیری ماشینی) امتیازدهی شوند. رتبهبندی مجدد لیست المانهایی که در مرحله رتبهبندی تولید میشوند را با روشهایی مانند موارد زیر ارزیابی میکند:
- حذف مواردی که کاربر قبلاً خریداری کرده است
- افزایش نمره موارد جدیدتر
Recall بازخوانی
معیاری که جهت ارزیابی مدلهای طبقهبندی استفاده میشود و به به این سوال پاسخ میدهد که «از بین تمامی برچسبهای مثبت، چقدر از آنها توسط مدل درست تشخیص داده شدهاند؟» چگونگی محاسبه این معیار به شکل زیر است:
Recommendation System سامانه پیشنهادگر
سامانهای که برای هر کاربر مجموعه نسبتا مطلوبی از موارد مطلوب را از میان یک گروه بزرگ انتخاب میکند. به عنوان مثال، یک سامانه توصیهگر فیلم ممکن است از میان ۱۰۰۰۰۰ فیلم دو مورد را به هر کاربر پیشنهاد دهد. این سامانه ممکن است در پیشنهاداتش عاملهای زیر را درنظر بگیرد:
- فیلمهایی که شبیه به مواردی هستند که کاربر آنها را تماشا کرده یا به آنها امتیاز داده.
- ژانر، کارگردان، بازیگران و ...
Rectified Linear Unit (ReLU) واحد یکسوشدهی خطی
یک تابع فعالساز با شزایط زیر:
- اگر مقدار ورودی منفی یا صفر باشد، خروجی صفر است.
- اگر مقدار ورودی مثبت باشد، خروجی برابر ورودی است.
Recurrent Neural Network شبکه عصبی بازگشتی
یک شبکه عصبی که طراحی شده تا چندین بار اجرا شود و بخشهایی از هر اجرا به عنوان ورودی در اجرای بعدی استفاده میشوند. به بیان دقیقتر، لایههای مخفی اجرای قبلی بخشی از ورودی همان لایهها در اجرای بعدی هستند. شبکههای عصبی بازگشتی برای بررسی توالیها مورد استفاده قرار میگیرند تا از لایههای مخفی آنها جهت به یاد سپاری بخشهای ابتدایی توالی از اجراهای قبلی استفاده شود.
به عنوان مثال، تصویر زیر یک شبکه عصبی بازگشتی را نشان میدهد که چهار بار اجرا شده است. توجه کنید که مقادیری که لایههای مخفی در اجرای اول یاد گرفتهاند، به عنوان بخشی از ورودی همان لایه در اجرای دوم مورد استفاده قرار گرفتهاند. این باعث میشود تا شبکههای عصبی بازگشتی معنای کل توالی را درک کنند، نه فقط اجزای تشکیلدهنده آن را.
Regression Model مدل رگرسیون
نوعی از مدلها که خروجی آنها مقادیر پیوسته (معمولا اعشاری) است. این مدلها در برابر مدلهای دستهبندی قرار میگیرند که در آنها خروجی مقداری گسسته و محدود، مانند اعداد طبیعی بین ۱ تا ۱۰ دارد. در مسالههای دستهبندی معمولا هر عدد به یک دسته، مانند تصاویر «زنبق» یا «رز» اشاره میکند.
Regularization نظمدهی
جریمهای برای پیچیدگیهای مدل. نظمدهی به ما در جلوگیری از بیشبرازش (overfitting) کمک میکند. انواع مختلفی از نظمدهی وجود دارد که از آنها میتوان به موارد زیر اشاره کرد:
- نظمدهی L1
- نظمدهی L2
- تنظیم حذف تصادفی
- توقف اولیه (این مورد به عنوان یک نظمدهی شناخته نمیشود، اما میتواند به صورت موثری بیشبرازش را محدود کند.)
Regularization Rate نرخ نظمدهی
یک مقدار نردهای (اسکالر) که با لاندا نمایش داده میشود و اهمیت نسبی تابع نظمدهی را مشخص میکند. عبارت تابع زیان سادهشده زیر تاثیر نرخ نظمدهی را نشان میدهد:
افزایش نرخ نظمدهی بیشبرازش را کاهش میدهد اما میتواند باعث کم شدن کارایی مدل نیز بشود.
Reinforcement Learning (RL) یادگیری تقویتی
دستهای از الگوریتمها که یک سیاست بهینه را با هدف بیشینه کردن بازده در تعامل با محیط یاد میگیرند. به عنوان مثال، پاداش نهایی اکثر بازیها پیروزی است. یادگیری تقویتی میتواند با ارزیابی حرکات در بازیهای قبلی که در نهایت به پیروزی یا شکست منجر شدهاند در بسیاری از بازیهای پیچیده متخصص شود.
Replay Buffer بافر تکرار
در الگوریتمهایی مانند DQN، به حافظهای گفته میشود که توسط عامل جهت ذخیره انتقالات بین حالات در تکرار تجربه استفاده میشود.
Reporting Bias سوگیری گزارش
این واقعیت که فراوانی نوشتن افراد درباره اعمال، نتایج یا ویژگیها بازتابی از فراوانی آنها در دنیای واقعی یا میزانی که یک ویژگی در اعضای یک دسته مشخص است، نیست. سوگیری گزارش میتواند بر ترکیب دادههایی که سیستمهای یادگیری ماشین از آنها میآموزند تاثیر بگذارد.
به عنوان مثال، در کتابها کلمه «خندید» بیشتر از «نفس کشید» تکرار میشود. یک مدل یادگیری ماشین که تعداد نسبی خنده و تنفس را از یک مجموعه کتاب برآورد میکند، احتمالاً تصور میکند که خندیدن بیشتر از نفس کشیدن رایج است.
Representation بازنمایی
فرآیند نگاشت دادهها به ویژگیهای پرکاربرد.
Return بازده
در یادگیری تقویتی، با توجه به یک خط مشی و یک حالت خاص، بازده مجموع تمام امتیازاتی است که عامل انتظار دارد با دنبال کردن خط مشی از یک حالت تا پایان یک قسمت بدست بیاورد.
عامل بابت تاخیر نقل و انتقال بین حالتها، یک ضریب کاهشی را برای محاسبهی امتیاز در نظر میگیرد.
بنابراین اگر ضریب کاهشی γ باشد و امتیازها را تا انتهای قسمت مشخص کنیم، محاسبه بازده به شرح زیر است:
Ridge Regularization نظمدهی ستیغی
مترادف: نظمدهی L2
واژه نظمدهی ستیغی بیشتر در زمینههای آماری خالص کاربرد دارد، درحالی که نظمدهی L2 بیشتر در حوزه یادگیری ماشین به کار میرود.
RNN شبکه عصبی بازگشتی
ROC (Receiver Operating Characteristic) Curve منحنی ROC
منحنیای که مقدار نرخ مثبت حقیقی و نرخ مثبت کاذب به ازای حد آستانههای دستهبندی مختلف نمایش میدهد.
اطلاعات بیشتر: AUC
Root Mean Squared Error (RMSE) ریشه میانگین مجذور خطا
ریشه دوم میانگین مجذور خطا.
Rotational Invariance ناوردایی چرخشی
در یک مساله دستهبندی تصویر، به توانایی الگوریتم در دستهبندی درست تصاویر در صورت چرخش آنها گفته میشود. به عنوان مثال، الگوریتم باید تصویر یک راکت تنیس را در هر جهتی تشخیص دهد. توجه کنید که ناوردایی چرخشی همیشه قابل دستیابی نیست. به عنوان مثال، تصویری از ۷ که وارونه شده است باید ۸ تشخیص داده شود.
مطالعه بیشتر: ناوردایی انتقالی و ناوردایی اندازهای
Sampling Bias سوگیری نمونهبرداری
سوگیری انتخاب را مشاهده کنید.
Scalar اسکالر
یک عدد یا یک رشته منفرد که میتواند به عنوان تنسور درجه ۰ نمایش داده شود. به عنوان مثال کدهای زیر هر کدام یک مقیاس را در TensorFlow ایجاد میکنند:
breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)
Scaling مقیاسگذاری
روشی معمول در مهندسی ویژگی که برای تعدیل دامنه مقادیر یک ویژگی، برای مطابقت با دامنهی سایر ویژگیهای مجموعه داده مورد استفاده قرار میگیرد. به عنوان مثال فرض کنید میخواهید همه ویژگیهای شناور در مجموعه داده مقادیری در بازهی ۰ تا ۱ داشته باشند. با توجه به محدوده ۰ تا ۵۰۰ یک ویژگی خاص، میتوان با تقسیم هر مقدار بر ۵۰۰، آن ویژگی را مقیاس بندی کرد.
به نرمال سازی نیز مراجعه کنید.
Scikit-Learn Scikit-Learn
یک پلتفرم محبوب مخزن باز یادگیری ماشین است. برای اطلاعات بیشتر به سایت www.scikit-learn.org مراجعه کنید.
Scoring رتبهبندی
بخشی از یک سیستم توصیهگر که برای هر مورد تولید شده به عنوان نامزد پیشنهادی، یک مقدار یا رتبه را ایجاد میکند.
Selection Bias سوگیری انتخاب
علت بروز خطا در نتیجهگیری از دادههای نمونهگیری شده، فرایند انتخاب است که ضمن آن تفاوتهای سیستماتیک بین نمونههای مشاهده شده در مجموعه دادهها و موارد مشاهده نشده ایجاد میشود.
اشکال زیر از سوگیری انتخاب وجود دارد:
سوگیری پوشش: جمعیت نشان داده شده در مجموعه دادهها با جمعیتی که مدل یادگیری ماشین پیش بینی کرده است مطابقت ندارد.
سوگیری نمونهبرداری: دادهها به صورت تصادفی از گروه هدف جمع آوری نمیشوند.
سوگیری عدم پاسخگویی یا سوگیری مشارکت: کاربران گروههای خاصی نسبت به کاربران گروههای دیگر از نظرسنجی انصراف میدهند.
برای مثال، فرض کنید قرار است یک مدل یادگیری ماشین طراحی کنید که میزان علاقه مردم به یک فیلم را پیشبینی میکند. برای جمع آوری دادههای آموزشی، نظرسنجی را برای همه افرادی که در ردیف اول سالن نمایش فیلم هستند، انجام می دهید. به صورت ناخواسته، ممکن است این روش منطقی برای جمع آوری مجموعه داده به نظر برسد. با این حال، این شکل از جمع آوری دادهها ممکن است اشکال زیر از سوگیری انتخاب را ایجاد کند:
- سوگیری پوشش: با نمونهگیری از جمعیتی که تماشای فیلم را انتخاب کردهاند، ممکن است پیشبینیهای(خروجی) مدل به افرادی که قبلاً آن میزان علاقه به فیلم را ابراز نکردهاند تعمیم ندهد.
- سوگیری نمونهبرداری: به جای نمونه برداری تصادفی از جمعیت مورد نظر (همه افراد حاضر در فیلم)، فقط از افرادی که در ردیف اول هستند نمونه برداری کردید. این احتمال وجود دارد که افراد حاضر در ردیف اول، بیشتر از کسانی که در ردیفهای دیگر بودند به فیلم علاقه مند باشند.
- سوگیری بدون پاسخ: به طور کلی افرادی با نظرات قویتر، بیشتر از افرادی که نظرات ملایم دارند به نظرسنجی های اختیاری پاسخ میدهند. از آنجا که نظرسنجی فیلم به صورت اختیاری انجام میشود، محتمل است پاسخها یک توزیع دو بعدی تشکیل دهند تا یک توزیع معمولی (به شکل زنگ).
Semi-Supervised Learning یادگیری نیمه نظارت شده
آموزش مدلی بر روی داده ها که در برخی از نمونه های آموزش دارای برچسب است اما در برخی دیگر اینگونه نیست. یک روش برای یادگیری نیمه نظارت ، استنباط برچسب برای مثالهای بدون برچسب و سپس آموزش بر روی برچسب های استنباط شده برای ایجاد یک مدل جدید است. اگر به دست آوردن برچسب ها گران باشد اما نمونه های بدون برچسب فراوان ، یادگیری نیمه نظارت شده می تواند مفید باشد.
Sensitive Attribute ویژگی حساسیتبرانگیز
یک ویژگی انسانی که ممکن است به دلایل حقوقی، اخلاقی، اجتماعی یا شخصی مورد توجه ویژه قرار گیرد.
Sentiment Analysis تحلیل احساسات
استفاده از الگوریتم های آماری یا یادگیری ماشین برای تعیین نگرش کلی یک گروه - مثبت یا منفی - نسبت به یک خدمت، محصول، سازمان یا موضوع. به عنوان مثال، یک الگوریتم میتواند با استفاده از درک زبان طبیعی، دیدگاه افراد را از بین بازخوردهای متنی یک دوره دانشگاهی تجزیه و تحلیل کند تا میزان علاقه دانشآموزان به آن دوره را مشخص کند.
Sequence Model مدل توالی
مدلی که در آن ورودیها به یک توالی وابسته هستند. به عنوان مثال، پیشبینی فریم بعدی در یک ویدیو بر اساس فریمهای قبلیای که از آن مشاهده شده.
Shape (Tensor) شکل
تعداد المانهایی که در هر یک از ابعاد از یک تنسور قرار میگیرند. شکل یک تنسور به شکل لیستی از اعداد نشان داده میشود. به عنوان مثال، شکل تنسور دوبعدی زیر [3, 4] است:
[[5, 7, 6, 4],
[2, 9, 4, 8],
[3, 6, 5, 1]]
Sigmoid Function تابع سیگموید
تابعی که خروجی رگرسیون چندجملهای یا لجستیک را به احتمال نگاشت میدهد و مقداری بین ۰ و ۱ برمیگرداند. تابع سیگوید به صورت زیر تعریف شده است:
که سیگما در مسالههای رگرسیون لجستیک به سادگی به شکل زیر تعریف میشود:
به بیان دیگر، تابع سیگموید مقدار ورودی را تبدیل به احتمالی بین ۰ و ۱ میکند.
در برخی از شبکههای عصبی، از تابع سیگموید به عنوان تابع فعالساز استفاده میشود.
Similarity Measure اندازهگیری شباهت
در الگوریتمهای خوشهبندی، به معیاری گفته میشود که برای تعیین این که چقدر دو نمونه به هم شبیهند، استفاده میشود.
Size Invariance ناوردایی اندازهای
در یک مساله دستهبندی تصاویر، به توانایی یک الگوریتم در دستهبندی درست با وجود تغییر در اندازه تصویر گفته میشود. به عنوان مثال، الگوریتم باید بتواند یک خودرو را در تصویر تشخیص دهد، بدون توجه به این که اندازه آن دو میلیون پیکسل است یا دویست هزار پیکسل. توجه کنید که حتی بهترین الگوریتمهای طبقهبندی تصاویر هم هنوز محدودیتهایی درباره این مساله دارند. به عنوان مثال، یک الگوریتم (یا انسان) بعید است که بتواند به درستی گربهای را که تنها ۲۰ پیکسل است طبقهبندی کند.
مطالعه بیشتر: ناوردایی انتقالی - ناوردایی چرخشی
Sketching ترسیم
دستهای از الگوریتمها در یادگیری بدون نظارت، که یک تحلیل شباهت اولیه بر روی دادهها انجام میدهد. الگوریتمهای ترسیم از تابع درهمسازی (hash) حساس به مکان استفاده میکند تا مواردی را که به احتمال زیاد مشابه هستند تشخیص دهد و آنها را در پیالهها گروهبندی میکند.
استفاده از الگوریتمهای ترسیم، محاسبات لازم برای محاسبه شباهت بر روی مجموعه دادههای بزرگ را کاهش میدهد. به جای محاسبه شباهت برای هر کدام از نمونههای موجود در مجموعه داده، ما شباهت را فقط برای هر جفت نقطه در هر سطل محاسبه میکنیم.
Softmax تابع بیشینه هموار
تابعی که به ازای هر دسته در یک مدل طبقهبندی چندکلاسه احتمال را محاسبه میکند. مجموع احتمالات برابر ۱ خواهد بود. به عنوان مثال، تابع بیشینه هموار ممکن است تشخیص دهد که احتمال این که یک تصویر مشخص متعلق به دسته «سگ» باشد برابر ۰.۹، «گربه» برابر ۰.۰۸ و «سگ» برابر ۰.۰۲ است. این تابع همچنین تابع بیشینه هموار کامل (full softmax) نیز نامیده میشود.
متضادها: نمونهگیری در دسترس (داوطلبانه)
Sparse Feature ویژگی پراکنده
یک بردار ویژگی که مقادیر آن اکثرا صفر یا خالی هستند. به عنوان مثال، یک بردار که تنها یک مقدار ۱ و میلیونها مقدار صفر دارد پراکنده است. به عنوان مثال دیگر، کلماتی که در عبارت مورد جستوجو قرار دارند میتوانند یک بردار پراکنده باشند. (در هر زبان کلمات بسیار زیادی وجود دارد اما تنها تعداد محدودی از آنها در یک عبارت فرضی وجود دارند.)
متضاد: ویژگی متراکم
Sparse Representation بازنمایی پراکنده
بازنمایی از یک تنسور که تنها المانهای غیر صفر را نگهداری میکند.
به عنوان مثال، زبان انگلیسی شامل حدود یک میلیون کلمه است. دو روش زیر را برای نمایش تعداد کلمات به کار رفته در یک جمله انگلیسی را در نظر بگیرید:
- یک بازنمایی متراکم از این جمله دارای یک عدد صحیح به ازای تمامی یک میلیون سلول است. اکثر این سلولها با صفر پر میشوند و تنها در برخی از آنها یک عدد صحیح کوچک وجود دارد.
- یک بازنمایی پراکنده از این جمله تنها سلولهایی را ذخیره میکند که نمایانگر کلماتی هستند که در جمله وجود دارد. بنابراین اگر در جمله ۲۰ کلمه منحصربفرد وجود داشته باشد، بازنمایی پراکنده آن جمله تنها ۲۰ سلول با مقادیر صحیح خواهد داشت.
Sparsity پراکندگی
تعداد المانهایی از یک بردار یا ماتریس که صفر هستند تقسیم بر تعداد کل المانها. به عنوان مثال، یک ماتریس ۱۰*۱۰ با ۹۸ سلول برابر صفر را درنظر بگیرید. مقدار پراکندگی در این مثال برابر است با:
پراکندگی ویژگی به پراکندگی در یک بردار ویژگی، و پراکندگی مدل به پراکندگی در وزنهای یک مدل اشاره میکند.
Spatial Pooling ادغام مکانی
اطلاعات بیشتر: ادغام
Squared Hinge Loss مجذور خطای Hinge
مربع خطای Hinge. مجذور خطای hinge دادههای پرت را شدیدتر از خطای hinge عادی سرکوب میکند.
Squared Loss مجذور خطا
تابع خطای مورد استفاده در مسالههای رگرسیون خطی که تحت عنوان زیان L2 نیز شناخته میشود. این تابع مجذور اختلاف بین مقدار پیشبینیشده توسط مدل و برچسب واقعی یک نمونه برچسبزدهشده را محاسبه میکند. با توجه به مربع شدن، این تابع خطا تاثیر پیشبینیهای اشتباه را بیشتر میکند. به همین دلیل، تابع مجذور خطا به نسبت خطای L1 شدیدتر به دادههای پرت واکنش نشان میدهد.
State-Action Value Function تابع ارزش حالت-عمل
مترادف: تابع Q
State حالت
در یادگیری تقویتی، مقادیر پارامتر که تنظیمات فعلی محیطی را توصیف میکند، که عامل برای انتخاب یک عمل از آن استفاده میکند.
Static Model مدل ایستا
مدلی که به صورت برونخطی (offline) آموزش دیده است.
Stationarity ایستایی
یک ویژگی در دادههای موجود در یک مجموعه داده، که بیانگر ثابت ماندن توزیع دادهها در یک یا چند بعد میباشد. این بعد معمولا زمان است، و به این معناست که دادههایی که نشاندهندهی ایستایی هستند، با گذشت زمان تغییر نمیکنند.
Step Size طول گام
مترادف: نرخ یادگیری (learning rate)
Stochastic Gradient Descent (SGD) کاهش شیب تصادفی
یک الگوریتم کاهش شیب که در آن تعداد دادههای یک دسته برابر یک است. به بیان دیگر، این الگوریتم برای تخمین شیب در هر گام، تنها به یک نمونه داده که به صورت تصادفی از میان مجموعه داده انتخاب شده نیاز دارد.
Stride قدم
در هر عملگر کانولوشنی یا ادغام، به فاصله بین سریهای دادههای ورودی در هر بعد گفته میشود. به عنوان مثال، در نمونه زیر میتوانید یک عملگر کانولوشنی با قدمهای (۱,۱) را ببینید. بنابراین هر برش از دادهی ورودی به اندازه یک خانه به سمت راست از برش قبلی آغاز میشود. هنگامی که عملگر به لبه انتهایی سمت راست میرسد، برش بعدی از سمت چپ و با فاصله یک خانه به سمت پایین شروع میشود.
مثال فوق نشاندهندهی یک قدم دوبعدی است. اگر ماتریس ورودی سهبعدی باشد، قدمها نیز باید سهبعدی باشند.
Structural Risk Minimization (SRM) کمینهسازی ریسک ساختاری
الگوریتمی که بین دو هدف زیر تعادل برقرار میکند:
- تمایل به ساخت پیشبینیکنندهترین مدل (مثلا با کمترین خطا)
- تمایل به ساده نگه داشتن مدل تا حد امکان (مثلا استفاده از نظمدهی قوی)
به عنوان مثال، تابعی که مقدار خطا + نظمدهی را بر روی مجموعه داده آموزش کمینه میکند یک الگوریتم کمینهسازی ریسک ساختاری است.
متضاد: کمینهسازی ریسک تجربی
Subsampling نمونهکاهی
به ادغام رجوع کنید.
Supervised Machine Learning یادگیری ماشین با ناظر
آموزش یک مدل بر اساس دادههای ورودی و برچسبهای متناظر آنها. یادگیری ماشین با ناظر مانند دانش آموزی است که با مطالعهی مجموعهای از سوالات و پاسخهای مربوط به آنها، موضوعی را یاد میگیرد. بعد از تسلط بر روی نگاشت بین سوالها و پاسخها، دانشآموز میتواند برای سوالاتی از آن موضوع که قبلا ندیده جواب تولید کند.
متضاد: یادگیری ماشین بدون نظارت
Synthetic Feature ویژگی مصنوعی
ویژگیای که در بین ویژگیهای ورودی قرار ندارد، بلکه با استفاده از یک یا چند مورد از آنها ساخته میشود. برای معرفی نمونههایی از این ویژگیها میتوان به موارد زیر اشاره کرد:
- سطلبندی کردن یک ویژگی پیوسته در چندین بازه
- ضرب (یا تقسیم) کردن یک ویژگی در خودش یا یک یا چند ویژگی دیگر
- ایجاد یک تلاقی ویژگی
ویژگیهای حاصل از بهنجارش (normalization) و مقیاسگذاری (scaling) به تنهایی به عنوان ویژگی مصنوعی درنظر گرفته نمیشوند.
Tabular Q-Learning جدول یادگیری-Q
در یادگیری تقویتی با استفاده از یک جدول برای ذخیره توابع Q برای هر ترکیبی از حالت و عملکرد میتوان یادگیری Q را پیاده سازی کرد.
Target Network شبکه هدف
در یادگیری عمیق Q، شبکه عصبیای است که یک تقریب پایدار از شبکه عصبی اصلی باشد که در آن شبکه عصبی اصلی، یک تابع Q یا یک خطمشی را پیاده سازی میکند. میتوان شبکه اصلی را روی مقادیر Q پیشبینی شده توسط شبکه هدف آموزش داد تا از حلقهی بازخوردی که در هنگام تمرین شبکه اصلی روی مقادیر Q که توسط خودش پیشبینی میشود جلوگیری کرد. با اجتناب از این بازخورد، آموزش تمرین افزایش مییابد.
Temporal Data دادههای زمانی
دادههایی هستند که در زمانهای مختلف ثبت میشوند. به عنوان مثال فروش پالتو زمستانه ثبت شده برای هر روز از سال، نمونهای از دادههای زمانی است.
Termination Condition شرط فسخ
در یادگیری تقویتی، شرایطی است که زمان پایان یک قسمت را تعیین میکنند بطور مثال زمانی که عامل به حالت خاصی میرسد یا از یک حد انتقال حالت گذر میکند. به عنوان مثال در tic-tac-toe بازی زمانی خاتمه مییابد که یک بازیکن سه فاصله متوالی را علامت گذاری میکند یا وقتی که تمام فاصلهها مشخص میشوند.
Test Set مجموعه آزمایش
زیرمجموعهای از مجموعه دادهای که برای آزمایش مدل استفاده میشود، بعد از اینکه مدل بررسی اولیه را با مجموعه اعتبار سنجی انجام داد.
در تضاد با مجموعه آموزشی و اعتبار سنجی است.
Time Series Analysis تجزیه و تحلیل سری زمانی
زیرمجموعهای از یادگیری ماشین و آمار که دادههای زمانی را تجزیه و تحلیل میکند. بسیاری از انواع مسائل یادگیری ماشین به تجزیه و تحلیل سری زمانی نیاز دارند. از جمله طبقه بندی، خوشه بندی، پیشبینی و تشخیص ناهنجاری. به عنوان مثال میتوان با استفاده از تجزیه و تحلیل سری زمانی، فروش آینده کتهای زمستانی را بر اساس سوابق دادههای فروش پیشبینی کرد.
Timestep گام زمانی
یک سلول باز نشده (unrolled) در یک شبکه عصبی بازگشتی است. به عنوان مثال شکل زیر سه گام را نشان میدهد (با زیرنویسهای t-1 ،t و با برچسب t + 1):
Tower برج(Tower)
یک جزء(component) از شبکه عصبی عمیق است، که فاقد لایه خروجی است. به طور معمول هر برج از یک منبع داده مستقل میخواند و تا زمانی که خروجی آنها در یک لایه نهایی ترکیب نشود، مستقل هستند.
Training آموزش
روند تعیین پارامترهای ایده آل متشکل از یک مدل است.
Training Set مجموعه آموزش
زیر مجموعهای از مجموعه داده که برای آموزش مدل استفاده میشود.
در تضاد با مجموعه اعتبارسنجی و آزمون است.
Trajectory مسیر حرکت
در یادگیری تقویتی دنبالهای از چندتاییها(tuples) که نمایانگر توالی انتقال حالت عامل هستند، طوری که هر چندتایی مربوط به حالت، عمل، پاداش و حالت بعدی برای یک انتقال حالت معین است.
Transfer Learning یادگیری انتقال
انتقال اطلاعات از یک کاربرد یادگیری ماشین به کاربرد دیگر. به عنوان مثال، در یادگیری چند-وظیفهای، یک مدل چندین مساله را حل میکند، مثل یک مدل عمیق که برای حل مسالههای مختلف چندین گره خروجی دارد. یادگیری انتقال میتواند به معنای انتقال دانش حل یک مساله سادهتر به یک مساله پیچیدهتر باشد، یا به معنای انتقال دانش از یک مساله به دادههای زیاد به مسالهای با دادهی کمتر باشد.
بیشتر سامانههایی که از یادگیری ماشین استفاده میکنند یک مساله را حل میکنند. یادگیری انتقال گام اولیه به سمت هوش مصنوعیای است که در آن یک برنامه بتواند چندین وظیفه داشته باشد.
Translational Invariance ناوردایی انتقالی
در یک مساله طبقهبندی تصاویر، به توانایی الگوریتم در دستهبندی درست عکس در شرایطی که جایگاه اشیا در تصویر تغییر میکند گفته میشود. به عنوان مثال، الگوریتم باید بتواند سگ را در تصویر تشخیص دهد، چه سگ در مرکز تصویر باشد و چه در سمت راست یا چپ آن.
مطالعه بیشتر: ناوردایی اندازهای (size invariance) ، ناوردایی چرخشی (rotational invariance)
True Negative (TN) منفی واقعی
مثالی که در آن مدل کلاس منفی را به درستی پیشبینی کرده است. به عنوان مثال، این مدل استنباط میکند که یک پیام الکترونیکی خاص اسپم نیست و آن پیام واقعا اسپم نبوده است.
True Positive (TP) مثبت واقعی
مثالی که در آن مدل به درستی کلاس مثبت را پیشبینی کرده است. به عنوان مثال، این مدل استنباط میکند که یک پیام الکترونیکی خاص هرزنامه است و آن پیام واقعا هرزنامه بوده است.
True Positive Rate (TPR) نرخ مثبت حقیقی
نرخ مثبت حقیقی به شکل زیر محاسبه میشود:
این مقدار بر روی محور y ها در منحنی ROC نوشته میشود.
مترادف: بازخوانی (recall)
Unawareness(To A Sensitive Attribute) ناآگاهی (به یک ویژگی حساس)
موقعیتی که در آن ویژگیهای حساس وجود دارند، اما در میان دادههای آموزش نیستند. از آنجایی که ویژگیهای حساس اغلب با سایر ویژگیهای داده ارتباط دارند، مدلی که با عدم آگاهی نسبت به یک ویژگی حساس آموزش داده شده است، میتواند تاثیر متفاوتی نسبت به آن ویژگی داشته باشد یا سایر محدودیتهای انصاف را نقض کند.
Underfitting کمبرازش
زمانی رخ میدهد که مدل پیچیدگی دادههای آموزش را به دست نیاورده است و توانایی پیشبینی آن ضعیف است. بسیاری از مسائل میتوانند باعث کمبرازش شوند از جمله:
- آموزش مجموعهی اشتباه از ویژگیها.
- دورههای آموزشی بسیار کم یا با سرعت یادگیری بسیار پایین.
- آموزش با سرعت زیاد با پارامتر نظمدهی.
- استفاده از لایههای پنهان بسیار اندک در یک شبکهی عصبی عمیق.
Unlabeled Example نمونهای بدون برچسب
نمونهای که شامل یک سری ویژگی، اما فاقد برچسب است. نمونههای بدون برچسب ورودی استنتاجی هستند که در حین آموزش یادگیری نیمه نظارت شده و بدون نظارت از آنها استفاده میشود.
Unsupervised Machine Learning یادگیری ماشین بدون نظارت
آموزش یک مدل برای یافتن الگوها در یک مجموعه داده که به طور معمول یک مجموعه داده بدون برچسب است.
متداولترین کاربرد یادگیری ماشین بدون نظارت، خوشهبندی دادهها در گروههایی از نمونههای مشابه است. به عنوان مثال این الگوریتم میتواند آهنگها را براساس ویژگیهای مختلف موسیقی خوشهبندی کند که خوشههای حاصل میتوانند به ورودی دیگری، برای الگوریتمهای یادگیری ماشین (به عنوان مثال برای یک سرویس توصیه موسیقی) تبدیل شوند. در دامنههایی که به سختی میتوان برچسب واقعی را به دست آورد، استفاده از خوشهبندی میتواند مفید باشد. به عنوان مثال در حوزههایی مانند ضد سو استفاده و تقلب میتوانند به درک بهتر انسان از دادهها کمک کنند.
مثالی دیگر از یادگیری ماشین بدون نظارت، تحلیل مولفه اصلی(PCA) است. استفاده از PCA بر روی یک مجموعه داده که حاوی محتوای میلیونها سبد خرید، ممکن است نشان دهد که سبدهای خرید حاوی لیمو به طور مکرر دارای آنتی اسیدها نیز هستند.
مقایسه با یادگیری ماشین تحت نظارت.
Upweighting افزودن وزن
افزودن وزن برای کلاس نمونهکاهی برابر با فاکتوری که در آن نمونه برداری صورت گرفته است.
User Matrix ماتریس کاربر
در سیستمهای توصیهگر یک تعبیه است، که توسط فاکتوراسیون ماتریس ایجاد میشود و سیگنالهای نهان درباره تنظیمات کاربر را در خود نگه میدارد.
هر ردیف از ماتریس کاربر، اطلاعاتی در مورد قدرت نسبی سیگنالهای نهان مختلف برای یک کاربر خاص را دارد. به عنوان مثال یک سیستم توصیه فیلم را در نظر بگیرید، در این سیستم سیگنالهای نهان در ماتریس کاربر ممکن است نشان دهندهی علاقه هر کاربر به ژانرهای خاص باشد یا تفسیر سیگنالهای سختتری که شامل تعاملات پیچیده در چندین عامل است.
ماتریس کاربر برای هر ویژگی نهان یک ستون و برای هر کاربر یک ردیف دارد. یعنی ماتریس کاربر همان تعداد ردیف با ماتریس هدف را دارد که فاکتور میشود. به عنوان مثال با توجه به سیستم توصیه فیلم برای 1،000،000 کاربر، ماتریس کاربر 1،000،000 ردیف خواهد داشت.
Validation اعتبار سنجی
فرایندی که به عنوان بخشی از آموزش با استفاده از مجموعه اعتبار سنجی، برای ارزیابی کارایی مدل یادگیری ماشین استفاده میشود. از آنجا که این مجموعه از مجموعه آموزش جداست، اعتبار سنجی به شما اطمینان میدهد که عملکرد مدل فراتر از مجموعه آموزش است.
در تضاد با مجموعه آزمایش است.
Validation Set مجموعه اعتبار سنجی
زیرمجموعهای از مجموعه داده - جدا از مجموعهی آموزش - که در اعتبار سنجی استفاده میشود.
در تضاد با مجموعه آموزش و مجموعه آزمایش است.
Vanishing Gradient Problem مشکل محو شدگی گرادیان
گرایش شیب لایههای پنهان اولیه در برخی از شبکههای عصبی عمیق به طور شگفت انگیزی مسطح (کم) میشود. شیبهای فزاینده کمتر منجر به تغییرات فزایندهی کوچکتر در وزن گرههای یک شبکه عصبی عمیق میشود که منجر به یادگیری کم یا عدم یادگیری میشود. آموزش مدلهایی که مشکل محو شدگی گرادیان دارند دشوار یا غیرممکن است که با استفاده از سلولهای حافظه طولانی کوتاه-مدت میتوان این مسئله را برطرف کرد.
Wasserstein Loss هزینهی Wasserstein
یکی از توابع هزینه است که بر اساس فاصله زمین متحرک (EMD) بین توزیع دادههای تولید شده و دادههای واقعی است و معمولا در شبکههای مولد تخاصمی استفاده میشود.
هزینهی Wasserstein عملکرد از دست رفته پیش فرض در TF-GAN است.
Weight وزن
ضریب یک ویژگی در یک مدل خطی یا یک لبه در شبکه عمیق است. هدف از آموزش یک مدل خطی، تعیین وزن ایدهآل برای هر ویژگی است. اگر وزنی 0 باشد، ویژگی مربوط به آن به مدل کمکی نمیکند.
Weighted Alternating Least Squares(wals) حداقل مربعات متناوب (WALS)
الگوریتمی برای به حداقل رساندن تابع هدف هنگام فاکتورگیری ماتریس در سیستمهای توصیهگر که میتواند وزنهای سبک برای نمونههای ازدست رفته باشد. WALS خطای مربع وزنی بین ماتریس اصلی و بازسازی را با تناوبی بین تثبیت ردیف و ستون فاکتور گذاری به حداقل میرساند. هر یک از این بهینه سازیها را میتوان با حداقل بهینه سازی محدب مربع حل کرد. برای جزئیات بیشتر به دوره سیستمهای توصیهگر مراجعه کنید.
Wide Model مدل گسترده
یک مدل خطی که به طور معمول شامل تعداد زیادی ویژگیهای ورودی پراکنده است و ما از آن به عنوان "گسترده" یاد میکنیم زیرا چنین مدلی نوع خاصی از شبکه عصبی با تعداد زیادی ورودی است که مستقیم به گره خروجی متصل میشوند. با وجود اینکه اشکال زدایی و بازرسی از مدل های گسترده اغلب راحت تر از مدلهای عمیق است، این مدلها نمی توانند غیرخطی بودن را از طریق لایههای نهان بیان کنند. اما می توانند از تغییراتی مانند عبور از ویژگیها و جفتبندی برای مدل سازی غیرخطیها به روشهای مختلف استفاده کنند( برخلاف مدل عمیق).
Width عرض
به تعداد سلولهای عصبی در یک لایهی خاص از شبکهی عصبی گفته میشود.