Hashing

در یادگیری ماشین مکانیزمی است برای جمع آوری داده‌های دسته‌بندی شده، به ویژه هنگامی که تعدادشان زیاد باشد، اما تعداد دسته‌های نسبتا کمی در مجموعه داده ظاهر شوند.

به عنوان مثال زمین محل زندگی حدود ۶۰۰۰۰ گونه درخت است که می‌توان هر یک از این گونه‌ها را در ۶۰۰۰۰ گروه، دسته‌بندی جداگانه نشان داد. متناوبا اگر فقط ۲۰۰ گونه از درختان واقعا در یک مجموعه داده ظاهر شوند، می‌توان از درهم‌سازی برای تقسیم گونه‌های درختی به ۵۰۰ گروه استفاده کرد.

یک گروه می‌تواند شامل چندین گونه درخت باشد، که به عنوان مثال می‌توان با درهم‌سازی بائوباب و افرا قرمز - دو گونه متفاوت از نظر ژنتیکی - را در یک گروه قرار داد. صرف‌نظر از این‌، درهم‌سازی هنوز هم روش مناسبی برای نقشه‌برداری از مجموعه‌های بزرگ دسته‌ای به تعداد دلخواهی گروه است. درهم‌سازی با یک روش معین گروه بندی مقادیر یک ویژگی دسته‌ای را که دارای تعداد زیادی مقادیر ممکن است، به تعداد بسیار کمتری از مقادیر تبدیل می‌کند.

برای کسب اطلاعات بیشتر در مورد درهم‌سازی، به قسمت Feature Columns در راهنمای برنامه‌نویسان TensorFlow مراجعه کنید.

Heuristic

یک راه حل سریع برای یک مسئله، که ممکن است بهترین راه حل باشد یا نباشد. به عنوان مثال "با یک ابتکار، ما به دقت ۸۶٪ دست یافتیم ولی هنگامی که از شبکه عصبی عمیق استفاده کردیم، دقت تا ۹۸٪ افزایش یافت."

Hidden Layer

در شبکه عصبی یک لایه ساختگی(مصنوعی) بین لایه ورودی (یعنی ویژگی‌ها) و لایه خروجی (پیش‌بینی) است. لایه‌های پنهان اغلب دارای یک تابع فعال سازی (مانند ReLU) برای آموزش هستند. یک شبکه عصبی عمیق بیش از یک لایه پنهان را شامل می‌شود.

Hidden State

نورون‌هایی از یک شبکه عصبی بازگشتی که مانند حافظه مدل عمل می‌کنند. حافظه نهان یک شبکه عصبی بازگشتی باید اطلاعات موجود در داده‌هایی که قبلا توسط مدل دیده شده را در خود ذخیره کند تا در پیش‌بینی‌های مربوط به گام‌های زمانی بعد از آن‌ها استفاده کند.

Hierarchical Clustering

دسته‌ای از الگوریتم‌های خوشه‌بندی، که درختی از خوشه‌ها را ایجاد می‌کنند. این الگوریتم‌ها برای داده‌های سلسله مراتبی مانند طبقه‌بندی‌های گیاهی مناسب هستند. دو نوع الگوریتم خوشه‌بندی سلسله مراتبی وجود دارد:

متضاد: خوشه‌بندی مبتنی بر مرکز

Hinge Loss

خانواده‌ای از توابع هزینه که برای طبقه‌بندی طراحی شده‌اند تا مرز تصمیم گیری را تا جایی که ممکن است از هر نمونه آموزش پیدا کنند. بنابراین تفاوت بین مثال‌ها و مرز تصمیم را به حداکثر می‌رساند. KSVMs ها از هزینه‌ی hinge (یا عملکرد مربوطه مانند هزینه‌ی مربع hinge) استفاده می‌کنند. برای طبقه‌بندی باینری، عملکردهزینه‌ی hinge به صورت زیر تعریف می‌شود:

که در آن y برچسب واقعی است، یا -1 یا 1+ و y 'خروجی خام مدل طبقه‌بندی است:

در نتیجه یک نمودار هزینه‌ی hinge در مقابل (y * y ') به صورت زیر است:

Holdout Data

نمونه‌هایی از داده که عمدا در حین آموزش استفاده نشده‌اند(نگه داشته شده). مجموعه داده‌های اعتبار سنجی و آزمایشی، نمونه‌هایی از داده‌های نگه‌داری هستند. داده‌های نگه‌داری می‌توانند به ارزیابی توانایی مدل برای تعمیم به داده‌های جدا از داده‌هایی که روی آن‌ها آموزش داده شده است‌، کمک کنند. هزینه در مجموعه نگه‌داری ، تخمین بهتری از هزینه‌ی یک مجموعه داده مشاهده نشده نسبت به هزینه‌ی مجموعه آموزش ارائه می‌دهد.

Hyperparameter

پارامتر‌هایی که در طول دوره‌های متوالی آموزش یک مدل تغییر می‌دهید. به عنوان مثال میزان یادگیری یک ابر پارامتر است.

متضاد: پارامتر

Hyperplane

مرزی که یک فضا را به دو زیر فضا تقسیم می‌کند. به عنوان مثال خط، یک صفحه‌ی دو بعدی است و صفحه یک ابر صفحه‌ی سه بعدی است. به طور معمول در یادگیری ماشینی‌، ابر صفحه‌ مرزی است که یک فضای با ابعاد بالا را جدا می‌کند. Kernel Support Machines اغلب در یک فضای بسیار بزرگ با استفاده از ابر صفحه‌‌ها کلاس‌های مثبت را از کلاس‌های منفی جدا می‌کند.