درهم‌سازی

Hashing

تعریف

در یادگیری ماشین مکانیزمی است برای جمع آوری داده‌های دسته‌بندی شده، به ویژه هنگامی که تعدادشان زیاد باشد، اما تعداد دسته‌های نسبتا کمی در مجموعه داده ظاهر شوند.

به عنوان مثال زمین محل زندگی حدود ۶۰۰۰۰ گونه درخت است که می‌توان هر یک از این گونه‌ها را در ۶۰۰۰۰ گروه، دسته‌بندی جداگانه نشان داد. متناوبا اگر فقط ۲۰۰ گونه از درختان واقعا در یک مجموعه داده ظاهر شوند، می‌توان از درهم‌سازی برای تقسیم گونه‌های درختی به ۵۰۰ گروه استفاده کرد.

یک گروه می‌تواند شامل چندین گونه درخت باشد، که به عنوان مثال می‌توان با درهم‌سازی بائوباب و افرا قرمز - دو گونه متفاوت از نظر ژنتیکی - را در یک گروه قرار داد. صرف‌نظر از این‌، درهم‌سازی هنوز هم روش مناسبی برای نقشه‌برداری از مجموعه‌های بزرگ دسته‌ای به تعداد دلخواهی گروه است. درهم‌سازی با یک روش معین گروه بندی مقادیر یک ویژگی دسته‌ای را که دارای تعداد زیادی مقادیر ممکن است، به تعداد بسیار کمتری از مقادیر تبدیل می‌کند.

برای کسب اطلاعات بیشتر در مورد درهم‌سازی، به قسمت Feature Columns در راهنمای برنامه‌نویسان TensorFlow مراجعه کنید.