تعبیه

Embeddings

تعریف

یک یک ویژگی طبقه‌بندی که به شکل یک ویژگی با مقادیر پیوسته ارائه شود. معمولا، هر تعبیه (‌embedding) نگاشتی از یک بردار در فضای با ابعاد بالا به فضایی با ابعادی کمتر است. به عنوان مثال، کلمه موجود در یک عبارت را می‌توان به یکی از دو شکل زیر نمایش داد:

  • یک بردار پراکنده (sparse vector) با میلیون‌ها درایه (ابعاد بالا) که در آن تمامی درایه‌ها اعداد صحیح‌اند. هر سلول در بردار به یک کلمه تعلق دارد و مقدار آن سلول تعداد دفعات تکرار کلمه در عبارت را نشان می‌دهد. با توجه به این که هر جمله معمولا کمتر از ۵۰ کلمه دارد، بیشتر درایه‌های وکتور مقدار ۰ را خواهند داشت و بقیه سلول‌ها یک مقدار صحیح کوچک (معمولا ۱) خواهند داشت.
  • یک بردار متراکم (dense vector) با چند صد درایه (ابعاد پایین) که در آن هر درایه مقداری اعشاری بین ۰ و ۱ خواهد داشت. این حالت به تعبیه کلمات اشاره دارد.

در Tensorflow تعبیه‌ها مانند هر پارامتر دیگری در شبکه‌های عصبی با محاسبه تابع زیان و انتشار معکوس (backpropagation) محاسبه می‌شوند.