CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

شبکه های عصبی کانولوشن

 

همانطور که می دانیم بسیاری از داده های مهم دنیای واقعی به شکل نمودار ها یا شبکه ها وجود دارند به عنوان مثال: شبکه های اجتماعی[1]، نمودارهای دانش[2]، شبکه های پروتئین[3]، شبکه جهانی وب[4] و غیره

در چند سال گذشته، تعدادی از مقالات مجددا به مسئله بهینه سازی شبکه های عصبی برای کار بر روی نمودارها پرداخته اند و برخی از آنها اکنون به نتایج بسیار مثبتی در حوزه هایی که قبلا توسط روش های مبتنی بر هسته، گراف و سایر  تکنیک ها بوده رسیده اند. در این یادداشت خلاصه ای از پیشرفت های اخیر در این زمینه ارائه شده و نقاط قوت و ضعف رویکردهای مختلف به صورت اختصار بیان و مشخص می نماییم. هدف از این نوشتار بیان کلی از موارد زیر است:

مقدمه کوتاه به مدل شبکه عصبی بر روی نمودار
حلقه های گراف طیفی و گراف شبکه های کانولوشنی(GCNs)[5]
تهیه گراف با یک مدل ساده GCN  مرتبه1
GCN ها به عنوان تعمیم الگوریتم Weisfeiler-Lehman

 

به طور کلی کار با مدل های عصبی شناخته شده مانند RNN یا CNN  بر روی نمودارهای خودساخته یک مشکل چالش برانگیز است.

در حال حاضر، اغلب مدلهای شبکه عصبی دارای معماری مشترکی می باشند و و از فیلترها به صورت پارامتریک و به طور معمول در همه نقاط در گراف استفاده می شود. برای همه این مدلها، هدف تابعی است که پس از آموزش مدل، یک سیگنال یا ویژگی را گرفته و مقداری متناظر آن ایجاد کند به عبارتی G=(V,E) که مقادیر زیر را دریافت می کند.

ویژگی xi  برای هر گره iدر ماتریس ویژگی X:N*D خلاصه می شود که در آن N تعداد گره ها و D تعداد ویژگی های ورودی است
توصیف کننده به شکل یک ماتریس نمایش داده می شود که اغلب ماتریس متقارن A نام دارد. خروجی نودها هم به صورت Z تعریف می شود که یک ماتریس N*F  است که در آن F تعداد ویژگی های خروجی متناظر هر نود می باشد.

هر لایه شبکه عصبی را می توان به صورت یک تابع غیر خطی به شکل  H(l+1)=f(H(l),A) بیان کرد که در آن H(0)=X و H(l)=Z و l هم بیانگر تعداد لایه های شبکه عصبی می باشد.

 

یک نمونه ساده از GCN

فرض کنیم ()(lW)(lHAσ(=(,A)(lH) f  که در آن )l(W مقدار وزن لایه l از شبکه عصبی است و σ(0) هم یک مقدار غیر خطی همانند  [6]ReLU است.

در ابتدا دو محدودیت این مدل ساده را بیان می کنیم:

1-منظور از عمل ضرب با A به این معنی است که برای هر گره، تمام بردارهای ویژگی همه گره های همسایه را جمع می کنیم، اما نه خود گره را به عبارتی حلقه در گراف وجود ندارد.

2- مقدار ماتریس A نرمال نشده است لذا ضرب آن باعث تغییر در وزن در بردارهای ویزگی می شود.لذا از   استفاده می کنیم که در آن D ماتریس قطری درجه گره است و برای نرمال سازی متقارن از فرمول زیر استفاده می نماییم.

بنابراین تابع ما به صورت زیر خواهد بود

 مقدار   حاصل جمع ماتریس A با ماتریس I (واحد) می باشد و مقدار    ماتریس قطری   است.

تصویر زیر بیانگر اعضای یک باشگاه می باشد که رنگ ها به عنوان دسته بندی اعضا مطرح و با استفاده از تکنیک خوشه بندی انجام شده است.

حال اگر اطلاعات را از طریق مطالب مطرح شده قبلی و با استفاده از با سه لایه شبکه عصبی پردازش کنیم حاصل به شکل نمودار زیر است که تقریبا همان دسته بندی را نشان می دهد.

مطالب ارائه شده تا اینجا به این فرم بود که مقادیر متمایز بودند و همه به صورت پارامتریک ارائه شده بود. با اضافه کردن برچسب هایی به مدل امکان اضافه نمودن آموزش به مدل وجود دارد که برای این منظور می بایست از الگوریتم های یادگیری نیمه متمرکز[7] استفاده نماییم.



[1] Social networks

[2] Knowledge graphs

[3] Protein-interaction networks

[4] World Wide Web

[5] Graph Convolutional Networks

[6] Rectified Linear Unit

[7] Semi-supervised learning

نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.