CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

مقاله "رمزگشایی کلی از اشیاء و تصاویر دیده شده با استفاده از ویژگی های تصویری سلسله مراتبی"

این مقاله توسط آقای تومویاسا هوریکاوا و همارش در سال 2017 تهیه شده است. همانطور که می دانیم تشخیص شیء یک عملکرد کلیدی در دیدگاه انسان و ماشین است. وقتی که تصویری دیده می شود رمزگشایی آن توسط مغز انجام شده و وضعیت آن منوط به نمونه های آموزشی است. در این مقاله نویسندگان یک رویکرد رمزگشایی برای اشیاء دلخواه را با استفاده از اصل بینایی ماشین ارائه می دهند که دسته بندی اشیاء با مجموعه ای از ویژگی های غیر قابل تغییر و از طریق پردازش سلسله مراتبی انجام می شود. آنها نشان می دهند که ویژگی های بصری، از جمله آنهایی که از یک شبکه عصبی کانولوشن عمیق مشتق شده اند، می توانند از الگوهای fMRI[1] پیش بینی شده استفاده و دقت بیشتری را برای ویژگی های سطح پایین و سطح بالا به دست آورند. ویژگی های پیش بینی شده برای شناسایی دسته های شیء محاسبه شده و به صورت مجموعه ای از ویژگی های عددی برای تصاویر به دست می آید. نتایج نشان می دهد که هماهنگی بین بینایی انسان و ماشین وجود داشته و می توان از آن برای بازیابی اطلاعات مبتنی بر ساختار مغز استفاده کرد.

به منظور تفسیر مطالب، رمزگشایی از عملکرد مغز از طریق تجزیه و تحلیل آماری و ماشین های تصویربرداری رزونانس مغناطیسی fMRI  انجام می شود تا برخی نتایج حاصل شود مثلا افرادچگونه چیزی را به یاد می آورند، تصور می کنند و یا رویا می بینند.

اکثر مطالعات قبلی براساس رویکرد مبتنی بر طبقه بندی است که در آن یک طبقه بندی کننده آماری (رمزگشایی) برای یادگیری رابطه بین الگوهای fMRI  و محتوای مورد نظر برای رمزگشایی آموزش داده می شود. چنین رویکردهایی محدودیت اساسی در تعداد خروجی های ممکن را ایجاد می کند. یعنی خروجی ها محدود به کلاس هایی است که برای آموزش رمزگشایی استفاده می شود و مانع از رمزگشایی کلاس هایی است که در آموزش استفاده نشده است.

در مطالعات اخیر بر این  محدودیت ها غلبه شده است. در این روش رمزگشایی تصاویر بصری جدید امکان پذیر است برای تصاویری که در در جلسات آموزشی ارائه نشده است.

کی و همکارانش یک مدل رمزگذاری را برای retinotopically که شامل فیلترهای موجک گابور است ساخته اند. آنها از یک پایگاه داده تصویر بصری و روش پیش بینی مغز  و توسط یک مدل کد گذاری استفاده کردند.

فعالیت مغز اندازه گیری شده، سپس با تعیین یک تصویر از پایگاه داده و  رمزگشایی آن مشخص شد که این فرآیند شبیه فعالیت مغز  انسان است.
این روش برای شناسایی آثار دیده شده مورد استفاده قرار گرفته است. میاواکی و همکارانش، یک مدل رمزگشایی مدولار را که شامل چندین ماژول است را برای پیش بینی تکه های تصویر طراحی نمودند.

در حالی که شناسایی تصویر و بازسازی تصویر با استفاده از رمز گشایی روش های مناسبی برای بررسی شباهت تصویری هستند ولی آنها اطلاعات صریحی در مورد خود جسم که دیده می شود و یا فرد آن را تصور می کند ارائه نمی دهد. اشیاء احتمالی که ممکن است در زندگی روزانه مشاهده یا تصور کنیم بی شمارند و اطلاعات مبتنی بر شیء اغلب به طور مستقیم به روش دید ما مرتبط است.

روش هایی زیادی برای رمزگشایی از فعالیت مغز در تشخیص اجسام بوجود آمده است که می تواند روش درک اجسام توسط مغز انسان را نشان دهد.

برای این منظور دسته بندی  اشیاء مشاهده شده و تصور شده ای که در آموزش های رمزگشایی از سیگنال های fMRI اندازه گیری شده اند مورد برسی قرار نگرفته و صرفا  روش رمزگشایی مدولار را که ابتدا برای بازسازی تصاویر رمز گشایی شده هستند را  توسعه می دهند.

برای تطبیق رویکرد رمزگشایی مدولار در این مقاله نویسندگان فرض را بر این دانستند که یک دسته از اقلام را می توان با مجموعه ای از ویژگی های بصری با چندین متغیر معرفی کرد. این ویژگی ها مربوط به چالش تشخیص چهره در یاد گیری ماشین است که هدف آن فعال کردن کامپیوتر برای تشخیص اشیاء در تصاویر با توجه به نام و رده آنها است. انتخاب ویژگی های بصری یک جنبه حیاتی از این رویکرد است، زیرا حتی اگر تصاویر یک شی مشابه را نشان دهند، لزوما در مقایسه با چرخش، مقیاس، موقعیت و سایر خصیصه های بصری، شباهت پیکسل ها در عمل وجود ندارد. لذا می بایست از ویژگی های بصری طرح بالا که به چنین تفاوت های تصویری حساس نیستند برای بازسازی تصویر استفاده نمود.

در این مقاله از روش های شبکه عصبی کانولوشن CNN مدل های  CNN1-CNN8و GIST  و همچنین  SIFT+BoF استفاده شده است. برخی از مدل ها همانند CNN  ساختار سلسله مراتبی سیستم بصری انسان را تقلید می کنند، در حالی که روش های دیگر برای تشخیص صحنه GIST و تشخیص شی SIFT + BoF در بینایی ماشین طراحی شده اند.

با استفاده از این ویژگی های بصری،  یک رویکرد جدید به نام "رمزگشایی شیء عمومی" ارائه شده که در آن دسته های شیء دلخواه از فعالیت مغز انسان رمزگشایی می شوند و با استفاده از پایگاه داده تصویری آنلاین، ImageNet31  و مدل های رگرسیون آموزش (رمزگشایی) برای پیش بینی ویژگی های بصری استخراج شده ای که از فعالیت مغز وتوسط fMRI ثبت شده استفاده شده است. سپس از رمزگشاهای آموزش دیده برای پیش بینی بردارهای ویژگی های اشیا دیده شده و تصور شده که در آموزش های رمزگشایی از الگوهای فعالیت fMRI استفاده نکرده اند، استفاده شده است. برای مقایسه بردار ویژگی پیش بینی شده با بردارهای ویژه محاسبه شده از تصاویر در پایگاه داده تصویر، از پایگاه داده
ImageNet31
با تعداد15372 دسته استفاده شده است. در این مقاله نشان داده شده که ارزش اشیاء دیده شده و محاسبه شده توسط مدل های محاسباتی را می توان از مناطق مختلف مغز پیش بینی کرد و نشان می دهد که ارتباط تنگاتنگی بین مناطق کورتیکال و پیچیدگی ویژگی های بصری سلسله مراتبی وجود دارد. در نهایت، ویژگی های پیش بینی شده از الگوهای فعالیت مغز برای شناسایی اشیاء دیده شده و تصور شده را برای دسته های دلخواه بررسی و مفید بودن آن مورد بحث قرار می گیرد.

 

 

لینک دانلود مقاله



[1] functional magnetic resonance imaging

نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.