مقاله "بررسی بازیابی تصویر مبتنی بر محتوا با معناشناسی سطح بالا"

این مقاله توسط لینگ لیو و همکارانش در سال 2006 تهیه شده است. به منظور بهبود دقت بازیابی سیستم های بازیابی تصویر مبتنی بر محتوا، تمرکز پژوهش از طراحی الگوریتم های استخراج ویژگی های سطح پایین به سمت طراحی الگوریتم برای کاهش "شکاف معنایی" بین ویژگی های بصری و درک انسان پیش رفته است. این مقاله تلاش می کند تا یک بررسی جامع از دستاوردهای فنی اخیر در بازیابی تصویر مبتنی بر معانی سطح بالا ارائه دهد. مهمترین نشریات اخیر در این بررسی شامل جنبه های مختلف تحقیق در این زمینه، از جمله استخراج ویژگی های سطح پایین از تصویر، اندازه گیری شباهت و به دست آوردن ویژگی های معنایی در سطوح بالا است. در این مقاله پنج دسته اصلی از تکنولوژی های پیشرفته در کاهش "شکاف معنایی" شناسایی شده است:

1- استفاده از هستی شناسی شی برای تعریف مفاهیم سطح بالا

2- استفاده از روش های یادگیری ماشین برای ارتباط ویژگی های سطح پایین با مفاهیم پرس و جو.

3- استفاده از بازخورد مربوط به کاربران برای یادگیری

4- تولید قالب معنایی برای پشتیبانی از بازیابی تصویر در سطح بالا

5- ادغام شواهدی از متن HTML و محتوای بصری تصاویر برای بازیابی تصاویردر وب

علاوه بر این، برخی از مسائل مرتبط دیگر مانند تست تصویر و ارزیابی عملکرد بازیابی نیز مورد بحث قرار گرفته است. در نهایت، بر اساس تکنولوژی موجود و تقاضا برای برنامه های کاربردی در دنیای واقعی، چندین مسیر نوآورانه برای آینده پژوهی پیشنهاد شده است.

با توسعه اینترنت و در دسترس بودن دستگاه های ضبط تصویر مانند دوربین های دیجیتال، اسکنر تصویر، اندازه مجموعه تصویر دیجیتال به سرعت در حال افزایش است. ابزار جستجوی تصویر و بازیابی کارآمد آن توسط کاربران در حوزه های مختلف، از جمله سنجش از راه دور، مد، جلوگیری از جرم، نشر، پزشکی، معماری و غیره مورد نیاز است. برای این منظور، بسیاری از سیستم های بازیابی تصویر برای کاربردهای عمومی طراحی شده‍اند که دارای دو چارچوب عمده مبتنی بر متن و مبتنی بر محتوا می باشند. رویکرد مبتنی بر متن را می توان به سال های 1970 باز گرداند. در چنین سیستمی، تصاویر با استفاده از متون توصیف می شوند و سپس از یک سیستم مدیریت پایگاه دادهDBMS[1] برای انجام بازیابی تصویر استفاده می شود. در این روش دو مشکل اساسی وجود دارد:

اول این است که حجم زیادی از نیروی انسانی برای درج توضیحات به صورت دستی لازم است. دوم، عدم قطعیت توضیحات درج شده به دلیل ذهنیت و ادراک انسان است. برای غلبه بر معایب فوق سیستم بازیابی مبتنی بر محتوا CBIR در اوایل دهه 1980 معرفی شد. در CBIR، تصاویر با محتوای بصری خود، مانند رنگ، بافت، شکل، نمایه می شوند. اولین کار ارائه شده در این زمینه توسط Chang و در سال 1984 منتشر شد، که در آن نویسنده ارائه یک تصویر نمایه سازی و انتزاع روش برای بازیابی پایگاه داده تصویری را ارئه نمود که در آن پایگاه داده تصویری شامل تصویر اشیاء و روابط تصویری آنها است. برای ساختن شاخص های تصویر، عملیات انتزاعی برای انجام خوشه بندی و طبقه بندی شیء صورت می گیرد. در دهه گذشته، چند محصول تجاری و سیستم های پیش نمونه آزمایشی مانند QBIC، Photobook ، VIRAGE ، VisualSEEK، Netra ، SIMPLIcity ارائه شده اند. تفاوت اساسی بین سیستم های بازیابی مبتنی بر متن و مبتنی بر محتوا این است که تعامل با انسان یک بخش ضروری در سیستم است. انسانها تمایل به استفاده از ویژگی های بالا (مفاهیم) مانند کلمات کلیدی، توصیفگرهای متن، برای تفسیر تصاویر و اندازه گیری شباهت آنها دارند. در حالی که ویژگی هایی که به صورت خودکار و با استفاده از تکنیک های بینایی کامپیوتری استخراج می شوند، اغلب ویژگی های سطح پایین (رنگ، بافت، شکل، طرح فضایی، و غیره) هستند. به طور کلی، ارتباط مستقیم بین مفاهیم سطح بالا و ویژگی های سطح پایین وجود ندارد.

اگر چه بسیاری از الگوریتم های پیچیده برای توصیف ویژگی های رنگ، شکل و بافت طراحی شده اند، این الگوریتم ها نمی توانند به طورکلی معناشناختی تصویر را مدل سازی کنند و در هنگام مواجه شدن با پایگاه های تصویری وسیع کاربرد محدودی دارند .
آزمایش های گسترده در سیستم های CBIR نشان می دهد که محتویات سطح پایین اغلب برای توصیف مفاهیم معناشناختی سطح بالا در ذهن کاربر ناکارا می باشد [13].بنابراین هنوز عملکرد CBIR از انتظارات کاربران دور است. Eakins سه سطح پرسش را در CBIR ذکر کرده است:
سطح 1: بازیابی با ویژگی های اولیه مانند رنگ، بافت، شکل یا مکان مکانی عناصر تصویر. به عنوان مثال پرس و جو متداول در این روش "پیدا کردن تصاویر مانند این تصویر است".

سطح 2: بازیابی اشیاء بر اساس نوع داده شناسایی شده توسط ویژگی های مشتق شده بر اساس برخی از استنتاج های منطقی. به عنوان مثال، "پیدا کردن یک تصویر از یک گل"

سطح3: بازیابی با ویژگی های انتزاعی، شامل مقدار قابل توجهی از استدلال های سطح بالا در مورد هدف و یا صحنه های نشان داده شده است که از آن به نام بازیابی حوادث نام برده می شود و شامل تصاویر با اهمیت عاطفی و مذهبی، و غیره است. به عنوان مثال "پیدا کردن تصاویر از یک جمعیت شاد".

سطوح 2 و 3 با هم به عنوان بازیابی تصویر معنایی و شکاف بین سطوح 1 و 2 به عنوان شکاف معنا شناخته می شوند. به طور خاص، اختلاف بین قدرت توصیفی محدود از ویژگی های تصویر پایین و غنای معانی کاربر، به عنوان "شکاف معنایی" [14،15] نامیده می شود. کاربران در بازیابی سطح 1 معمولا برای ارسال تصویر نمونه یا طرح به عنوان پرس و جو نیاز دارد. اما اگر کاربر تصویر نمونه را در دست نداشته باشد، بازیابی تصویر معنایی برای کاربر راحت است چون سیستم پرس و جو با استفاده از کلمات کلیدی یا بافت را پشتیبانی می کند. بنابراین، برای حمایت از پرس و جو با مفاهیم سطح بالا، سیستم CBIR باید بین ویژگی های عددی تصویر و مفاهیم آن توسط انسان ارتباطی برقرار نماید

بازیابی تصویر بر اساس معناشناسی سطح بالا به این مفهوم است که چطور می توان ویژگی های سطح پایین تصویر را به معانی معادل سطح بالا آن مرتبط کرد؟ بررسی ها نشان می دهد که تکنیک های پیشرفته در کاهش "اختلاف معنایی" شامل پنج دسته اصلی می شود:

1- با استفاده از هستی شناسی شی برای تعریف مفاهیم سطح بالا

2-استفاده از ابزار یادگیری ماشین برای ارتباط ویژگی های سطح پایین با مفاهیم پرس و جو

3-معرفی بازخورد ارتباطی[2] در حلقه بازیابی برای یادگیری مداوم سیستم از قصد کاربر

4-تولید قالب معنایی[3] برای پشتیبانی از بازیابی تصویر بالا در سطح بالا

5-استفاده از محتوای بصری تصاویر و اطلاعات متنی به دست آمده از وب برای بازیابی تصویر در وب

بازیابی در سطح 3 دشوار و معمول نیست و امکان بازیابی در سطح 3 را می توان در زمینه های خاصی از قبیل موزه های هنری یا آرشیو روزنامه ها یافت. سیستم های فعلی اغلب بازیابی را در سطح 2 انجام می دهند که در این سطح سه سیستم اساسی وجود دارد:

الف- استخراج ویژگی های سطح پایین تصویر

ب- اندازه گیری شباهت ها

ج- کاهش فاصله معنایی

در این مقاله بر معناشناسی سطح بالا برای بازیابی تصویر مبتنی بر محتوا تمرکز شده است. در بخش 2 خلاصه ای از ویژگی های سطح پایین تصویرکه در سیستم های CBIR مورد استفاده قرار می گیرد بررسی می شود. معیار تشابه تصاویر نیز در بخش 2 مورد بحث قرار گرفته است. بخش 3 به روش های مختلف در کاهش "شکاف معنایی" متمرکز است. در بخش 4، داده های تست تصویر و ارزیابی عملکردسیستم مورد بحث قرار گرفته و در بخش 5 مسیرهای تحقیق آتی پیشنهاد شده است.

لینک دانلود مقاله

[1] Database management system

[2] Relevance feedback

[3] Semantic Template

علی ابراهیمی سه‌شنبه 10 مهر 1397 ساعت 21:31

CBIR: Content Based Image Retrieval

CBIR: Content Based Image Retrieval

درباره من