CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

مقاله "بررسی بازیابی تصویر مبتنی بر محتوا با معناشناسی سطح بالا"

این مقاله توسط لینگ لیو و همکارانش در سال 2006 تهیه شده است. به منظور بهبود دقت بازیابی سیستم های بازیابی تصویر مبتنی بر محتوا، تمرکز پژوهش از طراحی الگوریتم های استخراج ویژگی های سطح پایین به سمت طراحی الگوریتم برای کاهش "شکاف معنایی" بین ویژگی های بصری و درک انسان پیش رفته است. این مقاله تلاش می کند تا یک بررسی جامع از دستاوردهای فنی اخیر در بازیابی تصویر مبتنی بر معانی سطح بالا ارائه دهد. مهمترین نشریات اخیر در این بررسی شامل جنبه های مختلف تحقیق در این زمینه، از جمله استخراج ویژگی های سطح پایین از تصویر، اندازه گیری شباهت و به دست آوردن ویژگی های معنایی در سطوح بالا است. در این مقاله پنج دسته اصلی از تکنولوژی های پیشرفته در کاهش "شکاف معنایی" شناسایی شده است:

1-      استفاده از هستی شناسی شی برای تعریف مفاهیم سطح بالا

2-      استفاده از روش های یادگیری ماشین برای ارتباط ویژگی های سطح پایین با مفاهیم پرس و جو.

3-      استفاده از بازخورد مربوط به کاربران  برای یادگیری

4-      تولید قالب معنایی برای پشتیبانی از بازیابی تصویر در سطح بالا

5-      ادغام شواهدی از متن HTML و محتوای بصری تصاویر برای بازیابی تصاویردر وب

علاوه بر این، برخی از مسائل مرتبط دیگر مانند تست تصویر و ارزیابی عملکرد بازیابی نیز مورد بحث قرار گرفته است. در نهایت، بر اساس تکنولوژی موجود و تقاضا برای برنامه های کاربردی در دنیای واقعی، چندین مسیر نوآورانه برای آینده پژوهی پیشنهاد شده است.

با توسعه اینترنت و در دسترس بودن دستگاه های ضبط تصویر مانند دوربین های دیجیتال، اسکنر تصویر، اندازه مجموعه تصویر دیجیتال به سرعت در حال افزایش است. ابزار جستجوی تصویر و بازیابی کارآمد آن توسط کاربران در حوزه های مختلف، از جمله سنجش از راه دور، مد، جلوگیری از جرم، نشر، پزشکی، معماری و غیره مورد نیاز است. برای این منظور، بسیاری از سیستم های بازیابی تصویر برای کاربردهای عمومی طراحی شدهاند که دارای دو چارچوب عمده مبتنی بر متن و مبتنی بر محتوا می باشند. رویکرد مبتنی بر متن را می توان به سال های 1970 باز گرداند. در چنین سیستمی، تصاویر با استفاده از متون توصیف می شوند و سپس از یک سیستم مدیریت پایگاه دادهDBMS[1]  برای انجام بازیابی تصویر استفاده می شود. در این روش دو مشکل اساسی وجود دارد:

اول این است که حجم زیادی از نیروی انسانی برای درج توضیحات به صورت دستی لازم است. دوم، عدم قطعیت توضیحات درج شده به دلیل ذهنیت و ادراک انسان است. برای غلبه بر معایب فوق سیستم بازیابی مبتنی بر محتوا CBIR در اوایل دهه 1980 معرفی شد. در CBIR، تصاویر با محتوای بصری خود، مانند رنگ، بافت، شکل، نمایه می شوند. اولین کار ارائه شده در این زمینه توسط Chang و در سال 1984 منتشر شد، که در آن نویسنده ارائه یک تصویر نمایه سازی و انتزاع روش برای بازیابی پایگاه داده تصویری را ارئه نمود که در آن پایگاه داده تصویری شامل تصویر اشیاء و روابط تصویری آنها است. برای ساختن شاخص های تصویر، عملیات انتزاعی برای انجام خوشه بندی و طبقه بندی شیء صورت می گیرد. در دهه گذشته، چند محصول تجاری و سیستم های پیش نمونه آزمایشی مانند QBIC، Photobook ، VIRAGE ، VisualSEEK، Netra ، SIMPLIcity  ارائه شده اند. تفاوت اساسی بین سیستم های بازیابی مبتنی بر متن و مبتنی بر محتوا این است که تعامل با انسان یک بخش ضروری در سیستم است. انسانها تمایل به استفاده از ویژگی های بالا (مفاهیم) مانند کلمات کلیدی، توصیفگرهای متن، برای تفسیر تصاویر و اندازه گیری شباهت آنها دارند. در حالی که ویژگی هایی که به صورت خودکار و با استفاده از تکنیک های بینایی کامپیوتری استخراج می شوند، اغلب ویژگی های سطح پایین (رنگ، ​​بافت، شکل، طرح فضایی، و غیره) هستند. به طور کلی، ارتباط مستقیم بین مفاهیم سطح بالا و ویژگی های سطح پایین وجود ندارد.

اگر چه بسیاری از الگوریتم های پیچیده برای توصیف ویژگی های رنگ، شکل و بافت طراحی شده اند، این الگوریتم ها نمی توانند به طورکلی  معناشناختی تصویر را مدل سازی کنند و در هنگام مواجه شدن با پایگاه های تصویری وسیع کاربرد محدودی دارند .
آزمایش های گسترده در سیستم های CBIR نشان می دهد که محتویات سطح پایین اغلب برای توصیف مفاهیم معناشناختی سطح بالا در ذهن کاربر ناکارا می باشد [13].بنابراین هنوز عملکرد CBIR از انتظارات کاربران دور است. Eakins سه سطح پرسش را در CBIR ذکر کرده است:
سطح 1: بازیابی با ویژگی های اولیه مانند رنگ، بافت، شکل یا مکان مکانی عناصر تصویر. به عنوان مثال پرس و جو متداول در این روش "پیدا کردن تصاویر مانند این تصویر است".

سطح 2: بازیابی اشیاء بر اساس نوع داده شناسایی شده توسط ویژگی های مشتق شده بر اساس برخی از استنتاج های منطقی. به عنوان مثال، "پیدا کردن یک تصویر از یک گل"

سطح3: بازیابی با ویژگی های انتزاعی، شامل مقدار قابل توجهی از استدلال های سطح بالا در مورد هدف و یا صحنه های نشان داده شده است که از آن به نام بازیابی حوادث نام برده می شود و شامل تصاویر با اهمیت عاطفی و مذهبی، و غیره است. به عنوان مثال "پیدا کردن تصاویر از یک جمعیت شاد".

سطوح 2 و 3 با هم به عنوان بازیابی تصویر معنایی و شکاف بین سطوح 1 و 2 به عنوان شکاف معنا شناخته می شوند. به طور خاص، اختلاف بین قدرت توصیفی محدود از ویژگی های تصویر پایین و غنای معانی کاربر، به عنوان "شکاف معنایی" [14،15] نامیده می شود. کاربران در بازیابی سطح 1 معمولا برای ارسال تصویر نمونه یا طرح به عنوان پرس و جو نیاز دارد. اما اگر کاربر تصویر نمونه را در دست نداشته باشد، بازیابی تصویر معنایی برای کاربر راحت است چون سیستم پرس و جو با استفاده از کلمات کلیدی یا بافت را پشتیبانی می کند. بنابراین، برای حمایت از پرس و جو با مفاهیم سطح بالا، سیستم CBIR باید بین ویژگی های عددی تصویر و مفاهیم آن توسط انسان ارتباطی برقرار نماید

بازیابی تصویر بر اساس معناشناسی سطح بالا به این مفهوم است که چطور می توان ویژگی های سطح پایین تصویر را به معانی معادل سطح بالا آن مرتبط کرد؟ بررسی ها نشان می دهد که تکنیک های پیشرفته در کاهش "اختلاف معنایی" شامل پنج دسته اصلی می شود:

1- با استفاده از هستی شناسی شی برای تعریف مفاهیم سطح بالا

2-استفاده از ابزار یادگیری ماشین برای ارتباط ویژگی های سطح پایین با مفاهیم پرس و جو

3-معرفی بازخورد ارتباطی[2] در حلقه بازیابی برای یادگیری مداوم سیستم از قصد کاربر

4-تولید قالب معنایی[3] برای پشتیبانی از بازیابی تصویر بالا در سطح بالا

5-استفاده از محتوای بصری تصاویر و اطلاعات متنی به دست آمده از وب برای بازیابی تصویر در وب

 

بازیابی در سطح 3 دشوار و معمول  نیست و امکان بازیابی در سطح 3 را می توان در زمینه های خاصی از قبیل موزه های هنری یا آرشیو روزنامه ها یافت. سیستم های فعلی اغلب بازیابی را در سطح 2 انجام می دهند که در این سطح سه سیستم اساسی وجود دارد:

 الف- استخراج ویژگی های سطح پایین تصویر

ب-  اندازه گیری شباهت ها

ج-  کاهش فاصله معنایی

در این مقاله بر معناشناسی سطح بالا برای بازیابی تصویر مبتنی بر محتوا تمرکز شده است. در بخش 2 خلاصه ای از ویژگی های سطح پایین تصویرکه در سیستم های CBIR  مورد استفاده قرار می گیرد بررسی می شود. معیار تشابه تصاویر نیز در بخش 2 مورد بحث قرار گرفته است. بخش 3 به روش های مختلف در کاهش "شکاف معنایی" متمرکز است. در بخش 4، داده های تست تصویر و ارزیابی عملکردسیستم  مورد بحث قرار گرفته و در بخش 5 مسیرهای تحقیق آتی پیشنهاد شده است.

 

 

 

لینک دانلود مقاله



[1] Database management system

[2] Relevance feedback

[3] Semantic Template

مقاله "بازیابی تصویر بر اساس محتوا"

این مقاله توسط چی ژانگ و همکارش در سال 2015 تهیه شده است. در این مقاله، ویژگی های رنگی و ویژگی های بافت برای بازیابی تصویر مبتنی بر محتوا مورد استفاده قرار می گیرند، در طول فرآیند پیاده سازی، از ویژگی های محل رنگ هم استفاده شده و در نهایت از ویژگی های وزن رنگ و ویژگی های بافت برای بازیابی تصویر استفاده شده است به نحوی که در برخی موارد 80٪ از نتایج جستجو رضایت بخش بوده است. با توسعه فن آوری اینترنت در دهه گذشته، حجم اطلاعات به شدت افزایش یافته و دسترسی به اطلاعات صحیح را مشکل ساخته است. برای دسترسی به اطلاعات و جستجوی راحت آنها موتورهای جستجو بوجود آمده اند به نحوی که گوگل تبدیل به شرکت فناوری اطلاعات نوآورانه و پویا در جهان شده است. با این حال، روش کار موتور جستجو بر اساس بازیابی متن است لذا آنها قادر به پاسخگویی به نیازهای مردم در بازیابی متن ها می باشند اما به دلیل نیاز فنی به بازیابی تصویر مبتنی بر محتوا و عدم پاسخگویی موتور های جستجو آنها بازیابی تصویر موجود را با استفاده از برچسب های مصنوعی که به تصاویر اختصاص می دهند انجام می دهند از طرفی مردم می خواهند تصاویر مشابه را از طریق تصاویری که خود به سیستم می دهند بیابند  لذا بازیابی تصویر بر اساس محتوا مفهوم یافته و به سرعت در حال پیشرفت می باشد.

استخراج ویژگی یک مفهوم در دید کامپیوتر و پردازش تصویر است ویژگی یا مشخصه یک بخش جالب از تصویر دیجیتالی است که نقطه شروع برای بسیاری از الگوریتم های تجزیه و تحلیل تصویر کامپیوتری است. بنابراین موفقیت یک الگوریتم اغلب بر ویژگیهایی است که از آن استفاده می کند. ما می توانیم بردار یکپارچگی رنگ را از طریق آمار پیکسل هایی از همان رنگ که بالاتر یا کمتر از مقدار آستانه در هر رنگ است به دست آوریم. برخی الگوریتم ها از هشت رنگ قرمز، سبز، آبی، زرد، بنفش، آبی، سفید و سیاه استفاده می کنند.

برای اندازه گیری شباهت بین ویژگی های تصاویر روش های مختلفی وجود دارد. روش محاسبه فاصله منهتن یکی از آنها است روش دیگر فاصله اقلیدسی است که بیانگر جذر مربعات اختلاف ها می باشد.

 

 

لینک دانلود مقاله