CBIR: Content Based Image Retrieval

مقاله "مکانیسم بازخورد مربوط به گراف در بازیابی تصویر بر اساس محتوا"

این مقاله توسط آقای مالای کومار کوندو و همکارانش در سال 2014 تهیه شده است. بازیابی تصویر بر اساس محتوا CBIR یک مشکل مهم در حوزه مدیریت داده های دیجیتال است. در واقع دسترسی به تصاویر در حال افزایش است، اما متاسفانه سیستم های جستجوی مبتنی بر متادیتای سنتی قادر به استفاده درست از محتوای بصری آنها نیستند.

در این مقاله یک طرح CBIR جدید ارائه شده که هر تصویر پایگاه داده از را لحاظ ویژگی های آماری محاسبه شده با استفاده از تجزیه و تحلیل هندسی چند بعدی MGA[1] وNSCT[2]  مورد بررسی قرار داده و آنها را به صورت یک مقدار خلاصه می کند. کاهش نویز یکی از مزایای اصلی نمایش این ویژگی است. برای بهبود عملکرد بازیابی و کاهش شکاف معنایی، سیستم ما یک مکانیزم بازخورد مربوطه RF  دارد که از روش نظری گراف برای رتبه بندی تصاویر با توجه به بازخورد کاربر استفاده می کند.در این مقاله نویسندگان در ابتدا یک گراف از تصاویر با لبه هایی که منعکس کننده شباهت جفت های تصاویر نسبت به ویژگی های پیشنهاد شده است را تهیه می نمایند. سپس بازخورد کاربر در هر مرحله برای مقایسه در نظر گرفته شده و ذخیره می گردد. تجزیه و تحلیل تجربی در سه پایگاه داده متفاوت نشان دهنده اثربخشی الگوریتم آنها در مقایسه با روشهای پیشرفته تر است، مخصوصا زمانی که تصاویر با انواع مختلف نویز خراب می شوند.

سیستم تصویربرداری بر اساس محتوا  یک کاربر را قادر می سازد تا با تجزیه و تحلیل ویژگی های محتوای بصری، تصاویر را در یک پایگاه داده سازماندهی و بازیابی کند. کل فرآیند معمولا با ارائه یک پرس و جو بصری به سیستم و استخراج مجموعه ای از تصاویر از پایگاه داده که بیشترین شباهت به تصویر پرس و جو دارند، انجام می شود.

در این روش پرس و جو ویژگی های محتویات تصویرهای موجود محاسبه و با مقایسه با ویژگی های تصویر مورد جستجو،  تصاویر مشابه شناسایی و استخراج می شوند.

یک سیستم مدرن CBIR تعاملی شامل بخش های زیر است: استخراج ویژگی، کاهش ویژگی، بازخورد و رتبه بندی.
دو مرحله اول اجازه می دهد تا ویژگی های مربوط برای جستجوی تصاویر در پایگاه داده انجام پذیرد. مرحله رتبه بندی شامل مرتب سازی تصاویر پایگاه داده بر اساس ارتباط آنها با تصویر پرس و جو می شود. در نهایت، مرحله بازخورد مربوطه شامل مداخله کاربر می شود تا تصاویر را در مجموعه نتیجه به عنوان مرتبط یا غیر مرتبط نشان دهد و باعث ایجاد  یک رتبه بندی جدیدی از تصاویر پایگاه داده شده و این روش بازخورد تا رضایت کامل کاربر می تواند تکرار شود.

استخراج ویژگی ها و کاهش ویژگی ها به این دلیل مورد استافده قرار می گیرد که ویژگی های برجسته و قابل توجهی که وجود دارند شناسایی شده و با ابعاد کمتری که نسبت به تصویر دارند به طور مؤثر برای نشان دادن ویژگی های تصویر زیر استفاده شوند.
نتایج نشان می دهد که تکنیک های استخراج ویژگی که در دامنه فرکانسی کار می کنند در مقایسه با سیستم هایی که در دامنه معمولی هستند  در ارائه جزئیات مهم و ظریف تصویر موثرند.

در میان روشهای دامنه فرکانسی مختلف،  WT[3] و مدلهای آن (مانند موجک M-band، موجک پیچیده، بسته های موجک و غیره) در سیستم CBIR  به طور گسترده استفاده شده است. ویژگی های سطح پایین مبتنی بر WT یک تصویر منحصر به فرد از تصویر را ارائه می دهد که بسیار متناسب با خصوصیات بافت تصویر می باشد. با این حال، مشکل اصلی ویژگی های مبتنی بر WT، عدم پشتیبانی ذاتی آنها از جهت گیری و انحصارطلبی است.

برای غلبه بر این محدودیت ها، به تازگی یک نظریه به نام MGA برای اندازه گیری سیگنال ها معرفی شده است و چندین ابزار MGA[4] مانند Ripplet، Curvelet و Contourlet و ... برای استفاده از از دامنه های مختلف طراحی شده اند.
به طور کلی، سیستم CBIR مبتنی بر این ابزار MGA موثرتر از روش CBIR سنتی مبتنی بر WTاست.
روش CNT[5] برای کاهش حساسیت در هر دو حوزه تجسمی و فرکانسی پیشنهاد شده است.
این راه حل به نام NSCT[6]  شناخته شده و ترکیبی ازNSP[7] و NSDFB[8] است. در حال حاضر مقالات متعددی بر پایه NSCT  تهیه شده اند. علاوه بر استخراج ویژگی های خوب، کار مهم دیگر انتخاب ویژگی هایی است که هدف آن یافتن زیرمجموعه های مطلوب از ویژگی های استخراج شده است که به وسیله آن بیشترین اطلاعات توسط داده های جمع آوری شده حفظ می شود. هدف اصلی آن تجزیه و تحلیل دقیق و ساده تر و جستجوی سریع تر در پایگاه داده بوده و حداقل نیاز به فضای ذخیره سازی نیز از دیگر اهداف این روش می باشد. علاوه بر این، کاهش ابعاد موجب از بین رفتن نویز ها می شود زیرا نویزها به طور معمول در قسمت های حذف شده متمرکز هستند. روش های رایج انتخاب ویژگی ها شامل ارزیابی زیر مجموعه های ویژگی های مختلف با استفاده از برخی از شاخص ها و انتخاب بهترین آنها است.
بعضی از روشها از طریق استفاده از یک مجموعه آموزش نظارت شده برای پیدا کردن ویژگی های مرتبط با ویژگی های خاص استفاده می کنند.

متاسفانه، ویژگی های سطح پایین و معیارهای فاصله برای کاهش فاصله معنایی کافی نیست و بنابراین تصاویر را با توجه به اهداف کاربر رتبه بندی می کنند. در بسیاری از موارد پژوهشگران سعی می کنند  تا بازخورد کاربر را در حلقه جستجو وارد کنند و عملکرد رتبه بندی تصاویر بازیابی شده با استفاده از یک طرح تعاملی  بهبود بخشند. از اواسط دهه 1990، مکانیسم بازخورد ارتباط برای تصحیح تصاویر با بهره گیری از تصور بصری انسان به عنوان یک سیگنال بازخوردی برای اصلاح اشتباهاتی که توسط سیستم CBIR انجام می شود، مورد استفاده قرار گرفته است.چنین روند بازخورد زمانی پایان می یابد که تصاویر بازیابی شده کاربر را راضی کند. اندازه گیری فاصله بین تصاویر یک تابعی است که از عمکرد کاربر ناشی می شود و شامل تجربه او در طول زمان زندگی است. لذا استفاده از کاربر به منظور افزایش دقت در سیستم های بازیابی ضروری است.

دو نوع اصلی از رویکردهای مبتنی بر RF برای CBIR در مقالات  وجود دارد: قیاسی[9] و پیشگیرانه[10].

در روش قیاسی از یک طبقه بندی آموزش نظارت شده استافده می شود تا با استفاده از آن اختلاف  بین تصاویر شناسایی شود  و در نهایت تصاویر را بر اساس آنها رتبه بندی می کنند.
اشکال عمده این روش ها تعداد محدود نمونه هایی است که توسط کاربر علامت گذاری شده است و مانع از طبقه بندی و درستی یادگیری مرزهای به منظور جداسازی تصاویر واقعی و غیر مرتبط است.  رویه های پیشگیرانه این مشکل را با استفاده از توزیع داده های بدون برچسب انجام می دهند. این رویکردها معمولا بر مبنای یادگیری چند لایه ای است. رویکرد دیگر روشی است  که از داده های بدون برچسب برای اندازه گیری ارتباط بین تصویر پرس و جو و تصاویر پایگاه داده استفاده می کند. در این مقاله، یک سیستم CBIR جدید بر اساس RF پیشنهاد شده است. در این سیستم از ویژگی های ارائه شده برای تصاویر در روش  NSCT استفاده شده است که یک روش تجزیه تصویر چند منظوره، چند جهته و تغییر پذیر است. پس از مرحله استخراج ویژگی، از روش  MICI[11] که روش غیر نظارت شده است  برای انتخاب زیر مجموعه ای از ویژگی های بهینه استفاده می شود که در آن ابعاد داده  کاهش یافته و به طور ضمنی بخشی از نویز نیز مهار می شود. سپس یک رویکرد رتبه بندی مبتنی بر گراف، که از اطلاعات RF استفاده می کند مورد بهره برداری قرار می گیرد.

در این روش یک گراف اسپارس از تصاویر پایگاه داده و تصویر مورد جستجو تشکیل می شود که در آن گره ها تصاویر پایگاه داده بوده و وزن لبه ها مربوط به فاصله ی اقلیدسی بین ویژگیها می باشد.  برای دسته بندی تصاویر نزدیکترین همسایه استفاده شده است. برای تست این روش از
سه پایگاه داده SIMPLIcity دارای 1000 تصویر در 10 مجموعه و Oliva دارای 2600 تصویر در 8 مجموعه که هر مجموعه بین 260 تا 406 تصویر دارد و Caltech 256 که دارای 100 دسته بوده و هر دسته دارای 26 تصویر است استفاده شده که برتری نسبی بین روش این مقاله با سایر رویکردهای مختلف را نشان می دهد. در  بخش 2 این مقاله NSCT مطرح و توضیح داده می شود در بخش سوم مباحث مرتبط با تئوری گراف و در بخش چهارم  شرح مفصلی از RF توضیح داده شده است. سیستم CBIR پیشنهادی در بخش 5 توضیح داده شده و در نهایت در بخش 6 نتایج ارزیابی تجربی انجام شده مطرح می گردد ودر نهایت، در بخش 7 مقایسه با روش های قبلی و پیشنهادات آتی مورد بحث قرار می گیرد.

 

 

 

لینک دانلود مقاله

 

 



[1] Multi-scale Geometric Analysis

[2] Non-subsampled Contourlet Transform

[3] Wavelet Transform

[4] Multi-scale Geometric Analysis

[5] Contourlet Transform

[6] Non-Subsampled Contourlet Transform

[7] Non-Subsampled Pyramid

[8] Non-Subsampled Directional Filter Bank

[9] inductive

[10] transductive

[11] Maximal Information Compression Index

نظرات (0)
نام :
ایمیل : [پنهان میماند]
وب/وبلاگ :
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)