CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

مقاله " توصیفگرهای مبتنی بر شبکه عصبی تصادفی برای طبقه بندی شکل "

این مقاله توسط جورباس دیاسی و همکارانش در سال 2017 تهیه شده است. تجزیه و تحلیل شکل یک زمینه بسیار مهم در دید کامپیوتری است. این مقاله یک روش جدید برای تجزیه و تحلیل شکل بر اساس وزن یک شبکه عصبی تصادفی RNN ارائه می دهد. دو روش برای استخراج ویژگی ها پیشنهاد شده است: رویکرد همسایه ها که از فاصله هر پیکسل کناری و پیکسل های مجاور آن استفاده می کند و رویکرد مرزی که که از مدل سازی RNN  استفاده می کند. ضمنا در روش ارائه شده از ترکیب بردارهای ویژگی هر دو رویکرد استفاده شده و  مجموعه ای از ویژگی هایی به دست آمده که در مقابل چرخش و مقیاس پایدار می باشند.

رویکرد مورد نظر با روش های دیگر تحلیل شکل و برای 6 مجموعه داده های مختلف مقایسه شده است که شامل ماهی و برگ در شرایط مختلف است.

تجزیه و تحلیل شکل یک موضوع مورد علاقه و جذاب در بینایی تصویر است. در زندگی روزمره اشیاء بر اساس ویژگی های مهم بصری آن تعریف می شوند و شکل ها به طور گسترده ای در ارتباطات انسانها به دلیل توانایی سیستم بصری در تشخیص آنها مورد استفاده قرار می گیرند. در بینایی کامپیوتری باید از  ویژگی های پایداردر برابر  تغییرات نور و تغییرات رنگ و بافت استفاده شود.

شکل به عنوان یکی از زیر ساخت های اصلی در بسیاری از سیستم های شناخته شده و بازیابی است و در بسیاری از برنامه های کاربردی نقش کلیدی ایفا می کند. استفاده رایج از شکل برای تجزیه و تحلیل و تشخیص نمادها و علامت های تجاری است. برای این منظور روش های همانند PLC[1] وسری زمانی  Zernike و ماتریس هم رخداد[2]  استفاده شده است.

تشخیص تصاویر مبتذل برای فیلتر کردن کار دیگری است که از تجزیه و تحلیل شکل حاصل می شود. در پزشکی نیز از اطلاعات شکل برای هدایت و تقسیم بندی تصاویر بزرگ شده از بافت های حاصل از CT[3] استفاده می شود.

با توجه به اهمیت آن، روش های بسیاری برای استخراج اطلاعات معنی دار از یک شی شکل ارائه شده است. این روش ها معمولا براساس این که ویژگی ها از کچای شکل استخراج شده اند به سه دسته تقسیم می شوند که این دسته بندی ها عبارتند از:

1-  مبتنی بر خطوط، که نشان دهنده روش هایی است که شکل را به عنوان یک مجموعه مرتب شده از نقاط متصل در یک شیء منحنی متصور می کند و از این مجموعه برای توصیف شکل استفاده می شود.

2- روش مبتنی بر منطقه، که شامل روش هایی است که از تصویر شکل برای محاسبه توصیف های آن استفاده می کنند.
3- روش های مبتنی بر اسکلت، که تنها از اطلاعات محوری  شکل برای توصیف و شناخت آن استفاده می کنند.

اخیرا در برخی از روش های از تبدیل رادون، SIFT  و شبکه عصبی کانولوشن برای تحلیل شکل استفاده می نمایند. در تحقیقی که در سال 2016 توسط ماکاتو هاسیگاوا و همکارش انجام شد آنها از تبدیل رادون برای ایجاد یک هیستوگرام برای توصیف شکل استفاده کردند که در آن تطبیق شکل با استفاده از یک ماتریس همبستگی انجام می شد، لذا سیستم در برابر چرخش و مقیاس مقاوم بود. در تحقیقی که توسط وینگان وانگ و همکارانش به منظور کشف و تقسیم کردن اشیاء از زمینه های پیچیده موجود در تصاویر ویدیویی انجام گرفت آنها از یک فلوی SIFT برای کشف و تفکیک بخش های شی در فریم استفاده نمودند.

مدلهای فراگیر یادگیری مبتنی بر شبکه های عصبی کانولوشن ببه منظور تحلیل شکل های مختلف ارائه شده است. وینگان وانگ و همکارش در سال 2016  از یادگیری عمیق برای پاسخ دادن به مشکل خرابی عکس استفاده کردند. آنها همچنین در تحقیقی که در سال 2018 انجام گرفت [27]، یک مدل یادگیری عمیق برای شناسایی مناطق چشمگیر در فیلم ها ارائه نمودند که اطلاعات مکانی و زمانی را تولید می کرد. که بسیار سریع انجام می گرفت.  آنها همچنین در یک کار تحقیقاتی جدید در سال 2018 [28] از  یک شبکه عصبی کانولوشن برای پیش بینی ساختار چشم انسان استفاده نمودند. برای این منظور آنها از یک رویکرد چندمتغیره و استخراج اطلاعات سلسله مراتبی از لایه های شبکه عصبی استفاده نمودند.

در این مقاله از یک شبکه عصبی تصادفی برای محاسبه توصیفگرها از یک خط شکل استفاده کنیم. ایده اصلی این است که از وزن شبکه عصبی به عنوان یک بردار ویژگی برای توصیف و طبقه بندی شکل استفاده شود. در بخش 2 ایده اصلی یک شبکه عصبی تصادفی را توضیح داده می شود و در بخش 3، دو روش برای مدل سازی نقاط به عنوان یک داده ورودی و خروجی برای شبکه عصبی تصادفی به منظور ساخت امضای تصویر نمایش داده می شود نتایج ارزیابی انجام شده در بخش 4 ارائه شده است. برای این ارزیابی، آنها از شش مجموعه داده شامل ماهی، برگ و حالت های مختلف برگ نظیر چرخش، مقیاس و برگ های تغییر شکل داده استفاده نمودند. برای مشخص شدن بهبود روش ارزیابی آنها مقایسه ای با برخی از روش های تحلیل شکل سنتی انجام شده که نتایج آن در بخش 5 ارائه و مورد بحث قرار گرفته است.

 

 

لینک دانلود مقاله

 



[1] pixel-level constraint

[2] co-occurrence matrix

[3] computed tomography

مقاله "رمزگشایی کلی از اشیاء و تصاویر دیده شده با استفاده از ویژگی های تصویری سلسله مراتبی"

این مقاله توسط آقای تومویاسا هوریکاوا و همارش در سال 2017 تهیه شده است. همانطور که می دانیم تشخیص شیء یک عملکرد کلیدی در دیدگاه انسان و ماشین است. وقتی که تصویری دیده می شود رمزگشایی آن توسط مغز انجام شده و وضعیت آن منوط به نمونه های آموزشی است. در این مقاله نویسندگان یک رویکرد رمزگشایی برای اشیاء دلخواه را با استفاده از اصل بینایی ماشین ارائه می دهند که دسته بندی اشیاء با مجموعه ای از ویژگی های غیر قابل تغییر و از طریق پردازش سلسله مراتبی انجام می شود. آنها نشان می دهند که ویژگی های بصری، از جمله آنهایی که از یک شبکه عصبی کانولوشن عمیق مشتق شده اند، می توانند از الگوهای fMRI[1] پیش بینی شده استفاده و دقت بیشتری را برای ویژگی های سطح پایین و سطح بالا به دست آورند. ویژگی های پیش بینی شده برای شناسایی دسته های شیء محاسبه شده و به صورت مجموعه ای از ویژگی های عددی برای تصاویر به دست می آید. نتایج نشان می دهد که هماهنگی بین بینایی انسان و ماشین وجود داشته و می توان از آن برای بازیابی اطلاعات مبتنی بر ساختار مغز استفاده کرد.

به منظور تفسیر مطالب، رمزگشایی از عملکرد مغز از طریق تجزیه و تحلیل آماری و ماشین های تصویربرداری رزونانس مغناطیسی fMRI  انجام می شود تا برخی نتایج حاصل شود مثلا افرادچگونه چیزی را به یاد می آورند، تصور می کنند و یا رویا می بینند.

اکثر مطالعات قبلی براساس رویکرد مبتنی بر طبقه بندی است که در آن یک طبقه بندی کننده آماری (رمزگشایی) برای یادگیری رابطه بین الگوهای fMRI  و محتوای مورد نظر برای رمزگشایی آموزش داده می شود. چنین رویکردهایی محدودیت اساسی در تعداد خروجی های ممکن را ایجاد می کند. یعنی خروجی ها محدود به کلاس هایی است که برای آموزش رمزگشایی استفاده می شود و مانع از رمزگشایی کلاس هایی است که در آموزش استفاده نشده است.

در مطالعات اخیر بر این  محدودیت ها غلبه شده است. در این روش رمزگشایی تصاویر بصری جدید امکان پذیر است برای تصاویری که در در جلسات آموزشی ارائه نشده است.

کی و همکارانش یک مدل رمزگذاری را برای retinotopically که شامل فیلترهای موجک گابور است ساخته اند. آنها از یک پایگاه داده تصویر بصری و روش پیش بینی مغز  و توسط یک مدل کد گذاری استفاده کردند.

فعالیت مغز اندازه گیری شده، سپس با تعیین یک تصویر از پایگاه داده و  رمزگشایی آن مشخص شد که این فرآیند شبیه فعالیت مغز  انسان است.
این روش برای شناسایی آثار دیده شده مورد استفاده قرار گرفته است. میاواکی و همکارانش، یک مدل رمزگشایی مدولار را که شامل چندین ماژول است را برای پیش بینی تکه های تصویر طراحی نمودند.

در حالی که شناسایی تصویر و بازسازی تصویر با استفاده از رمز گشایی روش های مناسبی برای بررسی شباهت تصویری هستند ولی آنها اطلاعات صریحی در مورد خود جسم که دیده می شود و یا فرد آن را تصور می کند ارائه نمی دهد. اشیاء احتمالی که ممکن است در زندگی روزانه مشاهده یا تصور کنیم بی شمارند و اطلاعات مبتنی بر شیء اغلب به طور مستقیم به روش دید ما مرتبط است.

روش هایی زیادی برای رمزگشایی از فعالیت مغز در تشخیص اجسام بوجود آمده است که می تواند روش درک اجسام توسط مغز انسان را نشان دهد.

برای این منظور دسته بندی  اشیاء مشاهده شده و تصور شده ای که در آموزش های رمزگشایی از سیگنال های fMRI اندازه گیری شده اند مورد برسی قرار نگرفته و صرفا  روش رمزگشایی مدولار را که ابتدا برای بازسازی تصاویر رمز گشایی شده هستند را  توسعه می دهند.

برای تطبیق رویکرد رمزگشایی مدولار در این مقاله نویسندگان فرض را بر این دانستند که یک دسته از اقلام را می توان با مجموعه ای از ویژگی های بصری با چندین متغیر معرفی کرد. این ویژگی ها مربوط به چالش تشخیص چهره در یاد گیری ماشین است که هدف آن فعال کردن کامپیوتر برای تشخیص اشیاء در تصاویر با توجه به نام و رده آنها است. انتخاب ویژگی های بصری یک جنبه حیاتی از این رویکرد است، زیرا حتی اگر تصاویر یک شی مشابه را نشان دهند، لزوما در مقایسه با چرخش، مقیاس، موقعیت و سایر خصیصه های بصری، شباهت پیکسل ها در عمل وجود ندارد. لذا می بایست از ویژگی های بصری طرح بالا که به چنین تفاوت های تصویری حساس نیستند برای بازسازی تصویر استفاده نمود.

در این مقاله از روش های شبکه عصبی کانولوشن CNN مدل های  CNN1-CNN8و GIST  و همچنین  SIFT+BoF استفاده شده است. برخی از مدل ها همانند CNN  ساختار سلسله مراتبی سیستم بصری انسان را تقلید می کنند، در حالی که روش های دیگر برای تشخیص صحنه GIST و تشخیص شی SIFT + BoF در بینایی ماشین طراحی شده اند.

با استفاده از این ویژگی های بصری،  یک رویکرد جدید به نام "رمزگشایی شیء عمومی" ارائه شده که در آن دسته های شیء دلخواه از فعالیت مغز انسان رمزگشایی می شوند و با استفاده از پایگاه داده تصویری آنلاین، ImageNet31  و مدل های رگرسیون آموزش (رمزگشایی) برای پیش بینی ویژگی های بصری استخراج شده ای که از فعالیت مغز وتوسط fMRI ثبت شده استفاده شده است. سپس از رمزگشاهای آموزش دیده برای پیش بینی بردارهای ویژگی های اشیا دیده شده و تصور شده که در آموزش های رمزگشایی از الگوهای فعالیت fMRI استفاده نکرده اند، استفاده شده است. برای مقایسه بردار ویژگی پیش بینی شده با بردارهای ویژه محاسبه شده از تصاویر در پایگاه داده تصویر، از پایگاه داده
ImageNet31
با تعداد15372 دسته استفاده شده است. در این مقاله نشان داده شده که ارزش اشیاء دیده شده و محاسبه شده توسط مدل های محاسباتی را می توان از مناطق مختلف مغز پیش بینی کرد و نشان می دهد که ارتباط تنگاتنگی بین مناطق کورتیکال و پیچیدگی ویژگی های بصری سلسله مراتبی وجود دارد. در نهایت، ویژگی های پیش بینی شده از الگوهای فعالیت مغز برای شناسایی اشیاء دیده شده و تصور شده را برای دسته های دلخواه بررسی و مفید بودن آن مورد بحث قرار می گیرد.

 

 

لینک دانلود مقاله



[1] functional magnetic resonance imaging

مقاله "مکانیسم بازخورد مربوط به گراف در بازیابی تصویر بر اساس محتوا"

این مقاله توسط آقای مالای کومار کوندو و همکارانش در سال 2014 تهیه شده است. بازیابی تصویر بر اساس محتوا CBIR یک مشکل مهم در حوزه مدیریت داده های دیجیتال است. در واقع دسترسی به تصاویر در حال افزایش است، اما متاسفانه سیستم های جستجوی مبتنی بر متادیتای سنتی قادر به استفاده درست از محتوای بصری آنها نیستند.

در این مقاله یک طرح CBIR جدید ارائه شده که هر تصویر پایگاه داده از را لحاظ ویژگی های آماری محاسبه شده با استفاده از تجزیه و تحلیل هندسی چند بعدی MGA[1] وNSCT[2]  مورد بررسی قرار داده و آنها را به صورت یک مقدار خلاصه می کند. کاهش نویز یکی از مزایای اصلی نمایش این ویژگی است. برای بهبود عملکرد بازیابی و کاهش شکاف معنایی، سیستم ما یک مکانیزم بازخورد مربوطه RF  دارد که از روش نظری گراف برای رتبه بندی تصاویر با توجه به بازخورد کاربر استفاده می کند.در این مقاله نویسندگان در ابتدا یک گراف از تصاویر با لبه هایی که منعکس کننده شباهت جفت های تصاویر نسبت به ویژگی های پیشنهاد شده است را تهیه می نمایند. سپس بازخورد کاربر در هر مرحله برای مقایسه در نظر گرفته شده و ذخیره می گردد. تجزیه و تحلیل تجربی در سه پایگاه داده متفاوت نشان دهنده اثربخشی الگوریتم آنها در مقایسه با روشهای پیشرفته تر است، مخصوصا زمانی که تصاویر با انواع مختلف نویز خراب می شوند.

سیستم تصویربرداری بر اساس محتوا  یک کاربر را قادر می سازد تا با تجزیه و تحلیل ویژگی های محتوای بصری، تصاویر را در یک پایگاه داده سازماندهی و بازیابی کند. کل فرآیند معمولا با ارائه یک پرس و جو بصری به سیستم و استخراج مجموعه ای از تصاویر از پایگاه داده که بیشترین شباهت به تصویر پرس و جو دارند، انجام می شود.

در این روش پرس و جو ویژگی های محتویات تصویرهای موجود محاسبه و با مقایسه با ویژگی های تصویر مورد جستجو،  تصاویر مشابه شناسایی و استخراج می شوند.

یک سیستم مدرن CBIR تعاملی شامل بخش های زیر است: استخراج ویژگی، کاهش ویژگی، بازخورد و رتبه بندی.
دو مرحله اول اجازه می دهد تا ویژگی های مربوط برای جستجوی تصاویر در پایگاه داده انجام پذیرد. مرحله رتبه بندی شامل مرتب سازی تصاویر پایگاه داده بر اساس ارتباط آنها با تصویر پرس و جو می شود. در نهایت، مرحله بازخورد مربوطه شامل مداخله کاربر می شود تا تصاویر را در مجموعه نتیجه به عنوان مرتبط یا غیر مرتبط نشان دهد و باعث ایجاد  یک رتبه بندی جدیدی از تصاویر پایگاه داده شده و این روش بازخورد تا رضایت کامل کاربر می تواند تکرار شود.

استخراج ویژگی ها و کاهش ویژگی ها به این دلیل مورد استافده قرار می گیرد که ویژگی های برجسته و قابل توجهی که وجود دارند شناسایی شده و با ابعاد کمتری که نسبت به تصویر دارند به طور مؤثر برای نشان دادن ویژگی های تصویر زیر استفاده شوند.
نتایج نشان می دهد که تکنیک های استخراج ویژگی که در دامنه فرکانسی کار می کنند در مقایسه با سیستم هایی که در دامنه معمولی هستند  در ارائه جزئیات مهم و ظریف تصویر موثرند.

در میان روشهای دامنه فرکانسی مختلف،  WT[3] و مدلهای آن (مانند موجک M-band، موجک پیچیده، بسته های موجک و غیره) در سیستم CBIR  به طور گسترده استفاده شده است. ویژگی های سطح پایین مبتنی بر WT یک تصویر منحصر به فرد از تصویر را ارائه می دهد که بسیار متناسب با خصوصیات بافت تصویر می باشد. با این حال، مشکل اصلی ویژگی های مبتنی بر WT، عدم پشتیبانی ذاتی آنها از جهت گیری و انحصارطلبی است.

برای غلبه بر این محدودیت ها، به تازگی یک نظریه به نام MGA برای اندازه گیری سیگنال ها معرفی شده است و چندین ابزار MGA[4] مانند Ripplet، Curvelet و Contourlet و ... برای استفاده از از دامنه های مختلف طراحی شده اند.
به طور کلی، سیستم CBIR مبتنی بر این ابزار MGA موثرتر از روش CBIR سنتی مبتنی بر WTاست.
روش CNT[5] برای کاهش حساسیت در هر دو حوزه تجسمی و فرکانسی پیشنهاد شده است.
این راه حل به نام NSCT[6]  شناخته شده و ترکیبی ازNSP[7] و NSDFB[8] است. در حال حاضر مقالات متعددی بر پایه NSCT  تهیه شده اند. علاوه بر استخراج ویژگی های خوب، کار مهم دیگر انتخاب ویژگی هایی است که هدف آن یافتن زیرمجموعه های مطلوب از ویژگی های استخراج شده است که به وسیله آن بیشترین اطلاعات توسط داده های جمع آوری شده حفظ می شود. هدف اصلی آن تجزیه و تحلیل دقیق و ساده تر و جستجوی سریع تر در پایگاه داده بوده و حداقل نیاز به فضای ذخیره سازی نیز از دیگر اهداف این روش می باشد. علاوه بر این، کاهش ابعاد موجب از بین رفتن نویز ها می شود زیرا نویزها به طور معمول در قسمت های حذف شده متمرکز هستند. روش های رایج انتخاب ویژگی ها شامل ارزیابی زیر مجموعه های ویژگی های مختلف با استفاده از برخی از شاخص ها و انتخاب بهترین آنها است.
بعضی از روشها از طریق استفاده از یک مجموعه آموزش نظارت شده برای پیدا کردن ویژگی های مرتبط با ویژگی های خاص استفاده می کنند.

متاسفانه، ویژگی های سطح پایین و معیارهای فاصله برای کاهش فاصله معنایی کافی نیست و بنابراین تصاویر را با توجه به اهداف کاربر رتبه بندی می کنند. در بسیاری از موارد پژوهشگران سعی می کنند  تا بازخورد کاربر را در حلقه جستجو وارد کنند و عملکرد رتبه بندی تصاویر بازیابی شده با استفاده از یک طرح تعاملی  بهبود بخشند. از اواسط دهه 1990، مکانیسم بازخورد ارتباط برای تصحیح تصاویر با بهره گیری از تصور بصری انسان به عنوان یک سیگنال بازخوردی برای اصلاح اشتباهاتی که توسط سیستم CBIR انجام می شود، مورد استفاده قرار گرفته است.چنین روند بازخورد زمانی پایان می یابد که تصاویر بازیابی شده کاربر را راضی کند. اندازه گیری فاصله بین تصاویر یک تابعی است که از عمکرد کاربر ناشی می شود و شامل تجربه او در طول زمان زندگی است. لذا استفاده از کاربر به منظور افزایش دقت در سیستم های بازیابی ضروری است.

دو نوع اصلی از رویکردهای مبتنی بر RF برای CBIR در مقالات  وجود دارد: قیاسی[9] و پیشگیرانه[10].

در روش قیاسی از یک طبقه بندی آموزش نظارت شده استافده می شود تا با استفاده از آن اختلاف  بین تصاویر شناسایی شود  و در نهایت تصاویر را بر اساس آنها رتبه بندی می کنند.
اشکال عمده این روش ها تعداد محدود نمونه هایی است که توسط کاربر علامت گذاری شده است و مانع از طبقه بندی و درستی یادگیری مرزهای به منظور جداسازی تصاویر واقعی و غیر مرتبط است.  رویه های پیشگیرانه این مشکل را با استفاده از توزیع داده های بدون برچسب انجام می دهند. این رویکردها معمولا بر مبنای یادگیری چند لایه ای است. رویکرد دیگر روشی است  که از داده های بدون برچسب برای اندازه گیری ارتباط بین تصویر پرس و جو و تصاویر پایگاه داده استفاده می کند. در این مقاله، یک سیستم CBIR جدید بر اساس RF پیشنهاد شده است. در این سیستم از ویژگی های ارائه شده برای تصاویر در روش  NSCT استفاده شده است که یک روش تجزیه تصویر چند منظوره، چند جهته و تغییر پذیر است. پس از مرحله استخراج ویژگی، از روش  MICI[11] که روش غیر نظارت شده است  برای انتخاب زیر مجموعه ای از ویژگی های بهینه استفاده می شود که در آن ابعاد داده  کاهش یافته و به طور ضمنی بخشی از نویز نیز مهار می شود. سپس یک رویکرد رتبه بندی مبتنی بر گراف، که از اطلاعات RF استفاده می کند مورد بهره برداری قرار می گیرد.

در این روش یک گراف اسپارس از تصاویر پایگاه داده و تصویر مورد جستجو تشکیل می شود که در آن گره ها تصاویر پایگاه داده بوده و وزن لبه ها مربوط به فاصله ی اقلیدسی بین ویژگیها می باشد.  برای دسته بندی تصاویر نزدیکترین همسایه استفاده شده است. برای تست این روش از
سه پایگاه داده SIMPLIcity دارای 1000 تصویر در 10 مجموعه و Oliva دارای 2600 تصویر در 8 مجموعه که هر مجموعه بین 260 تا 406 تصویر دارد و Caltech 256 که دارای 100 دسته بوده و هر دسته دارای 26 تصویر است استفاده شده که برتری نسبی بین روش این مقاله با سایر رویکردهای مختلف را نشان می دهد. در  بخش 2 این مقاله NSCT مطرح و توضیح داده می شود در بخش سوم مباحث مرتبط با تئوری گراف و در بخش چهارم  شرح مفصلی از RF توضیح داده شده است. سیستم CBIR پیشنهادی در بخش 5 توضیح داده شده و در نهایت در بخش 6 نتایج ارزیابی تجربی انجام شده مطرح می گردد ودر نهایت، در بخش 7 مقایسه با روش های قبلی و پیشنهادات آتی مورد بحث قرار می گیرد.

 

 

 

لینک دانلود مقاله

 

 



[1] Multi-scale Geometric Analysis

[2] Non-subsampled Contourlet Transform

[3] Wavelet Transform

[4] Multi-scale Geometric Analysis

[5] Contourlet Transform

[6] Non-Subsampled Contourlet Transform

[7] Non-Subsampled Pyramid

[8] Non-Subsampled Directional Filter Bank

[9] inductive

[10] transductive

[11] Maximal Information Compression Index

مقاله "بررسی تکنیک های استخراج ویژگی شکل"

این مقاله توسط مینگگیانگ یانگ، کیدیو پالما و جوزف رانسین در سال 2010 تهیه شده است و یک مقاله مروری است در خصوص بررسی تکنیک های موجود برای استخراج ویژگی های اشیاء به منظور شناسایی شباهت بین آنها و در نهایت طبقه بندی و دسته بندی اشیاء متناظر. از کنفوسیوس فیلسوف چینی از حدود 2500 سال قبل نقل شده که "یک تصویر به اندازه هزاران کلمه ارزش دارد."

در حال حاضر، قدرت کلمات به طور کلی شناخته و درک شده است. یک تصویر می تواند همانند یک جادو به سرعت یک داستان پیچیده و یا مجموعه ای از ایده ها را برای بیننده یادآوری نماید.

اطلاعات بصری نقش مهمی در جامعه ما ایفا می کند و نیاز به رشد بیشتر این منابع وجود دارد. تصاویر در بسیاری از زمینه های کاربردی مانند معماری، مد، روزنامه نگاری، تبلیغات، سرگرمی و غیره استفاده می شود. بنابراین این فرصت را برای ما فراهم می کند تا از فراوانی تصاویر استفاده کنیم. در مواجهه با این حجم عظیم از تصاویر رو به افزایش، نحوه جستجو و بازیابی تصاویری که ما به آنها علاقه مندیم  یک مشکل اصلی است از این رو نیاز به سیستم های بازیابی تصویر به وضوح احساس می شود. همانطور که می دانیم، ویژگی های بصری تصاویر، شرح محتوای آنها را ارائه می دهند. بازیابی تصویر مبتنی بر محتوا (CBIR) به عنوان یک راهکار امیدوارکننده برای بازیابی تصاویر و مرور تصاویر پایگاه داده های بزرگ به نظر می رسد.  CBIR موضوع انجام تحقیقات بسیاری در سال های اخیر بوده است که در واقع روند بازیابی تصاویر از یک مجموعه بر اساس ویژگی های آن تصویر است.

در این مقاله نویسنده بر ارائه رویکردهای موجود برای استخراج ویژگی های مبتنی بر شکل تمرکز دارد.
ویژگی های شفاف و اساسی مانند:

شناسایی: اشکالی که توسط انسان مشابه شناخته می شوند دارای ویژگی های مشابه و متفاوت با سایر اشیا هستند.

چرخش و تغییرمقیاس: مکان و چرخش شکل نباید بر ویژگی های استخراج شده تاثیر بگذارد.

مقاومت به نویز: ویژگی ها باید در برابر نویز مقاوم باشند.

زمانی که برخی از قسمت های یک شکل توسط اشیاء دیگر مسدود می شوند، ویژگی بخش باقی مانده نباید نسبت به شکل اصلی تغییر کند.

از لحاظ آماری مستقل: دو ویژگی باید از نظر آماری مستقل باشند و به هم وابستگی نداشته باشند.

قابلیت اعتماد: تا زمانی از یک الگواستفاده می شود ویژگی های استخراج شده نباید تغییر کنند و می بایست ثابت باید باقی بمانند.

 

به طور کلی، توصیف کننده شکل، مجموعه ای از اعداد است که برای توصیف یک ویژگی شکل مشخص تولید می شوند.
یک توصیفگر تلاش می کند تا شکل را با روش هایی که با حواس انسان مطابقت دارد و برای انسان قابل فهم است اندازه گیری کند. دقت بازیابی یک توصیفگر می بایست بتواند از یک پایگاه داده شکلهای مشابه را پیدا کند. معمولا توصیفگرها به صورت یک بردار هستند و توصیفگرهای شکل باید شرایط زیر را داشته باشند:

توصیفگرها باید تا حد ممکن کامل باشند تا محتوای آیتم های اطلاعاتی را بیان کنند.

توصیفگرها باید به صورت فشرده نمایش داده و ذخیره شوند. اندازه بردار توصیفگر نباید بیش از حد بزرگ باشد.

نحوه محاسبه توصیفگرها باید ساده باشد در غیر این صورت زمان اجرا برای شناسایی عناصر مشابه خیلی طول خواهد کشید.

 

استخراج ویژگی شکل نقش مهمی در دسته بندی های زیر دارد:

بازیابی شکل: جستجو برای تمام اشکال موجود در یک پایگاه داده که شبیه به شکل مورد جستجومی باشند. معمولا تمام اشکالی که  در یک فاصله معین از پرس و جو مشخص می شوند یا اولین شکل های که کوچکترین فاصله را دارند شناسایی و برگردانده می شوند.

تشخیص شکل و طبقه بندی: تعیین اینکه آیا شکل مشخصی با یک مدل مناسب مطابقت دارد و یا کدام یک از کلاس های نمایشی بیشترین شباهت را دارند.

موقعیت شکل و تثبیت آن: تبدیل یا ترجمه یک شکل به طوری که آن را به بهترین نحو با شکل دیگربه طور کامل و یا بخشی از آن مطابقت دهد

ساده سازی: ساخت یک شکل با عناصر کمتر که هنوز مشابه شکل اصلی باشد.

بسیاری از روش های اندازه گیری و تشریح شکل در گذشته توسعه یافته اند. تعدادی از تکنیک های جدید در سال های اخیر پیشنهاد شده است.

 

سه روش اصلی طبقه بندی متفاوت به شرح زیر وجود دارد:

روش های مبتنی بر محدوده و روش های مبتنی بر منطقه که این طبقه بندی رایج ترین روش طبقه بندی است و توسط MPEG-7 پیشنهاد شده است. و با استفاده از نقاط مرزی شکل در مقایسه با نقاط داخلی شکل مشخص می شود. در هر کلاس دارای چندین زیر کلاس می باشد که این زیر کلاس ها بیانگر این است که آیا شکل به صورت یک کل یا بخش نشان داده شده است.

دامنه فضایی و دامنه تبدیل: در روش ها در حوزه های فضایی، شکل ها را بر اساس نقاط و در تکنیک های مبتنی بر ویژگی مطابق شکل از بردار استفاده می شود.

حفاظت از اطلاعات  IP "Information Preserving"و عدم حفظ اطلاعات NIP "Non-Information Preserving" : روش های IP اجازه می دهد تا بازسازی دقیق شکل با استفاده از توصیفگرهای آن انجام شود در حالی که روش NIP تنها ما را قادر به بازسازی جزئی و مبهم آن می کند.

بر خلاف طبقه بندی سنتی، روش های استخراج و نمایش ویژگی های مبتنی بر شکل بر اساس روش پردازش آنها طبقه بندی می شوند. شکل زیر سلسله مراتب طبقه بندی و روش های استخراج ویژگی را نشان می دهد.

در ادامه نویسندگان به تشریح مختصر هر یک از روش ها و مفاهیم ذکر شده در شکل فوق پرداخته اند. در کل مطالعه این مقاله و منابع آن برای کسانی که تمایل به کار در این حوزه را دارند پیشنهاد می شود.


 لینک دانلود مقاله

مروری بر مقاله "رویکرد ترکیبی برای بازیابی تصاویر بر اساس محتوا برپایه بافت و رنگ"

حجم زیاد اطلاعات دیداری، اعم از داده هایی که در شبکه های داده رد و بدل می شوند و یا در پایگاه های اطلاعاتی ذخیره می شوند، باعث گردیده روشی های فشرده سازی اطلاعات دیداری گسترش و پیشرفت سریع داشته باشند و اغلب اطلاعات دیداری به آمده صورت فشرده در آیند. لذا روشی های بازیابی در حوزه فشرده سعی می کنند تا بدون غیر فشرده سازی کامل بردارهای ویژگی را استخراج کنند.

با گسترش روش های بازیابی بر اساس محتوا امروزه یک استاندارد بین المللی نیز در این زمینه به وجود آمده است که MPEG-7 نام دارد و آن را واسطه توصیفی محتوایی تصویری، صوتی و متن یا چند رسانه ای نیز می گویند.

اولین کار در زمینه بازیابی تصویر به دهه هفتاد برمی گردد. روش های اولیه بر روی ویژگی های دیداری تصویر عمل نمی کردند بلکه براساس توضیحات متنی انجام می گرفتند. به بیان دیگر اطلاعات موجود در تصویر توسط یک اپراتور انسانی به صورت متن در می آمد و متن استخراج شده از تصویر در پایگاه داده ذخیره می شد و عمل بازیابی براساس این متنها انجام می گرف. در سال 1992 بنیاد علوم ملی ایالات متحده، به منظور تعیین روش های جدید مدیریت پایگاه داده های تصاویر، کارگاهی را با موضوع سیستم های مدیریت اطلاعات دیداری برپا کرد. بسیاری از محققین گرایش های بینایی ماشین، مدیریت پایگاه داده، واسط کامپیوتر - انسان و بازیابی اطلاعات به این زمینه علاقه مند شدند. از آن به بعد تحقیقات در زمینه بازیابی تصویر براساس محتوا به سرعت پیشرفت کرد. بازیابی تصویر براساس محتوا، محتواهای دیداری موجود در یک تصویر مانند رنگ ، شکل  یا بافت را که دارای معنایی ضمنی در نزد شخص می باشند را به منظور بیان تصویر و نمایه گذاری آن مورد استفاده قرار می دهد.

معروف ترین و متداول ترین عمل بازیابی، بازیابی برای نمونه تصویر پرسش می باشد. در این روش، کاربر تصویری را به عنوان ورودی به سیستم ارائه می دهد که تصویر پرسش نام دارد.یک توصیف کننده محتوای دیداری می تواند سراسری یا محلی باشد. ویژگی های استخراج شده از تصویر به طور کلی به دو دسته سراسری و محلی طبقه بندی می شوند. ویژگی های سراسری مانند رنگ، بافت و شکل معمولا از کل تصویر استخراج میشوند. ویژگی های محلی تصویر به طور خاص از برخی از قطعات و یا نقاط کلیدی در تصویر مانند گوشه ها و لبه ها که معمولا توسط فرآیند تقسیم بندی به دست آمده استخراج می شوند.

متداول ترین ویژگی های سراسری استخراج شده در سیستم های بازیابی تصویر عبارتند از رنگ، بافت، شکل ومکان های فضایی.

رنگ یکی از ویژگی های بصری مقاوم به شمار می آید چرا که به جهت دوربین، اندازه و زاویه بستگی ندارد.

فضای RGB بیشترین استفاده را برای نمایش تصاویر دارد. این فضا از سه مؤلفه قرمز، سبز و آبی تشکیل  شده است که به این مؤلفه ها عناصر اولیه جمع شونده[1] گفته می شود. فضای CMY یک فضای رنگی برای چاپ است و سه مؤلفه تشکیل دهنده آن ارغوانی، فیروزهای و زرد می باشد. به این سه مؤلفه عناصر تفریق شونده [2]گفته می شود زیرا دراین فضا یک رنگ از جذب نور به دست می آید. فضای RGB و CMY غیر یکنواخت هستند. فضای HSV به طور وسیعی در گرافیک کامپیوتری مورد استفاده قرار می گیرد و برای توصیف رنگ بیش ترین درک رنگ را فراهم میکند. سه مؤلفه آن فام[3]، اشباع[4] یا روشنایی [5] و مقدار[6] یا درخشندگی [7] می باشد. فام نسبت به تغییرات روشنایی و جهت دوربین تغییر ناپذیر است. بنابراین برای بازیابی شی بسیارمناسب می باشد. فضای RGB به راحتی توسط یک رابطه ساده قابل تبدیل به HSV میباشد.

بعضی از توصیف کننده های رنگ مورد استفاده را بیان می کنیم: هیستوگرام رنگ، بردار به هم پیوستگی رنگ، پیوستگی نگاشت رنگ و گشتاورهای رنگ. ثابت شده است که گشتاورهای[8] مرتبه اول (میانگین)، مرتبه دوم(واریانس) و مرتبه سوم (چولگی[9] ) برای بیان پراکندگی رنگ تصاویر موثرترین روش هستند. هیستوگرام رنگ[10] و مشتقات آن یکی از مهم ترین بردارهای ویژگی برای رنگ می باشد.

 بازنمایی های دیگری مانند کارلوگرام رنگ[11] و کارلوگرام خودکار[12] نیز وجود دارد. به منظور استخراج کارلوگرام ابتدا تصویر ورودی در فضای RGB به 32 رنگ کوانتیزه می شود. یکی از محتواهای مهم دیگر تصاویر دیجیتال، بافت آنها است. اساس روش های توصیف بافت به دو دسته قابل تقسیم می باشند: ساختاری و آماری.

روش های ساختاری مانند اپراتورهای شکل شناسی و گراف همسایگی، بافت را با توجه به عناصر ساختاری و مکان آنها توصیف می کنند. روشهای آماری مانند انواع ویژگی های تامورا،ویژگی های وولد، طیف های فوریه، آنالیز مفاهیم تغییر ناپذیری جزء نسبت به چرخش، میدان تصادفی مارکوف، مدل انکساری و روش های فیلترینگ چند سطحی مثل فیلتر گابور و تبدیل موجک، بافت را با توجه به توزیع آماری شدت (اندازه) روشنایی پیکسلهای تصویر توصیف می کند.

ویژگی های تامورا[13] شامل زبری، کنتراست، جهت، شباهت خطوط، نظم، و ناهمواری، مطابق با مطالعات روانشناسی درباره قوه ادراک انسان از بافت طراحی شده اند که شامل سه مقیاس زبری، کنتراست و جهت می باشد.

ماتریس هم رخدادی سطح خاکستری که به ماتریس وابستگی فضایی سطح خاکستری نیز معروف ا ست، روشی است آماری که روابط فضایی پیکسلها را در نظر می گیرد و اولین بار توسط هارلیک معرفی شده است.

روش های توصیف شکل به دو گروه مبتنی بر مرز شکل های مستقیم الخط، تقریب چند گوشه ای، مدل های عامل کراندار و توصیف کننده های شکل مبتنی بر فوریه و روش های مبتنی بر ناحیه گشتاورهای آماری تقسیم می شوند که در این میان روش های مبتنی بر مدل های احتمالی مانند مدل مارکف بدلیل بارمحاسباتی بالا در بازیابی کمتر مورد استفاده قرار می گیرند.

توصیفگرهای محلی تصویر، اطلاعات محلی را با استفاده از نقاط کلیدی از برخی از قسمت های تصویر مانند نواحی، اشیاء مورد علاقه، لبه ها و یا گوشه ها توصیف می کنند.

معیارهای شباهت معمول برای بردارهای ویژگی مکانی برای شناسایی شباهت تصاویر عبارتند از:

فاصله مدل مینکوفسکی

فاصله مدل منشور قائم

فاصله ماهالانوبیس

واگرایی جفری و واگرایی کولبک لیبر

در مورد بازیابی ویدئو چند موضوع جستجو مطرح می گردد: الف: بازیابی ویدئوهای مشابه ب - بازیابی کلیپ های مشابه در ویدئوها ج- بازیابی شات های مشابه در ویدئوها د - بازیابی یک تصویر در میان ویدئوها. در بازیابی ویدئو، نیز مانند تصاویر ثابت موضوع مورد جستجو از طریق بردارهای ویژگی و معیارهای شباهت، نتایج عمل بازیابی ارائه می شود.

یکی دیگر از مهم ترین مباحث پس از تعیین مورد جستجو انجام عمل بازیابی برای سیستم های بازیابی ارزیابی عملکرد کارآیی یک روش بازیابی است. کارآیی یعنی اینکه تصاویری که سیستم یا عمل بازیابی به عنوان لیست مرتب بازیابی به کاربر ارائه داده است، چقدر نظر او را تامین می کند.

روشهای ایجاد تصویر پرسش که به طور متداول استفاده می شوند عبارتند از: جستجوبر اساس طبقه بندی [14]، جستجوی مفهومی[15]، جستجو با رسم[16]  و جستجوی موردی[17].

جستجوی موردی می تواند به دو نوع تقسیم شود. جستجوی موردی خارجی، زمانی که تصویر پرسش در پایگاه داده وجود نداشته باشد. جستجوی مورد داخلی، زمانی که تصویر پرسش در پایگاه داده وجود دارد. مهم ترین مزیب این روش این است که کاربر لازم نیست بیان دقیقی از ویژگی های تصویر پرسش ارائه کند، سیستم عملیات مربوط به آن را انجام می دهد. بیشتر سیستم های موجود از این روش استفاده می کنند.

کارآیی یک سیستم یا عمل بازیابی نشان می دهد که تا چه میزان سیستم در بازیابی تصاویر مرتبط با تصویرمورد جستجو موفق عمل کرده است و معیارهای آن عبارتند از:

الف مقایسه توسط کاربر

ب- معیارهای عددی

1-     رتبه بهترین نتیجه

2-     دقت و فراخوانی

3-     نرخ خطا

4-     قابلیت بازیابی

5-     متوسط نرخ نرمال بازیابی

6-     میانگین متوسط دقت

در یادگیری ماشین، بازشناسی الگو و پردازش تصویر، استخراج ویژگی از یک مجموعه از داده های اندازه گیری شده شروع شده و یک مجموعه داده مشتق شده ویژگی ها را تولید می کند که این ویژگی ها نمایانگر داده های اولیه اما با ابعاد کم تر و فاقد افزونگی هستند و عملیات بعدی را سادهتر می کنند.

ماشین بردار پشتیبان در دسته طبقه بندهای متمایزکننده قرار می گیرد. ایده اصلی بسیار ساده است؛ مرز جداکننده در جایی قرار می گیرد که بیشترین فاصله را تا نزدیک ترین نمونه های هر کدام از کلاس ها داشته باشد. در واقع در این روش مرز خطی بین دو کلاس به گونه ای محاسبه می شود که:

1- تمام نمونه های کلاس 1+ در یک طرف مرز و تمام نمونه های کلاس 1- در طرف دیگر مرز واقع شوند.

2- مرز تصمیم گیری به گونه ای باشد که فاصله نزدیک ترین نمونه های آموزشی هر دو کلاس از یکدیگر در راستای عمود بر مرز تصمیم گیری تا جایی که ممکن است حداکثر شود.

 مشکل بازیابی مبتنی بر محتوا عبارت است از وجود فاصله معنایی میان ویژگی های بصری سطح پایین و معانی موجود در تصاویر که به آن شکاف معنایی گفته می شود.

 

مراحل انجام کار در این مقاله عبارت است از:

1- استخراج ویژگی های رنگ شامل هیستوگرام رنگ، کارلوگرام و کارلوگرام الگوی دودویی محلی

2- استخراج ویژگی بافت

3- مرحله استخراج ویژگی به کمک الگوریتم های حوزه باز شناسی الگو

4- مرحله شناسایی با استفاده از طبقه بندی نزدیکترین همسایه

5-  ارزیابی سیستم



[1] additive

[2] subtractive

[3] Hue

[4] Saturation

[5] Lightness

[6] Value

[7] Brightness

[8] Color Moments

[9] Skewness

[10] Color Histogram

[11] color correlogram

[12] Auto correlogram

[13] Tamura

[14] Category Browsing

[15] Query by Concept

[16] Query by Sketch

[17] Query by example