CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

پایان نامه "Classification and Clustering of Vector Space Embedded Graphs"

این پایان نامه مربوط به آقای کسپر ریزن می باشد که در سال 2009 در دانشکده فلسفه و علوم طبیعی دانشگاه برن انجام شده است. با توجه به توانایی گراف ها برای نشان دادن خواص مشخصه ها و روابط دوتایی آنها استفاده از گراف در علوم مختلف مشاهده می شود. با این حال، نمودارها هنوز ساختار داده معمول در تشخیص الگو و زمینه های مرتبط را نشان نمی دهند واین به دو دلیل می باشد:

 اولا کار با گراف ها سخت از کار با بردارهای ویژگی است و حتی عملیات پایه ریاضی را نمی توان در یک روش استاندارد برای نمودار تعریف کرد.
ثانیا، زمانی که گراف ها به جای بردارهای ویژگی استفاده می شوند، افزایش قابل توجهی در پیچیدگی بسیاری از الگوریتم ها مشاهده می شود.
در نتیجه، تقریبا هیچ یک از روشهای استاندارد تشخیص الگو برای نمودارها بدون ایجاد تغییر در آنها استفاده نمی شود و لذا کمبود شدید در ابزارهای تشخیص الگو مبتنی بر گراف وجود دارد.

این پایان نامه مربوط به یک رویکرد اساسا جدید جهت به رسمیت شناختن الگوی مبتنی بر گراف بر اساس مکعب فضای بردار گراف است.
در این پایان نامه نویسنده قصد دارد تا قدرت بازنمایی بالا گراف ها را به یک بردار ویژگی های محاسباتی کارآمد و ریاضی قابل استفاده تبدیل کند. بر اساس تعبیه صریح نمودارها، کارکرد تشخیص الگو در نهایت اجرا می شود. از این رو، همه ابزارهای  الگوریتمی به راحتی برای داده های بردار موجود می تواند بر روی نمودارها اعمال شود. ایده کلیدی این است که تفاوت های یک گراف ورودی را به برخی از گراف های پیش نمونه ای به عنوان توصیف درونگر از گراف در نظر  گرفته شود. بدیهی است که با استفاده از این تعبیر، یک فضای بردار را بدست می آوریم که هر محور با یک گراف نمونه اولیه همراه است و مقادیر مختصات یک گراف تعبیه شده، فاصله این نمودار با نمونه های مشخص است.

چارچوب تعبیه گراف اساسا بر محاسبه اختلافات گراف متکی است. علیرغم شرایط سخت ریاضی و محاسباتی در دامنه گراف، روش های مختلفی برای ارزیابی عدم هماهنگی نمودار ها ارائه شده است. در این پایان نامه در واقع از مفهوم فاصله ویرایش گراف برای این کار استفاده می شود.
اساسا، فاصله ویرایش نمودار ها با هدف ایجاد یک اندازه گیری متقارن از تعداد و همچنین شناسایی اختلافات برای تبدیل یک گراف به گراف دیگر استفاده می شود. همانطور که معلوم است، فاصله ویرایش گراف با الزامات کاربردی طیف وسیعی از نمودارها را شامل شده و همچنین سازگاری با دامنه های مختلف دارد. با توجه به این انعطاف پذیری، روش پیشنهادی می تواند تقریبا به هر نوع نمودار اعمال شود. همانطور که در این پایان نامه قید شده، انتخاب نمونه های اولیه یک مسئله حیاتی است. زیرا نه تنها نمونه های اولیه، بلکه تعداد آنها بر روی نقشه گراف و در نتیجه عملکرد الگوریتم تشخیص الگوی مربوطه تاثیر می گذارد. در پایان نامه حاضر، انتخاب های مناسب نمونه اولیه با روش های مختلفی نظیر روش های انتخاب نمونه اولیه، الگوریتم های انتخاب ویژگی، روش های گروه بندی و چندین روش دیگر مورد توجه قرار می گیرند.

در یک بررسی تجربی قدرت و کاربرد چارچوب تعبیه گراف پیشنهادی به صورت تجربی بر روی مجموعه داده 10 نمودار با ویژگی های کاملا متفاوت تایید شده است. نمودار هایی وجود دارد که در برگیرنده اطلاعات نشانگرهای خطی، تصاویر خاکستری، ترکیبات مولکولی، پروتئین ها و صفحات HTML هستند. یافته های اصلی ارزیابی تجربی این است که روش جانمایی با استفاده از اختلافات با طبقه بندی متوالی یا خوشه بندی دارای پتانسیل بسیار بالایی نسبت به رویکردهای سنتی در تشخیص الگوهای مبتنی بر گرافیک است. در حقیقت، این روش بر روی بسیاری از مجموعه داده ها و سیستم هایی که به طور مستقیم بر روی اطلاعات متجانس گراف عمل می کنند بررسی و نتایج آن در اکثر موارد از لحاظ آماری معتبر می باشد.


لینک دانلود پایان نامه

پایان نامه "Image Classification using Bag of Visual Words and Novel COSFIRE"

این پایان نامه مربوط به متهیو گریج دانشجوی کارشناسی از دانشگاه مالتا بوده که در ماه می سال 2016 دفاع شده است.

وظیفه اصلی یک توصیفگر کلیدی این است که نقات کلیدی در یک تصویر را بر اساس فیلترهای COSFIRE که برای تشخیص کلید و تشخیص الگو استفاده می شود شناسایی نماید. یک نقطه کلیدی یک قسمت خاص در یک تصویر است که توسط یک آشکارساز کلیدی و مهم تلقی می شود. نقطه های شناسایی شده توسط توصیفگرهای بصری به طور موثری در مقابل تغییر در شرایط مختلف تصویر مقاوم بوده و نقطه های مختلف را شناسایی می کنند. تجزیه و تحلیل مدل BOVW(Bag of Visual Words) در این پایان نامه انجام شده و با بررسی هر مرحله از این مدل و انتخاب بهترین پیکربندی برای آن، استخراج و توصیف نقاط کلیدی تصویر شروع و در نهایت به طبقه بندی مجموعه داده های تصویرختم می شود. راه حل پیشنهادی، پارامترهای پیکربندی موجود را در نظر گرفته و از فیلترهای COSFIRE به طور موثری برای توصیف نقاط کلیدی استفاده می کنند.
پیکربندی های مختلف توصیفگر COSFIRE در این پروژه پیشنهاد شده و عملکرد آن با سایر توصیف گرهای موجود در [1] مورد ارزیابی قرار گرفته است. آزمایشات در شرایط تصویری مختلف مانند تغییر دید و یا تاری دید در نظر گرفته شده و نتایج آن مورد تحلیل و مقایسه با سایر روش ها قرار گرفته است. بهترین توصیفگر COSFIRE همراه با توصیفگر SIFT[2]   و و BRISK [3]استفاده شده و برای تعیین میزان دقت آنها از مدل BoVW  استفاده شده است. عملکرد توصیفگر COSFIRE-336 بهترین نتایج عملکرد را در بین روش های  پیشنهادی و مقایسه با عملکرد SIFT و توصیفگرهای BRISK برای شرایط تصویری مختلف در این پروژه بدست آورد. توصیفگر COSFIRE-336  در هنگام ارزیابی با استفاده از مدل BoVW، میزان دقت قابل توجهی را در یک مجموعه داده شامل 15 دسته مختلف به دست آورد. پیکربندی فیلتر COSFIRE هر نقطه کلید شناسایی شده در یک تصویر را به مجموعه ای از 4 مقدار مختلف (A,B,C,D) نسبت می دهد که این مجموعه با توجه به مقدار اطلاعاتی که برای هر عنصر کلیدی به دست می آید برای هر نقطه کلیدی با سایر نقاط متفاوت است.

با توجه به فیلترهای مختلف COSFIRE یک هیستوگرام برای هر متغیر برای هر مقدار از توصیفگر COSFIRE در نظر گرفته می شود. اولین هیستوگرام برای مقدار A است که تعداد 5 بین مختلف برای آن با مقادیر ذیل در نظر گرفته می شود


و برای پارامتر B مقدار 16 بین که مقادر آن از 0 تا 5.9 با گام 0.4 می باشد. سپس یک شبکه قطبی برای مکان های (A,B) به دست می آید شبکه قطبی به چندین بخش و حلقه از پیش تعریف شده تقسیم شده و چندین ناحیه را بسته به تعداد حلقه ها و بخش های مورد استفاده تولید می کند. اگر برای مثال، مقادیر بخش ها و حلقه ها برای توصیف کننده COSFIRE به ترتیب 4 و 1 باشد، 4 میدان قطبی را تولید می کند که در شکل زیر دیده می شود.


تنظیمات مختلفی بر روی توصیفگر COSFIRE انجام و ارزیابی شد.

اولین گام این روش شامل کسب اطلاعات MSER از هر تصویر است. این اطلاعات شامل مکان دکارتی و مقادیر پارامتر بیضی آن است (به خاطر اینکه ویژگی ها به شکل بیضی تشخیص داده می شوند). از آنجاییکه مناطق مختلف دارای مقادیر مختلف هستند لذا از ساختار کوواریانس افقی استفاده شده تا همه نواحی مناطق کلیدی را به شکل یک حلقه دایره ای با شعاع ثابت تبدیل کند که نتایج آن در شکل ذیل دیده می شود



این توصیفگر همراه با توصیفگر SIFT در مدل طبقه بندی تصویر BoVW برای تجزیه و تحلیل عملکرد و در نهایت تولید و اختصاص کدهایی که در برای تعریف تصاویر از مجموعه داده انتخاب شده است، اجرا می شود.

دسته بندی ها از مجموعه داده Caltech  انتخاب شده که حداقل 108 تصویر درهر دسته وجود دارد و از مجموعه بزرگی برای داده های آموزشی  استفاده شده تا نتیجه بهتری به دست آید. برای این منظور هر طبقه بندی به دو بخش، آموزش و مجموعه داده های آزمایشی تقسیم می شود که در آن نسبت 70 تصویر برای آموزش و 38  عکس برای آزمایش است.

آشکارساز ویژگی [2] که در این مدل طبقه بندی استفاده می شود، عمدتا توسط 3  پارامتر Peak Thresh، Edge Thresh وFirst Octave Index کنترل می شود

به طور پیش فرض، آشکارساز فضای مقیاس هر تصویر را با رزولوشن کامل شروع می کند. شاخص First Octave Index را عدد -1 در نظر گرفته تا فضای مقیاس با وضوح بالاتر بررسی شود و از این رو ویژگی های بسیار کوچک استخراج می شوند.

Edge Thresh  قله های فضای مقیاسرا  DoG (Difference ofGaussian) حذف می کند که انحنای آن ناچیز است و در این پروژه آن را 60 انتخاب کرده اند.

Peak Thresh قله های فضایی مقیاس گاوس DoG را که ارزش کمی دارند، حذف می کند و مقدار آن 5 در نظر گرفته شده است. سپس تصویر به فضای NxN  تقسیم می شودو هیستوگرام آنها به دست می آید. سپس هیستوگرام تمام بخش ها با یکدیگر ترکیب می شوند تا یک هیستوگرام کلی برای نشان دادن تصویر ایجاد شود. این هیستوگرام پس از آن به طول واحد نرمال می شود. سپس از SVM  برای طبقه بندی تصاویر با استفاده از هیستوگرام آنها استفاده شده است. که نتیجه آن در شکل ذیل دیده می شود.



لینک دانلود پایان نامه

 

 
منابع

 

[1] K. Mikolajczyk and C. Schmid, “A performance evaluation of local descriptors,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 27, no. 10, pp. 1615–1630, 2005.

 

[2] D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” International journal of computer vision, vol. 60, no. 2, pp. 91–110, 2004.


[3] S. Leutenegger, M. Chli, and R. Y. Siegwart, “Brisk: Binary robust invariant scalable keypoints,” in Computer Vision (ICCV), 2011 IEEE International Conference on, pp. 2548–2555, IEEE, 2011.