CBIR: Content Based Image Retrieval

پایان نامه "Image Classification using Bag of Visual Words and Novel COSFIRE"

این پایان نامه مربوط به متهیو گریج دانشجوی کارشناسی از دانشگاه مالتا بوده که در ماه می سال 2016 دفاع شده است.

وظیفه اصلی یک توصیفگر کلیدی این است که نقات کلیدی در یک تصویر را بر اساس فیلترهای COSFIRE که برای تشخیص کلید و تشخیص الگو استفاده می شود شناسایی نماید. یک نقطه کلیدی یک قسمت خاص در یک تصویر است که توسط یک آشکارساز کلیدی و مهم تلقی می شود. نقطه های شناسایی شده توسط توصیفگرهای بصری به طور موثری در مقابل تغییر در شرایط مختلف تصویر مقاوم بوده و نقطه های مختلف را شناسایی می کنند. تجزیه و تحلیل مدل BOVW(Bag of Visual Words) در این پایان نامه انجام شده و با بررسی هر مرحله از این مدل و انتخاب بهترین پیکربندی برای آن، استخراج و توصیف نقاط کلیدی تصویر شروع و در نهایت به طبقه بندی مجموعه داده های تصویرختم می شود. راه حل پیشنهادی، پارامترهای پیکربندی موجود را در نظر گرفته و از فیلترهای COSFIRE به طور موثری برای توصیف نقاط کلیدی استفاده می کنند.
پیکربندی های مختلف توصیفگر COSFIRE در این پروژه پیشنهاد شده و عملکرد آن با سایر توصیف گرهای موجود در [1] مورد ارزیابی قرار گرفته است. آزمایشات در شرایط تصویری مختلف مانند تغییر دید و یا تاری دید در نظر گرفته شده و نتایج آن مورد تحلیل و مقایسه با سایر روش ها قرار گرفته است. بهترین توصیفگر COSFIRE همراه با توصیفگر SIFT[2]   و و BRISK [3]استفاده شده و برای تعیین میزان دقت آنها از مدل BoVW  استفاده شده است. عملکرد توصیفگر COSFIRE-336 بهترین نتایج عملکرد را در بین روش های  پیشنهادی و مقایسه با عملکرد SIFT و توصیفگرهای BRISK برای شرایط تصویری مختلف در این پروژه بدست آورد. توصیفگر COSFIRE-336  در هنگام ارزیابی با استفاده از مدل BoVW، میزان دقت قابل توجهی را در یک مجموعه داده شامل 15 دسته مختلف به دست آورد. پیکربندی فیلتر COSFIRE هر نقطه کلید شناسایی شده در یک تصویر را به مجموعه ای از 4 مقدار مختلف (A,B,C,D) نسبت می دهد که این مجموعه با توجه به مقدار اطلاعاتی که برای هر عنصر کلیدی به دست می آید برای هر نقطه کلیدی با سایر نقاط متفاوت است.

با توجه به فیلترهای مختلف COSFIRE یک هیستوگرام برای هر متغیر برای هر مقدار از توصیفگر COSFIRE در نظر گرفته می شود. اولین هیستوگرام برای مقدار A است که تعداد 5 بین مختلف برای آن با مقادیر ذیل در نظر گرفته می شود


و برای پارامتر B مقدار 16 بین که مقادر آن از 0 تا 5.9 با گام 0.4 می باشد. سپس یک شبکه قطبی برای مکان های (A,B) به دست می آید شبکه قطبی به چندین بخش و حلقه از پیش تعریف شده تقسیم شده و چندین ناحیه را بسته به تعداد حلقه ها و بخش های مورد استفاده تولید می کند. اگر برای مثال، مقادیر بخش ها و حلقه ها برای توصیف کننده COSFIRE به ترتیب 4 و 1 باشد، 4 میدان قطبی را تولید می کند که در شکل زیر دیده می شود.


تنظیمات مختلفی بر روی توصیفگر COSFIRE انجام و ارزیابی شد.

اولین گام این روش شامل کسب اطلاعات MSER از هر تصویر است. این اطلاعات شامل مکان دکارتی و مقادیر پارامتر بیضی آن است (به خاطر اینکه ویژگی ها به شکل بیضی تشخیص داده می شوند). از آنجاییکه مناطق مختلف دارای مقادیر مختلف هستند لذا از ساختار کوواریانس افقی استفاده شده تا همه نواحی مناطق کلیدی را به شکل یک حلقه دایره ای با شعاع ثابت تبدیل کند که نتایج آن در شکل ذیل دیده می شود



این توصیفگر همراه با توصیفگر SIFT در مدل طبقه بندی تصویر BoVW برای تجزیه و تحلیل عملکرد و در نهایت تولید و اختصاص کدهایی که در برای تعریف تصاویر از مجموعه داده انتخاب شده است، اجرا می شود.

دسته بندی ها از مجموعه داده Caltech  انتخاب شده که حداقل 108 تصویر درهر دسته وجود دارد و از مجموعه بزرگی برای داده های آموزشی  استفاده شده تا نتیجه بهتری به دست آید. برای این منظور هر طبقه بندی به دو بخش، آموزش و مجموعه داده های آزمایشی تقسیم می شود که در آن نسبت 70 تصویر برای آموزش و 38  عکس برای آزمایش است.

آشکارساز ویژگی [2] که در این مدل طبقه بندی استفاده می شود، عمدتا توسط 3  پارامتر Peak Thresh، Edge Thresh وFirst Octave Index کنترل می شود

به طور پیش فرض، آشکارساز فضای مقیاس هر تصویر را با رزولوشن کامل شروع می کند. شاخص First Octave Index را عدد -1 در نظر گرفته تا فضای مقیاس با وضوح بالاتر بررسی شود و از این رو ویژگی های بسیار کوچک استخراج می شوند.

Edge Thresh  قله های فضای مقیاسرا  DoG (Difference ofGaussian) حذف می کند که انحنای آن ناچیز است و در این پروژه آن را 60 انتخاب کرده اند.

Peak Thresh قله های فضایی مقیاس گاوس DoG را که ارزش کمی دارند، حذف می کند و مقدار آن 5 در نظر گرفته شده است. سپس تصویر به فضای NxN  تقسیم می شودو هیستوگرام آنها به دست می آید. سپس هیستوگرام تمام بخش ها با یکدیگر ترکیب می شوند تا یک هیستوگرام کلی برای نشان دادن تصویر ایجاد شود. این هیستوگرام پس از آن به طول واحد نرمال می شود. سپس از SVM  برای طبقه بندی تصاویر با استفاده از هیستوگرام آنها استفاده شده است. که نتیجه آن در شکل ذیل دیده می شود.



لینک دانلود پایان نامه

 

 
منابع

 

[1] K. Mikolajczyk and C. Schmid, “A performance evaluation of local descriptors,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 27, no. 10, pp. 1615–1630, 2005.

 

[2] D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” International journal of computer vision, vol. 60, no. 2, pp. 91–110, 2004.


[3] S. Leutenegger, M. Chli, and R. Y. Siegwart, “Brisk: Binary robust invariant scalable keypoints,” in Computer Vision (ICCV), 2011 IEEE International Conference on, pp. 2548–2555, IEEE, 2011.

معرفی کتاب "داده کاوی چند رسانه ای، محاسبات نرم و بیوانفورماتیک"


کتاب داده کاوی چند رسانه ای، محاسبات نرم و بیوانفورماتیک توسط ساشمیتا میترا و تینکو و در انتشارات جان وایلی و پسران در سال 2003 منتشر شده است. انقلاب دیجیتال و رشد اینترنت، باعث شده که حجم زیادی از اطلاعات چند رسانه ای در اطراف ما بوجود آید. این اطلاعات اغلب مخلوط هستند و شامل انواع مختلفی از داده ها مانند متن، تصویر، صوت، گفتار، گرافیک و تصاویر ویدئویی اند که به یکدیگر متصل می شوند. شبکه جهانی وب نقش مهمی در ایجاد داده ها، از نقاط جغرافیایی مختلف داشته و به راحتی برای همه کاربران در سراسر جهان در دسترس است. با این حال، اغلب این اطلاعات برای اکثر کاربران  جذابیت ندارند. مشکل این است که چگونه اطلاعات مفید یا الگوهای مفید را از مجموعه داده های بزرگ استخراج کنیم. داده کاوی به این فرآیند استخراج دانش مربوط می شود.

داده کاوی یک منطقه در حال رشد و توسعه هم در دانشگاه و هم در صنعت است و شامل تحقیقات بین رشته ای و توسعه در حوزه های گوناگون می شود. در زمان حاضر اکتشاف داده های چندرسانه ای و داده کاوی نباید صرفا محدود به استخراج دانش از حجم زیادی از مجموعه داده های با ابعاد بزرگ در پایگاه داده های سنتی باشد. محققان باید به استخراج انواع داده های مختلف، از جمله فرمت های عددی و الفبایی، متن، تصاویر، ویدئو، صدا، سخنرانی، گرافیک بپردازند. کارآیی پایگاههای اطلاعاتی بسیار بزرگ از عملکرد سیستم های داده کاوی آن تأثیر می پذیرد
و در این زمینه فن آوری های فشرده سازی داده ها می توانند نقش مهمی ایفا کند.

با تکمیل پروژه ژنوم انسان، ما دسترسی به پایگاه داده های بزرگ اطلاعات بیولوژیکی را داریم. تجزیه و تحلیل مناسب چنین اطلاعات عظیمی، شامل رمزگشایی ژن ها در DNA و ساختار پروتئینی سه بعدی، در بیوانفورماتیک بسیار مهم است و کاربرد داده کاوی در این حوزه با توجه به چشم انداز نجات انسان در طراحی دارو حائز اهمیت می باشد و مورد توجه بسیار صنعت داروسازی است. هدف از داده کاوی این است که به جای یک راه حل ارزان قیمت، بهترین راه حل با هزینه ای ارزان و مناسب به دست آید. در این راستا مجموعه های فازی، برای عدم قطعیت است  که ذاتا در استدلال های انسانی وجود دارد و شبکه های عصبی مصنوعی برای یادگیری و به حداقل رساندن خطا می باشند.
ما همیشه با مفاهیم و کارکردهای داده کاوی، مانند طبقه بندی، خوشه بندی و قوانین در برنامه های کاربردی چند رسانه ای و بیوانفورماتیک درگیرهستیم.

فصل اول مقدمه ای بر داده کاوی است و شامل توضیحاتی در رابطه با کشف دانش و داده کاوی، فشرده سازی دیتا، بازیابی اطلاعات، خوشه بندی و دسته بندی و مقایسه رشته ها، دیتاورهاوس و استخراج متن و تصاویر می باشد.

در فصل دوم با بحث در مورد محاسبات نرم و ابزارهای مختلف آن، از جمله مجموعه های فازی، شبکه های عصبی مصنوعی، الگوریتم های ژنتیک، تبدیل های موجک، مجموعه های سخت و ترکیبیات آنها همراه با نقش آنها در داده کاوی، دنبال می شود. سپس برخی از موضوعات پیشرفته و جنبه های جدید داده کاوی مربوط به پردازش و بازیابی داده های چند رسانه ای ارائه می شود. این برنامه های کاربردی مستقیم با بازیابی اطلاعات و استخراج متن دارند.

فصل سوم کتاب در خصوص فشرده سازی اطلاعات مالتی مدیا (چند رسانه ای) بحث شده است. روش فشرده سازی استاندارد تصاویر JPEG و الگوریتم های LZ77 و LZ78 و LZW برای فشرده سازی متن مورد مطالعه قرار گرفته است.

فصل چهارم کتاب در رابطه با تطبیق رشته ای و مشکلات آن بحث می کند. الگوریتم های تطبیق رشته خطی مانند کارپ - رابین و بویر- مور مورد بحث قرار گرفته است.

در فصل پنجم در خصوص طبقه بندی در داده کاوی بحث شده و روش های آن مورد مطالعه قرار گرفته است که می توان به روش ID3 ، جنگل بارانی، روش بیزین، نزدیک ترین همسایه ، کوتاهترین مسیر و درخت تصمیم فازی اشاره نمود.

در فصل ششم در رابطه با خوشه بندی در داده کاوی بحث شده است. در این فصل در خصوص اشیاءو Object های عددی، باینری و دسته بندی آنها بحث شده است. خوشبه بندی سلسله مراتبی و الگوریتم های مختلف از جمله C-mode در این بخش بحث شده است.

در فصل هفتم در خصوص قوانین انجمنی ، الگوریتم Priori و قوانین انجمنی فازی بحث می شود.

فصل هشتم در خصوص روش های استخراج با استفاده از محاسبات نرم بحث می شود در این قسمت روش های مدل شبکه عصبی فازی، شبکه عصبی و MLP مورد مطالعه قرارمی گیرد.

در فصل نهم نویسنده در خصوص داده کاوی دیتا های چند رسانه ای بحث می کند. در این بخش نویسنده تکنیک های مربوط به بازیابی متن ، آنالیز متن و بازیابی آن، جستجو بر اساس کلمات کلیدی و بازیابی متن صحبت می کند. نگارنده در این قسمت مسائل مربوط به داده کاوی بر روی تصاویر، بازیابی تصویر بر اساس محتوا، ویژگی های رنگ، بافت و شکل اشاره و آنها را مورد بررسی قرار می دهد. همچنین در این قسمت به روش کاوش ویدئو و MPEG-7 اشاره دارد. در پایان نیز روش کاوش وب و موتورهای جستجو مورد بحث قرار میگیرد.

فصل دهم روش های بیو انفورماتیک مورد مطالعه قرار گرفته و استفاده از آمینو اسید ها و پروتئین ها و ساختار آنها برای کاوش و روش های محاسبات نرم مطالبی ارائه شده است.

 

لینک دانلود کتاب

معرفی کتاب"شناسایی تصویر و طبقه بندی، الگوریتم ها،سیستم ها و برنامه های کاربردی"