CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

پایان نامه "Image Classification using Bag of Visual Words and Novel COSFIRE"

این پایان نامه مربوط به متهیو گریج دانشجوی کارشناسی از دانشگاه مالتا بوده که در ماه می سال 2016 دفاع شده است.

وظیفه اصلی یک توصیفگر کلیدی این است که نقات کلیدی در یک تصویر را بر اساس فیلترهای COSFIRE که برای تشخیص کلید و تشخیص الگو استفاده می شود شناسایی نماید. یک نقطه کلیدی یک قسمت خاص در یک تصویر است که توسط یک آشکارساز کلیدی و مهم تلقی می شود. نقطه های شناسایی شده توسط توصیفگرهای بصری به طور موثری در مقابل تغییر در شرایط مختلف تصویر مقاوم بوده و نقطه های مختلف را شناسایی می کنند. تجزیه و تحلیل مدل BOVW(Bag of Visual Words) در این پایان نامه انجام شده و با بررسی هر مرحله از این مدل و انتخاب بهترین پیکربندی برای آن، استخراج و توصیف نقاط کلیدی تصویر شروع و در نهایت به طبقه بندی مجموعه داده های تصویرختم می شود. راه حل پیشنهادی، پارامترهای پیکربندی موجود را در نظر گرفته و از فیلترهای COSFIRE به طور موثری برای توصیف نقاط کلیدی استفاده می کنند.
پیکربندی های مختلف توصیفگر COSFIRE در این پروژه پیشنهاد شده و عملکرد آن با سایر توصیف گرهای موجود در [1] مورد ارزیابی قرار گرفته است. آزمایشات در شرایط تصویری مختلف مانند تغییر دید و یا تاری دید در نظر گرفته شده و نتایج آن مورد تحلیل و مقایسه با سایر روش ها قرار گرفته است. بهترین توصیفگر COSFIRE همراه با توصیفگر SIFT[2]   و و BRISK [3]استفاده شده و برای تعیین میزان دقت آنها از مدل BoVW  استفاده شده است. عملکرد توصیفگر COSFIRE-336 بهترین نتایج عملکرد را در بین روش های  پیشنهادی و مقایسه با عملکرد SIFT و توصیفگرهای BRISK برای شرایط تصویری مختلف در این پروژه بدست آورد. توصیفگر COSFIRE-336  در هنگام ارزیابی با استفاده از مدل BoVW، میزان دقت قابل توجهی را در یک مجموعه داده شامل 15 دسته مختلف به دست آورد. پیکربندی فیلتر COSFIRE هر نقطه کلید شناسایی شده در یک تصویر را به مجموعه ای از 4 مقدار مختلف (A,B,C,D) نسبت می دهد که این مجموعه با توجه به مقدار اطلاعاتی که برای هر عنصر کلیدی به دست می آید برای هر نقطه کلیدی با سایر نقاط متفاوت است.

با توجه به فیلترهای مختلف COSFIRE یک هیستوگرام برای هر متغیر برای هر مقدار از توصیفگر COSFIRE در نظر گرفته می شود. اولین هیستوگرام برای مقدار A است که تعداد 5 بین مختلف برای آن با مقادیر ذیل در نظر گرفته می شود


و برای پارامتر B مقدار 16 بین که مقادر آن از 0 تا 5.9 با گام 0.4 می باشد. سپس یک شبکه قطبی برای مکان های (A,B) به دست می آید شبکه قطبی به چندین بخش و حلقه از پیش تعریف شده تقسیم شده و چندین ناحیه را بسته به تعداد حلقه ها و بخش های مورد استفاده تولید می کند. اگر برای مثال، مقادیر بخش ها و حلقه ها برای توصیف کننده COSFIRE به ترتیب 4 و 1 باشد، 4 میدان قطبی را تولید می کند که در شکل زیر دیده می شود.


تنظیمات مختلفی بر روی توصیفگر COSFIRE انجام و ارزیابی شد.

اولین گام این روش شامل کسب اطلاعات MSER از هر تصویر است. این اطلاعات شامل مکان دکارتی و مقادیر پارامتر بیضی آن است (به خاطر اینکه ویژگی ها به شکل بیضی تشخیص داده می شوند). از آنجاییکه مناطق مختلف دارای مقادیر مختلف هستند لذا از ساختار کوواریانس افقی استفاده شده تا همه نواحی مناطق کلیدی را به شکل یک حلقه دایره ای با شعاع ثابت تبدیل کند که نتایج آن در شکل ذیل دیده می شود



این توصیفگر همراه با توصیفگر SIFT در مدل طبقه بندی تصویر BoVW برای تجزیه و تحلیل عملکرد و در نهایت تولید و اختصاص کدهایی که در برای تعریف تصاویر از مجموعه داده انتخاب شده است، اجرا می شود.

دسته بندی ها از مجموعه داده Caltech  انتخاب شده که حداقل 108 تصویر درهر دسته وجود دارد و از مجموعه بزرگی برای داده های آموزشی  استفاده شده تا نتیجه بهتری به دست آید. برای این منظور هر طبقه بندی به دو بخش، آموزش و مجموعه داده های آزمایشی تقسیم می شود که در آن نسبت 70 تصویر برای آموزش و 38  عکس برای آزمایش است.

آشکارساز ویژگی [2] که در این مدل طبقه بندی استفاده می شود، عمدتا توسط 3  پارامتر Peak Thresh، Edge Thresh وFirst Octave Index کنترل می شود

به طور پیش فرض، آشکارساز فضای مقیاس هر تصویر را با رزولوشن کامل شروع می کند. شاخص First Octave Index را عدد -1 در نظر گرفته تا فضای مقیاس با وضوح بالاتر بررسی شود و از این رو ویژگی های بسیار کوچک استخراج می شوند.

Edge Thresh  قله های فضای مقیاسرا  DoG (Difference ofGaussian) حذف می کند که انحنای آن ناچیز است و در این پروژه آن را 60 انتخاب کرده اند.

Peak Thresh قله های فضایی مقیاس گاوس DoG را که ارزش کمی دارند، حذف می کند و مقدار آن 5 در نظر گرفته شده است. سپس تصویر به فضای NxN  تقسیم می شودو هیستوگرام آنها به دست می آید. سپس هیستوگرام تمام بخش ها با یکدیگر ترکیب می شوند تا یک هیستوگرام کلی برای نشان دادن تصویر ایجاد شود. این هیستوگرام پس از آن به طول واحد نرمال می شود. سپس از SVM  برای طبقه بندی تصاویر با استفاده از هیستوگرام آنها استفاده شده است. که نتیجه آن در شکل ذیل دیده می شود.



لینک دانلود پایان نامه

 

 
منابع

 

[1] K. Mikolajczyk and C. Schmid, “A performance evaluation of local descriptors,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 27, no. 10, pp. 1615–1630, 2005.

 

[2] D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” International journal of computer vision, vol. 60, no. 2, pp. 91–110, 2004.


[3] S. Leutenegger, M. Chli, and R. Y. Siegwart, “Brisk: Binary robust invariant scalable keypoints,” in Computer Vision (ICCV), 2011 IEEE International Conference on, pp. 2548–2555, IEEE, 2011.

معرفی کتاب "داده کاوی چند رسانه ای، محاسبات نرم و بیوانفورماتیک"


کتاب داده کاوی چند رسانه ای، محاسبات نرم و بیوانفورماتیک توسط ساشمیتا میترا و تینکو و در انتشارات جان وایلی و پسران در سال 2003 منتشر شده است. انقلاب دیجیتال و رشد اینترنت، باعث شده که حجم زیادی از اطلاعات چند رسانه ای در اطراف ما بوجود آید. این اطلاعات اغلب مخلوط هستند و شامل انواع مختلفی از داده ها مانند متن، تصویر، صوت، گفتار، گرافیک و تصاویر ویدئویی اند که به یکدیگر متصل می شوند. شبکه جهانی وب نقش مهمی در ایجاد داده ها، از نقاط جغرافیایی مختلف داشته و به راحتی برای همه کاربران در سراسر جهان در دسترس است. با این حال، اغلب این اطلاعات برای اکثر کاربران  جذابیت ندارند. مشکل این است که چگونه اطلاعات مفید یا الگوهای مفید را از مجموعه داده های بزرگ استخراج کنیم. داده کاوی به این فرآیند استخراج دانش مربوط می شود.

داده کاوی یک منطقه در حال رشد و توسعه هم در دانشگاه و هم در صنعت است و شامل تحقیقات بین رشته ای و توسعه در حوزه های گوناگون می شود. در زمان حاضر اکتشاف داده های چندرسانه ای و داده کاوی نباید صرفا محدود به استخراج دانش از حجم زیادی از مجموعه داده های با ابعاد بزرگ در پایگاه داده های سنتی باشد. محققان باید به استخراج انواع داده های مختلف، از جمله فرمت های عددی و الفبایی، متن، تصاویر، ویدئو، صدا، سخنرانی، گرافیک بپردازند. کارآیی پایگاههای اطلاعاتی بسیار بزرگ از عملکرد سیستم های داده کاوی آن تأثیر می پذیرد
و در این زمینه فن آوری های فشرده سازی داده ها می توانند نقش مهمی ایفا کند.

با تکمیل پروژه ژنوم انسان، ما دسترسی به پایگاه داده های بزرگ اطلاعات بیولوژیکی را داریم. تجزیه و تحلیل مناسب چنین اطلاعات عظیمی، شامل رمزگشایی ژن ها در DNA و ساختار پروتئینی سه بعدی، در بیوانفورماتیک بسیار مهم است و کاربرد داده کاوی در این حوزه با توجه به چشم انداز نجات انسان در طراحی دارو حائز اهمیت می باشد و مورد توجه بسیار صنعت داروسازی است. هدف از داده کاوی این است که به جای یک راه حل ارزان قیمت، بهترین راه حل با هزینه ای ارزان و مناسب به دست آید. در این راستا مجموعه های فازی، برای عدم قطعیت است  که ذاتا در استدلال های انسانی وجود دارد و شبکه های عصبی مصنوعی برای یادگیری و به حداقل رساندن خطا می باشند.
ما همیشه با مفاهیم و کارکردهای داده کاوی، مانند طبقه بندی، خوشه بندی و قوانین در برنامه های کاربردی چند رسانه ای و بیوانفورماتیک درگیرهستیم.

فصل اول مقدمه ای بر داده کاوی است و شامل توضیحاتی در رابطه با کشف دانش و داده کاوی، فشرده سازی دیتا، بازیابی اطلاعات، خوشه بندی و دسته بندی و مقایسه رشته ها، دیتاورهاوس و استخراج متن و تصاویر می باشد.

در فصل دوم با بحث در مورد محاسبات نرم و ابزارهای مختلف آن، از جمله مجموعه های فازی، شبکه های عصبی مصنوعی، الگوریتم های ژنتیک، تبدیل های موجک، مجموعه های سخت و ترکیبیات آنها همراه با نقش آنها در داده کاوی، دنبال می شود. سپس برخی از موضوعات پیشرفته و جنبه های جدید داده کاوی مربوط به پردازش و بازیابی داده های چند رسانه ای ارائه می شود. این برنامه های کاربردی مستقیم با بازیابی اطلاعات و استخراج متن دارند.

فصل سوم کتاب در خصوص فشرده سازی اطلاعات مالتی مدیا (چند رسانه ای) بحث شده است. روش فشرده سازی استاندارد تصاویر JPEG و الگوریتم های LZ77 و LZ78 و LZW برای فشرده سازی متن مورد مطالعه قرار گرفته است.

فصل چهارم کتاب در رابطه با تطبیق رشته ای و مشکلات آن بحث می کند. الگوریتم های تطبیق رشته خطی مانند کارپ - رابین و بویر- مور مورد بحث قرار گرفته است.

در فصل پنجم در خصوص طبقه بندی در داده کاوی بحث شده و روش های آن مورد مطالعه قرار گرفته است که می توان به روش ID3 ، جنگل بارانی، روش بیزین، نزدیک ترین همسایه ، کوتاهترین مسیر و درخت تصمیم فازی اشاره نمود.

در فصل ششم در رابطه با خوشه بندی در داده کاوی بحث شده است. در این فصل در خصوص اشیاءو Object های عددی، باینری و دسته بندی آنها بحث شده است. خوشبه بندی سلسله مراتبی و الگوریتم های مختلف از جمله C-mode در این بخش بحث شده است.

در فصل هفتم در خصوص قوانین انجمنی ، الگوریتم Priori و قوانین انجمنی فازی بحث می شود.

فصل هشتم در خصوص روش های استخراج با استفاده از محاسبات نرم بحث می شود در این قسمت روش های مدل شبکه عصبی فازی، شبکه عصبی و MLP مورد مطالعه قرارمی گیرد.

در فصل نهم نویسنده در خصوص داده کاوی دیتا های چند رسانه ای بحث می کند. در این بخش نویسنده تکنیک های مربوط به بازیابی متن ، آنالیز متن و بازیابی آن، جستجو بر اساس کلمات کلیدی و بازیابی متن صحبت می کند. نگارنده در این قسمت مسائل مربوط به داده کاوی بر روی تصاویر، بازیابی تصویر بر اساس محتوا، ویژگی های رنگ، بافت و شکل اشاره و آنها را مورد بررسی قرار می دهد. همچنین در این قسمت به روش کاوش ویدئو و MPEG-7 اشاره دارد. در پایان نیز روش کاوش وب و موتورهای جستجو مورد بحث قرار میگیرد.

فصل دهم روش های بیو انفورماتیک مورد مطالعه قرار گرفته و استفاده از آمینو اسید ها و پروتئین ها و ساختار آنها برای کاوش و روش های محاسبات نرم مطالبی ارائه شده است.

 

لینک دانلود کتاب

معرفی کتاب"شناسایی تصویر و طبقه بندی، الگوریتم ها،سیستم ها و برنامه های کاربردی"


شناسایی تصویر و طبقه بندی آن یکی از پرجاذبه ترین زمینه ها در علوم تصویربرداری و مهندسی است. توانایی جایگزینی قابلیت های بصری انسان با یک ماشین بسیار مهم است و کاربردهای متنوعی دارد. ایده اصلی این است که با پردازش داده های به دست آمده از سنسور، صحنه تصویر را بررسی کنیم. چنین دستگاه هایی می توانند بطور قابل توجهی حجم کار را کاهش داده و دقت تصمیم گیری توسط اپراتورهای انسانی را در زمینه های مختلف از جمله سیستم های نظامی و دفاعی، مهندسی پزشکی، نظارت بر سلامت، جراحی، سیستم های حمل و نقل هوشمند، تولید، روباتیک، سرگرمی و سیستم های امنیتی بهبود بخشد.

تشخیص تصویر و طبقه بندی آن یک زمینه فعالیت چند رشته ای است و مستلزم بهره گیری از فن آوری های متنوع و تخصصی در سنسورها، الگوریتم های پردازش سیگنال / تصویر، VLSI، سخت افزار و نرم افزار و سیستم های بسته بندی می باشد. در بعد نظامی منابع قابل توجهی در این زمینه صرف شده است چون تشخیص درست تصویر و طبقه بندی آنها برای پرسنل نظامی درعملیات، به منظور شناسایی صحیح و تشخیص هدف بسیار ضروری است.

در گذشته، بیشتر برنامه های کاربردی تشخیص و دسته بندی عکس برای سخت افزار های نظامی بوده که هزینه های زیادی نیز برای آنها صرف شده است. با پیشرفت های اخیر در دستگاه های  الکترونیکی نوری، سنسورها، سخت افزار الکترونیکی، کامپیوترها و نرم افزارها، تشخیص تصویر و سیستم های طبقه بندی با بسیاری از برنامه های کاربردی تجاری قابل انجام است. در حالیکه پیشرفت های قابل توجهی در تشخیص تصویر و تکنولوژی های طبقه بندی وجود دارد، مشکلات و چالش های فنی عمده در این زمینه نیز وجود دارد که عمدتا بر اثر شرایط محیطی، تغییرات هندسی، زاویه بازتاب و... است. علاوه بر این، در بسیاری از برنامه های کاربردی، هدف یا جسم مورد علاقه، قسمت کوچکی از یک صحنه بسیار پیچیده است که می بایست کاوش شود تا محل دقیق هدف یا شی مورد نظر مشخص گردد. گاهی اوقات الگوریتم ها با مجموعه ای از داده های آموزشی معتبر وجود دارد که باعث عملکرد بهتر برنامه ها می شود.

این کتاب پیشرفت های مهم اخیر در سنسورها، الگوریتم های پردازش تصویر و سیستم های تشخیص تصویر و طبقه بندی با کاربردهای متنوع در بعد نظامی، هوا فضا، امنیت، ردیابی تصویر، رادار، بیومدیکال و حمل و نقل هوشمند را ارائه می دهد. این کتاب شامل مشارکت برخی از محققان برجسته در زمینه ارائه یک مرور کلی پیشرفت در شناخت و طبقه بندی تصویر در دهه گذشته می شود. این اطلاعات هر دو بعد تئوری و عملی را در بر می گیرد. این کتاب برخی از رویکردهای پیشرفته در زمینه تشخیص تصویر با استفاده از پردازش تصویر، فیلترینگ تصویر غیرخطی، نظریه آماری، نظریه تشخیص بیزی، شبکه عصبی و تصویربرداری سه بعدی را نشان می دهد. در حال حاضر هیچ تکنیک کلی و غالبی وجود ندارد که بتواند برای تمامی مسائل به کار رفته و مشکلات طبقه بندی را حل کند. این کتاب به برخی از زمینه های ابتدایی در پردازش سیگنال / تصور نیز پرداخته که برای مهندسان برق و کامپیوتر با گرایش پردازش سیگنال / تصویر، مهندسین کامپیوتر، تصویربرداران، مهندسان زیست پزشکی، فیزیکدانان کاربردی،تکنسین های سیستم های دفاعی و دانشجویان و محققان این رشته ها مفید می باشد.

در قسمت اول کتاب روش های تشخیص و شناسایی اهداف مطرح و راههای شناسایی آنها بر اساس مقالات موجود به شرح ذیل مطرح می شود

1- آشکارسازهای هدف مبتنی برشبکه عصبی برای تصویربرداری مادون قرمز چند باندی

2- تبعیض هدفمند مادون قرمرمنفعل

3- تشخیص اشیاء در تصاویر SAR

4- تشخیص لبه و مکان در تصاویر SAR: مشارکت مدل های قابل اصلاح آماری

5- تشخیص خودروهای نظامی با استفاده از تصاویر مبتنی بر مشاهده با استفاده از مدل سازگار با مدل CAD

6- اعوجاج ثابت حداقل میانگین مربع خطا الگوریتم فیلتر برای تشخیص الگو

در قسمت دوم راههای تشخیص تصویر سه بعدی مطرح می شود که عبارتند از:

7- ارتباط الکترو نوری برای تشخیص الگو سه بعدی

8-  تشخیص سه بعدی با استفاده از هولوگرافی دیجیتال

قسمت سوم: سیستم های تشخیص تصویر غیرخطی مورد بحث قرار می گیرد

9- اعوجاج تحمل شناخت تصویر گیرنده با استفاده از یک روش چند فرضیه ای

10-  شناخت الگوی همبستگی: رویکرد بهینه ابشیج محالنوبیس

11- فیلتر غیرخطی مطلوب برای شناسایی اهداف تحریف شده پر سر و صدا

12- مینیمم نرم برای فیلتر مقاوم به خطا به منظور شناسایی تصویر

در بخش چهارم: کاربرد تجاری سیستم های تشخیص تصویر مورد مطالعه قرار می گیرد

13- تشخیص چهره مبتنی بر تصویر: مسائل و روشها

14- تکنیک های پردازش تصویر برای شناسایی خودکار و ردیابی خودکار

15- توسعه ابزارهای تشخیص الگو در برنامه های کاربردی براساس الگوریتم انتخاب فرکانس فضایی اتوماتیک

 

لینک دانلود کتاب

معرفی کتاب "اصول و برنامه های پردازش تصویر"

کتاب اصول و برنامه های پردازش تصویر توسط تینکو آکاریا و آجوی ری و در انتشارات جان وایلی و پسران در نیوجرسی آمریکا و به طور هم زمان در کانادا منتشر شده است.

تقاضای رو به رشد پردازش تصویر در کاربردها و زمینه های مختلف مانند محاسبات چند رسانه ای، ارتباطات داده تصویری امن، زیست پزشکی، تصویربرداری بیومتریک، سنجش از راه دور، درک بافت، شناخت الگو، بازیابی تصویر مبتنی بر محتوا، فشرده سازی و غیره وجود دارد.

در فصل اول به اصول و مبانی پردازش تصویر و تکنیک های پردازش تصویر اشاره شده است. در این بخش مفاهیم سیستم بازرسی خودکار اتوماتیک، تکنیک های تصویربرداری بیومتریک، بازیابی تصویر بر اساس محتوا، ردیابی اشیا متحرک و فشرده سازی تصویر و ویدئو و ساختار دوربین های دیجیتال مورد بحث قرار میگیرد.

نگارنده در فصل دوم کتاب به مباحث مربوط به شکل گیری تصویر، مدل های نمونه برداری تصویر، اندازهگیری تصویر، تصاویر باینری و فرمتهای فایل تصویری اشاره و توضیحاتی ارائه می دهد.

در فصل سوم کتاب به مفاهیم تصاویر رنگی و رنگ، درک رنگها درفضای رنگی و تفاوت قابل توجه آنها، فضاهای رنگی مانند  CMYK و NTSC و CIELAB اشاره می شود همچنین در خصوص یک الگوریتم درونیابی رنگ مطالبی را بیان می نماید.

در فصل چهارم تبدیل تصاویرمورد بحث قرار گرفته و به تبدیل یک بعدی و دو بعدی و سریع فوریه و ماتریس کواریانس اشاره می کند.

در فصل پنجم به مباحث تبدیل موجک گسسته و فیلتر گابور و کاربرد آن اشاره دارد.

در فصل ششم مسائل مربوط به افزایش تصویر و ترمیم آن، از جمله مدل سازی و فیلتر کردن صدا و همچنین هیستوگرام و مدل های مختلف آن، فیلتر میانه و سایر موارد مرتبط با شفاف سازی و ترمیم تصویر توضیح داده شده است.

تقسیم بندی تصویر یک وظیفه مهم در پردازش تصویر و شناخت الگو است. طرح های تقسیم بندی مختلف همانند شناسایی نقاط، لبه ها و خطوط در فصل هفتم توضیح داده شده است در این فصل همچنین به روش های شناسایی لبه همانند رابرت، سوبل، پریویت و کنی و الگوریتم آبشاری برای تقسیم بندی تصویر اشاره شده است.

هنگامی که یک تصویر به درستی تقسیم می شود، کار مهم بعدی شامل طبقه بندی و شناخت اشیاء در تصویر می شود. طبقه بندی الگوی های مختلف و تکنیک های تشخیص چهره در فصل هشتم ارائه شده است. از موارد مطرح شده تئوری تصمیم بیزین و الگوریتم KNN و K-means است. علاوه بر آن به کاربرد شبکههای عصبی مصنوعی برای طبقه بندی اشاره شده است.

در فصل نهم به نقش بافت و شکل در فهم تصویر اشاره شده است. تعدادی از تکنیک های تجزیه و تحلیل بافت و شکل همانند توصیف کننده فوریه و سری زمانی زرنیک شرح داده شده است.

فصل دهم تعدادی از رویکردهای نظری مجموعه فازی مطرح شده است. در این بخش تصویر به عنوان یک مجموعه فازی در نظر گرفته می شود. از فیلتر فازی برای حذف نویز تصویر استفاده می گردد. همچنین الگوریتم فازی C-means و کاربرد آن توضیح داده می شود.

بازیابی تصویر مبتنی بر محتوا و استخراج تصویر در فصل یازدهم معرفی شده است. در فصا مفاهیم بافت، شکل و رنگ برای استخراج مشخصه ها مورد استفاده قرار می گیرند. در این فصل همچنین استاندارد MPEG-7 برای بازیابی تصاویر ویدئویی مطرح و مورد بررسی قرار گرفته است.

فصل دواردهم کتاب به تحلیل و تفسیر تصاویر زیست پزشکی اختصاص داده شده است. تصاویر زیست پزشکی مانند اشعه ایکس، سونوگرافی و تصاویر CT-Scan  می باشد که اطلاعات کافی برای تشخیص پزشکی در مهندسی پزشکی را ارائه می نماید. در این فصل همچنین به معرفی برخی از الگوریتم های بیومتریک خصوصا در رابطه با تشخیص و تایید امضا اشاره شده است.

در فصل سیزدهم  تکنیک هایی که برای عکس ها و برنامه های کاربردی مورد استفاده قرارگرفته پرداخته شده است به عنوان مثال می توان به تکنیکهایی که برای استخراج ویژگی از تصاویر ماهواره ای به کار میرود اشاره کرد.

در فصل چهاردهم، اصول و کاربردهای تجزیه و تحلیل تصاویر متحرک، تشخیص حرکت جسم و ردیابی مطرح شده است.

از آنجا که فشرده سازی تصویر نقش مهمی در ذخیره سازی و انتقال تصویر دارد لذا فصل پانردهم به اصول فشرده سازی تصویر اختصاص داده شده است. الگوریتم هافمن و الگوریتم های کد گذاری و بازگشایی کد در این بخش مطرح شده است.

به طور خاص استاندارد JPEG را برای فشرده سازی تصویر در فصل شانزدهم کتاب توصیف شده است و در نهایت در فصل های هفدهم و هیجدهم، استاندارد جدید JPEG2000 مورد بحث قرار گرفته است.


لینک دانلود کتاب

 

مروری بر مقاله "رویکرد ترکیبی برای بازیابی تصاویر بر اساس محتوا برپایه بافت و رنگ"

حجم زیاد اطلاعات دیداری، اعم از داده هایی که در شبکه های داده رد و بدل می شوند و یا در پایگاه های اطلاعاتی ذخیره می شوند، باعث گردیده روشی های فشرده سازی اطلاعات دیداری گسترش و پیشرفت سریع داشته باشند و اغلب اطلاعات دیداری به آمده صورت فشرده در آیند. لذا روشی های بازیابی در حوزه فشرده سعی می کنند تا بدون غیر فشرده سازی کامل بردارهای ویژگی را استخراج کنند.

با گسترش روش های بازیابی بر اساس محتوا امروزه یک استاندارد بین المللی نیز در این زمینه به وجود آمده است که MPEG-7 نام دارد و آن را واسطه توصیفی محتوایی تصویری، صوتی و متن یا چند رسانه ای نیز می گویند.

اولین کار در زمینه بازیابی تصویر به دهه هفتاد برمی گردد. روش های اولیه بر روی ویژگی های دیداری تصویر عمل نمی کردند بلکه براساس توضیحات متنی انجام می گرفتند. به بیان دیگر اطلاعات موجود در تصویر توسط یک اپراتور انسانی به صورت متن در می آمد و متن استخراج شده از تصویر در پایگاه داده ذخیره می شد و عمل بازیابی براساس این متنها انجام می گرف. در سال 1992 بنیاد علوم ملی ایالات متحده، به منظور تعیین روش های جدید مدیریت پایگاه داده های تصاویر، کارگاهی را با موضوع سیستم های مدیریت اطلاعات دیداری برپا کرد. بسیاری از محققین گرایش های بینایی ماشین، مدیریت پایگاه داده، واسط کامپیوتر - انسان و بازیابی اطلاعات به این زمینه علاقه مند شدند. از آن به بعد تحقیقات در زمینه بازیابی تصویر براساس محتوا به سرعت پیشرفت کرد. بازیابی تصویر براساس محتوا، محتواهای دیداری موجود در یک تصویر مانند رنگ ، شکل  یا بافت را که دارای معنایی ضمنی در نزد شخص می باشند را به منظور بیان تصویر و نمایه گذاری آن مورد استفاده قرار می دهد.

معروف ترین و متداول ترین عمل بازیابی، بازیابی برای نمونه تصویر پرسش می باشد. در این روش، کاربر تصویری را به عنوان ورودی به سیستم ارائه می دهد که تصویر پرسش نام دارد.یک توصیف کننده محتوای دیداری می تواند سراسری یا محلی باشد. ویژگی های استخراج شده از تصویر به طور کلی به دو دسته سراسری و محلی طبقه بندی می شوند. ویژگی های سراسری مانند رنگ، بافت و شکل معمولا از کل تصویر استخراج میشوند. ویژگی های محلی تصویر به طور خاص از برخی از قطعات و یا نقاط کلیدی در تصویر مانند گوشه ها و لبه ها که معمولا توسط فرآیند تقسیم بندی به دست آمده استخراج می شوند.

متداول ترین ویژگی های سراسری استخراج شده در سیستم های بازیابی تصویر عبارتند از رنگ، بافت، شکل ومکان های فضایی.

رنگ یکی از ویژگی های بصری مقاوم به شمار می آید چرا که به جهت دوربین، اندازه و زاویه بستگی ندارد.

فضای RGB بیشترین استفاده را برای نمایش تصاویر دارد. این فضا از سه مؤلفه قرمز، سبز و آبی تشکیل  شده است که به این مؤلفه ها عناصر اولیه جمع شونده[1] گفته می شود. فضای CMY یک فضای رنگی برای چاپ است و سه مؤلفه تشکیل دهنده آن ارغوانی، فیروزهای و زرد می باشد. به این سه مؤلفه عناصر تفریق شونده [2]گفته می شود زیرا دراین فضا یک رنگ از جذب نور به دست می آید. فضای RGB و CMY غیر یکنواخت هستند. فضای HSV به طور وسیعی در گرافیک کامپیوتری مورد استفاده قرار می گیرد و برای توصیف رنگ بیش ترین درک رنگ را فراهم میکند. سه مؤلفه آن فام[3]، اشباع[4] یا روشنایی [5] و مقدار[6] یا درخشندگی [7] می باشد. فام نسبت به تغییرات روشنایی و جهت دوربین تغییر ناپذیر است. بنابراین برای بازیابی شی بسیارمناسب می باشد. فضای RGB به راحتی توسط یک رابطه ساده قابل تبدیل به HSV میباشد.

بعضی از توصیف کننده های رنگ مورد استفاده را بیان می کنیم: هیستوگرام رنگ، بردار به هم پیوستگی رنگ، پیوستگی نگاشت رنگ و گشتاورهای رنگ. ثابت شده است که گشتاورهای[8] مرتبه اول (میانگین)، مرتبه دوم(واریانس) و مرتبه سوم (چولگی[9] ) برای بیان پراکندگی رنگ تصاویر موثرترین روش هستند. هیستوگرام رنگ[10] و مشتقات آن یکی از مهم ترین بردارهای ویژگی برای رنگ می باشد.

 بازنمایی های دیگری مانند کارلوگرام رنگ[11] و کارلوگرام خودکار[12] نیز وجود دارد. به منظور استخراج کارلوگرام ابتدا تصویر ورودی در فضای RGB به 32 رنگ کوانتیزه می شود. یکی از محتواهای مهم دیگر تصاویر دیجیتال، بافت آنها است. اساس روش های توصیف بافت به دو دسته قابل تقسیم می باشند: ساختاری و آماری.

روش های ساختاری مانند اپراتورهای شکل شناسی و گراف همسایگی، بافت را با توجه به عناصر ساختاری و مکان آنها توصیف می کنند. روشهای آماری مانند انواع ویژگی های تامورا،ویژگی های وولد، طیف های فوریه، آنالیز مفاهیم تغییر ناپذیری جزء نسبت به چرخش، میدان تصادفی مارکوف، مدل انکساری و روش های فیلترینگ چند سطحی مثل فیلتر گابور و تبدیل موجک، بافت را با توجه به توزیع آماری شدت (اندازه) روشنایی پیکسلهای تصویر توصیف می کند.

ویژگی های تامورا[13] شامل زبری، کنتراست، جهت، شباهت خطوط، نظم، و ناهمواری، مطابق با مطالعات روانشناسی درباره قوه ادراک انسان از بافت طراحی شده اند که شامل سه مقیاس زبری، کنتراست و جهت می باشد.

ماتریس هم رخدادی سطح خاکستری که به ماتریس وابستگی فضایی سطح خاکستری نیز معروف ا ست، روشی است آماری که روابط فضایی پیکسلها را در نظر می گیرد و اولین بار توسط هارلیک معرفی شده است.

روش های توصیف شکل به دو گروه مبتنی بر مرز شکل های مستقیم الخط، تقریب چند گوشه ای، مدل های عامل کراندار و توصیف کننده های شکل مبتنی بر فوریه و روش های مبتنی بر ناحیه گشتاورهای آماری تقسیم می شوند که در این میان روش های مبتنی بر مدل های احتمالی مانند مدل مارکف بدلیل بارمحاسباتی بالا در بازیابی کمتر مورد استفاده قرار می گیرند.

توصیفگرهای محلی تصویر، اطلاعات محلی را با استفاده از نقاط کلیدی از برخی از قسمت های تصویر مانند نواحی، اشیاء مورد علاقه، لبه ها و یا گوشه ها توصیف می کنند.

معیارهای شباهت معمول برای بردارهای ویژگی مکانی برای شناسایی شباهت تصاویر عبارتند از:

فاصله مدل مینکوفسکی

فاصله مدل منشور قائم

فاصله ماهالانوبیس

واگرایی جفری و واگرایی کولبک لیبر

در مورد بازیابی ویدئو چند موضوع جستجو مطرح می گردد: الف: بازیابی ویدئوهای مشابه ب - بازیابی کلیپ های مشابه در ویدئوها ج- بازیابی شات های مشابه در ویدئوها د - بازیابی یک تصویر در میان ویدئوها. در بازیابی ویدئو، نیز مانند تصاویر ثابت موضوع مورد جستجو از طریق بردارهای ویژگی و معیارهای شباهت، نتایج عمل بازیابی ارائه می شود.

یکی دیگر از مهم ترین مباحث پس از تعیین مورد جستجو انجام عمل بازیابی برای سیستم های بازیابی ارزیابی عملکرد کارآیی یک روش بازیابی است. کارآیی یعنی اینکه تصاویری که سیستم یا عمل بازیابی به عنوان لیست مرتب بازیابی به کاربر ارائه داده است، چقدر نظر او را تامین می کند.

روشهای ایجاد تصویر پرسش که به طور متداول استفاده می شوند عبارتند از: جستجوبر اساس طبقه بندی [14]، جستجوی مفهومی[15]، جستجو با رسم[16]  و جستجوی موردی[17].

جستجوی موردی می تواند به دو نوع تقسیم شود. جستجوی موردی خارجی، زمانی که تصویر پرسش در پایگاه داده وجود نداشته باشد. جستجوی مورد داخلی، زمانی که تصویر پرسش در پایگاه داده وجود دارد. مهم ترین مزیب این روش این است که کاربر لازم نیست بیان دقیقی از ویژگی های تصویر پرسش ارائه کند، سیستم عملیات مربوط به آن را انجام می دهد. بیشتر سیستم های موجود از این روش استفاده می کنند.

کارآیی یک سیستم یا عمل بازیابی نشان می دهد که تا چه میزان سیستم در بازیابی تصاویر مرتبط با تصویرمورد جستجو موفق عمل کرده است و معیارهای آن عبارتند از:

الف مقایسه توسط کاربر

ب- معیارهای عددی

1-     رتبه بهترین نتیجه

2-     دقت و فراخوانی

3-     نرخ خطا

4-     قابلیت بازیابی

5-     متوسط نرخ نرمال بازیابی

6-     میانگین متوسط دقت

در یادگیری ماشین، بازشناسی الگو و پردازش تصویر، استخراج ویژگی از یک مجموعه از داده های اندازه گیری شده شروع شده و یک مجموعه داده مشتق شده ویژگی ها را تولید می کند که این ویژگی ها نمایانگر داده های اولیه اما با ابعاد کم تر و فاقد افزونگی هستند و عملیات بعدی را سادهتر می کنند.

ماشین بردار پشتیبان در دسته طبقه بندهای متمایزکننده قرار می گیرد. ایده اصلی بسیار ساده است؛ مرز جداکننده در جایی قرار می گیرد که بیشترین فاصله را تا نزدیک ترین نمونه های هر کدام از کلاس ها داشته باشد. در واقع در این روش مرز خطی بین دو کلاس به گونه ای محاسبه می شود که:

1- تمام نمونه های کلاس 1+ در یک طرف مرز و تمام نمونه های کلاس 1- در طرف دیگر مرز واقع شوند.

2- مرز تصمیم گیری به گونه ای باشد که فاصله نزدیک ترین نمونه های آموزشی هر دو کلاس از یکدیگر در راستای عمود بر مرز تصمیم گیری تا جایی که ممکن است حداکثر شود.

 مشکل بازیابی مبتنی بر محتوا عبارت است از وجود فاصله معنایی میان ویژگی های بصری سطح پایین و معانی موجود در تصاویر که به آن شکاف معنایی گفته می شود.

 

مراحل انجام کار در این مقاله عبارت است از:

1- استخراج ویژگی های رنگ شامل هیستوگرام رنگ، کارلوگرام و کارلوگرام الگوی دودویی محلی

2- استخراج ویژگی بافت

3- مرحله استخراج ویژگی به کمک الگوریتم های حوزه باز شناسی الگو

4- مرحله شناسایی با استفاده از طبقه بندی نزدیکترین همسایه

5-  ارزیابی سیستم



[1] additive

[2] subtractive

[3] Hue

[4] Saturation

[5] Lightness

[6] Value

[7] Brightness

[8] Color Moments

[9] Skewness

[10] Color Histogram

[11] color correlogram

[12] Auto correlogram

[13] Tamura

[14] Category Browsing

[15] Query by Concept

[16] Query by Sketch

[17] Query by example