CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

استخراج ویژگی و پردازش تصویر برای بینایی ماشین

کتاب  استخراج ویژگی و پردازش تصویر برای بینایی ماشین " Feature Extraction & Image Processing for Computer Vision Third edition" توسط Mark S. Nixon و Alberto S. Aguado نوشته شده است.  نسخه اولیه این کتاب در سال 2002 نوشته شده و نسخه دوم آن در سال 2008 به بازار عرضه شده است. کتاب حاضر ویرایش سوم آن بوده که در سال 2013 به بازار عرضه شده است و حدود 80 دلار قیمت دارد.

در نسخه سوم، مطالب کاملاً جدیدی در مورد روشهای جدید برای استخراج و توصیف ویژگی های سطح بالا و پایین به منظور  شناسایی اشیاء، حرکت و ردیابی موجود است. در این کتاب از رنگ ها و تکنیکهای مدرن تر برای استخراج و توصیف ویژگی اشیاء به ویژه مواردی از کاربرد موجک ها و فضای مقیاس مطرح و از آنها استفاده شده است.

در هر فصل از این کتاب مجموعه ای از اطلاعات خاص در مورد استخراج ویژگی ها در پردازش تصویر و بینایی ماشین ارائه شده است. بیشترین تکنیک های اصلی توصیف شده و پیاده سازی هایی از آنها نیز ارائه شده که از آنها برای پردازش تصاویر انتخاب شده استفاده شده است. به طور کلی تمرکز کار در این کتاب بیشتر در مورد تحلیل تصاویر پزشکی یا بیومتریک بوده است (علم شناخت افراد با ویژگی های رفتاری یا فیزیولوژیکی مانند تشخیص چهره و ... )

به اعتقاد نویسندگان این کتاب به روزترین کتاب در رابطهبا استخراج ویژگی ها و پردازش تصویر در بینایی ماشین می باشد.

جهت دریافت فایل Pdf کتاب اینجا کلیک کنید.

سیستم های CBIR موجود

همانطور که در پست های قبلی مطالبی در خصوص انواع سیستم CBIR بیان شد و نحوه کار آنها در زمینه های مربوط به شناسایی الگو بافت و یا تصویر بیان شد در این قسمت تعدادی از سیستم های CBIR فعال را معرفی می کنم. شرکت گوگل به عنوان یکی از بزرگترین سیستم های CBIR از لحاظ حجم دیتا می باشد. در جدول زیر نام و آدرس برخی از این سایت های فعال برای جستجو تصاویر آورده شده است.

ردیف

نام سیستم

توضیحات

تعداد تصاویر موجود (میلیون)

1

Pixolution

یک موتور جستجوی تصویر می باشد

32

2

Picalike

موتور CBIR برای موبایل و تجارت الکترونیک

-

3

Elastic Vision

جستجوی تصویری هوشمند با خوشه بندی مبتنی بر محتوا در یک شبکه تصویری.

-

4

Google Image Search

سیستم CBIR گوگل با جستجوی تصویر

 

5

Yandex Image Search

یک سیستم جستجوی عکس روسی می باشد

10000

6

Incogna Image Search

یک سیستم خصوصی است و نیاز به سطح دسترسی دارد

100

7

Chic Engine

موتور جستجوی مد تصویری است که نیاز به سطح دسترسی دارد

 

8

MiPai similarity search engine

موتور جستجو شباهت آنلاین

100

9

TinEye

برای جستجوی تصاویر موجود در وب

24200

 

در جدول زیر نیز تعدادی از سیستم های آکادمیک در خصوص CBIR معرفی شده است

ردیف

نام سیستم

توضیحات

تعداد تصاویر موجود (میلیون)

1

akiwi

یک ابزار کلمه کلیدی تصویر نیمه اتوماتیک با استفاده از تکنیک CBIR است

15

2

Anaktisi

توصیفگرها را با هیستوگرام و اطلاعات بافت ترکیب می کند

0.225

3

Lucignolo

موتور جستجوی شباهت تصویری nolo با استفاده از موتور جستجوگر متن Lucene

106

4

MIFile

موتور جستجو گر تصویر با استفاده از Metric Inverted File که توسط ISTI-CNR توسعه داده شده است

100

5

PicsLikeThat

جستجوی تصویر با استفاده از جستجوی بصری و مرتب سازی با یک سیستم پیشنهاد دهنده

12

6

VIRaL

موتور جستجوی تصویر که تصاویر 39 شهر دنیا را دارد

2221

 

مقاله "بررسی بازیابی تصویر مبتنی بر محتوا با معناشناسی سطح بالا"

این مقاله توسط لینگ لیو و همکارانش در سال 2006 تهیه شده است. به منظور بهبود دقت بازیابی سیستم های بازیابی تصویر مبتنی بر محتوا، تمرکز پژوهش از طراحی الگوریتم های استخراج ویژگی های سطح پایین به سمت طراحی الگوریتم برای کاهش "شکاف معنایی" بین ویژگی های بصری و درک انسان پیش رفته است. این مقاله تلاش می کند تا یک بررسی جامع از دستاوردهای فنی اخیر در بازیابی تصویر مبتنی بر معانی سطح بالا ارائه دهد. مهمترین نشریات اخیر در این بررسی شامل جنبه های مختلف تحقیق در این زمینه، از جمله استخراج ویژگی های سطح پایین از تصویر، اندازه گیری شباهت و به دست آوردن ویژگی های معنایی در سطوح بالا است. در این مقاله پنج دسته اصلی از تکنولوژی های پیشرفته در کاهش "شکاف معنایی" شناسایی شده است:

1-      استفاده از هستی شناسی شی برای تعریف مفاهیم سطح بالا

2-      استفاده از روش های یادگیری ماشین برای ارتباط ویژگی های سطح پایین با مفاهیم پرس و جو.

3-      استفاده از بازخورد مربوط به کاربران  برای یادگیری

4-      تولید قالب معنایی برای پشتیبانی از بازیابی تصویر در سطح بالا

5-      ادغام شواهدی از متن HTML و محتوای بصری تصاویر برای بازیابی تصاویردر وب

علاوه بر این، برخی از مسائل مرتبط دیگر مانند تست تصویر و ارزیابی عملکرد بازیابی نیز مورد بحث قرار گرفته است. در نهایت، بر اساس تکنولوژی موجود و تقاضا برای برنامه های کاربردی در دنیای واقعی، چندین مسیر نوآورانه برای آینده پژوهی پیشنهاد شده است.

با توسعه اینترنت و در دسترس بودن دستگاه های ضبط تصویر مانند دوربین های دیجیتال، اسکنر تصویر، اندازه مجموعه تصویر دیجیتال به سرعت در حال افزایش است. ابزار جستجوی تصویر و بازیابی کارآمد آن توسط کاربران در حوزه های مختلف، از جمله سنجش از راه دور، مد، جلوگیری از جرم، نشر، پزشکی، معماری و غیره مورد نیاز است. برای این منظور، بسیاری از سیستم های بازیابی تصویر برای کاربردهای عمومی طراحی شدهاند که دارای دو چارچوب عمده مبتنی بر متن و مبتنی بر محتوا می باشند. رویکرد مبتنی بر متن را می توان به سال های 1970 باز گرداند. در چنین سیستمی، تصاویر با استفاده از متون توصیف می شوند و سپس از یک سیستم مدیریت پایگاه دادهDBMS[1]  برای انجام بازیابی تصویر استفاده می شود. در این روش دو مشکل اساسی وجود دارد:

اول این است که حجم زیادی از نیروی انسانی برای درج توضیحات به صورت دستی لازم است. دوم، عدم قطعیت توضیحات درج شده به دلیل ذهنیت و ادراک انسان است. برای غلبه بر معایب فوق سیستم بازیابی مبتنی بر محتوا CBIR در اوایل دهه 1980 معرفی شد. در CBIR، تصاویر با محتوای بصری خود، مانند رنگ، بافت، شکل، نمایه می شوند. اولین کار ارائه شده در این زمینه توسط Chang و در سال 1984 منتشر شد، که در آن نویسنده ارائه یک تصویر نمایه سازی و انتزاع روش برای بازیابی پایگاه داده تصویری را ارئه نمود که در آن پایگاه داده تصویری شامل تصویر اشیاء و روابط تصویری آنها است. برای ساختن شاخص های تصویر، عملیات انتزاعی برای انجام خوشه بندی و طبقه بندی شیء صورت می گیرد. در دهه گذشته، چند محصول تجاری و سیستم های پیش نمونه آزمایشی مانند QBIC، Photobook ، VIRAGE ، VisualSEEK، Netra ، SIMPLIcity  ارائه شده اند. تفاوت اساسی بین سیستم های بازیابی مبتنی بر متن و مبتنی بر محتوا این است که تعامل با انسان یک بخش ضروری در سیستم است. انسانها تمایل به استفاده از ویژگی های بالا (مفاهیم) مانند کلمات کلیدی، توصیفگرهای متن، برای تفسیر تصاویر و اندازه گیری شباهت آنها دارند. در حالی که ویژگی هایی که به صورت خودکار و با استفاده از تکنیک های بینایی کامپیوتری استخراج می شوند، اغلب ویژگی های سطح پایین (رنگ، ​​بافت، شکل، طرح فضایی، و غیره) هستند. به طور کلی، ارتباط مستقیم بین مفاهیم سطح بالا و ویژگی های سطح پایین وجود ندارد.

اگر چه بسیاری از الگوریتم های پیچیده برای توصیف ویژگی های رنگ، شکل و بافت طراحی شده اند، این الگوریتم ها نمی توانند به طورکلی  معناشناختی تصویر را مدل سازی کنند و در هنگام مواجه شدن با پایگاه های تصویری وسیع کاربرد محدودی دارند .
آزمایش های گسترده در سیستم های CBIR نشان می دهد که محتویات سطح پایین اغلب برای توصیف مفاهیم معناشناختی سطح بالا در ذهن کاربر ناکارا می باشد [13].بنابراین هنوز عملکرد CBIR از انتظارات کاربران دور است. Eakins سه سطح پرسش را در CBIR ذکر کرده است:
سطح 1: بازیابی با ویژگی های اولیه مانند رنگ، بافت، شکل یا مکان مکانی عناصر تصویر. به عنوان مثال پرس و جو متداول در این روش "پیدا کردن تصاویر مانند این تصویر است".

سطح 2: بازیابی اشیاء بر اساس نوع داده شناسایی شده توسط ویژگی های مشتق شده بر اساس برخی از استنتاج های منطقی. به عنوان مثال، "پیدا کردن یک تصویر از یک گل"

سطح3: بازیابی با ویژگی های انتزاعی، شامل مقدار قابل توجهی از استدلال های سطح بالا در مورد هدف و یا صحنه های نشان داده شده است که از آن به نام بازیابی حوادث نام برده می شود و شامل تصاویر با اهمیت عاطفی و مذهبی، و غیره است. به عنوان مثال "پیدا کردن تصاویر از یک جمعیت شاد".

سطوح 2 و 3 با هم به عنوان بازیابی تصویر معنایی و شکاف بین سطوح 1 و 2 به عنوان شکاف معنا شناخته می شوند. به طور خاص، اختلاف بین قدرت توصیفی محدود از ویژگی های تصویر پایین و غنای معانی کاربر، به عنوان "شکاف معنایی" [14،15] نامیده می شود. کاربران در بازیابی سطح 1 معمولا برای ارسال تصویر نمونه یا طرح به عنوان پرس و جو نیاز دارد. اما اگر کاربر تصویر نمونه را در دست نداشته باشد، بازیابی تصویر معنایی برای کاربر راحت است چون سیستم پرس و جو با استفاده از کلمات کلیدی یا بافت را پشتیبانی می کند. بنابراین، برای حمایت از پرس و جو با مفاهیم سطح بالا، سیستم CBIR باید بین ویژگی های عددی تصویر و مفاهیم آن توسط انسان ارتباطی برقرار نماید

بازیابی تصویر بر اساس معناشناسی سطح بالا به این مفهوم است که چطور می توان ویژگی های سطح پایین تصویر را به معانی معادل سطح بالا آن مرتبط کرد؟ بررسی ها نشان می دهد که تکنیک های پیشرفته در کاهش "اختلاف معنایی" شامل پنج دسته اصلی می شود:

1- با استفاده از هستی شناسی شی برای تعریف مفاهیم سطح بالا

2-استفاده از ابزار یادگیری ماشین برای ارتباط ویژگی های سطح پایین با مفاهیم پرس و جو

3-معرفی بازخورد ارتباطی[2] در حلقه بازیابی برای یادگیری مداوم سیستم از قصد کاربر

4-تولید قالب معنایی[3] برای پشتیبانی از بازیابی تصویر بالا در سطح بالا

5-استفاده از محتوای بصری تصاویر و اطلاعات متنی به دست آمده از وب برای بازیابی تصویر در وب

 

بازیابی در سطح 3 دشوار و معمول  نیست و امکان بازیابی در سطح 3 را می توان در زمینه های خاصی از قبیل موزه های هنری یا آرشیو روزنامه ها یافت. سیستم های فعلی اغلب بازیابی را در سطح 2 انجام می دهند که در این سطح سه سیستم اساسی وجود دارد:

 الف- استخراج ویژگی های سطح پایین تصویر

ب-  اندازه گیری شباهت ها

ج-  کاهش فاصله معنایی

در این مقاله بر معناشناسی سطح بالا برای بازیابی تصویر مبتنی بر محتوا تمرکز شده است. در بخش 2 خلاصه ای از ویژگی های سطح پایین تصویرکه در سیستم های CBIR  مورد استفاده قرار می گیرد بررسی می شود. معیار تشابه تصاویر نیز در بخش 2 مورد بحث قرار گرفته است. بخش 3 به روش های مختلف در کاهش "شکاف معنایی" متمرکز است. در بخش 4، داده های تست تصویر و ارزیابی عملکردسیستم  مورد بحث قرار گرفته و در بخش 5 مسیرهای تحقیق آتی پیشنهاد شده است.

 

 

 

لینک دانلود مقاله



[1] Database management system

[2] Relevance feedback

[3] Semantic Template

مقاله "بازیابی تصویر بر اساس محتوا"

این مقاله توسط چی ژانگ و همکارش در سال 2015 تهیه شده است. در این مقاله، ویژگی های رنگی و ویژگی های بافت برای بازیابی تصویر مبتنی بر محتوا مورد استفاده قرار می گیرند، در طول فرآیند پیاده سازی، از ویژگی های محل رنگ هم استفاده شده و در نهایت از ویژگی های وزن رنگ و ویژگی های بافت برای بازیابی تصویر استفاده شده است به نحوی که در برخی موارد 80٪ از نتایج جستجو رضایت بخش بوده است. با توسعه فن آوری اینترنت در دهه گذشته، حجم اطلاعات به شدت افزایش یافته و دسترسی به اطلاعات صحیح را مشکل ساخته است. برای دسترسی به اطلاعات و جستجوی راحت آنها موتورهای جستجو بوجود آمده اند به نحوی که گوگل تبدیل به شرکت فناوری اطلاعات نوآورانه و پویا در جهان شده است. با این حال، روش کار موتور جستجو بر اساس بازیابی متن است لذا آنها قادر به پاسخگویی به نیازهای مردم در بازیابی متن ها می باشند اما به دلیل نیاز فنی به بازیابی تصویر مبتنی بر محتوا و عدم پاسخگویی موتور های جستجو آنها بازیابی تصویر موجود را با استفاده از برچسب های مصنوعی که به تصاویر اختصاص می دهند انجام می دهند از طرفی مردم می خواهند تصاویر مشابه را از طریق تصاویری که خود به سیستم می دهند بیابند  لذا بازیابی تصویر بر اساس محتوا مفهوم یافته و به سرعت در حال پیشرفت می باشد.

استخراج ویژگی یک مفهوم در دید کامپیوتر و پردازش تصویر است ویژگی یا مشخصه یک بخش جالب از تصویر دیجیتالی است که نقطه شروع برای بسیاری از الگوریتم های تجزیه و تحلیل تصویر کامپیوتری است. بنابراین موفقیت یک الگوریتم اغلب بر ویژگیهایی است که از آن استفاده می کند. ما می توانیم بردار یکپارچگی رنگ را از طریق آمار پیکسل هایی از همان رنگ که بالاتر یا کمتر از مقدار آستانه در هر رنگ است به دست آوریم. برخی الگوریتم ها از هشت رنگ قرمز، سبز، آبی، زرد، بنفش، آبی، سفید و سیاه استفاده می کنند.

برای اندازه گیری شباهت بین ویژگی های تصاویر روش های مختلفی وجود دارد. روش محاسبه فاصله منهتن یکی از آنها است روش دیگر فاصله اقلیدسی است که بیانگر جذر مربعات اختلاف ها می باشد.

 

 

لینک دانلود مقاله

مقاله "خوشه بندی طیفی نیمه نظارتی برای طبقه بندی"

این مقاله توسط عارف محمود و همکارش در سال 2014 تهیه شده است. در این مقاله آنها یک الگوریتم طبقه بندی از طریق خوشه بندی CVC[1] را معرفی می کنند که در آن از شیوه های موجود در خوشه بندی برای استفاده در مسائل طبقه بندی استفاده شده و کارآمدی آن را نشان می دهند. در CVC، داده های آموزش و تست به صورت کلاسی است و از توزیع خوشه های کلاس برای یافتن برچسب داده های آزمون استفاده می شود. برای تعیین تعداد خوشه کافی از یک الگوریتم سلسله مراتبی نیمه نظارت شدهSHC[2]  استفاده شده است. خوشه ها با استفاده از سلسله مراتبی از NCut دو طرفه به دست می آیند. برای این منظور، الگوریتم محاسبات بردار مستقیم فیدلر پیشنهاد شده است. برش گراف براساس ساختار داده هاست و برچسب ها را در نظر نمی گیرد. از برچسب ها فقط برای تعریف معیار توقف برای برش گراف استفاده می شود. برای تست سیستم از پنج مجموعه داده های استاندارد استفاده شده است.

در خوشه بندی بر اساس ساختار ذاتی دادهآنها را  به خوشه های مشابه اختصاص می دهد در حالیکه طبقه بندی بر اساس برچسب ها و  بر اساس دانش قبلی انجام می پذیرد. بنابراین، خوشه بندی به دنبال مرزهای اطلاعات ذاتی است در حالی که طبقه بندی به دنبال مرزهای اعمال شده خارجی است. این دو مرزها به طور کلی متفاوت هستند و باعث می شوند خوشه ها در کلاس های مختلف قرار گیرند. به دلیل وجود این مشکل، از خوشه بندی برای طبقه بندی استفاده نشده است.

با وجود پیشرفت های قابل توجه، خوشه بندی و طبقه بندی دو ساختار متفاوت هستند. شکل ذیل مقادیر خوشه بندی را با الگوریتم  Kmeans، SCC[3] و SKMS[4] را نشان می دهد.

 

همانگونه که در شکل فوق مشاهده می شود هیچ کلاس خوشه ای به خوبی تعریف نشده است و تعداد خوشه ها را نمی توان به طور کلی تعریف کرد. حتی جدیدترین الگوریتم های خوشه بندی مانند SKMS مشکل را ساده تر نمی کند.

اولین اقدام استفاده از یک الگوریتم طبقه بندی از طریق خوشه بندیCVC  است که در آن طبقه بندی نهایی بر اساس خوشه های نیمه نظارت شده بر روی تمام داده ها محاسبه می شود. برای این منظور، خوشه بندی نیمه نظارت شده هم بر روی داده های آموزشی و هم بر روی داده های تست بدون اعمال مرزهای کلاس اعمال شده است و خوشه ها  براساس مشخصات داده ها و بدون استفاده از اطلاعات لیبل ها محاسبه میگردد. توزیع احتمالی هر کلاس از خوشه ها با استفاده از اطلاعات برچسب ها محاسبه می شود. این توزیع را می توان به عنوان یک نمایش جمع و جور از کلاس در نظر گرفت. طبقه بندی با اندازه گیری فاصله بین توزیع احتمالی داده های تست از هر کلاس پس از هر دوره آموزش انجام می شود. الگوریتم پیشنهادی CVC به صورت عمومی برای هر الگوریتم خوشه بندی مناسب است.

دومین اقدام استفاده از یک الگوریتم سلسله مراتبی نیمه نظارتی SHC است که در آن هر خوشه والد دو خوشه فرزند داشته واین تقسیم بندی بدون نظارت انجام می شود و از برچسب ها تنها به عنوان یک معیار توقف برای تقسیم بندی استفاده می شود.

قدم سوم استفاده از الگوریتم DFVC[5]  است که بر مبنای روش تکرار معکوس می باشد. خوشه بندی طیفی سلسله مراتبی قبلا به عنوان یک گزینه قابل قبول محسوب نمی شد، زیرا همه بردارها نیاز به محاسبه داشتند، در حالی که تنها دومین معیار (بردار فیدلر ) مهم می باشد.
الگوریتم پیشنهاد شده DFVC این مشکل را حل می کند. برای طبقه بندی الگوریتم های پیشنهادی را بر تصاویر اعمال می کنیم که در آن کلاس های آموزشی و کلاس آزمون از مجموعه ای از تصاویر تشکیل شده است. الگوریتم های پیشنهادی را می توان به طور مستقیم بر روی  داده های خام مورد استفاده قرار داد. آنها برای خوشه بندی از فضای  Grassmannian استفاده کرده تا پیچیدگی محاسباتی را کاهش دهند. با استفاده از چندمنظورهای گراسمن،  می توانیم مجموعه ای از طبقه بندی های طیفی را ایجاد کنیم که هر کدام براساس ابعاد مختلف چند جمله ای است. یک مرور کلی از رویکرد این مقاله در شکل ذیل نشان داده شده است.

 

 

همانمگونه که در شکل ملاحظه می شود تمام ورودی های ویژه محاسبه شده  و داده ها را به دو یا چند دسته تقسیم کرده و از یک الگوریتم محاسبات بردار تصادفی فیدلر DFVC  به منظور اجتناب از محاسبه همه ورودی های ویژه استفاده می شود.

آزمایشات بر روی مجموعه تصویر صورت استاندارد Honda، CMU Mobo ، مشاهیر یوتیوب  و دسته بندی شی  ETH 80 و مجموعه تصاویر دست کمبریج  انجام شده است. تکنیک پیشنهادی دقت بیشتری در تمام مجموعه داده ها نسبت به سایر روش ها را دارا می باشد و در بهتررین حالت 11.03 درصد دقت بیشتر را دارد.

 

 

 

 

لینک دانلود مقاله

 

 
 



[1] Classification Via Clustering

[2] Semi-supervised Hierarchical Clustering

[3] Sparse Subspace Clustering

[4] Semi-supervised Kernel Mean Shift

[5] Direct Fiedler Vector Computation