CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

پایان نامه "سیستم بازیابی تصویر بر اساس محتوا مبتنی بر گراف برای پایگاه های تصویر بزرگ و کوچک"

این پایان نامه توسط آقای ران چانگ دانشجوی مقطع دکتری در سال 2014 و در دانشکده کامپیوتر دانشگاه یوتا انجام شده است. با افزایش تعداد تصاویر دیجیتالی که در اینترنت پیدا شده و در کتابخانه های دیجیتالی قرار دارد، نیاز به ابزار موثر و کارآمد برای مدیریت پایگاه های تصویر بزرگ، به طور چشمگیری افزایش یافته است. به طور خاص، توسعه سیستم های کارا برای بازیابی تصویر و یافتن تصاویری در بین ستونی از داده ها در سال های اخیر مورد توجه قرار گرفته است.

عصر جدید و نیاز به بازیابی تصاویر دیجیتالی اولین تصویر دیجیتالی در سال 1957  توسط راسل کیرش، دانشمند موسسه تحقیقاتی موسسه ملی استاندارد و فناوری  NIST[1]تولید و عملا دنیا را وارد دوران جدیدی از تصویربرداری دیجیتال نمود. (شکل ذیل)



توسعه سریع تصویربرداری دیجیتال پس از ظهور میکروپروسسورها در اوایل دهه 1970 شدت یافت. میلیون ها دستگاه از دستگاه های تصویربرداری دیجیتال مجهز به دستگاه شارژ همراه CCD[2] از یک دهه گذشته از قرن بیستم یک انقلابی را در عکاسی متعارف راه اندازی کرده و میلیاردها تصویر دیجیتال را تولید نموده اند. با توجه به حجم عظیم تصاویر دیجیتال در اینترنت و تنوع آنها  کتابخانه های دیجیتال بزرگ و کوچک در سراسر جهان تولید که نیاز به مدیریت پایگاه داده تصویر و ابزارهای بازیابی تصویر از آنها به سرعت در حال افزایش است.

اساسا یک سیستم بازیابی تصویر یک سیستم کامپیوتری همراه با سخت افزار و نرم افزار لازم برای جستجو از طریق یک پایگاه داده یا کتابخانه دیجیتالی نسبتا بزرگ جهت بازیابی تصاویر مشابه با جستجوی کاربر است. به طور کلی، دو نوع سیستم بازیابی تصویر وجود دارد: سیستم های بازیابی تصویر کلاسیک و سیستم های بازیابی تصویر محلی. به طور خاص، سیستم های بازیابی تصویر کلاسیک برای یافتن تصاویری شبیه به تصاویر پرس و جو از نظر مفاهیم معنایی است و سیستم های بازیابی تصویر محلی به منظور پیدا کردن اشیاء تکراری یا تقریبا تکراری در یک مجموعه تصویر است  که همان اشیاء موجود در تصاویر پرس و جو می باشند.

به عنوان مثال، اگر تصویر پرس و جو شامل یک گل رز قرمز با پس زمینه خالص (به عنوان مثال پس زمینه سیاه و سفید خالص) باشد در سیستمهای بازیابی تصویر کلاسیک هر تصویر بازگشتی حاوی یک گل یا چند گل با رنگ های مختلف و پس زمینه به عنوان نتایج بازیابی منظور می گردد در حالی که در سیستم های بازیابی تصویر محلی هر تصویر بازگشتی حاوی گل رز و با مقیاس های مختلف، زوایای چرخش و مکان های مختلف  به عنوان نتایج بازیابی خوب در نظر گرفته می شود.

در سیستم های بازیابی تصویر کلاسیک، پرس و جو می تواند با کلمات کلیدی مبتنی بر متن و یا یک تصویر مشخص که مورد علاقه کاربراست انجام پذیرد. بیشتر تکنیک های متداول برای استفاده از تصاویر پایگاه داده نیز به ثبت اطلاعات اضافی دارند که این اطلاعات شامل کلمات کلیدی خاص، توصیف ها، برچسب ها و یا نوشتن شرح تصاویر است. سپس آنها کلمات مطابق با تصاویر پایگاه داده را با کلمات کلیدی پرس و جو متنی ارسالشده توسط کاربر برای شناسایی تصاویر مشابه مطابقت داده و از آن استفاده می نمایند.

در سیستم تصویری گوگل که روزانه توسط میلیاردها نفر از مردم استفاده می شود، از این تکنیک متعارف مبتنی بر متن  برای بازیابی تصاویر مشابه استفاده شده است. بدیهی است برای استفاده از این نوع از سیستم بازیابی تصویر، قبل از اضافه شدن تصاویر به پایگاه داده اطلاعات اضافی به آن اضافه شود. در غیر این صورت، تصاویر بدون توضیحات در جستجو بر اساس متن بازیابی نمی شوند. با این حال، درج توضیحات به صورت دستی برای تصاویر دیجیتال در یک کتابخانه دیجیتال بزرگ کار غیر قابل تصور و وقت گیری است.

هیچ سازمان یا شرکتی نمی تواند این نوع کار را انجام و هزینه آن را بپردازد. علاوه بر این، حاشیه نویسی دستی دارای نقاط ضعف دیگر مانند سوء استفاده از کاربر، حاشیه نویسی تصویر اشتباه و حاشیه نویسی متناقض از نظر کاربران مختلف برای تصاویر مشابه و غیره است. به این ترتیب، محققان شروع به بررسی تکنیک هایی کردند که حاوی عبارات خودکار برای تعداد زیادی از تصاویر دیجیتال هستند. معمولا این تکنیک ها یک مدل آماری را یاد می گیرند که با استفاده از تصاویر کافی آموزش داده می شوند. با کمک مدل آموزش یافته، آنها به صورت خودکار درج توضیحات برای تصاویر دیگر را انجام می دهند. ناکارآمدی حاشیه نویسی تصویر اتوماتیک این است که مدل آموزش یافته تا حد زیادی بر کیفیت و تعداد تصاویر آموزشی یادداشت شده متکی است. اگر تصاویر آموزش نادرست، نامناسب و یا برچسب های با کیفیت ناسازگار یا غیرقابل توزیع باشند، مدل آماری آموزش دیده نمی تواند علامت گذاری دقیقی برای تصاویر دیگر ارائه دهد. علاوه بر این، مدل آماری آموزش دیده نمیتواند مفهوم معنایی دقیقتر تصاویر را یاد بگیرد.

در دهه 1990، چندین محقق در موسسه فناوری ماساچوست MIT[3] از جمله بنریدپرساد، امار گوپتا، هومن تونگ و استوارت مدنیک، اولین سیستم بازیابی تصویر دیجیتال مبتنی بر میکرو رایانه را برای یک پایگاه داده تصویری دیجیتال اختراع کردند که در آن هر تصویر به صورت خودکار توضیح داده می شود. این سیستم یک سیستم بازیابی تجربی تصویر اولیه است که بر اساس حاشیه نویسی تصویر به صورت اتوماتیک کار می کند. از اوایل دهه 2000، حاشیه نویسی تصویر اتوماتیک تبدیل به یک موضوع تحقیق محبوب و باعث جذب محققان بیشتر و بیشتر برای ساخت سیستمهای بازیابی تصویر بر اساس تصاویر به صورت خودکار شده است. این سیستم های بازیابی تصویر دیجیتال به نامهای مبتنی بر مفهوم یا سیستم های بازیابی تصویر مبتنی بر متن یا "مبتنی بر توصیف" نامیده می شوند که روند جستجوی و بازیابی آن به طور خودکار بر اساس کلمات کلیدی یا برچسب های تصاویر دیجیتالی است. بعدها، موتورهای جستجوی تصویر مبتنی بر وب نیز تکنیک های نمایه سازی تصویر مبتنی بر تصویر را برای بازیابی تصاویر مشابه از وب استفاده کردند.

تقریبا در همان زمان از ظهور سیستم های بازیابی تصویر مبتنی بر مفهوم، نوع دیگر سیستم های بازیابی تصویر، یعنی سیستم های تصویر برداری مبتنی بر محتوا CBIR در اوایل دهه 1990 ظهور یافت. هر دو سیستم مبتنی بر مفهوم و CBIR از دهه 1990 به طور قابل توجهی تکامل یافتهاند.

بر خلاف سیستم های بازیابی تصویر مبتنی بر مفهوم، سیستم CBIR با استفاده از ویژگی های تصویر بصری در سطح پایین (مانند رنگ، بافت، شکل، و غیره) به جای کلمات کلیدی جهت  بازیابی تصویراستفاده می نماید. سیستم های CBIR معمولی انجام وظیفه جستجو و بازیابی را با تجزیه و تحلیل رنگ تصاویر، شکل اشیاء در تصاویر، توزیع بافت های تصاویر، و یا هر اطلاعات شاخص دیگر از عکس ها به جای هرگونه ابرداده مانند کلمات کلیدی، برچسب ها یا نوشتارها و غیره انجام می دهند. در سال 1992، محقق کیتو ابتدا با استفاده از مقایسه رنگ تصویر و ویژگی های شکل هر تصویر پایگاه داده با ویژگی های رنگ و شکل مورد جستجو از CBIR  برای توصیف تجربی بازیابی خودکار عکس دیجیتال استفادهکرد. از آن به بعد، این اصطلاح به شدت مورد استفاده قرار گرفته است تا به تمام تکنیک های مشابه و فرآیندهای جستجو و بازیابی تصاویر از یک کتابخانه عکس دیجیتالی و با استفاده از ویژگی های نمایشی مشترک مانند رنگ ها، شکل ها، بافت ها و غیره استفاده شود.

سیستم های CBIR اولیه معمولا بر روی استخراج ویژگی های تصویر و استراتژی های مربوطه برای بازیابی تصاویر مربوطه از یک پایگاه داده تکیه می کنند. به عنوان مثال، فلیکنر  و همکارانش درشرکت  IBM سیستم QBIC را در سال 1995 اختراع کردند، گپتا و جین VIRAGE  را در سال 1997 و مخرجیا در سال 1999 سیستم NEC AMORE را اختراع کرد. سه سیستم فوق اولین سیستم های CBIR  برای هدف تجاری هستند.

در همین حال، محققان مزایای استفاده از سیستم CBIR را در چندین برنامه دنیای واقعی پیدا کردند که به تعدادی از آنها اشاره می شود.

1- طراحی معماری و مهندسی :  CBIRمی تواند به طراحان کمک کند تا ساختمان های مشابه با طرح های منظره را با ارائه طرح های نمونه خاصی طراحی نمایند.

2- مجموعه های هنری: CBIR  می تواند در موزه های هنری دیجیتال و به کاربر برای یافتن کارهای هنری دلخواه مانند نقاشی، عکس یا حتی مجسمه سازی با ارسال تصویر نمونه کمک کند.

3- پیشگیری از جنایت: CBIR  می تواند به مأموران اجرای قانون کمک کند تا سریعا صحنه های مشابه جرم و یا مظنون را با آپلود تصاویر مدارک موجود به سیستم، پیدا کنند.

4- زمینه اطلاعات جغرافیایی: CBIR  می تواند به محققان زمین شناسی کمک کند تا به راحتی مواد معدنی مورد نظر را با گروه بندی ظاهری مشابه پیدا کنند.

5- مالکیت معنوی: CBIR می تواند به نویسندگان نقاشی یا عکاسی کمک کند تا به راحتی هر نسخه کپی شده غیر مجاز از اثر خود را در اینترنت با ارسال یک کپی دیجیتال از کار خود به سیستم به راحتی شناسایی نمایند.

6- درمان پزشکی: CBIR می تواند به پزشکان کمک بزرگی در تشخیص زود هنگام بیماری نماید با استفاده از عکس های مشابه پاتولوژیک که در یک پایگاه داده تصویری پزشکی بزرگ گردآوری شده است.

7- ارتش: CBIR می تواند به افسران یا فرماندهان اطلاعاتی کمک کند تا سریعا نوع وسایل نقلیه متخاصم را با ارسال تصویر زنده آنها به سیستم شناسایی نمایند.

8- خرید جزئی: CBIR می تواند به مشتریان کمک کند تا به سرعت و به راحتی محصولات دلخواه خود را با آپلود عکس کالا به سیستم، بازیابی و فروشنده آن را پیدا کنند.


سیستم های بازیابی تصویر مبتنی بر محتوا

تکنیک های CBIR راه حل های مناسب برای یافتن تصاویر دلخواه از کتابخانه های تصویر دیجیتال است. در یک سیستم CBIR اصلی، تمام تصاویر دیجیتال در یک کتابخانه با ویژگی های بصری آنها (مثلا محتوای بصری تصاویر) نشان داده می شوند. ویژگی های بصری شامل رنگ، شکل، لبه و بافت برای نشان دادن یک تصویر از دیدگاه های مختلف بصری است. در ابتدا، این ویژگی های بصری از هر تصویر استخراج شده و برای استفاده در آینده در یک پایگاه داده ویژگی، مربوط به کتابخانه تصویر دیجیتال ذخیره می شود. هنگامی که یک تصویر پرس و جو به سیستم ارسال می شود، ویژگی های تصویر مورد جستجو برای اولین بار استخراج می شود. سپس از یک روش تطبیق برای مقایسه شباهت بین ویژگی های تصویر مورد  پرس و جو و ویژگی های بصری همه تصاویر دیجیتال در پایگاه داده تصویر استفاده می شود و در نهایت تصاویری که دارای شباهت بالاتری هستند به عنوان نتایج بازیابی به کاربر باز می گردند. شکل ذیل نمودار عملکرد یک سیستم CBIR اولیه را نشان می دهد.


دقت بازیابی می تواند به دلیل شکاف معنایی بین ویژگی های بصری سطح پایین و مفاهیم معنایی بالا در سطح رضایت بخش نباشد. زیرا تصاویربا محتوای معنایی مشابه ممکن است در فضای ویژگی با یکدیگر تفاوت داشته باشند در حالی که تصاویری از محتوای معنایی متضاد ممکن است ویژگیهای مشابه ای داشته باشند. به عنوان مثال، کشتی کروز در اقیانوس و هواپیما در آسمان آبی، همانطور که در شکل ذیل نشان داده شده، دو شیء مجزا با ویژگی های مشابه سطح پایین هستند. در حالی که تصویر یک هواپیما به سیستم CBIR داده شده و تصاویر هواپیما و کشتی کروز برگردانده شده است. انسان ها این شکاف معنایی به راحتی تشخیص می دهند. با این حال، تکنیک های بینایی کامپیوتری در حال تلاش برای از بین بردن این شکاف معنایی است. لذا به دلیل وجود شکاف معنایی، سیستم های پایه  CBIR مبتنی بر ویژگی استفاده محدودی دارند.

در این پایان نامه، دو روش جدید رتبه بندی چندمنظوره برای بازیابی تصویر بر اساس محتوا (CBIR) پیشنهاد شده است. این دو سیستم پیشنهادی از همکاری بین یادگیری کوتاه مدت مبتنی بر بازخورد و یادگیری طولانی مدت مبتنی بر ویژگی معنایی برای بهبود عملکرد بازیابی استفاده می کنند. سیستم های پیشنهادی برای اولین بار مکانیسم یادگیری فعال را برای ایجاد لینک های بازخورد ارتباط کاربران و استخراج ویژگی های معنایی بالا در هر تصویر اعمال می کند. سپس این سیستم ها با ایجاد همگرایی بصری سطح پایین و شباهت معنایی سطح بالا برای ساخت ساختارهای معنی دار برای فضای تصویری، نمودارهای چندگانه را ایجاد می کند. در نهایت، بردارهای مرتبط نامتقارن ایجاد می شوند تا نماهای مرتبط از تصاویر برچسب شده را به تصاویر بدون برچسب از طریق نمودارهای چندگانه نمایش دهند. نتایج تجربی نشان می دهد که دو سیستم پیشنهادی از دیگر سیستم های CBIR در زمینه بازخورد کاربران در شناسایی تصاویر حصیح و نادرست پیشرفته تر است.
تصویربرداری دیجیتال یک اختراع بزرگ در قرن گذشته بود و چون استفاده از دوربین های دیجیتال در بین همه مردم شهرت یافت لذا در اواخر قرن بیستم تعداد زیادی تصاویر دیجیتال جمع آوری گردید. چگونگی مدیریت حجم عظیمی از تصاویر و پیدا کردن تصاویر دلخواه در میان آنها یک مسئله مهم و اساسی در همان دوره بود.

تکنیک های بازیابی یک تصویر دلخواه به طور کلی به دو کلاس پایه تقسیم می شوند:

1-     سیستم هایی که از کلمات کلیدی مبتنی بر متن برای بازیابی تصاویر مورد نظر در پایگاه داده تصویری استفاده می کند.

2-     سیستم های دیگری که  بر روی نمایش داده ها مبتنی بر تصویر به منظور بازیابی تصاویر مورد نظر در پایگاه داده تصویر متکی هستند. که تکنیک دوم معمولا به نام استفاده از تکنیک بازیابی تصویر مبتنی بر محتوا شناسایی می شود.

تکنیک های عمده درگیر در تکنیک بازیابی تصویر مبتنی بر محتوا شامل استخراج ویژگی تصویر، الگوریتم تطابق ویژگی و محاسبه شباهت است. هر تکنیک نقش مهمی در بازیابی تصویر مبتنی بر محتوا بازی می کند و همچنین مسائل و چالش های خود را نیز دارد. به عنوان مثال، چگونگی یافتن یک الگوریتم تطبیق ویژگی کارآمد و دقیق، هنوز یک موضوع اساسی و مهم در بازیابی تصویر مبتنی بر محتوا است. در این مقاله، مسائل مربوط به چالش های خاصی که در تکنیک بازیابی تصویر مبتنی بر محتوا وجود دارد ارائه شده و دو سیستم بازیابی متفاوت را می توان در پایگاههای تصویر کوچک و مقیاس بزرگ استفاده کرد.

 

لینک دانلود



[1] National Institute of Standards and Technology

[2] Charge-Coupled Device

[3] Massachusetts Institute of Technology

نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.