CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

CBIR: Content Based Image Retrieval

بازیابی تصویر محتوا محور

پایان نامه "کارایی بازیابی تصویر بر اساس محتوا"

این پایان نامه مربوط به روبا سلامه دانشجوی کارشناسی ارشد مهندسی کامپیوتر از دانشگاه غزه و در سال 2010 می باشد.

بازیابی تصویر مبتنی بر محتوا از منابع بزرگ، امروزه در بسیاری از برنامه های کاربردی مورد استفاده قرار می گیرد. در این پایان نامه یک سیستم بازیابی تصویر مبتنی بر منطقه استفاده شده که از رنگ و بافت به عنوان ویژگی های بصری برای توصیف محتوای منطقه تصویر استفاده می کند.
برای این منظور سه مرحله کار انجام می شود:

در مرحله اول از فیلترهای گابور برای استخراج ویژگی های بافت مناطق جدا شده از تصویر پس از تقسیم بندی استفاده می شود.

در مرحله دوم، برای سرعت بخشیدن به بازیابی و محاسبه شباهت، تصاویر پایگاه داده تقسیم می شوند و مناطق استخراج شده با استفاده از بردارهای ویژگی آنها با استفاده از الگوریتم SOM[1] خوشه بندی می شوند. این فرآیند قبل از پردازش پرس و جو انجام می شود بنابراین برای پاسخ دادن به پرس و جو، سیستم نیازی به جستجو در کل تصاویر پایگاه داده ندارد. در عوض فقط تعدادی از تصاویر کاندید برای جستجوی تشابه تصویر مورد نیاز است.

در مرحله سوم، برای افزایش دقت بازیابی سیستم، ویژگی های منطقه های استخراج شده از مناطق تصویر  با ویژگی های استخراج شده از کل تصویر ترکیب می شوند که این اطلاعات از فیلتر های گابور و هیستوگرام رنگی حاصل شده است.

سیستم پیشنهادی افزایش دقت بازیابی و کاهش زمان بازیابی را دارا است. برای ارزیابی تجربی سیستم از پایگاه داده تصویری COREL و تعداد 1000 تصویر رنگی استفاده شده است. از نتایج تجربی، واضح است که سیستم در مقایسه با سایر سیستم های موجود به طور قابل توجهی بهتر و سریعتر عمل می کند. نتایج نشان می دهد که هر نوع ویژگی برای نوع خاصی از تصاویر با توجه به محتوای معنایی آن موثر است و با استفاده از ترکیب آنها نتایج بهتری برای تمام کلاس های معنایی فراهم می آید.

در پایگاه داده پلیس اطلاعات تصویری مجرمان، صحنه های جرم و موارد سرقت شده نگهداری می شود. در حرفه پزشکی، پایگاه داده تصویری اشعه ایکس و اسکن شده برای تشخیص، نظارت و اهداف تحقیق نگهداری می شود. در طراحی معماری و مهندسی، پایگاه داده تصویری برای پروژه های طراحی، پروژه های به پایان رسیده و قطعات ماشین وجود دارد. در صنعت نشر، روزنامه نگاران پایگاه تصویری را برای رویدادهای مختلف و فعالیت هایی مانند ورزش، ساختمان ها، شخصیت ها، رویدادهای ملی و بین المللی و تبلیغات محصول ایجاد می کنند. برای تحقیقات تاریخی، پایگاه داده تصویری برای آرشیوهایی در زمینه هایی مانند هنر، جامعه شناسی و پزشکی ایجاد می شود. در یک مجموعه کوچک از تصاویر، با یک مرور ساده می توان یک تصویر را شناسایی کرد. این کار برای مجموعه ای بزرگ و متنوع از تصاویر امکان پذیر نیست و کاربر با مشکل در بازیابی تصویر مواجه می شود. مشکل بازیابی تصویر زمانی است که کاربر درخواستی را برای جستجو تصویر به پایگاه داده ارسال می کند که برای برفع این مشکل دو راه کار مبتنی بر متن و مبتنی بر محتوا ارائه شده است. در روش مبتنی بر متن از کلمات کلیدی و شرح هایی برای برچسب گذاری تصاویر استفاده می شود و جستجو بر اساس آنها صورت می گیرد. در روش مبتنی بر محتوا مشخصات فنی و کلیدی تصاویر استخراج و از آنها برای مقایسه شباهت استفاده می گردد. سیستم های تولید شده برای منظور های مختلف از کلمات کلیدی خاص استفاده می نمایند. بازیابی تصویر بر اساس محتوا در بسیاری از برنامه های کاربردی مانند تبلیغات، تحقیقات تاریخی، طراحی مد و گرافیک، طراحی معماری و مهندسی، پیشگیری از جرم، تشخیص پزشکی، اطلاعات جغرافیایی و سیستم های سنجش از دور کاربرد دارد.

سیستم های CBIR تجاری و تجربی متعددی در حال حاضر در دسترس هستند و بسیاری از موتورهای جستجو در حال حاضر از امکانات CBIR  مانند آلتا ویستا، یاهو و گوگل استفاده می نمایند.

بازیابی مبتنی بر محتوا از محتویات تصاویر برای نشان دادن و دسترسی به تصاویر استفاده می کند. یک چارچوب مفهومی برای بازیابی تصویر مبتنی بر محتوا در شکل ذیل نشان داده شده است.

 


در مرحله آفلاین، سیستم به طور خودکار عناصر بصری (رنگ، ​​شکل، بافت، و اطلاعات فضایی) هر تصویر در پایگاه داده را بر اساس مقادیر پیکسل آن استخراج می کند و آنها را در پایگاه داده های مختلف درون سیستم به نام پایگاه داده های ویژگی ذخیره می کند. داده های ویژگی (به عنوان امضا تصویر) برای هر یک از ویژگی های بصری هر تصویر در مقایسه با داده های تصویر بسیار کوچک است، بنابراین پایگاه داده ویژگی شامل انتزاعی از تصاویر پایگاه داده تصویر است. میزت این روش فشرده سازی قابل توجهی تصویر است.

در بازیابی تصویر آنلاین، کاربر می تواند یک تصویر را برای جستجو به سیستم بازیابی ارسال کند. سیستم این تصویر را با یک بردار ویژگی نشان می دهد سپس فاصله ها (یعنی شباهت ها) بین بردارهای ویژگی نمونه مورد پرس و جو را با نمونه های موجود در پایگاه داده ویژگی ها محاسبه و رتبه بندی می کند و در نهایت، سیستم نتایجی را که بیشتر به نمونه های پرس و جو مربوط است را باز می گرداند. اگر نتایج مورد تایید کاربر نباشد، می تواند بازخورد مربوط را به سیستم بازیابی ارائه دهد

در روش های CBIR اولیه از استخراج ویژگی های عمومی برای به دست آوردن توصیفگرهای تصویر استفاده شده است. به عنوان مثال، QBIC در مرکز تحقیقاتی IBM توسعه یافته است و چندین ویژگی از هر تصویر، یعنی رنگ، بافت و ویژگی های شکل را استخراج می کند. این توصیفگرها با استفاده از هیستوگرام های رنگی برای ویژگی های رنگ، با استخراج اطلاعات، در سطح عمومی به دست می آیند. به همین ترتیب، سیستم Photobook ، Visualseek  و VIR  از ویژگی های عمومی برای نشان دادن معانی تصویر استفاده می کنند. به عنوان مثال، فرض کنید در یک تصویر دو گل با رنگ های قرمز و زرد وجود دارد. ویژگی های عمومی بر اساس رنگ بیانگر میانگین رنگ موجود است که در نهایت تصویر یک پرتقال بازگردانده می شود که این نمونه ضعف ویژگی های عمومی را نشان می دهد.

سیستم های بازیابی تصویر بر اساس منطقه  RBIR[2] برای غلبه بر محدودیت های پیشین سیستم های بازیابی مبتنی بر ویژگی های عمومی تشکیل شده اند که در آن تصاویر به عنوان مجموعه ای از مناطق است که ممکن است با اشیائی مانند گل ها، درختان، آسمان ها و کوه ها مطابقت داشته باشد. یک پیش نیاز کلیدی برای یک سیستم بازیابی تصویر مبتنی بر منطقه یک الگوریتم تقسیم بندی قوی است.

الگوریتم تقسیم بندی یک تصویر ورودی را دریافت و با توجه به برخی ویژگی ها (مانند رنگ، بافت یا شکل)  آن را به خوشه ها و بخش هایی تقسیم می کند. سپس ویژگی های ربوط به هر بخش تصویر استخراج می شوند. ویژگی های رنگ، بافت و شکل بر اساس هر پیکسل که متعلق به شیء است، استخراج می شود و هر شی به وسیله مقدار میانگین این ویژگی پیکسل ها توصیف می شود.

مشکل اصلی در سیستم های CBIR  شکاف معنایی و بار محاسباتی آن برای مدیریت مجموعه پایگاه داده های بزرگ و تصاویر بزرگ است.

در این پایان نامه یک سیستم CBIR جدید معرفی شده که هدف آن:

الف- کاهش "اختلاف معنایی" بین ویژگی های سطح پایین تصویر و مفاهیم انسانی است
ب-  برای کاهش کل زمان بازیابی سیستم در ابتدا تصاویر را به مناطق تقسیم می کند که اشیاء در آن وجود دارند.
ترکیبی از بافت و ویژگی های رنگ از هر منطقه در تصویر جداگانه استخراج می شود.

 

عملکرد روش کار به این شکل است :

1-  ویژگی های شطح پایین بافت از مناطق دلخواه شکل با استفاده از فیلتر گابور استخراج می شود که یک ابزار طبیعی و عالی برای طبقه بندی، جداسازی و استخراج ویژگی های بافت است. بسیاری از سیستم های موجود تلاش می کنند که تصویر پرس و جو را با هر تصویر موجود در پایگاه داده مقایسه کنند تا تصاویر با تطبیق پذیری بالا را پیدا کنند که در نتیجه یک جستجوی خطی اتفاق افتاده و زمانی که پایگاه داده بزرگ است زمان زیادی را صرف می کند. در حقیقت، ممکن است قبل از اینکه یک پرس و جو ایجاد شود، از اطلاعات قبلی در رابطه با ساختار تصاویر موجود در پایگاه داده استفاده و وقتی یک پرس و جو دریافت می شود تنها بخشی از پایگاه داده باید جستجو شود در حالی که بخش بزرگی از پایگاه داده ممکن است در جستجو حذف شود که قطعا موجب صرفه جویی قابل توجهی در زمان پردازش شده بدون اینکه دقت بازیابی را تحت تاثیر قرار دهد.

2- برای سرعت بخشیدن به فرآیند بازیابی، تصاویر پایگاه داده به مناطق متمایز تقسیم می شوند. در این پایان نامه از الگوریتم خوشه بندی خود سازماندهی SOM برای خوشه سازی استفاده می شود. مناطق با ویژگی های مشابه با هم در یک کلاس گروه بندی می شوند. این فرآیند خوشه سازی به صورت آفلاین انجام و داده های نمایه سازی هر منطقه همراه با شناسه کلاس مرتبط آن در فایل های شاخص  وبه صورت اندیس ثبت می شود. برای پاسخ به پرس و جو، تصویر پرس و جو به مناطقی تقسیم می شود و فاصله های بین هر منطقه و کلیه کلاس ها در پایگاه داده محاسبه می شود تا مشخص شود ایت تصویر به کدام کلاس متعلق است. سپس مناطق مشابه در پایگاه داده بازگردانده شده و تمام تصاویرآن با تصویر داده شده مقایسه می شود.

3- برای افزایش کارایی سیستم، از یک الگوریتم جستجوی عمومی که از تمام تصویر برای ساختن فاصله بین دو تصویر استفاده می شود. این الگوریتم با الگوریتم جستجوی مبتنی بر منطقه با استفاده از مجموع وزنی دو فاصله ترکیب شده و از این طریق از خواص مناطق تصویری مرتبط با خواص عمومی تصویر برای محاسبه شباهت بین یک پرس و جو و تصاویر پایگاه داده استفاده شده است.

4- سپس نتایج با نتایج روش های موجود مقایسه شده و نتایج نشان می دهد که سیستم توسعه یافته در این پایان نامه، کیفیت کلی بازیابی را نسبت به سیستم های موجود قبلی بهبود می بخشد.

در ادامه این  پایان نامه موارد ذیل را خواهیم دید در فصل 2 خلاصه برخی از آثار مرتبط در موضوع CBIR و مسائل مربوط به تحقیقات اولیه مطرح شده است. در فصل 3، یک مرور کلی بر روی  سیستم های  CBIR، اصول آن و تکنیک های مورد استفاده برای استخراج ویژگی ها، اندازه گیری شباهت و ساختارهای نمایه سازی معرفی شده است. از فیلترهای گابور، برای استخراج ویژگی در سیستم پیشنهادی استفاده شده که در فصل 4 مورد بحث قرار می گیرد. برای بررسی سیستم از پایگاه داده WANG در کلاس های ذیل استفاده شده است.

توسعه بازیابی مبتنی بر ویژگی های عمومی و سیستم های بازیابی مبتنی بر منطقه به ترتیب در فصل 5 و 6 معرفی شده است. همچنین ترکیبی از دو سیستم به عنوان سیستم پیشنهادی این پایان نامه در فصل 6 ارائه شده است. نتایج شبیه سازی و ارزیابی دو سیستم و همچنین سیستم کلی در فصل 7 توضیح داده شده است و سرانجام در فصل هشتم کار به پایان رسیده و کارهای مرتبط در آینده را پیشنهاد می کند.


لینک دانلود پایان نامه

 

 



[1] Self Organizing Map

[2] Region Based Image Retrieval


پایان نامه "سیستم بازیابی تصویر بر اساس محتوا مبتنی بر گراف برای پایگاه های تصویر بزرگ و کوچک"

این پایان نامه توسط آقای ران چانگ دانشجوی مقطع دکتری در سال 2014 و در دانشکده کامپیوتر دانشگاه یوتا انجام شده است. با افزایش تعداد تصاویر دیجیتالی که در اینترنت پیدا شده و در کتابخانه های دیجیتالی قرار دارد، نیاز به ابزار موثر و کارآمد برای مدیریت پایگاه های تصویر بزرگ، به طور چشمگیری افزایش یافته است. به طور خاص، توسعه سیستم های کارا برای بازیابی تصویر و یافتن تصاویری در بین ستونی از داده ها در سال های اخیر مورد توجه قرار گرفته است.

عصر جدید و نیاز به بازیابی تصاویر دیجیتالی اولین تصویر دیجیتالی در سال 1957  توسط راسل کیرش، دانشمند موسسه تحقیقاتی موسسه ملی استاندارد و فناوری  NIST[1]تولید و عملا دنیا را وارد دوران جدیدی از تصویربرداری دیجیتال نمود. (شکل ذیل)



توسعه سریع تصویربرداری دیجیتال پس از ظهور میکروپروسسورها در اوایل دهه 1970 شدت یافت. میلیون ها دستگاه از دستگاه های تصویربرداری دیجیتال مجهز به دستگاه شارژ همراه CCD[2] از یک دهه گذشته از قرن بیستم یک انقلابی را در عکاسی متعارف راه اندازی کرده و میلیاردها تصویر دیجیتال را تولید نموده اند. با توجه به حجم عظیم تصاویر دیجیتال در اینترنت و تنوع آنها  کتابخانه های دیجیتال بزرگ و کوچک در سراسر جهان تولید که نیاز به مدیریت پایگاه داده تصویر و ابزارهای بازیابی تصویر از آنها به سرعت در حال افزایش است.

اساسا یک سیستم بازیابی تصویر یک سیستم کامپیوتری همراه با سخت افزار و نرم افزار لازم برای جستجو از طریق یک پایگاه داده یا کتابخانه دیجیتالی نسبتا بزرگ جهت بازیابی تصاویر مشابه با جستجوی کاربر است. به طور کلی، دو نوع سیستم بازیابی تصویر وجود دارد: سیستم های بازیابی تصویر کلاسیک و سیستم های بازیابی تصویر محلی. به طور خاص، سیستم های بازیابی تصویر کلاسیک برای یافتن تصاویری شبیه به تصاویر پرس و جو از نظر مفاهیم معنایی است و سیستم های بازیابی تصویر محلی به منظور پیدا کردن اشیاء تکراری یا تقریبا تکراری در یک مجموعه تصویر است  که همان اشیاء موجود در تصاویر پرس و جو می باشند.

به عنوان مثال، اگر تصویر پرس و جو شامل یک گل رز قرمز با پس زمینه خالص (به عنوان مثال پس زمینه سیاه و سفید خالص) باشد در سیستمهای بازیابی تصویر کلاسیک هر تصویر بازگشتی حاوی یک گل یا چند گل با رنگ های مختلف و پس زمینه به عنوان نتایج بازیابی منظور می گردد در حالی که در سیستم های بازیابی تصویر محلی هر تصویر بازگشتی حاوی گل رز و با مقیاس های مختلف، زوایای چرخش و مکان های مختلف  به عنوان نتایج بازیابی خوب در نظر گرفته می شود.

در سیستم های بازیابی تصویر کلاسیک، پرس و جو می تواند با کلمات کلیدی مبتنی بر متن و یا یک تصویر مشخص که مورد علاقه کاربراست انجام پذیرد. بیشتر تکنیک های متداول برای استفاده از تصاویر پایگاه داده نیز به ثبت اطلاعات اضافی دارند که این اطلاعات شامل کلمات کلیدی خاص، توصیف ها، برچسب ها و یا نوشتن شرح تصاویر است. سپس آنها کلمات مطابق با تصاویر پایگاه داده را با کلمات کلیدی پرس و جو متنی ارسالشده توسط کاربر برای شناسایی تصاویر مشابه مطابقت داده و از آن استفاده می نمایند.

در سیستم تصویری گوگل که روزانه توسط میلیاردها نفر از مردم استفاده می شود، از این تکنیک متعارف مبتنی بر متن  برای بازیابی تصاویر مشابه استفاده شده است. بدیهی است برای استفاده از این نوع از سیستم بازیابی تصویر، قبل از اضافه شدن تصاویر به پایگاه داده اطلاعات اضافی به آن اضافه شود. در غیر این صورت، تصاویر بدون توضیحات در جستجو بر اساس متن بازیابی نمی شوند. با این حال، درج توضیحات به صورت دستی برای تصاویر دیجیتال در یک کتابخانه دیجیتال بزرگ کار غیر قابل تصور و وقت گیری است.

هیچ سازمان یا شرکتی نمی تواند این نوع کار را انجام و هزینه آن را بپردازد. علاوه بر این، حاشیه نویسی دستی دارای نقاط ضعف دیگر مانند سوء استفاده از کاربر، حاشیه نویسی تصویر اشتباه و حاشیه نویسی متناقض از نظر کاربران مختلف برای تصاویر مشابه و غیره است. به این ترتیب، محققان شروع به بررسی تکنیک هایی کردند که حاوی عبارات خودکار برای تعداد زیادی از تصاویر دیجیتال هستند. معمولا این تکنیک ها یک مدل آماری را یاد می گیرند که با استفاده از تصاویر کافی آموزش داده می شوند. با کمک مدل آموزش یافته، آنها به صورت خودکار درج توضیحات برای تصاویر دیگر را انجام می دهند. ناکارآمدی حاشیه نویسی تصویر اتوماتیک این است که مدل آموزش یافته تا حد زیادی بر کیفیت و تعداد تصاویر آموزشی یادداشت شده متکی است. اگر تصاویر آموزش نادرست، نامناسب و یا برچسب های با کیفیت ناسازگار یا غیرقابل توزیع باشند، مدل آماری آموزش دیده نمی تواند علامت گذاری دقیقی برای تصاویر دیگر ارائه دهد. علاوه بر این، مدل آماری آموزش دیده نمیتواند مفهوم معنایی دقیقتر تصاویر را یاد بگیرد.

در دهه 1990، چندین محقق در موسسه فناوری ماساچوست MIT[3] از جمله بنریدپرساد، امار گوپتا، هومن تونگ و استوارت مدنیک، اولین سیستم بازیابی تصویر دیجیتال مبتنی بر میکرو رایانه را برای یک پایگاه داده تصویری دیجیتال اختراع کردند که در آن هر تصویر به صورت خودکار توضیح داده می شود. این سیستم یک سیستم بازیابی تجربی تصویر اولیه است که بر اساس حاشیه نویسی تصویر به صورت اتوماتیک کار می کند. از اوایل دهه 2000، حاشیه نویسی تصویر اتوماتیک تبدیل به یک موضوع تحقیق محبوب و باعث جذب محققان بیشتر و بیشتر برای ساخت سیستمهای بازیابی تصویر بر اساس تصاویر به صورت خودکار شده است. این سیستم های بازیابی تصویر دیجیتال به نامهای مبتنی بر مفهوم یا سیستم های بازیابی تصویر مبتنی بر متن یا "مبتنی بر توصیف" نامیده می شوند که روند جستجوی و بازیابی آن به طور خودکار بر اساس کلمات کلیدی یا برچسب های تصاویر دیجیتالی است. بعدها، موتورهای جستجوی تصویر مبتنی بر وب نیز تکنیک های نمایه سازی تصویر مبتنی بر تصویر را برای بازیابی تصاویر مشابه از وب استفاده کردند.

تقریبا در همان زمان از ظهور سیستم های بازیابی تصویر مبتنی بر مفهوم، نوع دیگر سیستم های بازیابی تصویر، یعنی سیستم های تصویر برداری مبتنی بر محتوا CBIR در اوایل دهه 1990 ظهور یافت. هر دو سیستم مبتنی بر مفهوم و CBIR از دهه 1990 به طور قابل توجهی تکامل یافتهاند.

بر خلاف سیستم های بازیابی تصویر مبتنی بر مفهوم، سیستم CBIR با استفاده از ویژگی های تصویر بصری در سطح پایین (مانند رنگ، بافت، شکل، و غیره) به جای کلمات کلیدی جهت  بازیابی تصویراستفاده می نماید. سیستم های CBIR معمولی انجام وظیفه جستجو و بازیابی را با تجزیه و تحلیل رنگ تصاویر، شکل اشیاء در تصاویر، توزیع بافت های تصاویر، و یا هر اطلاعات شاخص دیگر از عکس ها به جای هرگونه ابرداده مانند کلمات کلیدی، برچسب ها یا نوشتارها و غیره انجام می دهند. در سال 1992، محقق کیتو ابتدا با استفاده از مقایسه رنگ تصویر و ویژگی های شکل هر تصویر پایگاه داده با ویژگی های رنگ و شکل مورد جستجو از CBIR  برای توصیف تجربی بازیابی خودکار عکس دیجیتال استفادهکرد. از آن به بعد، این اصطلاح به شدت مورد استفاده قرار گرفته است تا به تمام تکنیک های مشابه و فرآیندهای جستجو و بازیابی تصاویر از یک کتابخانه عکس دیجیتالی و با استفاده از ویژگی های نمایشی مشترک مانند رنگ ها، شکل ها، بافت ها و غیره استفاده شود.

سیستم های CBIR اولیه معمولا بر روی استخراج ویژگی های تصویر و استراتژی های مربوطه برای بازیابی تصاویر مربوطه از یک پایگاه داده تکیه می کنند. به عنوان مثال، فلیکنر  و همکارانش درشرکت  IBM سیستم QBIC را در سال 1995 اختراع کردند، گپتا و جین VIRAGE  را در سال 1997 و مخرجیا در سال 1999 سیستم NEC AMORE را اختراع کرد. سه سیستم فوق اولین سیستم های CBIR  برای هدف تجاری هستند.

در همین حال، محققان مزایای استفاده از سیستم CBIR را در چندین برنامه دنیای واقعی پیدا کردند که به تعدادی از آنها اشاره می شود.

1- طراحی معماری و مهندسی :  CBIRمی تواند به طراحان کمک کند تا ساختمان های مشابه با طرح های منظره را با ارائه طرح های نمونه خاصی طراحی نمایند.

2- مجموعه های هنری: CBIR  می تواند در موزه های هنری دیجیتال و به کاربر برای یافتن کارهای هنری دلخواه مانند نقاشی، عکس یا حتی مجسمه سازی با ارسال تصویر نمونه کمک کند.

3- پیشگیری از جنایت: CBIR  می تواند به مأموران اجرای قانون کمک کند تا سریعا صحنه های مشابه جرم و یا مظنون را با آپلود تصاویر مدارک موجود به سیستم، پیدا کنند.

4- زمینه اطلاعات جغرافیایی: CBIR  می تواند به محققان زمین شناسی کمک کند تا به راحتی مواد معدنی مورد نظر را با گروه بندی ظاهری مشابه پیدا کنند.

5- مالکیت معنوی: CBIR می تواند به نویسندگان نقاشی یا عکاسی کمک کند تا به راحتی هر نسخه کپی شده غیر مجاز از اثر خود را در اینترنت با ارسال یک کپی دیجیتال از کار خود به سیستم به راحتی شناسایی نمایند.

6- درمان پزشکی: CBIR می تواند به پزشکان کمک بزرگی در تشخیص زود هنگام بیماری نماید با استفاده از عکس های مشابه پاتولوژیک که در یک پایگاه داده تصویری پزشکی بزرگ گردآوری شده است.

7- ارتش: CBIR می تواند به افسران یا فرماندهان اطلاعاتی کمک کند تا سریعا نوع وسایل نقلیه متخاصم را با ارسال تصویر زنده آنها به سیستم شناسایی نمایند.

8- خرید جزئی: CBIR می تواند به مشتریان کمک کند تا به سرعت و به راحتی محصولات دلخواه خود را با آپلود عکس کالا به سیستم، بازیابی و فروشنده آن را پیدا کنند.


سیستم های بازیابی تصویر مبتنی بر محتوا

تکنیک های CBIR راه حل های مناسب برای یافتن تصاویر دلخواه از کتابخانه های تصویر دیجیتال است. در یک سیستم CBIR اصلی، تمام تصاویر دیجیتال در یک کتابخانه با ویژگی های بصری آنها (مثلا محتوای بصری تصاویر) نشان داده می شوند. ویژگی های بصری شامل رنگ، شکل، لبه و بافت برای نشان دادن یک تصویر از دیدگاه های مختلف بصری است. در ابتدا، این ویژگی های بصری از هر تصویر استخراج شده و برای استفاده در آینده در یک پایگاه داده ویژگی، مربوط به کتابخانه تصویر دیجیتال ذخیره می شود. هنگامی که یک تصویر پرس و جو به سیستم ارسال می شود، ویژگی های تصویر مورد جستجو برای اولین بار استخراج می شود. سپس از یک روش تطبیق برای مقایسه شباهت بین ویژگی های تصویر مورد  پرس و جو و ویژگی های بصری همه تصاویر دیجیتال در پایگاه داده تصویر استفاده می شود و در نهایت تصاویری که دارای شباهت بالاتری هستند به عنوان نتایج بازیابی به کاربر باز می گردند. شکل ذیل نمودار عملکرد یک سیستم CBIR اولیه را نشان می دهد.


دقت بازیابی می تواند به دلیل شکاف معنایی بین ویژگی های بصری سطح پایین و مفاهیم معنایی بالا در سطح رضایت بخش نباشد. زیرا تصاویربا محتوای معنایی مشابه ممکن است در فضای ویژگی با یکدیگر تفاوت داشته باشند در حالی که تصاویری از محتوای معنایی متضاد ممکن است ویژگیهای مشابه ای داشته باشند. به عنوان مثال، کشتی کروز در اقیانوس و هواپیما در آسمان آبی، همانطور که در شکل ذیل نشان داده شده، دو شیء مجزا با ویژگی های مشابه سطح پایین هستند. در حالی که تصویر یک هواپیما به سیستم CBIR داده شده و تصاویر هواپیما و کشتی کروز برگردانده شده است. انسان ها این شکاف معنایی به راحتی تشخیص می دهند. با این حال، تکنیک های بینایی کامپیوتری در حال تلاش برای از بین بردن این شکاف معنایی است. لذا به دلیل وجود شکاف معنایی، سیستم های پایه  CBIR مبتنی بر ویژگی استفاده محدودی دارند.

در این پایان نامه، دو روش جدید رتبه بندی چندمنظوره برای بازیابی تصویر بر اساس محتوا (CBIR) پیشنهاد شده است. این دو سیستم پیشنهادی از همکاری بین یادگیری کوتاه مدت مبتنی بر بازخورد و یادگیری طولانی مدت مبتنی بر ویژگی معنایی برای بهبود عملکرد بازیابی استفاده می کنند. سیستم های پیشنهادی برای اولین بار مکانیسم یادگیری فعال را برای ایجاد لینک های بازخورد ارتباط کاربران و استخراج ویژگی های معنایی بالا در هر تصویر اعمال می کند. سپس این سیستم ها با ایجاد همگرایی بصری سطح پایین و شباهت معنایی سطح بالا برای ساخت ساختارهای معنی دار برای فضای تصویری، نمودارهای چندگانه را ایجاد می کند. در نهایت، بردارهای مرتبط نامتقارن ایجاد می شوند تا نماهای مرتبط از تصاویر برچسب شده را به تصاویر بدون برچسب از طریق نمودارهای چندگانه نمایش دهند. نتایج تجربی نشان می دهد که دو سیستم پیشنهادی از دیگر سیستم های CBIR در زمینه بازخورد کاربران در شناسایی تصاویر حصیح و نادرست پیشرفته تر است.
تصویربرداری دیجیتال یک اختراع بزرگ در قرن گذشته بود و چون استفاده از دوربین های دیجیتال در بین همه مردم شهرت یافت لذا در اواخر قرن بیستم تعداد زیادی تصاویر دیجیتال جمع آوری گردید. چگونگی مدیریت حجم عظیمی از تصاویر و پیدا کردن تصاویر دلخواه در میان آنها یک مسئله مهم و اساسی در همان دوره بود.

تکنیک های بازیابی یک تصویر دلخواه به طور کلی به دو کلاس پایه تقسیم می شوند:

1-     سیستم هایی که از کلمات کلیدی مبتنی بر متن برای بازیابی تصاویر مورد نظر در پایگاه داده تصویری استفاده می کند.

2-     سیستم های دیگری که  بر روی نمایش داده ها مبتنی بر تصویر به منظور بازیابی تصاویر مورد نظر در پایگاه داده تصویر متکی هستند. که تکنیک دوم معمولا به نام استفاده از تکنیک بازیابی تصویر مبتنی بر محتوا شناسایی می شود.

تکنیک های عمده درگیر در تکنیک بازیابی تصویر مبتنی بر محتوا شامل استخراج ویژگی تصویر، الگوریتم تطابق ویژگی و محاسبه شباهت است. هر تکنیک نقش مهمی در بازیابی تصویر مبتنی بر محتوا بازی می کند و همچنین مسائل و چالش های خود را نیز دارد. به عنوان مثال، چگونگی یافتن یک الگوریتم تطبیق ویژگی کارآمد و دقیق، هنوز یک موضوع اساسی و مهم در بازیابی تصویر مبتنی بر محتوا است. در این مقاله، مسائل مربوط به چالش های خاصی که در تکنیک بازیابی تصویر مبتنی بر محتوا وجود دارد ارائه شده و دو سیستم بازیابی متفاوت را می توان در پایگاههای تصویر کوچک و مقیاس بزرگ استفاده کرد.

 

لینک دانلود



[1] National Institute of Standards and Technology

[2] Charge-Coupled Device

[3] Massachusetts Institute of Technology

مقاله " توصیفگرهای مبتنی بر شبکه عصبی تصادفی برای طبقه بندی شکل "

این مقاله توسط جورباس دیاسی و همکارانش در سال 2017 تهیه شده است. تجزیه و تحلیل شکل یک زمینه بسیار مهم در دید کامپیوتری است. این مقاله یک روش جدید برای تجزیه و تحلیل شکل بر اساس وزن یک شبکه عصبی تصادفی RNN ارائه می دهد. دو روش برای استخراج ویژگی ها پیشنهاد شده است: رویکرد همسایه ها که از فاصله هر پیکسل کناری و پیکسل های مجاور آن استفاده می کند و رویکرد مرزی که که از مدل سازی RNN  استفاده می کند. ضمنا در روش ارائه شده از ترکیب بردارهای ویژگی هر دو رویکرد استفاده شده و  مجموعه ای از ویژگی هایی به دست آمده که در مقابل چرخش و مقیاس پایدار می باشند.

رویکرد مورد نظر با روش های دیگر تحلیل شکل و برای 6 مجموعه داده های مختلف مقایسه شده است که شامل ماهی و برگ در شرایط مختلف است.

تجزیه و تحلیل شکل یک موضوع مورد علاقه و جذاب در بینایی تصویر است. در زندگی روزمره اشیاء بر اساس ویژگی های مهم بصری آن تعریف می شوند و شکل ها به طور گسترده ای در ارتباطات انسانها به دلیل توانایی سیستم بصری در تشخیص آنها مورد استفاده قرار می گیرند. در بینایی کامپیوتری باید از  ویژگی های پایداردر برابر  تغییرات نور و تغییرات رنگ و بافت استفاده شود.

شکل به عنوان یکی از زیر ساخت های اصلی در بسیاری از سیستم های شناخته شده و بازیابی است و در بسیاری از برنامه های کاربردی نقش کلیدی ایفا می کند. استفاده رایج از شکل برای تجزیه و تحلیل و تشخیص نمادها و علامت های تجاری است. برای این منظور روش های همانند PLC[1] وسری زمانی  Zernike و ماتریس هم رخداد[2]  استفاده شده است.

تشخیص تصاویر مبتذل برای فیلتر کردن کار دیگری است که از تجزیه و تحلیل شکل حاصل می شود. در پزشکی نیز از اطلاعات شکل برای هدایت و تقسیم بندی تصاویر بزرگ شده از بافت های حاصل از CT[3] استفاده می شود.

با توجه به اهمیت آن، روش های بسیاری برای استخراج اطلاعات معنی دار از یک شی شکل ارائه شده است. این روش ها معمولا براساس این که ویژگی ها از کچای شکل استخراج شده اند به سه دسته تقسیم می شوند که این دسته بندی ها عبارتند از:

1-  مبتنی بر خطوط، که نشان دهنده روش هایی است که شکل را به عنوان یک مجموعه مرتب شده از نقاط متصل در یک شیء منحنی متصور می کند و از این مجموعه برای توصیف شکل استفاده می شود.

2- روش مبتنی بر منطقه، که شامل روش هایی است که از تصویر شکل برای محاسبه توصیف های آن استفاده می کنند.
3- روش های مبتنی بر اسکلت، که تنها از اطلاعات محوری  شکل برای توصیف و شناخت آن استفاده می کنند.

اخیرا در برخی از روش های از تبدیل رادون، SIFT  و شبکه عصبی کانولوشن برای تحلیل شکل استفاده می نمایند. در تحقیقی که در سال 2016 توسط ماکاتو هاسیگاوا و همکارش انجام شد آنها از تبدیل رادون برای ایجاد یک هیستوگرام برای توصیف شکل استفاده کردند که در آن تطبیق شکل با استفاده از یک ماتریس همبستگی انجام می شد، لذا سیستم در برابر چرخش و مقیاس مقاوم بود. در تحقیقی که توسط وینگان وانگ و همکارانش به منظور کشف و تقسیم کردن اشیاء از زمینه های پیچیده موجود در تصاویر ویدیویی انجام گرفت آنها از یک فلوی SIFT برای کشف و تفکیک بخش های شی در فریم استفاده نمودند.

مدلهای فراگیر یادگیری مبتنی بر شبکه های عصبی کانولوشن ببه منظور تحلیل شکل های مختلف ارائه شده است. وینگان وانگ و همکارش در سال 2016  از یادگیری عمیق برای پاسخ دادن به مشکل خرابی عکس استفاده کردند. آنها همچنین در تحقیقی که در سال 2018 انجام گرفت [27]، یک مدل یادگیری عمیق برای شناسایی مناطق چشمگیر در فیلم ها ارائه نمودند که اطلاعات مکانی و زمانی را تولید می کرد. که بسیار سریع انجام می گرفت.  آنها همچنین در یک کار تحقیقاتی جدید در سال 2018 [28] از  یک شبکه عصبی کانولوشن برای پیش بینی ساختار چشم انسان استفاده نمودند. برای این منظور آنها از یک رویکرد چندمتغیره و استخراج اطلاعات سلسله مراتبی از لایه های شبکه عصبی استفاده نمودند.

در این مقاله از یک شبکه عصبی تصادفی برای محاسبه توصیفگرها از یک خط شکل استفاده کنیم. ایده اصلی این است که از وزن شبکه عصبی به عنوان یک بردار ویژگی برای توصیف و طبقه بندی شکل استفاده شود. در بخش 2 ایده اصلی یک شبکه عصبی تصادفی را توضیح داده می شود و در بخش 3، دو روش برای مدل سازی نقاط به عنوان یک داده ورودی و خروجی برای شبکه عصبی تصادفی به منظور ساخت امضای تصویر نمایش داده می شود نتایج ارزیابی انجام شده در بخش 4 ارائه شده است. برای این ارزیابی، آنها از شش مجموعه داده شامل ماهی، برگ و حالت های مختلف برگ نظیر چرخش، مقیاس و برگ های تغییر شکل داده استفاده نمودند. برای مشخص شدن بهبود روش ارزیابی آنها مقایسه ای با برخی از روش های تحلیل شکل سنتی انجام شده که نتایج آن در بخش 5 ارائه و مورد بحث قرار گرفته است.

 

 

لینک دانلود مقاله

 



[1] pixel-level constraint

[2] co-occurrence matrix

[3] computed tomography

مقاله "رمزگشایی کلی از اشیاء و تصاویر دیده شده با استفاده از ویژگی های تصویری سلسله مراتبی"

این مقاله توسط آقای تومویاسا هوریکاوا و همارش در سال 2017 تهیه شده است. همانطور که می دانیم تشخیص شیء یک عملکرد کلیدی در دیدگاه انسان و ماشین است. وقتی که تصویری دیده می شود رمزگشایی آن توسط مغز انجام شده و وضعیت آن منوط به نمونه های آموزشی است. در این مقاله نویسندگان یک رویکرد رمزگشایی برای اشیاء دلخواه را با استفاده از اصل بینایی ماشین ارائه می دهند که دسته بندی اشیاء با مجموعه ای از ویژگی های غیر قابل تغییر و از طریق پردازش سلسله مراتبی انجام می شود. آنها نشان می دهند که ویژگی های بصری، از جمله آنهایی که از یک شبکه عصبی کانولوشن عمیق مشتق شده اند، می توانند از الگوهای fMRI[1] پیش بینی شده استفاده و دقت بیشتری را برای ویژگی های سطح پایین و سطح بالا به دست آورند. ویژگی های پیش بینی شده برای شناسایی دسته های شیء محاسبه شده و به صورت مجموعه ای از ویژگی های عددی برای تصاویر به دست می آید. نتایج نشان می دهد که هماهنگی بین بینایی انسان و ماشین وجود داشته و می توان از آن برای بازیابی اطلاعات مبتنی بر ساختار مغز استفاده کرد.

به منظور تفسیر مطالب، رمزگشایی از عملکرد مغز از طریق تجزیه و تحلیل آماری و ماشین های تصویربرداری رزونانس مغناطیسی fMRI  انجام می شود تا برخی نتایج حاصل شود مثلا افرادچگونه چیزی را به یاد می آورند، تصور می کنند و یا رویا می بینند.

اکثر مطالعات قبلی براساس رویکرد مبتنی بر طبقه بندی است که در آن یک طبقه بندی کننده آماری (رمزگشایی) برای یادگیری رابطه بین الگوهای fMRI  و محتوای مورد نظر برای رمزگشایی آموزش داده می شود. چنین رویکردهایی محدودیت اساسی در تعداد خروجی های ممکن را ایجاد می کند. یعنی خروجی ها محدود به کلاس هایی است که برای آموزش رمزگشایی استفاده می شود و مانع از رمزگشایی کلاس هایی است که در آموزش استفاده نشده است.

در مطالعات اخیر بر این  محدودیت ها غلبه شده است. در این روش رمزگشایی تصاویر بصری جدید امکان پذیر است برای تصاویری که در در جلسات آموزشی ارائه نشده است.

کی و همکارانش یک مدل رمزگذاری را برای retinotopically که شامل فیلترهای موجک گابور است ساخته اند. آنها از یک پایگاه داده تصویر بصری و روش پیش بینی مغز  و توسط یک مدل کد گذاری استفاده کردند.

فعالیت مغز اندازه گیری شده، سپس با تعیین یک تصویر از پایگاه داده و  رمزگشایی آن مشخص شد که این فرآیند شبیه فعالیت مغز  انسان است.
این روش برای شناسایی آثار دیده شده مورد استفاده قرار گرفته است. میاواکی و همکارانش، یک مدل رمزگشایی مدولار را که شامل چندین ماژول است را برای پیش بینی تکه های تصویر طراحی نمودند.

در حالی که شناسایی تصویر و بازسازی تصویر با استفاده از رمز گشایی روش های مناسبی برای بررسی شباهت تصویری هستند ولی آنها اطلاعات صریحی در مورد خود جسم که دیده می شود و یا فرد آن را تصور می کند ارائه نمی دهد. اشیاء احتمالی که ممکن است در زندگی روزانه مشاهده یا تصور کنیم بی شمارند و اطلاعات مبتنی بر شیء اغلب به طور مستقیم به روش دید ما مرتبط است.

روش هایی زیادی برای رمزگشایی از فعالیت مغز در تشخیص اجسام بوجود آمده است که می تواند روش درک اجسام توسط مغز انسان را نشان دهد.

برای این منظور دسته بندی  اشیاء مشاهده شده و تصور شده ای که در آموزش های رمزگشایی از سیگنال های fMRI اندازه گیری شده اند مورد برسی قرار نگرفته و صرفا  روش رمزگشایی مدولار را که ابتدا برای بازسازی تصاویر رمز گشایی شده هستند را  توسعه می دهند.

برای تطبیق رویکرد رمزگشایی مدولار در این مقاله نویسندگان فرض را بر این دانستند که یک دسته از اقلام را می توان با مجموعه ای از ویژگی های بصری با چندین متغیر معرفی کرد. این ویژگی ها مربوط به چالش تشخیص چهره در یاد گیری ماشین است که هدف آن فعال کردن کامپیوتر برای تشخیص اشیاء در تصاویر با توجه به نام و رده آنها است. انتخاب ویژگی های بصری یک جنبه حیاتی از این رویکرد است، زیرا حتی اگر تصاویر یک شی مشابه را نشان دهند، لزوما در مقایسه با چرخش، مقیاس، موقعیت و سایر خصیصه های بصری، شباهت پیکسل ها در عمل وجود ندارد. لذا می بایست از ویژگی های بصری طرح بالا که به چنین تفاوت های تصویری حساس نیستند برای بازسازی تصویر استفاده نمود.

در این مقاله از روش های شبکه عصبی کانولوشن CNN مدل های  CNN1-CNN8و GIST  و همچنین  SIFT+BoF استفاده شده است. برخی از مدل ها همانند CNN  ساختار سلسله مراتبی سیستم بصری انسان را تقلید می کنند، در حالی که روش های دیگر برای تشخیص صحنه GIST و تشخیص شی SIFT + BoF در بینایی ماشین طراحی شده اند.

با استفاده از این ویژگی های بصری،  یک رویکرد جدید به نام "رمزگشایی شیء عمومی" ارائه شده که در آن دسته های شیء دلخواه از فعالیت مغز انسان رمزگشایی می شوند و با استفاده از پایگاه داده تصویری آنلاین، ImageNet31  و مدل های رگرسیون آموزش (رمزگشایی) برای پیش بینی ویژگی های بصری استخراج شده ای که از فعالیت مغز وتوسط fMRI ثبت شده استفاده شده است. سپس از رمزگشاهای آموزش دیده برای پیش بینی بردارهای ویژگی های اشیا دیده شده و تصور شده که در آموزش های رمزگشایی از الگوهای فعالیت fMRI استفاده نکرده اند، استفاده شده است. برای مقایسه بردار ویژگی پیش بینی شده با بردارهای ویژه محاسبه شده از تصاویر در پایگاه داده تصویر، از پایگاه داده
ImageNet31
با تعداد15372 دسته استفاده شده است. در این مقاله نشان داده شده که ارزش اشیاء دیده شده و محاسبه شده توسط مدل های محاسباتی را می توان از مناطق مختلف مغز پیش بینی کرد و نشان می دهد که ارتباط تنگاتنگی بین مناطق کورتیکال و پیچیدگی ویژگی های بصری سلسله مراتبی وجود دارد. در نهایت، ویژگی های پیش بینی شده از الگوهای فعالیت مغز برای شناسایی اشیاء دیده شده و تصور شده را برای دسته های دلخواه بررسی و مفید بودن آن مورد بحث قرار می گیرد.

 

 

لینک دانلود مقاله



[1] functional magnetic resonance imaging

مقاله "مکانیسم بازخورد مربوط به گراف در بازیابی تصویر بر اساس محتوا"

این مقاله توسط آقای مالای کومار کوندو و همکارانش در سال 2014 تهیه شده است. بازیابی تصویر بر اساس محتوا CBIR یک مشکل مهم در حوزه مدیریت داده های دیجیتال است. در واقع دسترسی به تصاویر در حال افزایش است، اما متاسفانه سیستم های جستجوی مبتنی بر متادیتای سنتی قادر به استفاده درست از محتوای بصری آنها نیستند.

در این مقاله یک طرح CBIR جدید ارائه شده که هر تصویر پایگاه داده از را لحاظ ویژگی های آماری محاسبه شده با استفاده از تجزیه و تحلیل هندسی چند بعدی MGA[1] وNSCT[2]  مورد بررسی قرار داده و آنها را به صورت یک مقدار خلاصه می کند. کاهش نویز یکی از مزایای اصلی نمایش این ویژگی است. برای بهبود عملکرد بازیابی و کاهش شکاف معنایی، سیستم ما یک مکانیزم بازخورد مربوطه RF  دارد که از روش نظری گراف برای رتبه بندی تصاویر با توجه به بازخورد کاربر استفاده می کند.در این مقاله نویسندگان در ابتدا یک گراف از تصاویر با لبه هایی که منعکس کننده شباهت جفت های تصاویر نسبت به ویژگی های پیشنهاد شده است را تهیه می نمایند. سپس بازخورد کاربر در هر مرحله برای مقایسه در نظر گرفته شده و ذخیره می گردد. تجزیه و تحلیل تجربی در سه پایگاه داده متفاوت نشان دهنده اثربخشی الگوریتم آنها در مقایسه با روشهای پیشرفته تر است، مخصوصا زمانی که تصاویر با انواع مختلف نویز خراب می شوند.

سیستم تصویربرداری بر اساس محتوا  یک کاربر را قادر می سازد تا با تجزیه و تحلیل ویژگی های محتوای بصری، تصاویر را در یک پایگاه داده سازماندهی و بازیابی کند. کل فرآیند معمولا با ارائه یک پرس و جو بصری به سیستم و استخراج مجموعه ای از تصاویر از پایگاه داده که بیشترین شباهت به تصویر پرس و جو دارند، انجام می شود.

در این روش پرس و جو ویژگی های محتویات تصویرهای موجود محاسبه و با مقایسه با ویژگی های تصویر مورد جستجو،  تصاویر مشابه شناسایی و استخراج می شوند.

یک سیستم مدرن CBIR تعاملی شامل بخش های زیر است: استخراج ویژگی، کاهش ویژگی، بازخورد و رتبه بندی.
دو مرحله اول اجازه می دهد تا ویژگی های مربوط برای جستجوی تصاویر در پایگاه داده انجام پذیرد. مرحله رتبه بندی شامل مرتب سازی تصاویر پایگاه داده بر اساس ارتباط آنها با تصویر پرس و جو می شود. در نهایت، مرحله بازخورد مربوطه شامل مداخله کاربر می شود تا تصاویر را در مجموعه نتیجه به عنوان مرتبط یا غیر مرتبط نشان دهد و باعث ایجاد  یک رتبه بندی جدیدی از تصاویر پایگاه داده شده و این روش بازخورد تا رضایت کامل کاربر می تواند تکرار شود.

استخراج ویژگی ها و کاهش ویژگی ها به این دلیل مورد استافده قرار می گیرد که ویژگی های برجسته و قابل توجهی که وجود دارند شناسایی شده و با ابعاد کمتری که نسبت به تصویر دارند به طور مؤثر برای نشان دادن ویژگی های تصویر زیر استفاده شوند.
نتایج نشان می دهد که تکنیک های استخراج ویژگی که در دامنه فرکانسی کار می کنند در مقایسه با سیستم هایی که در دامنه معمولی هستند  در ارائه جزئیات مهم و ظریف تصویر موثرند.

در میان روشهای دامنه فرکانسی مختلف،  WT[3] و مدلهای آن (مانند موجک M-band، موجک پیچیده، بسته های موجک و غیره) در سیستم CBIR  به طور گسترده استفاده شده است. ویژگی های سطح پایین مبتنی بر WT یک تصویر منحصر به فرد از تصویر را ارائه می دهد که بسیار متناسب با خصوصیات بافت تصویر می باشد. با این حال، مشکل اصلی ویژگی های مبتنی بر WT، عدم پشتیبانی ذاتی آنها از جهت گیری و انحصارطلبی است.

برای غلبه بر این محدودیت ها، به تازگی یک نظریه به نام MGA برای اندازه گیری سیگنال ها معرفی شده است و چندین ابزار MGA[4] مانند Ripplet، Curvelet و Contourlet و ... برای استفاده از از دامنه های مختلف طراحی شده اند.
به طور کلی، سیستم CBIR مبتنی بر این ابزار MGA موثرتر از روش CBIR سنتی مبتنی بر WTاست.
روش CNT[5] برای کاهش حساسیت در هر دو حوزه تجسمی و فرکانسی پیشنهاد شده است.
این راه حل به نام NSCT[6]  شناخته شده و ترکیبی ازNSP[7] و NSDFB[8] است. در حال حاضر مقالات متعددی بر پایه NSCT  تهیه شده اند. علاوه بر استخراج ویژگی های خوب، کار مهم دیگر انتخاب ویژگی هایی است که هدف آن یافتن زیرمجموعه های مطلوب از ویژگی های استخراج شده است که به وسیله آن بیشترین اطلاعات توسط داده های جمع آوری شده حفظ می شود. هدف اصلی آن تجزیه و تحلیل دقیق و ساده تر و جستجوی سریع تر در پایگاه داده بوده و حداقل نیاز به فضای ذخیره سازی نیز از دیگر اهداف این روش می باشد. علاوه بر این، کاهش ابعاد موجب از بین رفتن نویز ها می شود زیرا نویزها به طور معمول در قسمت های حذف شده متمرکز هستند. روش های رایج انتخاب ویژگی ها شامل ارزیابی زیر مجموعه های ویژگی های مختلف با استفاده از برخی از شاخص ها و انتخاب بهترین آنها است.
بعضی از روشها از طریق استفاده از یک مجموعه آموزش نظارت شده برای پیدا کردن ویژگی های مرتبط با ویژگی های خاص استفاده می کنند.

متاسفانه، ویژگی های سطح پایین و معیارهای فاصله برای کاهش فاصله معنایی کافی نیست و بنابراین تصاویر را با توجه به اهداف کاربر رتبه بندی می کنند. در بسیاری از موارد پژوهشگران سعی می کنند  تا بازخورد کاربر را در حلقه جستجو وارد کنند و عملکرد رتبه بندی تصاویر بازیابی شده با استفاده از یک طرح تعاملی  بهبود بخشند. از اواسط دهه 1990، مکانیسم بازخورد ارتباط برای تصحیح تصاویر با بهره گیری از تصور بصری انسان به عنوان یک سیگنال بازخوردی برای اصلاح اشتباهاتی که توسط سیستم CBIR انجام می شود، مورد استفاده قرار گرفته است.چنین روند بازخورد زمانی پایان می یابد که تصاویر بازیابی شده کاربر را راضی کند. اندازه گیری فاصله بین تصاویر یک تابعی است که از عمکرد کاربر ناشی می شود و شامل تجربه او در طول زمان زندگی است. لذا استفاده از کاربر به منظور افزایش دقت در سیستم های بازیابی ضروری است.

دو نوع اصلی از رویکردهای مبتنی بر RF برای CBIR در مقالات  وجود دارد: قیاسی[9] و پیشگیرانه[10].

در روش قیاسی از یک طبقه بندی آموزش نظارت شده استافده می شود تا با استفاده از آن اختلاف  بین تصاویر شناسایی شود  و در نهایت تصاویر را بر اساس آنها رتبه بندی می کنند.
اشکال عمده این روش ها تعداد محدود نمونه هایی است که توسط کاربر علامت گذاری شده است و مانع از طبقه بندی و درستی یادگیری مرزهای به منظور جداسازی تصاویر واقعی و غیر مرتبط است.  رویه های پیشگیرانه این مشکل را با استفاده از توزیع داده های بدون برچسب انجام می دهند. این رویکردها معمولا بر مبنای یادگیری چند لایه ای است. رویکرد دیگر روشی است  که از داده های بدون برچسب برای اندازه گیری ارتباط بین تصویر پرس و جو و تصاویر پایگاه داده استفاده می کند. در این مقاله، یک سیستم CBIR جدید بر اساس RF پیشنهاد شده است. در این سیستم از ویژگی های ارائه شده برای تصاویر در روش  NSCT استفاده شده است که یک روش تجزیه تصویر چند منظوره، چند جهته و تغییر پذیر است. پس از مرحله استخراج ویژگی، از روش  MICI[11] که روش غیر نظارت شده است  برای انتخاب زیر مجموعه ای از ویژگی های بهینه استفاده می شود که در آن ابعاد داده  کاهش یافته و به طور ضمنی بخشی از نویز نیز مهار می شود. سپس یک رویکرد رتبه بندی مبتنی بر گراف، که از اطلاعات RF استفاده می کند مورد بهره برداری قرار می گیرد.

در این روش یک گراف اسپارس از تصاویر پایگاه داده و تصویر مورد جستجو تشکیل می شود که در آن گره ها تصاویر پایگاه داده بوده و وزن لبه ها مربوط به فاصله ی اقلیدسی بین ویژگیها می باشد.  برای دسته بندی تصاویر نزدیکترین همسایه استفاده شده است. برای تست این روش از
سه پایگاه داده SIMPLIcity دارای 1000 تصویر در 10 مجموعه و Oliva دارای 2600 تصویر در 8 مجموعه که هر مجموعه بین 260 تا 406 تصویر دارد و Caltech 256 که دارای 100 دسته بوده و هر دسته دارای 26 تصویر است استفاده شده که برتری نسبی بین روش این مقاله با سایر رویکردهای مختلف را نشان می دهد. در  بخش 2 این مقاله NSCT مطرح و توضیح داده می شود در بخش سوم مباحث مرتبط با تئوری گراف و در بخش چهارم  شرح مفصلی از RF توضیح داده شده است. سیستم CBIR پیشنهادی در بخش 5 توضیح داده شده و در نهایت در بخش 6 نتایج ارزیابی تجربی انجام شده مطرح می گردد ودر نهایت، در بخش 7 مقایسه با روش های قبلی و پیشنهادات آتی مورد بحث قرار می گیرد.

 

 

 

لینک دانلود مقاله

 

 



[1] Multi-scale Geometric Analysis

[2] Non-subsampled Contourlet Transform

[3] Wavelet Transform

[4] Multi-scale Geometric Analysis

[5] Contourlet Transform

[6] Non-Subsampled Contourlet Transform

[7] Non-Subsampled Pyramid

[8] Non-Subsampled Directional Filter Bank

[9] inductive

[10] transductive

[11] Maximal Information Compression Index