CBIR: Content Based Image Retrieval

مقاله "مکانیسم بازخورد مربوط به گراف در بازیابی تصویر بر اساس محتوا"

این مقاله توسط آقای مالای کومار کوندو و همکارانش در سال 2014 تهیه شده است. بازیابی تصویر بر اساس محتوا CBIR یک مشکل مهم در حوزه مدیریت داده های دیجیتال است. در واقع دسترسی به تصاویر در حال افزایش است، اما متاسفانه سیستم های جستجوی مبتنی بر متادیتای سنتی قادر به استفاده درست از محتوای بصری آنها نیستند.

در این مقاله یک طرح CBIR جدید ارائه شده که هر تصویر پایگاه داده از را لحاظ ویژگی های آماری محاسبه شده با استفاده از تجزیه و تحلیل هندسی چند بعدی MGA[1] وNSCT[2] مورد بررسی قرار داده و آنها را به صورت یک مقدار خلاصه می کند. کاهش نویز یکی از مزایای اصلی نمایش این ویژگی است. برای بهبود عملکرد بازیابی و کاهش شکاف معنایی، سیستم ما یک مکانیزم بازخورد مربوطه RF دارد که از روش نظری گراف برای رتبه بندی تصاویر با توجه به بازخورد کاربر استفاده می کند.در این مقاله نویسندگان در ابتدا یک گراف از تصاویر با لبه هایی که منعکس کننده شباهت جفت های تصاویر نسبت به ویژگی های پیشنهاد شده است را تهیه می نمایند. سپس بازخورد کاربر در هر مرحله برای مقایسه در نظر گرفته شده و ذخیره می گردد. تجزیه و تحلیل تجربی در سه پایگاه داده متفاوت نشان دهنده اثربخشی الگوریتم آنها در مقایسه با روشهای پیشرفته تر است، مخصوصا زمانی که تصاویر با انواع مختلف نویز خراب می شوند.

سیستم تصویربرداری بر اساس محتوا یک کاربر را قادر می سازد تا با تجزیه و تحلیل ویژگی های محتوای بصری، تصاویر را در یک پایگاه داده سازماندهی و بازیابی کند. کل فرآیند معمولا با ارائه یک پرس و جو بصری به سیستم و استخراج مجموعه ای از تصاویر از پایگاه داده که بیشترین شباهت به تصویر پرس و جو دارند، انجام می شود.

در این روش پرس و جو ویژگی های محتویات تصویرهای موجود محاسبه و با مقایسه با ویژگی های تصویر مورد جستجو، تصاویر مشابه شناسایی و استخراج می شوند.

یک سیستم مدرن CBIR تعاملی شامل بخش های زیر است: استخراج ویژگی، کاهش ویژگی، بازخورد و رتبه بندی.
دو مرحله اول اجازه می دهد تا ویژگی های مربوط برای جستجوی تصاویر در پایگاه داده انجام پذیرد. مرحله رتبه بندی شامل مرتب سازی تصاویر پایگاه داده بر اساس ارتباط آنها با تصویر پرس و جو می شود. در نهایت، مرحله بازخورد مربوطه شامل مداخله کاربر می شود تا تصاویر را در مجموعه نتیجه به عنوان مرتبط یا غیر مرتبط نشان دهد و باعث ایجاد یک رتبه بندی جدیدی از تصاویر پایگاه داده شده و این روش بازخورد تا رضایت کامل کاربر می تواند تکرار شود.

استخراج ویژگی ها و کاهش ویژگی ها به این دلیل مورد استافده قرار می گیرد که ویژگی های برجسته و قابل توجهی که وجود دارند شناسایی شده و با ابعاد کمتری که نسبت به تصویر دارند به طور مؤثر برای نشان دادن ویژگی های تصویر زیر استفاده شوند.
نتایج نشان می دهد که تکنیک های استخراج ویژگی که در دامنه فرکانسی کار می کنند در مقایسه با سیستم هایی که در دامنه معمولی هستند در ارائه جزئیات مهم و ظریف تصویر موثرند.

در میان روشهای دامنه فرکانسی مختلف، WT[3] و مدلهای آن (مانند موجک M-band، موجک پیچیده، بسته های موجک و غیره) در سیستم CBIR به طور گسترده استفاده شده است. ویژگی های سطح پایین مبتنی بر WT یک تصویر منحصر به فرد از تصویر را ارائه می دهد که بسیار متناسب با خصوصیات بافت تصویر می باشد. با این حال، مشکل اصلی ویژگی های مبتنی بر WT، عدم پشتیبانی ذاتی آنها از جهت گیری و انحصارطلبی است.

برای غلبه بر این محدودیت ها، به تازگی یک نظریه به نام MGA برای اندازه گیری سیگنال ها معرفی شده است و چندین ابزار MGA[4] مانند Ripplet، Curvelet و Contourlet و ... برای استفاده از از دامنه های مختلف طراحی شده اند.
به طور کلی، سیستم CBIR مبتنی بر این ابزار MGA موثرتر از روش CBIR سنتی مبتنی بر WTاست.
روش CNT[5] برای کاهش حساسیت در هر دو حوزه تجسمی و فرکانسی پیشنهاد شده است.
این راه حل به نام NSCT[6] شناخته شده و ترکیبی ازNSP[7] و NSDFB[8] است. در حال حاضر مقالات متعددی بر پایه NSCT تهیه شده اند. علاوه بر استخراج ویژگی های خوب، کار مهم دیگر انتخاب ویژگی هایی است که هدف آن یافتن زیرمجموعه های مطلوب از ویژگی های استخراج شده است که به وسیله آن بیشترین اطلاعات توسط داده های جمع آوری شده حفظ می شود. هدف اصلی آن تجزیه و تحلیل دقیق و ساده تر و جستجوی سریع تر در پایگاه داده بوده و حداقل نیاز به فضای ذخیره سازی نیز از دیگر اهداف این روش می باشد. علاوه بر این، کاهش ابعاد موجب از بین رفتن نویز ها می شود زیرا نویزها به طور معمول در قسمت های حذف شده متمرکز هستند. روش های رایج انتخاب ویژگی ها شامل ارزیابی زیر مجموعه های ویژگی های مختلف با استفاده از برخی از شاخص ها و انتخاب بهترین آنها است.
بعضی از روشها از طریق استفاده از یک مجموعه آموزش نظارت شده برای پیدا کردن ویژگی های مرتبط با ویژگی های خاص استفاده می کنند.

متاسفانه، ویژگی های سطح پایین و معیارهای فاصله برای کاهش فاصله معنایی کافی نیست و بنابراین تصاویر را با توجه به اهداف کاربر رتبه بندی می کنند. در بسیاری از موارد پژوهشگران سعی می کنند تا بازخورد کاربر را در حلقه جستجو وارد کنند و عملکرد رتبه بندی تصاویر بازیابی شده با استفاده از یک طرح تعاملی بهبود بخشند. از اواسط دهه 1990، مکانیسم بازخورد ارتباط برای تصحیح تصاویر با بهره گیری از تصور بصری انسان به عنوان یک سیگنال بازخوردی برای اصلاح اشتباهاتی که توسط سیستم CBIR انجام می شود، مورد استفاده قرار گرفته است.چنین روند بازخورد زمانی پایان می یابد که تصاویر بازیابی شده کاربر را راضی کند. اندازه گیری فاصله بین تصاویر یک تابعی است که از عمکرد کاربر ناشی می شود و شامل تجربه او در طول زمان زندگی است. لذا استفاده از کاربر به منظور افزایش دقت در سیستم های بازیابی ضروری است.

دو نوع اصلی از رویکردهای مبتنی بر RF برای CBIR در مقالات وجود دارد: قیاسی[9] و پیشگیرانه[10].

در روش قیاسی از یک طبقه بندی آموزش نظارت شده استافده می شود تا با استفاده از آن اختلاف بین تصاویر شناسایی شود و در نهایت تصاویر را بر اساس آنها رتبه بندی می کنند.
اشکال عمده این روش ها تعداد محدود نمونه هایی است که توسط کاربر علامت گذاری شده است و مانع از طبقه بندی و درستی یادگیری مرزهای به منظور جداسازی تصاویر واقعی و غیر مرتبط است. رویه های پیشگیرانه این مشکل را با استفاده از توزیع داده های بدون برچسب انجام می دهند. این رویکردها معمولا بر مبنای یادگیری چند لایه ای است. رویکرد دیگر روشی است که از داده های بدون برچسب برای اندازه گیری ارتباط بین تصویر پرس و جو و تصاویر پایگاه داده استفاده می کند. در این مقاله، یک سیستم CBIR جدید بر اساس RF پیشنهاد شده است. در این سیستم از ویژگی های ارائه شده برای تصاویر در روش NSCT استفاده شده است که یک روش تجزیه تصویر چند منظوره، چند جهته و تغییر پذیر است. پس از مرحله استخراج ویژگی، از روش MICI[11] که روش غیر نظارت شده است برای انتخاب زیر مجموعه ای از ویژگی های بهینه استفاده می شود که در آن ابعاد داده کاهش یافته و به طور ضمنی بخشی از نویز نیز مهار می شود. سپس یک رویکرد رتبه بندی مبتنی بر گراف، که از اطلاعات RF استفاده می کند مورد بهره برداری قرار می گیرد.

در این روش یک گراف اسپارس از تصاویر پایگاه داده و تصویر مورد جستجو تشکیل می شود که در آن گره ها تصاویر پایگاه داده بوده و وزن لبه ها مربوط به فاصله ی اقلیدسی بین ویژگیها می باشد. برای دسته بندی تصاویر نزدیکترین همسایه استفاده شده است. برای تست این روش از
سه پایگاه داده SIMPLIcity دارای 1000 تصویر در 10 مجموعه و Oliva دارای 2600 تصویر در 8 مجموعه که هر مجموعه بین 260 تا 406 تصویر دارد و Caltech 256 که دارای 100 دسته بوده و هر دسته دارای 26 تصویر است استفاده شده که برتری نسبی بین روش این مقاله با سایر رویکردهای مختلف را نشان می دهد. در بخش 2 این مقاله NSCT مطرح و توضیح داده می شود در بخش سوم مباحث مرتبط با تئوری گراف و در بخش چهارم شرح مفصلی از RF توضیح داده شده است. سیستم CBIR پیشنهادی در بخش 5 توضیح داده شده و در نهایت در بخش 6 نتایج ارزیابی تجربی انجام شده مطرح می گردد ودر نهایت، در بخش 7 مقایسه با روش های قبلی و پیشنهادات آتی مورد بحث قرار می گیرد.

لینک دانلود مقاله

[1] Multi-scale Geometric Analysis

[2] Non-subsampled Contourlet Transform

[3] Wavelet Transform

[4] Multi-scale Geometric Analysis

[5] Contourlet Transform

[6] Non-Subsampled Contourlet Transform

[7] Non-Subsampled Pyramid

[8] Non-Subsampled Directional Filter Bank

[9] inductive

[10] transductive

[11] Maximal Information Compression Index

علی ابراهیمی پنج‌شنبه 15 شهریور 1397 ساعت 21:20

0 نظر

مقاله "بررسی تکنیک های استخراج ویژگی شکل"

این مقاله توسط مینگگیانگ یانگ، کیدیو پالما و جوزف رانسین در سال 2010 تهیه شده است و یک مقاله مروری است در خصوص بررسی تکنیک های موجود برای استخراج ویژگی های اشیاء به منظور شناسایی شباهت بین آنها و در نهایت طبقه بندی و دسته بندی اشیاء متناظر. از کنفوسیوس فیلسوف چینی از حدود 2500 سال قبل نقل شده که "یک تصویر به اندازه هزاران کلمه ارزش دارد."

در حال حاضر، قدرت کلمات به طور کلی شناخته و درک شده است. یک تصویر می تواند همانند یک جادو به سرعت یک داستان پیچیده و یا مجموعه ای از ایده ها را برای بیننده یادآوری نماید.

اطلاعات بصری نقش مهمی در جامعه ما ایفا می کند و نیاز به رشد بیشتر این منابع وجود دارد. تصاویر در بسیاری از زمینه های کاربردی مانند معماری، مد، روزنامه نگاری، تبلیغات، سرگرمی و غیره استفاده می شود. بنابراین این فرصت را برای ما فراهم می کند تا از فراوانی تصاویر استفاده کنیم. در مواجهه با این حجم عظیم از تصاویر رو به افزایش، نحوه جستجو و بازیابی تصاویری که ما به آنها علاقه مندیم یک مشکل اصلی است از این رو نیاز به سیستم های بازیابی تصویر به وضوح احساس می شود. همانطور که می دانیم، ویژگی های بصری تصاویر، شرح محتوای آنها را ارائه می دهند. بازیابی تصویر مبتنی بر محتوا (CBIR) به عنوان یک راهکار امیدوارکننده برای بازیابی تصاویر و مرور تصاویر پایگاه داده های بزرگ به نظر می رسد. CBIR موضوع انجام تحقیقات بسیاری در سال های اخیر بوده است که در واقع روند بازیابی تصاویر از یک مجموعه بر اساس ویژگی های آن تصویر است.

در این مقاله نویسنده بر ارائه رویکردهای موجود برای استخراج ویژگی های مبتنی بر شکل تمرکز دارد.
ویژگی های شفاف و اساسی مانند:

شناسایی: اشکالی که توسط انسان مشابه شناخته می شوند دارای ویژگی های مشابه و متفاوت با سایر اشیا هستند.

چرخش و تغییرمقیاس: مکان و چرخش شکل نباید بر ویژگی های استخراج شده تاثیر بگذارد.

مقاومت به نویز: ویژگی ها باید در برابر نویز مقاوم باشند.

زمانی که برخی از قسمت های یک شکل توسط اشیاء دیگر مسدود می شوند، ویژگی بخش باقی مانده نباید نسبت به شکل اصلی تغییر کند.

از لحاظ آماری مستقل: دو ویژگی باید از نظر آماری مستقل باشند و به هم وابستگی نداشته باشند.

قابلیت اعتماد: تا زمانی از یک الگواستفاده می شود ویژگی های استخراج شده نباید تغییر کنند و می بایست ثابت باید باقی بمانند.

به طور کلی، توصیف کننده شکل، مجموعه ای از اعداد است که برای توصیف یک ویژگی شکل مشخص تولید می شوند.
یک توصیفگر تلاش می کند تا شکل را با روش هایی که با حواس انسان مطابقت دارد و برای انسان قابل فهم است اندازه گیری کند. دقت بازیابی یک توصیفگر می بایست بتواند از یک پایگاه داده شکلهای مشابه را پیدا کند. معمولا توصیفگرها به صورت یک بردار هستند و توصیفگرهای شکل باید شرایط زیر را داشته باشند:

توصیفگرها باید تا حد ممکن کامل باشند تا محتوای آیتم های اطلاعاتی را بیان کنند.

توصیفگرها باید به صورت فشرده نمایش داده و ذخیره شوند. اندازه بردار توصیفگر نباید بیش از حد بزرگ باشد.

نحوه محاسبه توصیفگرها باید ساده باشد در غیر این صورت زمان اجرا برای شناسایی عناصر مشابه خیلی طول خواهد کشید.

استخراج ویژگی شکل نقش مهمی در دسته بندی های زیر دارد:

بازیابی شکل: جستجو برای تمام اشکال موجود در یک پایگاه داده که شبیه به شکل مورد جستجومی باشند. معمولا تمام اشکالی که در یک فاصله معین از پرس و جو مشخص می شوند یا اولین شکل های که کوچکترین فاصله را دارند شناسایی و برگردانده می شوند.

تشخیص شکل و طبقه بندی: تعیین اینکه آیا شکل مشخصی با یک مدل مناسب مطابقت دارد و یا کدام یک از کلاس های نمایشی بیشترین شباهت را دارند.

موقعیت شکل و تثبیت آن: تبدیل یا ترجمه یک شکل به طوری که آن را به بهترین نحو با شکل دیگربه طور کامل و یا بخشی از آن مطابقت دهد

ساده سازی: ساخت یک شکل با عناصر کمتر که هنوز مشابه شکل اصلی باشد.

بسیاری از روش های اندازه گیری و تشریح شکل در گذشته توسعه یافته اند. تعدادی از تکنیک های جدید در سال های اخیر پیشنهاد شده است.

سه روش اصلی طبقه بندی متفاوت به شرح زیر وجود دارد:

روش های مبتنی بر محدوده و روش های مبتنی بر منطقه که این طبقه بندی رایج ترین روش طبقه بندی است و توسط MPEG-7 پیشنهاد شده است. و با استفاده از نقاط مرزی شکل در مقایسه با نقاط داخلی شکل مشخص می شود. در هر کلاس دارای چندین زیر کلاس می باشد که این زیر کلاس ها بیانگر این است که آیا شکل به صورت یک کل یا بخش نشان داده شده است.

دامنه فضایی و دامنه تبدیل: در روش ها در حوزه های فضایی، شکل ها را بر اساس نقاط و در تکنیک های مبتنی بر ویژگی مطابق شکل از بردار استفاده می شود.

حفاظت از اطلاعات IP "Information Preserving"و عدم حفظ اطلاعات NIP "Non-Information Preserving" : روش های IP اجازه می دهد تا بازسازی دقیق شکل با استفاده از توصیفگرهای آن انجام شود در حالی که روش NIP تنها ما را قادر به بازسازی جزئی و مبهم آن می کند.

بر خلاف طبقه بندی سنتی، روش های استخراج و نمایش ویژگی های مبتنی بر شکل بر اساس روش پردازش آنها طبقه بندی می شوند. شکل زیر سلسله مراتب طبقه بندی و روش های استخراج ویژگی را نشان می دهد.

در ادامه نویسندگان به تشریح مختصر هر یک از روش ها و مفاهیم ذکر شده در شکل فوق پرداخته اند. در کل مطالعه این مقاله و منابع آن برای کسانی که تمایل به کار در این حوزه را دارند پیشنهاد می شود.

لینک دانلود مقاله

علی ابراهیمی سه‌شنبه 13 شهریور 1397 ساعت 00:07

0 نظر

پایان نامه "Classification and Clustering of Vector Space Embedded Graphs"

این پایان نامه مربوط به آقای کسپر ریزن می باشد که در سال 2009 در دانشکده فلسفه و علوم طبیعی دانشگاه برن انجام شده است. با توجه به توانایی گراف ها برای نشان دادن خواص مشخصه ها و روابط دوتایی آنها استفاده از گراف در علوم مختلف مشاهده می شود. با این حال، نمودارها هنوز ساختار داده معمول در تشخیص الگو و زمینه های مرتبط را نشان نمی دهند واین به دو دلیل می باشد:

اولا کار با گراف ها سخت از کار با بردارهای ویژگی است و حتی عملیات پایه ریاضی را نمی توان در یک روش استاندارد برای نمودار تعریف کرد.
ثانیا، زمانی که گراف ها به جای بردارهای ویژگی استفاده می شوند، افزایش قابل توجهی در پیچیدگی بسیاری از الگوریتم ها مشاهده می شود.
در نتیجه، تقریبا هیچ یک از روشهای استاندارد تشخیص الگو برای نمودارها بدون ایجاد تغییر در آنها استفاده نمی شود و لذا کمبود شدید در ابزارهای تشخیص الگو مبتنی بر گراف وجود دارد.

این پایان نامه مربوط به یک رویکرد اساسا جدید جهت به رسمیت شناختن الگوی مبتنی بر گراف بر اساس مکعب فضای بردار گراف است.
در این پایان نامه نویسنده قصد دارد تا قدرت بازنمایی بالا گراف ها را به یک بردار ویژگی های محاسباتی کارآمد و ریاضی قابل استفاده تبدیل کند. بر اساس تعبیه صریح نمودارها، کارکرد تشخیص الگو در نهایت اجرا می شود. از این رو، همه ابزارهای الگوریتمی به راحتی برای داده های بردار موجود می تواند بر روی نمودارها اعمال شود. ایده کلیدی این است که تفاوت های یک گراف ورودی را به برخی از گراف های پیش نمونه ای به عنوان توصیف درونگر از گراف در نظر گرفته شود. بدیهی است که با استفاده از این تعبیر، یک فضای بردار را بدست می آوریم که هر محور با یک گراف نمونه اولیه همراه است و مقادیر مختصات یک گراف تعبیه شده، فاصله این نمودار با نمونه های مشخص است.

چارچوب تعبیه گراف اساسا بر محاسبه اختلافات گراف متکی است. علیرغم شرایط سخت ریاضی و محاسباتی در دامنه گراف، روش های مختلفی برای ارزیابی عدم هماهنگی نمودار ها ارائه شده است. در این پایان نامه در واقع از مفهوم فاصله ویرایش گراف برای این کار استفاده می شود.
اساسا، فاصله ویرایش نمودار ها با هدف ایجاد یک اندازه گیری متقارن از تعداد و همچنین شناسایی اختلافات برای تبدیل یک گراف به گراف دیگر استفاده می شود. همانطور که معلوم است، فاصله ویرایش گراف با الزامات کاربردی طیف وسیعی از نمودارها را شامل شده و همچنین سازگاری با دامنه های مختلف دارد. با توجه به این انعطاف پذیری، روش پیشنهادی می تواند تقریبا به هر نوع نمودار اعمال شود. همانطور که در این پایان نامه قید شده، انتخاب نمونه های اولیه یک مسئله حیاتی است. زیرا نه تنها نمونه های اولیه، بلکه تعداد آنها بر روی نقشه گراف و در نتیجه عملکرد الگوریتم تشخیص الگوی مربوطه تاثیر می گذارد. در پایان نامه حاضر، انتخاب های مناسب نمونه اولیه با روش های مختلفی نظیر روش های انتخاب نمونه اولیه، الگوریتم های انتخاب ویژگی، روش های گروه بندی و چندین روش دیگر مورد توجه قرار می گیرند.

در یک بررسی تجربی قدرت و کاربرد چارچوب تعبیه گراف پیشنهادی به صورت تجربی بر روی مجموعه داده 10 نمودار با ویژگی های کاملا متفاوت تایید شده است. نمودار هایی وجود دارد که در برگیرنده اطلاعات نشانگرهای خطی، تصاویر خاکستری، ترکیبات مولکولی، پروتئین ها و صفحات HTML هستند. یافته های اصلی ارزیابی تجربی این است که روش جانمایی با استفاده از اختلافات با طبقه بندی متوالی یا خوشه بندی دارای پتانسیل بسیار بالایی نسبت به رویکردهای سنتی در تشخیص الگوهای مبتنی بر گرافیک است. در حقیقت، این روش بر روی بسیاری از مجموعه داده ها و سیستم هایی که به طور مستقیم بر روی اطلاعات متجانس گراف عمل می کنند بررسی و نتایج آن در اکثر موارد از لحاظ آماری معتبر می باشد.

لینک دانلود پایان نامه

علی ابراهیمی جمعه 9 شهریور 1397 ساعت 21:49

0 نظر

CBIR: Content Based Image Retrieval

درباره من

پیوندها

دسته‌ها

جدیدترین یادداشت‌ها

بایگانی

جستجو

مقاله "مکانیسم بازخورد مربوط به گراف در بازیابی تصویر بر اساس محتوا"

مقاله "بررسی تکنیک های استخراج ویژگی شکل"

پایان نامه "Classification and Clustering of Vector Space Embedded Graphs"