X
تبلیغات
وکیل جرایم سایبری

CBIR: Content Based Image Retrieval

مقاله "بررسی بازیابی تصویر مبتنی بر محتوا با معناشناسی سطح بالا"

این مقاله توسط لینگ لیو و همکارانش در سال 2006 تهیه شده است. به منظور بهبود دقت بازیابی سیستم های بازیابی تصویر مبتنی بر محتوا، تمرکز پژوهش از طراحی الگوریتم های استخراج ویژگی های سطح پایین به سمت طراحی الگوریتم برای کاهش "شکاف معنایی" بین ویژگی های بصری و درک انسان پیش رفته است. این مقاله تلاش می کند تا یک بررسی جامع از دستاوردهای فنی اخیر در بازیابی تصویر مبتنی بر معانی سطح بالا ارائه دهد. مهمترین نشریات اخیر در این بررسی شامل جنبه های مختلف تحقیق در این زمینه، از جمله استخراج ویژگی های سطح پایین از تصویر، اندازه گیری شباهت و به دست آوردن ویژگی های معنایی در سطوح بالا است. در این مقاله پنج دسته اصلی از تکنولوژی های پیشرفته در کاهش "شکاف معنایی" شناسایی شده است:

1-      استفاده از هستی شناسی شی برای تعریف مفاهیم سطح بالا

2-      استفاده از روش های یادگیری ماشین برای ارتباط ویژگی های سطح پایین با مفاهیم پرس و جو.

3-      استفاده از بازخورد مربوط به کاربران  برای یادگیری

4-      تولید قالب معنایی برای پشتیبانی از بازیابی تصویر در سطح بالا

5-      ادغام شواهدی از متن HTML و محتوای بصری تصاویر برای بازیابی تصاویردر وب

علاوه بر این، برخی از مسائل مرتبط دیگر مانند تست تصویر و ارزیابی عملکرد بازیابی نیز مورد بحث قرار گرفته است. در نهایت، بر اساس تکنولوژی موجود و تقاضا برای برنامه های کاربردی در دنیای واقعی، چندین مسیر نوآورانه برای آینده پژوهی پیشنهاد شده است.

با توسعه اینترنت و در دسترس بودن دستگاه های ضبط تصویر مانند دوربین های دیجیتال، اسکنر تصویر، اندازه مجموعه تصویر دیجیتال به سرعت در حال افزایش است. ابزار جستجوی تصویر و بازیابی کارآمد آن توسط کاربران در حوزه های مختلف، از جمله سنجش از راه دور، مد، جلوگیری از جرم، نشر، پزشکی، معماری و غیره مورد نیاز است. برای این منظور، بسیاری از سیستم های بازیابی تصویر برای کاربردهای عمومی طراحی شدهاند که دارای دو چارچوب عمده مبتنی بر متن و مبتنی بر محتوا می باشند. رویکرد مبتنی بر متن را می توان به سال های 1970 باز گرداند. در چنین سیستمی، تصاویر با استفاده از متون توصیف می شوند و سپس از یک سیستم مدیریت پایگاه دادهDBMS[1]  برای انجام بازیابی تصویر استفاده می شود. در این روش دو مشکل اساسی وجود دارد:

اول این است که حجم زیادی از نیروی انسانی برای درج توضیحات به صورت دستی لازم است. دوم، عدم قطعیت توضیحات درج شده به دلیل ذهنیت و ادراک انسان است. برای غلبه بر معایب فوق سیستم بازیابی مبتنی بر محتوا CBIR در اوایل دهه 1980 معرفی شد. در CBIR، تصاویر با محتوای بصری خود، مانند رنگ، بافت، شکل، نمایه می شوند. اولین کار ارائه شده در این زمینه توسط Chang و در سال 1984 منتشر شد، که در آن نویسنده ارائه یک تصویر نمایه سازی و انتزاع روش برای بازیابی پایگاه داده تصویری را ارئه نمود که در آن پایگاه داده تصویری شامل تصویر اشیاء و روابط تصویری آنها است. برای ساختن شاخص های تصویر، عملیات انتزاعی برای انجام خوشه بندی و طبقه بندی شیء صورت می گیرد. در دهه گذشته، چند محصول تجاری و سیستم های پیش نمونه آزمایشی مانند QBIC، Photobook ، VIRAGE ، VisualSEEK، Netra ، SIMPLIcity  ارائه شده اند. تفاوت اساسی بین سیستم های بازیابی مبتنی بر متن و مبتنی بر محتوا این است که تعامل با انسان یک بخش ضروری در سیستم است. انسانها تمایل به استفاده از ویژگی های بالا (مفاهیم) مانند کلمات کلیدی، توصیفگرهای متن، برای تفسیر تصاویر و اندازه گیری شباهت آنها دارند. در حالی که ویژگی هایی که به صورت خودکار و با استفاده از تکنیک های بینایی کامپیوتری استخراج می شوند، اغلب ویژگی های سطح پایین (رنگ، ​​بافت، شکل، طرح فضایی، و غیره) هستند. به طور کلی، ارتباط مستقیم بین مفاهیم سطح بالا و ویژگی های سطح پایین وجود ندارد.

اگر چه بسیاری از الگوریتم های پیچیده برای توصیف ویژگی های رنگ، شکل و بافت طراحی شده اند، این الگوریتم ها نمی توانند به طورکلی  معناشناختی تصویر را مدل سازی کنند و در هنگام مواجه شدن با پایگاه های تصویری وسیع کاربرد محدودی دارند .
آزمایش های گسترده در سیستم های CBIR نشان می دهد که محتویات سطح پایین اغلب برای توصیف مفاهیم معناشناختی سطح بالا در ذهن کاربر ناکارا می باشد [13].بنابراین هنوز عملکرد CBIR از انتظارات کاربران دور است. Eakins سه سطح پرسش را در CBIR ذکر کرده است:
سطح 1: بازیابی با ویژگی های اولیه مانند رنگ، بافت، شکل یا مکان مکانی عناصر تصویر. به عنوان مثال پرس و جو متداول در این روش "پیدا کردن تصاویر مانند این تصویر است".

سطح 2: بازیابی اشیاء بر اساس نوع داده شناسایی شده توسط ویژگی های مشتق شده بر اساس برخی از استنتاج های منطقی. به عنوان مثال، "پیدا کردن یک تصویر از یک گل"

سطح3: بازیابی با ویژگی های انتزاعی، شامل مقدار قابل توجهی از استدلال های سطح بالا در مورد هدف و یا صحنه های نشان داده شده است که از آن به نام بازیابی حوادث نام برده می شود و شامل تصاویر با اهمیت عاطفی و مذهبی، و غیره است. به عنوان مثال "پیدا کردن تصاویر از یک جمعیت شاد".

سطوح 2 و 3 با هم به عنوان بازیابی تصویر معنایی و شکاف بین سطوح 1 و 2 به عنوان شکاف معنا شناخته می شوند. به طور خاص، اختلاف بین قدرت توصیفی محدود از ویژگی های تصویر پایین و غنای معانی کاربر، به عنوان "شکاف معنایی" [14،15] نامیده می شود. کاربران در بازیابی سطح 1 معمولا برای ارسال تصویر نمونه یا طرح به عنوان پرس و جو نیاز دارد. اما اگر کاربر تصویر نمونه را در دست نداشته باشد، بازیابی تصویر معنایی برای کاربر راحت است چون سیستم پرس و جو با استفاده از کلمات کلیدی یا بافت را پشتیبانی می کند. بنابراین، برای حمایت از پرس و جو با مفاهیم سطح بالا، سیستم CBIR باید بین ویژگی های عددی تصویر و مفاهیم آن توسط انسان ارتباطی برقرار نماید

بازیابی تصویر بر اساس معناشناسی سطح بالا به این مفهوم است که چطور می توان ویژگی های سطح پایین تصویر را به معانی معادل سطح بالا آن مرتبط کرد؟ بررسی ها نشان می دهد که تکنیک های پیشرفته در کاهش "اختلاف معنایی" شامل پنج دسته اصلی می شود:

1- با استفاده از هستی شناسی شی برای تعریف مفاهیم سطح بالا

2-استفاده از ابزار یادگیری ماشین برای ارتباط ویژگی های سطح پایین با مفاهیم پرس و جو

3-معرفی بازخورد ارتباطی[2] در حلقه بازیابی برای یادگیری مداوم سیستم از قصد کاربر

4-تولید قالب معنایی[3] برای پشتیبانی از بازیابی تصویر بالا در سطح بالا

5-استفاده از محتوای بصری تصاویر و اطلاعات متنی به دست آمده از وب برای بازیابی تصویر در وب

 

بازیابی در سطح 3 دشوار و معمول  نیست و امکان بازیابی در سطح 3 را می توان در زمینه های خاصی از قبیل موزه های هنری یا آرشیو روزنامه ها یافت. سیستم های فعلی اغلب بازیابی را در سطح 2 انجام می دهند که در این سطح سه سیستم اساسی وجود دارد:

 الف- استخراج ویژگی های سطح پایین تصویر

ب-  اندازه گیری شباهت ها

ج-  کاهش فاصله معنایی

در این مقاله بر معناشناسی سطح بالا برای بازیابی تصویر مبتنی بر محتوا تمرکز شده است. در بخش 2 خلاصه ای از ویژگی های سطح پایین تصویرکه در سیستم های CBIR  مورد استفاده قرار می گیرد بررسی می شود. معیار تشابه تصاویر نیز در بخش 2 مورد بحث قرار گرفته است. بخش 3 به روش های مختلف در کاهش "شکاف معنایی" متمرکز است. در بخش 4، داده های تست تصویر و ارزیابی عملکردسیستم  مورد بحث قرار گرفته و در بخش 5 مسیرهای تحقیق آتی پیشنهاد شده است.

 

 

 

لینک دانلود مقاله



[1] Database management system

[2] Relevance feedback

[3] Semantic Template

مقاله "بازیابی تصویر بر اساس محتوا"

این مقاله توسط چی ژانگ و همکارش در سال 2015 تهیه شده است. در این مقاله، ویژگی های رنگی و ویژگی های بافت برای بازیابی تصویر مبتنی بر محتوا مورد استفاده قرار می گیرند، در طول فرآیند پیاده سازی، از ویژگی های محل رنگ هم استفاده شده و در نهایت از ویژگی های وزن رنگ و ویژگی های بافت برای بازیابی تصویر استفاده شده است به نحوی که در برخی موارد 80٪ از نتایج جستجو رضایت بخش بوده است. با توسعه فن آوری اینترنت در دهه گذشته، حجم اطلاعات به شدت افزایش یافته و دسترسی به اطلاعات صحیح را مشکل ساخته است. برای دسترسی به اطلاعات و جستجوی راحت آنها موتورهای جستجو بوجود آمده اند به نحوی که گوگل تبدیل به شرکت فناوری اطلاعات نوآورانه و پویا در جهان شده است. با این حال، روش کار موتور جستجو بر اساس بازیابی متن است لذا آنها قادر به پاسخگویی به نیازهای مردم در بازیابی متن ها می باشند اما به دلیل نیاز فنی به بازیابی تصویر مبتنی بر محتوا و عدم پاسخگویی موتور های جستجو آنها بازیابی تصویر موجود را با استفاده از برچسب های مصنوعی که به تصاویر اختصاص می دهند انجام می دهند از طرفی مردم می خواهند تصاویر مشابه را از طریق تصاویری که خود به سیستم می دهند بیابند  لذا بازیابی تصویر بر اساس محتوا مفهوم یافته و به سرعت در حال پیشرفت می باشد.

استخراج ویژگی یک مفهوم در دید کامپیوتر و پردازش تصویر است ویژگی یا مشخصه یک بخش جالب از تصویر دیجیتالی است که نقطه شروع برای بسیاری از الگوریتم های تجزیه و تحلیل تصویر کامپیوتری است. بنابراین موفقیت یک الگوریتم اغلب بر ویژگیهایی است که از آن استفاده می کند. ما می توانیم بردار یکپارچگی رنگ را از طریق آمار پیکسل هایی از همان رنگ که بالاتر یا کمتر از مقدار آستانه در هر رنگ است به دست آوریم. برخی الگوریتم ها از هشت رنگ قرمز، سبز، آبی، زرد، بنفش، آبی، سفید و سیاه استفاده می کنند.

برای اندازه گیری شباهت بین ویژگی های تصاویر روش های مختلفی وجود دارد. روش محاسبه فاصله منهتن یکی از آنها است روش دیگر فاصله اقلیدسی است که بیانگر جذر مربعات اختلاف ها می باشد.

 

 

لینک دانلود مقاله

مقاله "خوشه بندی طیفی نیمه نظارتی برای طبقه بندی"

این مقاله توسط عارف محمود و همکارش در سال 2014 تهیه شده است. در این مقاله آنها یک الگوریتم طبقه بندی از طریق خوشه بندی CVC[1] را معرفی می کنند که در آن از شیوه های موجود در خوشه بندی برای استفاده در مسائل طبقه بندی استفاده شده و کارآمدی آن را نشان می دهند. در CVC، داده های آموزش و تست به صورت کلاسی است و از توزیع خوشه های کلاس برای یافتن برچسب داده های آزمون استفاده می شود. برای تعیین تعداد خوشه کافی از یک الگوریتم سلسله مراتبی نیمه نظارت شدهSHC[2]  استفاده شده است. خوشه ها با استفاده از سلسله مراتبی از NCut دو طرفه به دست می آیند. برای این منظور، الگوریتم محاسبات بردار مستقیم فیدلر پیشنهاد شده است. برش گراف براساس ساختار داده هاست و برچسب ها را در نظر نمی گیرد. از برچسب ها فقط برای تعریف معیار توقف برای برش گراف استفاده می شود. برای تست سیستم از پنج مجموعه داده های استاندارد استفاده شده است.

در خوشه بندی بر اساس ساختار ذاتی دادهآنها را  به خوشه های مشابه اختصاص می دهد در حالیکه طبقه بندی بر اساس برچسب ها و  بر اساس دانش قبلی انجام می پذیرد. بنابراین، خوشه بندی به دنبال مرزهای اطلاعات ذاتی است در حالی که طبقه بندی به دنبال مرزهای اعمال شده خارجی است. این دو مرزها به طور کلی متفاوت هستند و باعث می شوند خوشه ها در کلاس های مختلف قرار گیرند. به دلیل وجود این مشکل، از خوشه بندی برای طبقه بندی استفاده نشده است.

با وجود پیشرفت های قابل توجه، خوشه بندی و طبقه بندی دو ساختار متفاوت هستند. شکل ذیل مقادیر خوشه بندی را با الگوریتم  Kmeans، SCC[3] و SKMS[4] را نشان می دهد.

 

همانگونه که در شکل فوق مشاهده می شود هیچ کلاس خوشه ای به خوبی تعریف نشده است و تعداد خوشه ها را نمی توان به طور کلی تعریف کرد. حتی جدیدترین الگوریتم های خوشه بندی مانند SKMS مشکل را ساده تر نمی کند.

اولین اقدام استفاده از یک الگوریتم طبقه بندی از طریق خوشه بندیCVC  است که در آن طبقه بندی نهایی بر اساس خوشه های نیمه نظارت شده بر روی تمام داده ها محاسبه می شود. برای این منظور، خوشه بندی نیمه نظارت شده هم بر روی داده های آموزشی و هم بر روی داده های تست بدون اعمال مرزهای کلاس اعمال شده است و خوشه ها  براساس مشخصات داده ها و بدون استفاده از اطلاعات لیبل ها محاسبه میگردد. توزیع احتمالی هر کلاس از خوشه ها با استفاده از اطلاعات برچسب ها محاسبه می شود. این توزیع را می توان به عنوان یک نمایش جمع و جور از کلاس در نظر گرفت. طبقه بندی با اندازه گیری فاصله بین توزیع احتمالی داده های تست از هر کلاس پس از هر دوره آموزش انجام می شود. الگوریتم پیشنهادی CVC به صورت عمومی برای هر الگوریتم خوشه بندی مناسب است.

دومین اقدام استفاده از یک الگوریتم سلسله مراتبی نیمه نظارتی SHC است که در آن هر خوشه والد دو خوشه فرزند داشته واین تقسیم بندی بدون نظارت انجام می شود و از برچسب ها تنها به عنوان یک معیار توقف برای تقسیم بندی استفاده می شود.

قدم سوم استفاده از الگوریتم DFVC[5]  است که بر مبنای روش تکرار معکوس می باشد. خوشه بندی طیفی سلسله مراتبی قبلا به عنوان یک گزینه قابل قبول محسوب نمی شد، زیرا همه بردارها نیاز به محاسبه داشتند، در حالی که تنها دومین معیار (بردار فیدلر ) مهم می باشد.
الگوریتم پیشنهاد شده DFVC این مشکل را حل می کند. برای طبقه بندی الگوریتم های پیشنهادی را بر تصاویر اعمال می کنیم که در آن کلاس های آموزشی و کلاس آزمون از مجموعه ای از تصاویر تشکیل شده است. الگوریتم های پیشنهادی را می توان به طور مستقیم بر روی  داده های خام مورد استفاده قرار داد. آنها برای خوشه بندی از فضای  Grassmannian استفاده کرده تا پیچیدگی محاسباتی را کاهش دهند. با استفاده از چندمنظورهای گراسمن،  می توانیم مجموعه ای از طبقه بندی های طیفی را ایجاد کنیم که هر کدام براساس ابعاد مختلف چند جمله ای است. یک مرور کلی از رویکرد این مقاله در شکل ذیل نشان داده شده است.

 

 

همانمگونه که در شکل ملاحظه می شود تمام ورودی های ویژه محاسبه شده  و داده ها را به دو یا چند دسته تقسیم کرده و از یک الگوریتم محاسبات بردار تصادفی فیدلر DFVC  به منظور اجتناب از محاسبه همه ورودی های ویژه استفاده می شود.

آزمایشات بر روی مجموعه تصویر صورت استاندارد Honda، CMU Mobo ، مشاهیر یوتیوب  و دسته بندی شی  ETH 80 و مجموعه تصاویر دست کمبریج  انجام شده است. تکنیک پیشنهادی دقت بیشتری در تمام مجموعه داده ها نسبت به سایر روش ها را دارا می باشد و در بهتررین حالت 11.03 درصد دقت بیشتر را دارد.

 

 

 

 

لینک دانلود مقاله

 

 
 



[1] Classification Via Clustering

[2] Semi-supervised Hierarchical Clustering

[3] Sparse Subspace Clustering

[4] Semi-supervised Kernel Mean Shift

[5] Direct Fiedler Vector Computation

پایان نامه "کارایی بازیابی تصویر بر اساس محتوا"

این پایان نامه مربوط به روبا سلامه دانشجوی کارشناسی ارشد مهندسی کامپیوتر از دانشگاه غزه و در سال 2010 می باشد.

بازیابی تصویر مبتنی بر محتوا از منابع بزرگ، امروزه در بسیاری از برنامه های کاربردی مورد استفاده قرار می گیرد. در این پایان نامه یک سیستم بازیابی تصویر مبتنی بر منطقه استفاده شده که از رنگ و بافت به عنوان ویژگی های بصری برای توصیف محتوای منطقه تصویر استفاده می کند.
برای این منظور سه مرحله کار انجام می شود:

در مرحله اول از فیلترهای گابور برای استخراج ویژگی های بافت مناطق جدا شده از تصویر پس از تقسیم بندی استفاده می شود.

در مرحله دوم، برای سرعت بخشیدن به بازیابی و محاسبه شباهت، تصاویر پایگاه داده تقسیم می شوند و مناطق استخراج شده با استفاده از بردارهای ویژگی آنها با استفاده از الگوریتم SOM[1] خوشه بندی می شوند. این فرآیند قبل از پردازش پرس و جو انجام می شود بنابراین برای پاسخ دادن به پرس و جو، سیستم نیازی به جستجو در کل تصاویر پایگاه داده ندارد. در عوض فقط تعدادی از تصاویر کاندید برای جستجوی تشابه تصویر مورد نیاز است.

در مرحله سوم، برای افزایش دقت بازیابی سیستم، ویژگی های منطقه های استخراج شده از مناطق تصویر  با ویژگی های استخراج شده از کل تصویر ترکیب می شوند که این اطلاعات از فیلتر های گابور و هیستوگرام رنگی حاصل شده است.

سیستم پیشنهادی افزایش دقت بازیابی و کاهش زمان بازیابی را دارا است. برای ارزیابی تجربی سیستم از پایگاه داده تصویری COREL و تعداد 1000 تصویر رنگی استفاده شده است. از نتایج تجربی، واضح است که سیستم در مقایسه با سایر سیستم های موجود به طور قابل توجهی بهتر و سریعتر عمل می کند. نتایج نشان می دهد که هر نوع ویژگی برای نوع خاصی از تصاویر با توجه به محتوای معنایی آن موثر است و با استفاده از ترکیب آنها نتایج بهتری برای تمام کلاس های معنایی فراهم می آید.

در پایگاه داده پلیس اطلاعات تصویری مجرمان، صحنه های جرم و موارد سرقت شده نگهداری می شود. در حرفه پزشکی، پایگاه داده تصویری اشعه ایکس و اسکن شده برای تشخیص، نظارت و اهداف تحقیق نگهداری می شود. در طراحی معماری و مهندسی، پایگاه داده تصویری برای پروژه های طراحی، پروژه های به پایان رسیده و قطعات ماشین وجود دارد. در صنعت نشر، روزنامه نگاران پایگاه تصویری را برای رویدادهای مختلف و فعالیت هایی مانند ورزش، ساختمان ها، شخصیت ها، رویدادهای ملی و بین المللی و تبلیغات محصول ایجاد می کنند. برای تحقیقات تاریخی، پایگاه داده تصویری برای آرشیوهایی در زمینه هایی مانند هنر، جامعه شناسی و پزشکی ایجاد می شود. در یک مجموعه کوچک از تصاویر، با یک مرور ساده می توان یک تصویر را شناسایی کرد. این کار برای مجموعه ای بزرگ و متنوع از تصاویر امکان پذیر نیست و کاربر با مشکل در بازیابی تصویر مواجه می شود. مشکل بازیابی تصویر زمانی است که کاربر درخواستی را برای جستجو تصویر به پایگاه داده ارسال می کند که برای برفع این مشکل دو راه کار مبتنی بر متن و مبتنی بر محتوا ارائه شده است. در روش مبتنی بر متن از کلمات کلیدی و شرح هایی برای برچسب گذاری تصاویر استفاده می شود و جستجو بر اساس آنها صورت می گیرد. در روش مبتنی بر محتوا مشخصات فنی و کلیدی تصاویر استخراج و از آنها برای مقایسه شباهت استفاده می گردد. سیستم های تولید شده برای منظور های مختلف از کلمات کلیدی خاص استفاده می نمایند. بازیابی تصویر بر اساس محتوا در بسیاری از برنامه های کاربردی مانند تبلیغات، تحقیقات تاریخی، طراحی مد و گرافیک، طراحی معماری و مهندسی، پیشگیری از جرم، تشخیص پزشکی، اطلاعات جغرافیایی و سیستم های سنجش از دور کاربرد دارد.

سیستم های CBIR تجاری و تجربی متعددی در حال حاضر در دسترس هستند و بسیاری از موتورهای جستجو در حال حاضر از امکانات CBIR  مانند آلتا ویستا، یاهو و گوگل استفاده می نمایند.

بازیابی مبتنی بر محتوا از محتویات تصاویر برای نشان دادن و دسترسی به تصاویر استفاده می کند. یک چارچوب مفهومی برای بازیابی تصویر مبتنی بر محتوا در شکل ذیل نشان داده شده است.

 


در مرحله آفلاین، سیستم به طور خودکار عناصر بصری (رنگ، ​​شکل، بافت، و اطلاعات فضایی) هر تصویر در پایگاه داده را بر اساس مقادیر پیکسل آن استخراج می کند و آنها را در پایگاه داده های مختلف درون سیستم به نام پایگاه داده های ویژگی ذخیره می کند. داده های ویژگی (به عنوان امضا تصویر) برای هر یک از ویژگی های بصری هر تصویر در مقایسه با داده های تصویر بسیار کوچک است، بنابراین پایگاه داده ویژگی شامل انتزاعی از تصاویر پایگاه داده تصویر است. میزت این روش فشرده سازی قابل توجهی تصویر است.

در بازیابی تصویر آنلاین، کاربر می تواند یک تصویر را برای جستجو به سیستم بازیابی ارسال کند. سیستم این تصویر را با یک بردار ویژگی نشان می دهد سپس فاصله ها (یعنی شباهت ها) بین بردارهای ویژگی نمونه مورد پرس و جو را با نمونه های موجود در پایگاه داده ویژگی ها محاسبه و رتبه بندی می کند و در نهایت، سیستم نتایجی را که بیشتر به نمونه های پرس و جو مربوط است را باز می گرداند. اگر نتایج مورد تایید کاربر نباشد، می تواند بازخورد مربوط را به سیستم بازیابی ارائه دهد

در روش های CBIR اولیه از استخراج ویژگی های عمومی برای به دست آوردن توصیفگرهای تصویر استفاده شده است. به عنوان مثال، QBIC در مرکز تحقیقاتی IBM توسعه یافته است و چندین ویژگی از هر تصویر، یعنی رنگ، بافت و ویژگی های شکل را استخراج می کند. این توصیفگرها با استفاده از هیستوگرام های رنگی برای ویژگی های رنگ، با استخراج اطلاعات، در سطح عمومی به دست می آیند. به همین ترتیب، سیستم Photobook ، Visualseek  و VIR  از ویژگی های عمومی برای نشان دادن معانی تصویر استفاده می کنند. به عنوان مثال، فرض کنید در یک تصویر دو گل با رنگ های قرمز و زرد وجود دارد. ویژگی های عمومی بر اساس رنگ بیانگر میانگین رنگ موجود است که در نهایت تصویر یک پرتقال بازگردانده می شود که این نمونه ضعف ویژگی های عمومی را نشان می دهد.

سیستم های بازیابی تصویر بر اساس منطقه  RBIR[2] برای غلبه بر محدودیت های پیشین سیستم های بازیابی مبتنی بر ویژگی های عمومی تشکیل شده اند که در آن تصاویر به عنوان مجموعه ای از مناطق است که ممکن است با اشیائی مانند گل ها، درختان، آسمان ها و کوه ها مطابقت داشته باشد. یک پیش نیاز کلیدی برای یک سیستم بازیابی تصویر مبتنی بر منطقه یک الگوریتم تقسیم بندی قوی است.

الگوریتم تقسیم بندی یک تصویر ورودی را دریافت و با توجه به برخی ویژگی ها (مانند رنگ، بافت یا شکل)  آن را به خوشه ها و بخش هایی تقسیم می کند. سپس ویژگی های ربوط به هر بخش تصویر استخراج می شوند. ویژگی های رنگ، بافت و شکل بر اساس هر پیکسل که متعلق به شیء است، استخراج می شود و هر شی به وسیله مقدار میانگین این ویژگی پیکسل ها توصیف می شود.

مشکل اصلی در سیستم های CBIR  شکاف معنایی و بار محاسباتی آن برای مدیریت مجموعه پایگاه داده های بزرگ و تصاویر بزرگ است.

در این پایان نامه یک سیستم CBIR جدید معرفی شده که هدف آن:

الف- کاهش "اختلاف معنایی" بین ویژگی های سطح پایین تصویر و مفاهیم انسانی است
ب-  برای کاهش کل زمان بازیابی سیستم در ابتدا تصاویر را به مناطق تقسیم می کند که اشیاء در آن وجود دارند.
ترکیبی از بافت و ویژگی های رنگ از هر منطقه در تصویر جداگانه استخراج می شود.

 

عملکرد روش کار به این شکل است :

1-  ویژگی های شطح پایین بافت از مناطق دلخواه شکل با استفاده از فیلتر گابور استخراج می شود که یک ابزار طبیعی و عالی برای طبقه بندی، جداسازی و استخراج ویژگی های بافت است. بسیاری از سیستم های موجود تلاش می کنند که تصویر پرس و جو را با هر تصویر موجود در پایگاه داده مقایسه کنند تا تصاویر با تطبیق پذیری بالا را پیدا کنند که در نتیجه یک جستجوی خطی اتفاق افتاده و زمانی که پایگاه داده بزرگ است زمان زیادی را صرف می کند. در حقیقت، ممکن است قبل از اینکه یک پرس و جو ایجاد شود، از اطلاعات قبلی در رابطه با ساختار تصاویر موجود در پایگاه داده استفاده و وقتی یک پرس و جو دریافت می شود تنها بخشی از پایگاه داده باید جستجو شود در حالی که بخش بزرگی از پایگاه داده ممکن است در جستجو حذف شود که قطعا موجب صرفه جویی قابل توجهی در زمان پردازش شده بدون اینکه دقت بازیابی را تحت تاثیر قرار دهد.

2- برای سرعت بخشیدن به فرآیند بازیابی، تصاویر پایگاه داده به مناطق متمایز تقسیم می شوند. در این پایان نامه از الگوریتم خوشه بندی خود سازماندهی SOM برای خوشه سازی استفاده می شود. مناطق با ویژگی های مشابه با هم در یک کلاس گروه بندی می شوند. این فرآیند خوشه سازی به صورت آفلاین انجام و داده های نمایه سازی هر منطقه همراه با شناسه کلاس مرتبط آن در فایل های شاخص  وبه صورت اندیس ثبت می شود. برای پاسخ به پرس و جو، تصویر پرس و جو به مناطقی تقسیم می شود و فاصله های بین هر منطقه و کلیه کلاس ها در پایگاه داده محاسبه می شود تا مشخص شود ایت تصویر به کدام کلاس متعلق است. سپس مناطق مشابه در پایگاه داده بازگردانده شده و تمام تصاویرآن با تصویر داده شده مقایسه می شود.

3- برای افزایش کارایی سیستم، از یک الگوریتم جستجوی عمومی که از تمام تصویر برای ساختن فاصله بین دو تصویر استفاده می شود. این الگوریتم با الگوریتم جستجوی مبتنی بر منطقه با استفاده از مجموع وزنی دو فاصله ترکیب شده و از این طریق از خواص مناطق تصویری مرتبط با خواص عمومی تصویر برای محاسبه شباهت بین یک پرس و جو و تصاویر پایگاه داده استفاده شده است.

4- سپس نتایج با نتایج روش های موجود مقایسه شده و نتایج نشان می دهد که سیستم توسعه یافته در این پایان نامه، کیفیت کلی بازیابی را نسبت به سیستم های موجود قبلی بهبود می بخشد.

در ادامه این  پایان نامه موارد ذیل را خواهیم دید در فصل 2 خلاصه برخی از آثار مرتبط در موضوع CBIR و مسائل مربوط به تحقیقات اولیه مطرح شده است. در فصل 3، یک مرور کلی بر روی  سیستم های  CBIR، اصول آن و تکنیک های مورد استفاده برای استخراج ویژگی ها، اندازه گیری شباهت و ساختارهای نمایه سازی معرفی شده است. از فیلترهای گابور، برای استخراج ویژگی در سیستم پیشنهادی استفاده شده که در فصل 4 مورد بحث قرار می گیرد. برای بررسی سیستم از پایگاه داده WANG در کلاس های ذیل استفاده شده است.