چکیده
الگوریتمهای برچسبزنی بینایی کامپیوتری نقش اساسی در حوزه بینایی سطح پایین ایفا میکنند. از دههها پیش شناخته شده است که این مسائل میتوانند به صورت ظریفی به عنوان مسائل مینیممسازی انرژی گسسته مشتق شده از مدلهای گرافیکی احتمالی (مانند فیلدهای مارکوف تصادفی) فرموله شوند. با وجود پیشرفتهای اخیر در الگوریتمهای استنتاج (مانند برش گراف و الگوریتمهای ارسال پیام)، مسائل مینیممسازی انرژی حاصل عموماً به عنوان غیرقابل حل تلقی میشوند. ظهور محاسبات کوانتومی که امکان ارائه راهحلهای سریعتر برای برخی از مسائل نسبت به روشهای کلاسیک را فراهم میکنند، منجر به افزایش علاقه به استفاده از خواص کوانتومی برای غلبه بر مسائل غیرقابل حل شده است. این مطالعه یک الگوریتم استنتاج مبتنی بر آنیلینگ کوانتومی جدید برای مسائل مینیممسازی انرژی گسسته بینایی کامپیوتری بررسی میکند. تمرکز ما بر تطبیق استریو به عنوان یک مسئله مهم برچسبزنی بینایی کامپیوتری است. به عنوان اثبات مفهوم، ما همچنین از یک حلکننده هیبریدی کوانتومی-کلاسیک ارائه شده توسط سیستم D-Wave برای مقایسه نتایج خود با بهترین الگوریتمهای استنتاج کلاسیک در ادبیات استفاده میکنیم.
تطبیق استریو
ویژگیهای بینایی دو چشمی در انسانها امکان مشاهده همزمان یک شیء واحد توسط هر دو چشم را فراهم میکند. این توانایی به طور قابل توجهی به درک عمق در مغز کمک میکند. فاصله بین چشمان ما، که اغلب به عنوان "خط پایه" شناخته میشود، تنوع جزئی در چشمانداز ثبت شده توسط هر چشم را تسهیل میکند. با وجود اینکه هر چشم تصویر تقریباً یکسانی را مشاهده میکند، جابجایی حاشیهای وجود دارد. مغز از این جابجایی برای درک مشاهده 3 بعدی از صحنه استفاده میکند. به همین ترتیب، یک سیستم بینایی استریو برای تکرار مکانیزمهای بینایی انسان طراحی شده است. این سیستم شامل دو دوربین افقی در سمت چپ و راست است که به طور موثر ادراک دو چشمی انسان را شبیهسازی میکنند. هر دوربین در سیستم تصویری را ضبط میکند که در حالی که اساساً مشابه است، ویژگیهای خاصی از جابجایی را دارد. این جابجایی، که اغلب اختلاف نامیده میشود، نشاندهنده تفاوت در موقعیت یک نقطه 3 بعدی، همانطور که از دو دیدگاه مختلف (چپ و راست) مشاهده میشود [44]. هدف اصلی پیادهسازی یک سیستم بینایی استریو، ساخت یک مدل 3 بعدی با استفاده از تصاویر استریوی چپ و راست است. این روش ممکن است مراحل مختلفی از جمله کالیبراسیون دوربین (اختیاری)، اصلاح، تطبیق استریو و بازسازی 3 بعدی [45] را شامل شود که در شکل 1 نشان داده شده است. کالیبراسیون دوربین فرآیند تخمین پارامترهای خاص یک دوربین است. از این پارامترها برای اصلاح اعوجاجهای تصویر و تعیین یک رابطه دقیق بین یک نقطه 3 بعدی در صحنه و برآمدهای 2 بعدی مربوطه آن در تصاویر استفاده میشود [46]. قبل از تطبیق استریو، اصلاح یک جفت تصویر استریو برای کاهش پیچیدگی مسئله اصلی ضروری است. هدف اصلی تطبیق استریو، مطابقت یک پیکسل معین در تصویر چپ با پیکسل مربوطه آن در تصویر راست است، جایی که پیکسلهای مربوطه همان برآمدهای یک نقطه 3 بعدی در دنیای واقعی هستند. این فرآیند را میتوان با جستجوی پیکسلهای مربوطه در فضای جستجوی 2 بعدی انجام داد که از نظر محاسباتی گران است. اصلاح، فضای جستجوی 2 بعدی را به یک فضای جستجوی 1 بعدی تبدیل میکند. این امر به طور قابل توجهی مسئله تطابق را ساده میکند، زیرا جستجوی پیکسلهای مطابق را میتوان به جستجوی 1 بعدی در امتداد خط افقی پیکسلها به جای جستجوی 2 بعدی در کل تصویر کاهش داد. با وجود این کاهش فضای جستجو، تطبیق استریو پیچیدهترین جزء یک سیستم بینایی استریو است. یک الگوریتم تطبیق استریو، یک مقدار اختلاف برای هر پیکسل در تصویر چپ تخمین میزند تا پیکسل مربوطه آن را در تصویر راست تعیین کند. خروجی نهایی یک نقشه اختلاف است که در آن مناطق با مقادیر اختلاف بالاتر متعلق به اشیاء دنیای واقعی نزدیکتر به دوربینها هستند، در حالی که آنهایی که دارای مقادیر اختلاف پایینتر هستند متعلق به اشیاء دنیای واقعی دورتر از دوربینها هستند. در مورد تجسم، مناطق نزدیکتر و با مقادیر اختلاف بیشتر نسبت به مناطق دورتر با مقادیر اختلاف کوچکتر روشنتر به نظر میرسند.
روشهای تطبیق استریو به طور گسترده به رویکردهای جهانی و محلی طبقهبندی میشوند. در حالی که روشهای محلی اولویت را به سرعت میدهند، اغلب به قیمت دقت به دلیل حساسیتهایی مانند ابهامات محلی و انسدادها، روشهای جهانی کل تصویر را در حین محاسبه اختلاف در نظر میگیرند. اگرچه از نظر محاسباتی خواستار هستند، اما به طور موثری چالشهایی مانند مناطق انسداد شده و بدون بافت را برطرف میکنند [44]. این روشها معمولاً بر مدلهای گرافیکی احتمالی، ترکیبی قدرتمند از احتمال و نظریه گراف، برای فرمالیسم خود تکیه میکنند [47]. بر اساس مدل گرافیکی احتمالی تعریف شده، یک تابع انرژی مدلسازی میشود که میتواند برای حل مسئله تطبیق استریو به حداقل رسانده شود [47، ص 1612]. در ادامه، فرم کلی یک تابع انرژی تطبیق استریو جهانی را ارائه میدهیم که میتواند برای هر مسئله برچسبزنی بینایی کامپیوتری (نگاه کنید به مطالعه مقایسهای اخیر در مورد مسائل برچسبزنی بینایی کامپیوتری [19] برای اطلاعات بیشتر) سازگار شود.