ترجمه مقاله تقسیم بندی معنایی تصویر با CRF های کاملا متصل و شبکه های پیچیده عمیق

ترجمه مقاله تقسیم بندی معنایی تصویر با CRF های کاملا متصل و شبکه های پیچیده عمیق
قیمت خرید این محصول
۲۹,۰۰۰ تومان
دانلود مقاله انگلیسی
عنوان فارسی
تقسیم بندی معنایی تصویر با CRF های کاملا متصل و شبکه های پیچیده عمیق
عنوان انگلیسی
Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
صفحات مقاله فارسی
21
صفحات مقاله انگلیسی
14
سال انتشار
2015
رفرنس
دارای رفرنس در داخل متن و انتهای مقاله
فرمت مقاله انگلیسی
pdf و ورد تایپ شده با قابلیت ویرایش
فرمت ترجمه مقاله
pdf و ورد تایپ شده با قابلیت ویرایش
فونت ترجمه مقاله
بی نازنین
سایز ترجمه مقاله
14
نوع مقاله
ISI
نوع ارائه مقاله
ژورنال
کد محصول
F1810
وضعیت ترجمه عناوین تصاویر و جداول
ترجمه شده است✓
وضعیت ترجمه متون داخل تصاویر و جداول
ترجمه نشده است☓
وضعیت ترجمه منابع داخل متن
به صورت انگلیسی درج شده است✓
ضمیمه
ندارد ☓
بیس
نیست ☓
مدل مفهومی
ندارد ☓
پرسشنامه
ندارد ☓
متغیر
ندارد ☓
رفرنس در ترجمه
در داخل متن و انتهای مقاله درج شده است
رشته و گرایش های مرتبط با این مقاله
مهندسی کامپیوتر، مهندسی نرم افزار، هوش مصنوعی
مجله
بینایی رایانه و تشخیص الگو - Computer Vision and Pattern Recognition
دانشگاه
دانشگاه کالیفرنیا، لس آنجلس
فهرست مطالب
چکیده
1- معرفی
2 کار مرتبط
3 شبکه های عصبی مصنوعی برای برچسب زدن تصویر مصنوعی
3-1 کارآیی استخراج ویژگی اسلاید کردن مصنوعی پنجره با الگوریتم حفره
3-2 کنترل اندازه فیلد پذیرنده و محاسبه تراکم تسریع کننده با شبکه های پیچیده
4 بازیابی مرزی جزئی: فیلدهای تصادفی شرطی کاملا متصل و پیش بینی چند مقیاسی
4-1 شبکه های پیچیده عمیق و چالش محلی سازی
4-2 فیلدهای تصادفی شرطی کاملا متصل با محلی سازی دقیق
4-3 پیش بینی چند بعدی
5 ارزيابي تجربي
6 بحث
نمونه چکیده متن اصلی انگلیسی
ABSTRACT

Deep Convolutional Neural Networks (DCNNs) have recently shown state of the art performance in high level vision tasks, such as image classification and object detection. This work brings together methods from DCNNs and probabilistic graphical models for addressing the task of pixel-level classification (also called ”semantic image segmentation”). We show that responses at the final layer of DCNNs are not sufficiently localized for accurate object segmentation. This is due to the very invariance properties that make DCNNs good for high level tasks. We overcome this poor localization property of deep networks by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF). Qualitatively, our “DeepLab” system is able to localize segment boundaries at a level of accuracy which is beyond previous methods. Quantitatively, our method sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 71.6% IOU accuracy in the test set. We show how these results can be obtained efficiently: Careful network re-purposing and a novel application of the ’hole’ algorithm from the wavelet community allow dense computation of neural net responses at 8 frames per second on a modern GPU.

1 INTRODUCTION

Deep Convolutional Neural Networks (DCNNs) had been the method of choice for document recognition since LeCun et al. (1998), but have only recently become the mainstream of high-level vision research. Over the past two years DCNNs have pushed the performance of computer vision systems to soaring heights on a broad array of high-level problems, including image classification (Krizhevsky et al., 2013; Sermanet et al., 2013; Simonyan & Zisserman, 2014; Szegedy et al., 2014; Papandreou et al., 2014), object detection (Girshick et al., 2014), fine-grained categorization (Zhang et al., 2014), among others. A common theme in these works is that DCNNs trained in an end-to-end manner deliver strikingly better results than systems relying on carefully engineered representations, such as SIFT or HOG features. This success can be partially attributed to the built-in invariance of DCNNs to local image transformations, which underpins their ability to learn hierarchical abstractions of data (Zeiler & Fergus, 2014). While this invariance is clearly desirable for high-level vision tasks, it can hamper low-level tasks, such as pose estimation (Chen & Yuille, 2014; Tompson et al., 2014) and semantic segmentation - where we want precise localization, rather than abstraction of spatial details.

6 DISCUSSION Our work combines ideas from deep convolutional neural networks and fully-connected conditional random fields, yielding a novel method able to produce semantically accurate predictions and detailed segmentation maps, while being computationally efficient. Our experimental results show that the proposed method significantly advances the state-of-art in the challenging PASCAL VOC 2012 semantic image segmentation task.

There are multiple aspects in our model that we intend to refine, such as fully integrating its two main components (CNN and CRF) and train the whole system in an end-to-end fashion, similar to Krahenb ¨ uhl & Koltun (2013); Chen et al. (2014); Zheng et al. (2015). We also plan to experiment ¨ with more datasets and apply our method to other sources of data such as depth maps or videos. Recently, we have pursued model training with weakly supervised annotations, in the form of bounding boxes or image-level labels (Papandreou et al., 2015).

At a higher level, our work lies in the intersection of convolutional neural networks and probabilistic graphical models. We plan to further investigate the interplay of these two powerful classes of methods and explore their synergistic potential for solving challenging computer vision tasks.

نمونه چکیده ترجمه متن فارسی
چکیده
شبکه های عصبی مصنوعی عمیق (DCNNs) اخیرا وضعیت عملکرد هنری در وظایف بصری سطح بالا مانند طبقه بندی تصویر و تشخیص شی را نشان دادند .این کار روش های متفاوتی از DCNN ها و مدل های گرافیکی احتمالی برای رسیدگی به وظیفه طبقه بندی سطح پیکسل (همچنین "تقسیم بندی تصویر معنایی" نامیده می شود) را به ارمغان می آورد .ما نشان می دهیم که پاسخ ها در لایه نهاییDCNNs برای تقسیم بندی دقیق شیئ به اندازه کافی متمرکز نیستند. علت آن ویژگی های بسیار تغییرناپذیری ست که DCNNها را برای وظایف سطح بالا مناسب می سازد.ما با ترکیب پاسخ ها در لایه DCNN نهایی با یک فیلد تصادفی محرمانه کاملا متصل(CRF) بر این ویژگی محلی سازی نامرغوب شبکه های عمیق غلبه می کنیم. از لحاظ کیفیت، سیستم "DeepLab" ما قادر به محاسبه تقسیم مرزها به سطح دقت فراتر از روش های قبلی است . از لحاظ کیفیت ،روش ما جدیدترین حالت هنر را در PASCAL VOC-2012 وظیفه تقسیم بندی تصویر معنایی معین می کند، رسیدن به 71.6٪ دقت IOU در مجموعه آزمون. ما نشان می دهیم چگونه این نتایج را می توان به طور موثری به دست آورد: اهداف دقیق شبکه وکاربرد جدید از الگوریتم "سوراخ" از جامعه موجک محاسبه تراکم پاسخهای شبکه عصبی با 8 فریم در ثانیه بر روی GPU مدرن را اجازه می دهد.
1. معرفی
شبکه های عصبی مصنوعی عمیق (DCNNs) روش انتخابی برای شناخت سند از LeCun و همکاران بوده است (1998)، اما اخیرا تبدیل به جریان اصلی پژوهش بصری سطح بالا شده است. در طول دو سال گذشته، DCNNها عملکرد سیستم های بینایی کامپیوتر را به افزایش ارتفاع در یک مجموعه گسترده از مشکلات سطح بالا تحت تاثیر قرار داده اند، از جمله طبقه بندی تصویر(Krizhevsky و همکاران، 2013؛ Sermanet و همکاران، 2013؛ Simonyan و Zisserman، 2014؛ Szegedy و همکاران، 2014؛ Papandreou et al.، 2014)، تشخیص شی (Girshick و همکاران، 2014)، رده بندی دقیق دانه (Zhangو همکاران، 2014)، در میان دیگران. موضوع مشترک در این آثار این است که DCNN ها در وضعیت پایان تا پایان آموزش دیده اند تا تحویل دهند به طرز قابل ملاحظه ای نتایج بهتر را نسبت به سیستم های تکیه بر بازنمودهای دقت مهندسی ارائه می دهد، مانند ویژگی های SIFT یا HOG. این موفقیت می تواند تا حدودی حمل بر تغییرناپذیریDCNNها به تحولات تصویر محلی باشد، که توانایی آنها در یادگیری انتزاع سلسله مراتبی از اطلاعات را پشتیبانی می کند(Zeiler & Fergus، 2014). در حالی که این تغییرات به وضوح برای وظایف بینایی سطح بالا مطلوب است،این می تواند مانع انجام وظایف در سطوح پایین مانند برآورد آستانه (Chen & Yuille، 2014؛ Tompson et al.،2014) و تقسیم بندی معنایی - جایی که ما می خواهیم دقیق تر محلی سازی کنیم، سریعتر از انتزاع جزئیات مکانی باشد.
6 بحث
کار ما ترکیبی از ایده های شبکه های عصبی پیچیده عمیق و زمینه های تصادفی شرطی به طور کامل متصل است، ارائه یک روش جدید قادر به تولید پیش بینی های دقیق معنایی و نقشه های تقسیم بندی مفصل است ، در حالی که از نظر محاسباتی کارآمد باشد. نتایج تجربی ما نشان می دهد که روش پیشنهادی به طور قابل ملاحظه ای پیشرفت داشته این state-of-art در وظیفه تقسیم بندی تصویر معنایی PASCAL VOC 2012 در حال رقابت است.
در مدل ما چندین جنبه وجود دارد که ما قصد داریم آن را اصلاح کنیم، مثلا به طور کامل این دو اجزای اصلی را با هم ادغام کنیم (CNN و CRF) و تمام سیستم را در حالت end-to-end آموزش دهیم، شبیه بهKr¨ahenb¨uhl & Koltun (2013)؛ چن و همکاران (2014)؛ ژنگ و همکاران (2015). ما همچنین قصد داریم با مجموعه داده های بیشتر آزمایش کنیم و روشمان را با منابع دیگر داده مانند نقشه های عمیق و یا فیلم ها امتحان کنیم. به تازگی ما آموزش مدل پیشنهادی را با حاشیه نویسی ضعیف تحت نظارت دنبال کرده ایم، به شکل محدود کردن جعبه یا برچسب سطح تصویر (Papandreou et al.، 2015).
در سطح بالایی، کار ما در تقاطع شبکه های عصبی پیچیده و مدل های گرافیکی احتمالی قرار دارد ما قصد داریم تا بیشتر در مورد تعامل میان این دو طبقه قدرتمند از روش ها تحقیق کنیم و پتانسیل خود را برای به چالش کشیدن وظایف دیداری کامپیوتر کشف کنیم.

بدون دیدگاه