تلفن: ۰۴۱۴۲۲۷۳۷۸۱
تلفن: ۰۹۲۱۶۴۲۶۳۸۴

ترجمه مقاله جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی – نشریه اشپرینگر

عنوان فارسی: جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی
عنوان انگلیسی: Monte-Carlo tree search for Bayesian reinforcement learning
تعداد صفحات مقاله انگلیسی : 9 تعداد صفحات ترجمه فارسی : 20
سال انتشار : 2013 نشریه : اشپرینگر - Springer
فرمت مقاله انگلیسی : PDF فرمت ترجمه مقاله : ورد تایپ شده
نوع مقاله : ISI نوع نگارش : مقالات پژوهشی (تحقیقاتی)
پایگاه : اسکوپوس کد محصول : 9547
محتوای فایل : zip حجم فایل : 1.39Mb
رشته های مرتبط با این مقاله: مهندسی کامپیوتر
گرایش های مرتبط با این مقاله: مهندسی الگوریتم ها و محاسبات، هوش مصنوعی
مجله: هوش کاربردی - Applied Intelligence
دانشگاه: مرکز تحقیقات و توسعه علوم و فناوری، دانشگاه DuyTan، ویتنام
کلمات کلیدی: یادگیری تقویتی بیزی، یادگیری تقویتی مبتنی بر مدل، تحقیق مونته کارلو ، POMDP
وضعیت ترجمه عناوین تصاویر و جداول: ترجمه شده است ✓
وضعیت ترجمه متون داخل تصاویر و جداول: ترجمه نشده است ☓
وضعیت ترجمه منابع داخل متن: درج نشده است ☓
وضعیت فرمولها و محاسبات در فایل ترجمه: به صورت عکس، درج شده است
doi یا شناسه دیجیتال: https://doi.org/10.1007/s10489-012-0416-2
ترجمه این مقاله با کیفیت عالی آماده خرید اینترنتی میباشد. بلافاصله پس از خرید، دکمه دانلود ظاهر خواهد شد. ترجمه به ایمیل شما نیز ارسال خواهد گردید.
فهرست مطالب

چکیده

1- مقدمه

2- مقدمه

3- فرمولاسیون POMDP در یادگیری تقویتی بیزی

3-1 فرمولاسیون POMDP

3-2 الگوریتم های BEELTE

4- برنامه ریزی مونته کارلو قابل رویت به صورت نسبی (POMCP)

5- برنامه ریزی مونته کارلو برای RL های بیزی

6- ترکیب های تو در و از مدل های ترکیب شده

7- آزمایش ها

7-1 مسئله زنجیره

7-2 مسئله مارپیچ

8- جمع بندی

نمونه متن انگلیسی

Abstract

Bayesian model-based reinforcement learning can be formulated as a partially observable Markov decision process (POMDP) to provide a principled framework for optimally balancing exploitation and exploration. Then, a POMDP solver can be used to solve the problem. If the prior distribution over the environment’s dynamics is a product of Dirichlet distributions, the POMDP’s optimal value function can be represented using a set of multivariate polynomials. Unfortunately, the size of the polynomials grows exponentially with the problem horizon. In this paper, we examine the use of an online Monte-Carlo tree search (MCTS) algorithm for large POMDPs, to solve the Bayesian reinforcement learning problem online. We will show that such an algorithm successfully searches for a near-optimal policy. In addition, we examine the use of a parameter tying method to keep the model search space small, and propose the use of nested mixture of tied models to increase robustness of the method when our prior information does not allow us to specify the structure of tied models exactly. Experiments show that the proposed methods substantially improve scalability of current Bayesian reinforcement learning methods.

نمونه متن ترجمه

چکیده

یادگیری تقویتی مبتنی بر مدل های بیزی را میتوان به صورت روند تصمیم گیری مارکو با قابلیت مشاهده و ارزیابی نسبی (POMDP) فرمول سازی کرد تا بتوان یک قالب کاری اصولی برای بهره برداری و ارزیابی تعادل بهینه فراهم کرد . سپس، یک حل کننده یPOMDP را میتوان مورد استفاده قرار داد تا مشکلات را حل کرد. در صورتی که توزیع اولیه نسبت به حالت پویای محیط محصولی از توزیع دریکله باشد، تابع ارزش بهینه ی POMDP را میتوان با استفاده از مجموعه از چند جمله های چند متغیره، ارائه کرد. متاسفانه، سایز چند جمله ای ها، مطابق با افق مسئله، به صورت نمایی افزایش پیدا میکند. در این مقاله، ما استفاده از یک درخت جستجوی مونته کارلو آنلاین (MCTS) را برای POMDP های بزرگ ارزیابی کردیم تا بتوانیم مسئله های یادگیری تقویتی بیزی را حل کنیم. ما نشان خواهیم داد که این الگوریتم به صورت موفق میتواند به دنبال سیاست های نزدیک به حالت بهینه بگردد. به علاوه، ما استفاده از یک روش پارامتری برای کوچک نگاه داشتن فضای جستجو را بررسی کرده و ترکیب تو در تو مدل های به هم پیوسته را پیشنهاد میدهیم تا صلابت روش را، زمانی که اطلاعات اولیه ی ما به ما این امکان را نمیدهد تا ساختار مدل های پیوسته را به صورت دقیق مشخص کنیم ، افزایش دهیم. آزمایش ها نشان میدهد که مدل پیشنهاد شده به صورت محدود میتواند موجب بهبود مقیاس پذیری روش های یادگیری تقویتی بیزی شود.