ترجمه مقاله جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی - نشریه اشپرینگر

ترجمه مقاله جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی - نشریه اشپرینگر
قیمت خرید این محصول
۳۵,۰۰۰ تومان
دانلود رایگان نمونه دانلود مقاله انگلیسی
عنوان فارسی
جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی
عنوان انگلیسی
Monte-Carlo tree search for Bayesian reinforcement learning
صفحات مقاله فارسی
20
صفحات مقاله انگلیسی
9
سال انتشار
2013
نشریه
اشپرینگر - Springer
فرمت مقاله انگلیسی
PDF
فرمت ترجمه مقاله
ورد تایپ شده
نوع مقاله
ISI
نوع نگارش
مقالات پژوهشی (تحقیقاتی)
پایگاه
اسکوپوس
کد محصول
9547
وضعیت ترجمه عناوین تصاویر و جداول
ترجمه شده است ✓
وضعیت ترجمه متون داخل تصاویر و جداول
ترجمه نشده است ☓
وضعیت ترجمه منابع داخل متن
درج نشده است ☓
وضعیت فرمولها و محاسبات در فایل ترجمه
به صورت عکس، درج شده است
رشته های مرتبط با این مقاله
مهندسی کامپیوتر
گرایش های مرتبط با این مقاله
مهندسی الگوریتم ها و محاسبات، هوش مصنوعی
مجله
هوش کاربردی - Applied Intelligence
دانشگاه
مرکز تحقیقات و توسعه علوم و فناوری، دانشگاه DuyTan، ویتنام
کلمات کلیدی
یادگیری تقویتی بیزی، یادگیری تقویتی مبتنی بر مدل، تحقیق مونته کارلو ، POMDP
doi یا شناسه دیجیتال
https://doi.org/10.1007/s10489-012-0416-2
فهرست مطالب
چکیده
1- مقدمه
2- مقدمه
3- فرمولاسیون POMDP در یادگیری تقویتی بیزی
3-1 فرمولاسیون POMDP
3-2 الگوریتم های BEELTE
4- برنامه ریزی مونته کارلو قابل رویت به صورت نسبی (POMCP)
5- برنامه ریزی مونته کارلو برای RL های بیزی
6- ترکیب های تو در و از مدل های ترکیب شده
7- آزمایش ها
7-1 مسئله زنجیره
7-2 مسئله مارپیچ
8- جمع بندی
نمونه چکیده متن اصلی انگلیسی
Abstract

Bayesian model-based reinforcement learning can be formulated as a partially observable Markov decision process (POMDP) to provide a principled framework for optimally balancing exploitation and exploration. Then, a POMDP solver can be used to solve the problem. If the prior distribution over the environment’s dynamics is a product of Dirichlet distributions, the POMDP’s optimal value function can be represented using a set of multivariate polynomials. Unfortunately, the size of the polynomials grows exponentially with the problem horizon. In this paper, we examine the use of an online Monte-Carlo tree search (MCTS) algorithm for large POMDPs, to solve the Bayesian reinforcement learning problem online. We will show that such an algorithm successfully searches for a near-optimal policy. In addition, we examine the use of a parameter tying method to keep the model search space small, and propose the use of nested mixture of tied models to increase robustness of the method when our prior information does not allow us to specify the structure of tied models exactly. Experiments show that the proposed methods substantially improve scalability of current Bayesian reinforcement learning methods.

نمونه چکیده ترجمه متن فارسی
چکیده
یادگیری تقویتی مبتنی بر مدل های بیزی را میتوان به صورت روند تصمیم گیری مارکو با قابلیت مشاهده و ارزیابی نسبی (POMDP) فرمول سازی کرد تا بتوان یک قالب کاری اصولی برای بهره برداری و ارزیابی تعادل بهینه فراهم کرد . سپس، یک حل کننده یPOMDP را میتوان مورد استفاده قرار داد تا مشکلات را حل کرد. در صورتی که توزیع اولیه نسبت به حالت پویای محیط محصولی از توزیع دریکله باشد، تابع ارزش بهینه ی POMDP را میتوان با استفاده از مجموعه از چند جمله های چند متغیره، ارائه کرد. متاسفانه، سایز چند جمله ای ها، مطابق با افق مسئله، به صورت نمایی افزایش پیدا میکند. در این مقاله، ما استفاده از یک درخت جستجوی مونته کارلو آنلاین (MCTS) را برای POMDP های بزرگ ارزیابی کردیم تا بتوانیم مسئله های یادگیری تقویتی بیزی را حل کنیم. ما نشان خواهیم داد که این الگوریتم به صورت موفق میتواند به دنبال سیاست های نزدیک به حالت بهینه بگردد. به علاوه، ما استفاده از یک روش پارامتری برای کوچک نگاه داشتن فضای جستجو را بررسی کرده و ترکیب تو در تو مدل های به هم پیوسته را پیشنهاد میدهیم تا صلابت روش را، زمانی که اطلاعات اولیه ی ما به ما این امکان را نمیدهد تا ساختار مدل های پیوسته را به صورت دقیق مشخص کنیم ، افزایش دهیم. آزمایش ها نشان میدهد که مدل پیشنهاد شده به صورت محدود میتواند موجب بهبود مقیاس پذیری روش های یادگیری تقویتی بیزی شود.

بدون دیدگاه