ترجمه مقاله یادگیری تقویتی عمیق برای تولید دیالوگ
عنوان فارسی: | یادگیری تقویتی عمیق برای تولید دیالوگ |
عنوان انگلیسی: | Deep Reinforcement Learning for Dialogue Generation |
تعداد صفحات مقاله انگلیسی : 11 | تعداد صفحات ترجمه فارسی : 20 (3 صفحه رفرنس انگلیسی) |
سال انتشار : 2016 | فرمت مقاله انگلیسی : PDF |
فرمت ترجمه مقاله : ورد تایپ شده و pdf | فونت ترجمه مقاله : بی نازنین |
سایز ترجمه مقاله : 14 | نوع مقاله : ISI |
نوع ارائه مقاله : ژورنال | کد محصول : F1479 |
محتوای فایل : zip | حجم فایل : 6.16Mb |
رشته و گرایش های مرتبط با این مقاله: مهندسی کامپیوتر، هوش مصنوعی، مهندسی الگوریتم ها و محاسبات |
دانشگاه: دانشگاه استنفورد، ایالات متحده آمریکا |
وضعیت ترجمه عناوین تصاویر و جداول: ترجمه شده است ✓ |
وضعیت ترجمه متون داخل تصاویر و جداول: جداول ترجمه شده است ✓ تصاویر ترجمه نشده است ☓ |
وضعیت ترجمه منابع داخل متن: درج نشده است ☓ |
وضعیت فرمولها و محاسبات در فایل ترجمه: به صورت عکس، درج شده است |
بیس: نیست ☓ |
مدل مفهومی: ندارد ☓ |
پرسشنامه: ندارد ☓ |
متغیر: ندارد ☓ |
رفرنس: دارای رفرنس در داخل متن و انتهای مقاله |
رفرنس در ترجمه: در انتهای مقاله درج شده است |
doi یا شناسه دیجیتال: https://doi.org/10.18653/v1/D16-1127 |
چکیده
1-مقدمه
2-تحقیقات مرتبط
3-یادگیری پسخورد برای مکالمه حوزه باز
1-3-اقدام
2-3-حالت
3-3-سیاستگزاری
4-3-جایزه
4-شبیه سازی
1-4-یادگیری تحت نظارت
2-4-اطلاع رسانی متقابل
3-4-شبیه سازی دیالوگ بین دو عامل
4-4-یادگیری برنامه درسی
5-نتایج آزمایشی
1-5-پایگاه داده ها
2-5-ارزیابی خودکار
6-نتیجه گیری
Abstract
Recent neural models of dialogue generation offer great promise for generating responses for conversational agents, but tend to be shortsighted, predicting utterances one at a time while ignoring their influence on future outcomes. Modeling the future direction of a dialogue is crucial to generating coherent, interesting dialogues, a need which led traditional NLP models of dialogue to draw on reinforcement learning. In this paper, we show how to integrate these goals, applying deep reinforcement learning to model future reward in chatbot dialogue. The model simulates dialogues between two virtual agents, using policy gradient methods to reward sequences that display three useful conversational properties: informativity, coherence, and ease of answering (related to forward-looking function). We evaluate our model on diversity, length as well as with human judges, showing that the proposed algorithm generates more interactive responses and manages to foster a more sustained conversation in dialogue simulation. This work marks a first step towards learning a neural conversational model based on the long-term success of dialogues.
چکیده
مدلهای عصبی اخیر تولید دیالوگ برای ایجاد پاسخ ها برای عامل های مکالمه بسیار نویدبخش بوده است، ولیکن میل به نزدیک بینی دارد بطوریکه بیان را یک بار پیشگویی می کند، درحالیکه تاثیر آنها را بر نتایج آتی نادیده می انگارد. مدلسازی جهت آتی دیالوگ در ایجاد دیالوگ منسجم و جالب امری حیاتی و مهم است، نیازی که مدلهای NLP قدیمی دیالوگ را منجر به استنباط طبق یادگیری پسخورد نموده است. در این مقاله، ما نشان داده ایم که چگونه این اهداف با هم ترکیب شده و یادگیری پسخورد عمیق را برای مدلسازی پاداش آتی در دیالوگ محاوره ای بکارمی بندد. این مدل دیالوگ ها را بین دو عامل مجازی با استفاده از روشهای گرادیانی سیاستگزاری شبیه سازی می کند تا نتایجی را پاداش دهد که سه خصوصیت مکالمه ای مفید را نمایش می دهند: اطلاع رسانی، انسجام و سهولت پاسخ دهی (که به عملکرد آینده نگری مربوط می شود). ما مدل خودمان را در زمینه تنوع، طول مدت و قضاوت های انسانی ارزیابی کرده ایم که نشان می دهد الگوریتم مطرح شده باعث ایجاد پاسخ های تعاملی تر و مدیریت شکوفایی مکالمه پایدارتر در شبیه سازی دیالوگ می شود. این کار اولین مرحله به سمت یادگیری یک مدل مکالمه عصبی را مبتنی بر موفقیت طولانی مدت دیالوگ نشان می دهد.