ترجمه مقاله پلتفرم مبتنی بر هدوپ برای پردازش زبان طبیعی اسناد و صفحات وب - نشریه الزویر

ترجمه مقاله پلتفرم مبتنی بر هدوپ برای پردازش زبان طبیعی اسناد و صفحات وب - نشریه الزویر
قیمت خرید این محصول
۳۱,۰۰۰ تومان
دانلود رایگان نمونه دانلود مقاله انگلیسی
عنوان فارسی
پلتفرم مبتنی بر هدوپ برای پردازش زبان طبیعی اسناد و صفحات وب
عنوان انگلیسی
A hadoop based platform for natural language processing of web pages and documents
صفحات مقاله فارسی
16
صفحات مقاله انگلیسی
9
سال انتشار
2015
نشریه
الزویر - Elsevier
فرمت مقاله انگلیسی
PDF
فرمت ترجمه مقاله
ورد تایپ شده
رفرنس
دارد
کد محصول
7163
وضعیت ترجمه عناوین تصاویر و جداول
ترجمه شده است
وضعیت ترجمه متون داخل تصاویر و جداول
ترجمه نشده است
وضعیت فرمولها و محاسبات در فایل ترجمه
به صورت عکس، درج شده است
رشته های مرتبط با این مقاله
مهندسی کامپیوتر و مهندسی فناوری اطلاعات
گرایش های مرتبط با این مقاله
اینترنت و شبکه های گسترده، مهندسی نرم افزار و رایانش ابری
مجله
مجله زبان ها و محاسبات ویژوال - Journal of Visual Languages and Computing
دانشگاه
سیستم های توزیع شده و آزمایشگاه فن آوری اینترنت، گروه مهندسی اطلاعات (DINFO)، دانشگاه فلورانس، ایتالیا
کلمات کلیدی
پردازش زبان طبیعی، هدوپ، برچسب زنی بخش گفتار، تجزیه متن، وب کرالینگ، ماینینگ بیگ دیتاها، محاسبه موازی، سیستم های توزیع شده
فهرست مطالب
چکیده
۱. مقدمه
۲. آثار مربوطه
۳. ساختار سیستم
۳-۱ MapReduce
۳-۲ Web crawler
۳-۳ استخراج کننده کلیدواژه/عبارات اصلی
۳-۴ کاربرد GATE
۳-۵ محاسبه ارتباط TF-IDF
۳-۶ ذخیره DB‌ بیرونی
۴. ارزیابی
۵. نتیجه گیری و برنامه های آینده
نمونه چکیده متن اصلی انگلیسی
Abstract

The rapid and extensive pervasion of information through the web has enhanced the diffusion of a huge amount of unstructured natural language textual resources. A great interest has arisen in the last decade for discovering, accessing and sharing such a vast source of knowledge. For this reason, processing very large data volumes in a reasonable time frame is becoming a major challenge and a crucial requirement for many commercial and research fields. Distributed systems, computer clusters and parallel computing paradigms have been increasingly applied in the recent years, since they introduced significant improvements for computing performance in data-intensive contexts, such as Big Data mining and analysis. Natural Language Processing, and particularly the tasks of text annotation and key feature extraction, is an application area with high computational requirements; therefore, these tasks can significantly benefit of parallel architectures. This paper presents a distributed framework for crawling web documents and running Natural Language Processing tasks in a parallel fashion. The system is based on the Apache Hadoop ecosystem and its parallel programming paradigm, called MapReduce. In the specific, we implemented a MapReduce adaptation of a GATE application and framework (a widely used open source tool for text engineering and NLP). A validation is also offered in using the solution for extracting keywords and keyphrase from web documents in a multi-node Hadoop cluster. Evaluation of performance scalability has been conducted against a real corpus of web pages and documents.

نمونه چکیده ترجمه متن فارسی
چکیده
انتشار گسترده و سریع اطلاعات در وب ، پخش بخش اعظم منابع متنی زبان طبیعی بدون ساختار را بالا برده است. توجه زیادی را در دهه های گذشته برای کشف دسترسی و تقسیم این منبع گسترده از دانش به خود جلب کرده است. به همین خاطر ، پردازش حجم وسیعی از داده ها در قالب زمانی منطقی ، چالشی بزرگ و لازمه ی حوزه های تحقیقاتی و تجاری است. نمونه های محاسبه ی موازی و سیستم های توزیع شده ، خوشه های کامپیوتری و کاربرد فزاینده ای در سال های اخیر داشته چونکه دستاوردهای مهمی برای محاسبه ی عملکرد در متن های فشرده ی داده ای مثل تحلیل و big data mining‌ ماینینگ بیگ دیتا را معرفی کرده است. پردازش زبان طبیعی و خصوصا کارهای تفسیر(حاشیه نویسی) متن و استخراج ویژگی کلیدی ، حوزه ی مطالعاتی با شرایط محاسباتی بالاست ؛ در نتیجه ، این کارها ، فایده ی قابل توجهی برای ساختارهای موازی دارد. در این مقاله ، چارچوب توزیعی اسناد کرالینگ وب و اجرای کارهای پردازش زبان طبیعی به روش موازی ارائه شده است. این سیستم بر مبنای اکوسیستم آپاچی هدوپ و نمونه ی برنامه نویسی موازی به نام مپ ردیوس است. ما انطباق مپ ردیوس را در چارچوب و کاربرد گیت به طور خاص ، اجرا کرده ایم ( ابزار منبع باز با کاربرد گسترده برای مهندسی متن و NLP ). ارزیابی ای نیز در استفاده از راه حل استخراج کلیدواژه ها و عبارت های کلیدی از اسناد وب در خوشه ی هدوپ چند گرهی ارائه شده است. ارزیابی مقیاس پذیری عملکرد در برابر مجموعه ی نوشتاری واقعی صفحات وب و اسناد آن ، انجام شده است.

بدون دیدگاه