ترجمه مقاله مقایسه روش های Naive Bayesian و memory-based برای فیلتر کردن هرزه نامه پست الکترونیکی

عنوان فارسی: | یادگیری فیلتر کردن هرزه نامه پست الکترونیکی: مقایسه روش های Naive Bayesian و memory-based |
عنوان انگلیسی: | Learning to Filter Spam E-Mail: A Comparison of a Naive Bayesian and a Memory-Based Approach |
تعداد صفحات مقاله انگلیسی : 12 | تعداد صفحات ترجمه فارسی : 17 |
سال انتشار : 2000 | نشریه : arxiv |
فرمت مقاله انگلیسی : PDF | فرمت ترجمه مقاله : ورد تایپ شده |
کد محصول : 4838 | رفرنس : دارد |
محتوای فایل : zip | حجم فایل : 602.87Kb |
رشته های مرتبط با این مقاله: مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله: مهندسی الگوریتم ها و محاسبات، مهندسی نرم افزار و برنامه نویسی کامپیوتر |
مجله: کنفرانس اروپایی اصول و روش های کشف دانش در پایگاه های داده |
دانشگاه: آزمایشگاه مهندسی نرم افزار و دانش، موسسه انفورماتیک و ارتباطات مرکز ملی پژوهش های علمی Demokritos، آتن، یونان |
وضعیت ترجمه عناوین تصاویر و جداول: ترجمه شده است |
وضعیت پاورقی: ترجمه شده است |
وضعیت فرمولها و محاسبات در فایل ترجمه: به صورت عکس، درج شده است |
مقدمه
1- معرفی
2- گردآوری نوشته ها
3 - پیش پردازش نوشته ها
4- دسته بندی پیام های پست الکترونیک
4-1- روش دسته بندی Naive Bayesian
4-2- دسته بندی مبنی بر حافظه
5- معیارهای ارزیابی عملکرد دسته بندی
6- نتایج تجربی
6-1- سناریو 1: پیام های هرزه نامه علامتدار (λ=1)
6-2- سناریو 2: اخطار دادن به فرستنده درباره پیام های مسدود شده (λ=9)
6-3- سناریو 3: حذف پیام های مسدود شده λ=999
6-4- موقعیت بهترین عملکرد
7- نتیجه گیری
تقدیر و تشکر
Abstract
We investigate the performance of two machine learning algorithms in the context of antispam filtering. The increasing volume of unsolicited bulk e-mail (spam) has generated a need for reliable anti-spam filters. Filters of this type have so far been based mostly on keyword patterns that are constructed by hand and perform poorly. The Naive Bayesian classifier has recently been suggested as an effective method to construct automatically anti-spam filters with superior performance. We investigate thoroughly the performance of the Naive Bayesian filter on a publicly available corpus, contributing towards standard benchmarks. At the same time, we compare the performance of the Naive Bayesian filter to an alternative memorybased learning approach, after introducing suitable cost-sensitive evaluation measures. Both methods achieve very accurate spam filtering, outperforming clearly the keyword-based filter of a widely used e-mail reader.
چکیده
در این مقاله عملکرد دو الگوریتم یادگیری در زمینه فیلتر درمقابل هرزنامه را بررسی میکنیم. افزایش حجم پست الکترونیکی ناخواسته (هرزه نامه) نیاز به یک فیلتر معتبر را بوجود آورده است. این فیلترها تاکنون عمدتا بر اساس الگوهای کلمه کلیدی که با دست ایجاد می شوند و عملکرد ضعیف دارند بوده است. اخیرا Naïve Bayesian یک روش مفید برای ایجاد فیلتر خود بخود با عملکرد بالاتر پیشنهاد کرده است. ما به طور کامل عملکرد فیلتر Naive Bayesian بر مجموعه ای از نوشته های عمومی موجود را محک زده و بررسی می کنیم و همزمان عملکرد فیلتر Naive Bayesian را با روش پیشنهادی یادگیری memory-based، بعد از معرفی مقیاس ارزیابی مناسب، مقایسه می کنیم. هر دو روش به فیلتر هرزنامه بسیار دقیق می رسند و برای استفاده گسترده از پست الکترونیکی بسیار موفق تر از روش فیلتر کلمه کلیدی عمل می کنند.