چکیده
تعداد زیادی از مطالعات موردی از آموزش سریع و دفعات پیش بینی سود می برند، و بیشتر تحقیقات به بررسی تسریع روش های تشخیص داده های پرت مبتنی بر فاصله برای میلیون ها نقطه داده می پردازند. یافته های ما برخلاف عقیده عموم نشان می دهند که داده های اندک اغلب برای مدلهای تشخیص داده های پرت مبتنی بر فاصله کافی هستند. ما نشان می دهیم که از بخش کوچکی از داده ها برای آموزش مدلهای تشخیص داده های پرت مبتنی بر فاصله استفاده می شود که اغلب منجر به کاهش غیرمعنی داری در عملکرد پیش بینانه و واریانس تشخیص در محدوده گسترده ای از مجموعه داده های جدولی می شود. علاوه بر این، ما کاهش داده را براساس زیرنمونه گیری تصادفی و نمونه های اولیه مبتنی بر خوشه بندی مقایسه می کنیم و نشان می دهیم که هر دو رویکرد منجر به نتایج تشخیص داده های پرت مشابهی می شوند. بنابراین، زیرنمونه گیری تصادفی ساده ثابت می کند که یک معیار مفید و مبنایی برای تحقیقات آینده در تسریع تشخیص داده های پرت مبتنی بر فاصله است.
2. روش شناسی
هدف ما بررسی نحوه تاثیرگذاری الگوریتم های تشخیص داده های پرت مبتنی بر فاصله بر کاهش داده های آموزشی یا از طریق زیرنمونه گیری تصادفی یا از طریق نمونه های اولیه مبتنی بر خوشه بندی است. به ویژه، بررسی ما با سه سوال تحقیقاتی (RQ) زیر مرتبط می شود.
RQ1: چگونه زیرنمونه گیری داده های تصادفی بر عملکرد تشخیص داده های پرت مبتنی بر فاصله تاثیر می گذارند؟
RQ2: چگونه زیرنمونه گیری داده های مبتنی بر نمونه اولیه بر عملکرد تشخیص داده های پرت مبتنی بر فاصله تاثیر می گذارند؟
RQ3: آیا زیرنمونه گیری مبتنی بر نمونه اولیه منجر به نتایج تشخیص داده های پرت بهتر نسبت به زیرنمونه گیری تصادفی می شود؟
ما در بخش های زیر مجموعه داده های مختلف مورد استفاده برای ارزیابی (2.1)، زیرنمونه گیری تصادفی خودمان و روش شناسی نمونه اولیه (2.2)، الگوریتم های مورد استفاده در تحقیق خودمان (2.3)، و روش ارزیابی مورد استفاده برای پاسخ به سوالات تحقیقاتی مطرح شده را توصیف می کنیم (2.4).
2.1. مجموعه داده ها
مجموعه داده های مورد استفاده در تحقیق ما اغلب از بررسی کامپوس و همکاران در ارزیابی تشخیص داده های پرت بدون نظارت نشات می گیرند و شامل محدوده ای از مجموعه داده های جدولی هستند. این مجموعه ها قبلا در ادبیات تحقیق آشکار شدند یا در اصل با هدف طبقه بندی آشکار شدند، که یک یا چند کلاس تفسیر مفهومی به صورت داده های پرت دارند. تمام مجموعه داده های معنی دار مفهومی به شکاف های داده های پرت مختلف نمونه گذاری می شوند. شکافهای نمونه گیری داده های پرت {0.02,0.05,0.1,0.2} هستند. برای کاهش اثر تصادفی سازی هنگام کاهش میزان نمونه ها، این روش ده مرتبه برای هر مجموعه داده تکرار می شود که منجر به 10 متغیر مختلف برای این مجموعه داده ها می شود. چهار مجموعه داده ارائه شده در [8] شامل کمتر از 200 نمونه هستند که ما آن را از ارزیابی خودمان حذف می کنیم.