Emergence of modern techniques for scientific data collection has resulted in large scale accumulation of data pertaining to diverse fields. Conventional database querying methods are inadequate to extract useful information from huge data banks. Cluster analysis is one of the major data analysis methods and the k-means clustering algorithm is widely used for many practical applications. But the original k-means algorithm is computationally expensive and the quality of the resulting clusters heavily depends on the selection of initial centroids. Several methods have been proposed in the literature for improving the performance of the k-means clustering algorithm. This paper proposes a method for making the algorithm more effective and efficient, so as to get better clustering with reduced complexity.
نمونه چکیده ترجمه متن فارسی
چکیده
ظهور تکنیک های مدرن برای جمع آوری داده های علمی موجب جمع آوری داده های وابسته به فیلدهای متنوع در مقیاس وسیع گردیده است. روشهای تحقیق پایگاه داده متداول برای استخراج اطلاعات مفید از بانک های داده عظیم کافی نمی باشند. تحلیل خوشه ای یکی از روشهای اصلی تحلیل داده ها به شمار رفته و الگوریتم خوشه بندی میانگین K در بسیاری از برنامه های کاربردی عملی کاربرد دارد. اما الگوریتم میانگین k اصلی از لحاظ محاسباتی هزینه بر بوده و کیفیت خوشه های حاصله عمدتاً به انتخاب مراکز اولیه بستگی دارد. روشهای مختلفی در پژوهش برای بهبود عملکرد الگوریتم خوشه بندی میانگین k پیشنهاد شده است. این مقاله روشی برای موثر و کارآمد تر جلوه دادن الگوریتم جهت دستیابی به خوشه بندی بهتر با پیچیدگی کاهش یافته پیشنهاد می کند.