ترجمه مقاله نقش ضروری ارتباطات 6G با چشم انداز صنعت 4.0
- مبلغ: ۸۶,۰۰۰ تومان
ترجمه مقاله پایداری توسعه شهری، تعدیل ساختار صنعتی و کارایی کاربری زمین
- مبلغ: ۹۱,۰۰۰ تومان
Mining frequent itemsets in a datastream proves to be a difficult problem, as itemsets arrive in rapid succession and storing parts of the stream is typically impossible. Nonetheless, it has many useful applications; e.g., opinion and sentiment analysis from social networks. Current stream mining algorithms are based on approximations. In earlier work, mining frequent items in a stream under the max-frequency measure proved to be effective for items. In this paper, we extended our work from items to itemsets. Firstly, an optimized incremental algorithm for mining frequent itemsets in a stream is presented. The algorithm maintains a very compact summary of the stream for selected itemsets. Secondly, we show that further compacting the summary is nontrivial. Thirdly, we establish a connection between the size of a summary and results from number theory. Fourthly, we report results of extensive experimentation, both of synthetic and real-world datasets, showing the efficiency of the algorithm both in terms of time and space.
ثابت میشود که استخراج مجموعه اقلام مکرر در یک جریان از دادهها مسالهای سخت باشد، زیرا مجموعه اقلام در یک توالی سریع وارد میشوند و ذخیرهسازی بخشهای جریان معمولا غیر ممکن است. با این وجود، آن ممکن است کاربردهای بسیار مفیدی داشته باشد، برای مثال، تجزیه و تحلیل نیات و عقاید شبکههای اجتماعی. الگوریتمهای جاری استخراج جریان مبتنی بر تقریبها هستند. در کار قبلی ثابت شد که استخراج آیتمهای مکرر در یک جریان تحت اندازهگیری ماکسیمم فرکانس (یا تکرار)، برای اقلام، موثر است. در این مقاله، ما کار خود برای آیتمها (یا اقلام) را به مجموعههای اقلام گسترش دادیم. در مرحلهی اول، یک الگوریتم افزایشی بهینه برای استخراج مجموعه اقلام مکرر در یک جریان ارائه میشود. این الگوریتم، یک خلاصهی بسیار فشردهای از جریان را برای مجموعه اقلام انتخاب شده حفظ میکند. در مرحلهی دوم، ما نشان میدهیم که فشردهسازی بیشتر خلاصه، مهم است. در مرحلهی شوم، ما یک ارتباطی بین اندازهی یک خلاصه و نتایج از نظریهی اعداد، برقرار میکینم. در مرحلهی چهارم، ما گزارشی از نتایج آزمایشهای گسترده، برای هردو مجموعه دادههای دنیای واقعی و مصنوعی، با نشان داده کارامدی الگوریتم در هر دو زمینهی زمان و مکان ارائه میدهیم.