HPPD : a hybrid parallel framework of partition-based and density-based clustering algorithms in data streams
Data stream clustering refers to the process of grouping continuously arriving new data chunks into continuously changing groups to enable dynamic analysis of segmentation patterns. However, the main attention of research on clustering methods till now has been concerned with alteration of the metho...
Saved in:
| Published in: | AL-Rafidain journal of computer sciences and mathematics Vol. 14; no. 1; pp. 67 - 82 |
|---|---|
| Main Author: | |
| Format: | Journal Article |
| Language: | English |
| Published: |
الموصل، العراق
جامعة الموصل، كلية علوم الحاسبات و الرياضيات
03.06.2020
Mosul University |
| Subjects: | |
| ISSN: | 1815-4816, 2311-7990 |
| Online Access: | Get full text |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Summary: | Data stream clustering refers to the process of grouping continuously arriving new data chunks into continuously changing groups to enable dynamic analysis of segmentation patterns. However, the main attention of research on clustering methods till now has been concerned with alteration of the methods updated for static datasets and changes of the available modified methods. Such methods presented only one type of final output clusters, i. e. convex or non-convex shape clusters. This paper presents a novel two-phase parallel hybrid clustering (HPPD) algorithm that identify convex and non-convex groups in online stage and mixed groups in offline stage from data stream. In this work, we first receive the data stream and apply pre-processing step to identify convex and non-convex clusters. Secondly, apply modified EINCKM to present online output convex clusters and modified EDDS to present online output non-convex clusters in parallel scheme. Thirdly, apply adaptive merging strategy in offline stage to give last composed output groups. The method is assessed on a synthetic dataset. The output results of the experiments have authenticate the activeness and effectiveness of the method.
المصطلح عنقدة البيانات المستمرة يشير الى عملية توزيع مستمرة للبيانات الجديدة و المتولدة بشكل مستمر إلى مجاميع قابلة للتغيير بشكل مستمر لتمكين عملية التحليل المتزامنة للأنماط الجديدة. على اية حال، توجه البحوث في مجال خوارزميات العنقدة الى وقتنا هذا متركزة على تحديث هذه الخوارزميات و التي تعمل مع البيانات الثابتة الى بيئة البيانات المستمرة او تطوير خوارزميات البيانات المستمرة. هذه الخوارزميات تقدم فقط نوع واحد من العناقد المخرجة و التي تكون اما عناقيد كروية او عناقيد غير منتظمة الشكل. هذا البحث يقدم خوارزمية متوازية هجينة جديدة تدعى HPPD و التي تميز العناقيد الكروية و العناقيد غير الكروية في الطور المباشر وكذلك تميز العناقيد المشتركة في الطور غير المباشر. في هذا البحث، اولا نقوم باستلام البيانات المستمرة ونطبق عليها عمليات تهيئة استباقية لاكتشاف العناقيد الكروية وغير الكروية. ثانيا، نقوم بتطبيق نسخة محدثة من خوارزمية EINCKM على العناقيد الكروية وكذلك نطبق نسخة محدثة من خوارزمية EDDS على العناقيد غير الكروية وهذا يتم في الطور المباشر. ثالثا، نطبق ستراتجية دمج جديدة للحصول على العناقيد المختلطة النهائية. هذه الخوارزمية تم فحصها على بيانات افتراضية لغرض معرفة مدى فاعليتها. النتائج النهائية للتجارب وثقت فاعلية و فائدة الخوارزمية المقترحة و مدى فرقها عن سابقاتها. |
|---|---|
| ISSN: | 1815-4816 2311-7990 |
| DOI: | 10.33899/csmj.2020.164677 |