HPPD : a hybrid parallel framework of partition-based and density-based clustering algorithms in data streams
Data stream clustering refers to the process of grouping continuously arriving new data chunks into continuously changing groups to enable dynamic analysis of segmentation patterns. However, the main attention of research on clustering methods till now has been concerned with alteration of the metho...
Uloženo v:
| Vydáno v: | AL-Rafidain journal of computer sciences and mathematics Ročník 14; číslo 1; s. 67 - 82 |
|---|---|
| Hlavní autor: | |
| Médium: | Journal Article |
| Jazyk: | angličtina |
| Vydáno: |
الموصل، العراق
جامعة الموصل، كلية علوم الحاسبات و الرياضيات
03.06.2020
Mosul University |
| Témata: | |
| ISSN: | 1815-4816, 2311-7990 |
| On-line přístup: | Získat plný text |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
| Abstract | Data stream clustering refers to the process of grouping continuously arriving new data chunks into continuously changing groups to enable dynamic analysis of segmentation patterns. However, the main attention of research on clustering methods till now has been concerned with alteration of the methods updated for static datasets and changes of the available modified methods. Such methods presented only one type of final output clusters, i. e. convex or non-convex shape clusters. This paper presents a novel two-phase parallel hybrid clustering (HPPD) algorithm that identify convex and non-convex groups in online stage and mixed groups in offline stage from data stream. In this work, we first receive the data stream and apply pre-processing step to identify convex and non-convex clusters. Secondly, apply modified EINCKM to present online output convex clusters and modified EDDS to present online output non-convex clusters in parallel scheme. Thirdly, apply adaptive merging strategy in offline stage to give last composed output groups. The method is assessed on a synthetic dataset. The output results of the experiments have authenticate the activeness and effectiveness of the method.
المصطلح عنقدة البيانات المستمرة يشير الى عملية توزيع مستمرة للبيانات الجديدة و المتولدة بشكل مستمر إلى مجاميع قابلة للتغيير بشكل مستمر لتمكين عملية التحليل المتزامنة للأنماط الجديدة. على اية حال، توجه البحوث في مجال خوارزميات العنقدة الى وقتنا هذا متركزة على تحديث هذه الخوارزميات و التي تعمل مع البيانات الثابتة الى بيئة البيانات المستمرة او تطوير خوارزميات البيانات المستمرة. هذه الخوارزميات تقدم فقط نوع واحد من العناقد المخرجة و التي تكون اما عناقيد كروية او عناقيد غير منتظمة الشكل. هذا البحث يقدم خوارزمية متوازية هجينة جديدة تدعى HPPD و التي تميز العناقيد الكروية و العناقيد غير الكروية في الطور المباشر وكذلك تميز العناقيد المشتركة في الطور غير المباشر. في هذا البحث، اولا نقوم باستلام البيانات المستمرة ونطبق عليها عمليات تهيئة استباقية لاكتشاف العناقيد الكروية وغير الكروية. ثانيا، نقوم بتطبيق نسخة محدثة من خوارزمية EINCKM على العناقيد الكروية وكذلك نطبق نسخة محدثة من خوارزمية EDDS على العناقيد غير الكروية وهذا يتم في الطور المباشر. ثالثا، نطبق ستراتجية دمج جديدة للحصول على العناقيد المختلطة النهائية. هذه الخوارزمية تم فحصها على بيانات افتراضية لغرض معرفة مدى فاعليتها. النتائج النهائية للتجارب وثقت فاعلية و فائدة الخوارزمية المقترحة و مدى فرقها عن سابقاتها. |
|---|---|
| AbstractList | Data stream clustering refers to the process of grouping continuously arriving new data chunks into continuously changing groups to enable dynamic analysis of segmentation patterns. However, the main attention of research on clustering methods till now has been concerned with alteration of the methods updated for static datasets and changes of the available modified methods. Such methods presented only one type of final output clusters, i.e. convex or non-convex shape clusters. This paper presents a novel two-phase parallel hybrid clustering (HPPD) algorithm that identify convex and non-convex groups in online stage and mixed groups in offline stage from data stream. In this work, we first receive the data stream and apply pre-processing step to identify convex and non-convex clusters. Secondly, apply modified EINCKM to present online output convex clusters and modified EDDS to present online output non-convex clusters in parallel scheme. Thirdly, apply adaptive merging strategy in offline stage to give last composed output groups. The method is assessed on a synthetic dataset. The output results of the experiments have authenticate the activeness and effectiveness of the method. Data stream clustering refers to the process of grouping continuously arriving new data chunks into continuously changing groups to enable dynamic analysis of segmentation patterns. However, the main attention of research on clustering methods till now has been concerned with alteration of the methods updated for static datasets and changes of the available modified methods. Such methods presented only one type of final output clusters, i. e. convex or non-convex shape clusters. This paper presents a novel two-phase parallel hybrid clustering (HPPD) algorithm that identify convex and non-convex groups in online stage and mixed groups in offline stage from data stream. In this work, we first receive the data stream and apply pre-processing step to identify convex and non-convex clusters. Secondly, apply modified EINCKM to present online output convex clusters and modified EDDS to present online output non-convex clusters in parallel scheme. Thirdly, apply adaptive merging strategy in offline stage to give last composed output groups. The method is assessed on a synthetic dataset. The output results of the experiments have authenticate the activeness and effectiveness of the method. المصطلح عنقدة البيانات المستمرة يشير الى عملية توزيع مستمرة للبيانات الجديدة و المتولدة بشكل مستمر إلى مجاميع قابلة للتغيير بشكل مستمر لتمكين عملية التحليل المتزامنة للأنماط الجديدة. على اية حال، توجه البحوث في مجال خوارزميات العنقدة الى وقتنا هذا متركزة على تحديث هذه الخوارزميات و التي تعمل مع البيانات الثابتة الى بيئة البيانات المستمرة او تطوير خوارزميات البيانات المستمرة. هذه الخوارزميات تقدم فقط نوع واحد من العناقد المخرجة و التي تكون اما عناقيد كروية او عناقيد غير منتظمة الشكل. هذا البحث يقدم خوارزمية متوازية هجينة جديدة تدعى HPPD و التي تميز العناقيد الكروية و العناقيد غير الكروية في الطور المباشر وكذلك تميز العناقيد المشتركة في الطور غير المباشر. في هذا البحث، اولا نقوم باستلام البيانات المستمرة ونطبق عليها عمليات تهيئة استباقية لاكتشاف العناقيد الكروية وغير الكروية. ثانيا، نقوم بتطبيق نسخة محدثة من خوارزمية EINCKM على العناقيد الكروية وكذلك نطبق نسخة محدثة من خوارزمية EDDS على العناقيد غير الكروية وهذا يتم في الطور المباشر. ثالثا، نطبق ستراتجية دمج جديدة للحصول على العناقيد المختلطة النهائية. هذه الخوارزمية تم فحصها على بيانات افتراضية لغرض معرفة مدى فاعليتها. النتائج النهائية للتجارب وثقت فاعلية و فائدة الخوارزمية المقترحة و مدى فرقها عن سابقاتها. |
| Author | al-Abd al-Aziz, Ammar Zahir Yasin |
| Author_xml | – sequence: 1 fullname: al-Abd al-Aziz, Ammar Zahir Yasin organization: Department of Computer Science College of Computer Science and Mathmatics University of Mosul, Mosul, Iraq |
| BookMark | eNpFkMtqHDEQRUVwIGNnPiCboB_oiV4ttbwLjh0bDPbCWYuSVBrL7m4ZqUOYv888TLIquNQ9cM85OZvLjIR84Wwj5WDtt9Cml41ggm24VtqYD2QlJOedsZadkRUfeN-pgetPZN1a9kxqoTizakWm28fHH_SSAn3e-ZojfYMK44gjTRUm_FPqKy3pkC55yWXuPDSMFOZII84tL7v3JIy_24I1z1sK47bUvDxPjeaZRliAtqUiTO0z-ZhgbLh-vxfk183109Vtd__w8-7q-30XuFGmG3rUxovBRz8klmJgTBvhBUgF0eo-BgMy9oZHFMCDSDbGgFIIiYJx8PKC3J24scCLe6t5grpzBbI7BqVu3WFQGNGFpFWSOgTdS8WjHcD30rA-oDVgbNyz-IkVammtYvrH48wd9buDfnfQ7076952vpw7uHzHB_4oQajBK_gX7QoaP |
| ContentType | Journal Article |
| DBID | ADJCN AHFXO AAYXX CITATION DOA |
| DOI | 10.33899/csmj.2020.164677 |
| DatabaseName | الدوريات العلمية والإحصائية - e-Marefa Academic and Statistical Periodicals معرفة - المحتوى العربي الأكاديمي المتكامل - e-Marefa Academic Complete CrossRef DOAJ Directory of Open Access Journals |
| DatabaseTitle | CrossRef |
| DatabaseTitleList | |
| Database_xml | – sequence: 1 dbid: DOA name: DOAJ Directory of Open Access Journals url: https://www.doaj.org/ sourceTypes: Open Website |
| DeliveryMethod | fulltext_linktorsrc |
| Discipline | Mathematics |
| DocumentTitleAlternate | نموذج متوازي هجين لخوارزميات العنقدة للبيانات المستمرة بالاعتماد على التقسيم و الكثافة للبيانات |
| EISSN | 2311-7990 |
| EndPage | 82 |
| ExternalDocumentID | oai_doaj_org_article_cf64f36cc65341d98ab53705ce97a79d 10_33899_csmj_2020_164677 1224874 |
| GroupedDBID | ADJCN AFWDF AHFXO ALMA_UNASSIGNED_HOLDINGS ARCSS .K5 AAYXX CITATION GROUPED_DOAJ |
| ID | FETCH-LOGICAL-c1747-85e67b28bdb8f0fdc00672b2a34ad965dc7a3d571de2a1c2f9ddce3223e201ab3 |
| IEDL.DBID | DOA |
| ISSN | 1815-4816 |
| IngestDate | Tue Oct 14 19:07:34 EDT 2025 Sat Nov 29 07:26:22 EST 2025 Thu Sep 25 15:05:46 EDT 2025 |
| IsDoiOpenAccess | true |
| IsOpenAccess | true |
| IsPeerReviewed | true |
| IsScholarly | true |
| Issue | 1 |
| LCCallNum_Ident | QA |
| Language | English |
| License | https://creativecommons.org/licenses/by/4.0/legalcode |
| LinkModel | DirectLink |
| MergedId | FETCHMERGED-LOGICAL-c1747-85e67b28bdb8f0fdc00672b2a34ad965dc7a3d571de2a1c2f9ddce3223e201ab3 |
| OpenAccessLink | https://doaj.org/article/cf64f36cc65341d98ab53705ce97a79d |
| PageCount | 16 |
| ParticipantIDs | doaj_primary_oai_doaj_org_article_cf64f36cc65341d98ab53705ce97a79d crossref_primary_10_33899_csmj_2020_164677 emarefa_primary_1224874 |
| PublicationCentury | 2000 |
| PublicationDate | 2020-06-03 |
| PublicationDateYYYYMMDD | 2020-06-03 |
| PublicationDate_xml | – month: 06 year: 2020 text: 2020-06-03 day: 03 |
| PublicationDecade | 2020 |
| PublicationPlace | الموصل، العراق |
| PublicationPlace_xml | – name: الموصل، العراق |
| PublicationTitle | AL-Rafidain journal of computer sciences and mathematics |
| PublicationYear | 2020 |
| Publisher | جامعة الموصل، كلية علوم الحاسبات و الرياضيات Mosul University |
| Publisher_xml | – name: جامعة الموصل، كلية علوم الحاسبات و الرياضيات – name: Mosul University |
| SSID | ssib036241094 ssib046786262 ssib044757849 ssj0002872981 |
| Score | 2.107067 |
| Snippet | Data stream clustering refers to the process of grouping continuously arriving new data chunks into continuously changing groups to enable dynamic analysis of... |
| SourceID | doaj crossref emarefa |
| SourceType | Open Website Index Database Publisher |
| StartPage | 67 |
| SubjectTerms | big data data stream clustering algorithms hybrid clustering algorithms الخوارزميات نظم المعالجة المتوازية |
| Title | HPPD : a hybrid parallel framework of partition-based and density-based clustering algorithms in data streams |
| URI | https://search.emarefa.net/detail/BIM-1224874 https://doaj.org/article/cf64f36cc65341d98ab53705ce97a79d |
| Volume | 14 |
| hasFullText | 1 |
| inHoldings | 1 |
| isFullTextHit | |
| isPrint | |
| journalDatabaseRights | – providerCode: PRVAON databaseName: DOAJ Directory of Open Access Journals customDbUrl: eissn: 2311-7990 dateEnd: 99991231 omitProxy: false ssIdentifier: ssj0002872981 issn: 1815-4816 databaseCode: DOA dateStart: 20040101 isFulltext: true titleUrlDefault: https://www.doaj.org/ providerName: Directory of Open Access Journals – providerCode: PRVHPJ databaseName: ROAD: Directory of Open Access Scholarly Resources customDbUrl: eissn: 2311-7990 dateEnd: 99991231 omitProxy: false ssIdentifier: ssib044757849 issn: 1815-4816 databaseCode: M~E dateStart: 20140101 isFulltext: true titleUrlDefault: https://road.issn.org providerName: ISSN International Centre |
| link | http://cvtisr.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrV07b9swECaCoEMzFGmbtE6bgEOnAkIkkuKjmxvH8JLAQwpkE44PpS5subCUAln623ukFMedsmQRIELP0-G--8Tjd4R8MXUojXAu8wLyTIB1GSCSZZhpF5KZ3EorUrMJdX2tb2_NfKfVV6wJ6-WBe8Odu1qKmkvnZIkB1xsNtuQqL10wCpTxMfrmyuyQKfQkjMqi2CEuUdVO6SeigdEhZvJs-zcGeQMzqaMpIl6ZCV3IfgqUR_25c9eufiGXZBhhJJ6r_gOxpPWfFvQC7sMOPE0PyZshr6Tj_n3ekr3QvCMHV1tR1vY9Wc7m88k3Oqazh7hMi85hExupLOn0sUCLrus42usXZRHgPIXG00mscu8ehpGL5X1UV0DMo-Pl3Xqz6H6uWrpo6AQ6oHGaG1btEfkxvby5mGVDs4XMISlBpCqDVJZp662u89q7NElrGXAB3sjSOwXcl6rwgUHhWG28dwHDAQ-YQ4Dlx2S_WTfhI6GKOe6lcB5UEMxrKLhl1npMRUFqZ0fk66P1qt-9pkaFXCSZuoqmrqKpq97UI_I92nd7YJTDTgPoJNXgJNVzTjIiH4av83RDzF20EicvcflP5HV84lRBxj-T_W5zH07JK_enW7Sbs-SZuL36e_kPY4bimg |
| linkProvider | Directory of Open Access Journals |
| openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=HPPD+%3A+a+hybrid+parallel+framework+of+partition-based+and+density-based+clustering+algorithms+in+data+streams&rft.jtitle=%D9%85%D8%AC%D9%84%D8%A9+%D8%A7%D9%84%D8%B1%D8%A7%D9%81%D8%AF%D9%8A%D9%86+%D9%84%D8%B9%D9%84%D9%88%D9%85+%D8%A7%D9%84%D8%AD%D8%A7%D8%B3%D8%A8%D8%A7%D8%AA+%D9%88+%D8%A7%D9%84%D8%B1%D9%8A%D8%A7%D8%B6%D9%8A%D8%A7%D8%AA+%3A+%D9%85%D8%AC%D9%84%D8%A9+%D8%B9%D9%84%D9%85%D9%8A%D8%A9+%D9%85%D8%AD%D9%83%D9%85%D8%A9+%D9%88+%D9%85%D9%81%D9%87%D8%B1%D8%B3%D8%A9.&rft.au=al-Abd+al-Aziz%2C+Ammar+Zahir+Yasin&rft.date=2020-06-03&rft.pub=%D8%AC%D8%A7%D9%85%D8%B9%D8%A9+%D8%A7%D9%84%D9%85%D9%88%D8%B5%D9%84%D8%8C+%D9%83%D9%84%D9%8A%D8%A9+%D8%B9%D9%84%D9%88%D9%85+%D8%A7%D9%84%D8%AD%D8%A7%D8%B3%D8%A8%D8%A7%D8%AA+%D9%88+%D8%A7%D9%84%D8%B1%D9%8A%D8%A7%D8%B6%D9%8A%D8%A7%D8%AA&rft.issn=1815-4816&rft.volume=14&rft.issue=1&rft.spage=67&rft.epage=82&rft_id=info:doi/10.33899%2Fcsmj.2020.164677&rft.externalDBID=ADJCN&rft.externalDocID=1224874 |
| thumbnail_l | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1815-4816&client=summon |
| thumbnail_m | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1815-4816&client=summon |
| thumbnail_s | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1815-4816&client=summon |