A MULTI-LAYER DELTA LAKEHOUSE FOR EPIDEMIOLOGICAL MONITORING AND FORECASTING UNDER EMERGENCIES
Uložené v:
| Názov: | A MULTI-LAYER DELTA LAKEHOUSE FOR EPIDEMIOLOGICAL MONITORING AND FORECASTING UNDER EMERGENCIES |
|---|---|
| Zdroj: | Advanced Information Systems; Vol. 9 No. 4 (2025): Advanced Information Systems; 57-65 Современные информационные системы-Sučasnì ìnformacìjnì sistemi; Том 9 № 4 (2025): Сучасні інформаційні системи; 57-65 Сучасні інформаційні системи; Том 9 № 4 (2025): Сучасні інформаційні системи; 57-65 |
| Informácie o vydavateľovi: | NTU "KhPI", 2025. |
| Rok vydania: | 2025 |
| Predmety: | Lakehouse, епідеміологічний нагляд, machine learning, outbreak analytics, аналітика спалахів, epidemic surveillance, Delta lake, машинне навчання, Delta Lake |
| Popis: | Надзвичайні ситуації у сфері громадського здоров’я потребують швидкої та надійної аналітики, що поєднує сигнали реального часу з достовірними історичними даними. Відкриті, інтероперабельні платформи, які підтримують потокові та пакетні робочі процеси, дають змогу скоротити час від виявлення до реагування, зберігаючи якість даних і можливість аудиту. Мета: спроєктувати та обґрунтувати архітектуру інформаційної системи для аналізу епідемічних загроз в умовах надзвичайних ситуацій, яка є масштабованою, надійною та придатною до інтеграції з клінічними й некласичними джерелами даних. Методи: проведено структурований огляд трьох архітектур аналітики даних (Lambda, Kappa, Delta) та зіставлено їхні сильні сторони й обмеження з потребами нагляду під час криз. Виходячи з функціональних і нефункціональних вимог, визначено Lakehouse на базі Delta Lake із рівнями bronze–silver–gold, уніфікованим прийманням пакетних/потокових даних за допомогою Spark Structured Streaming, ACID-таблицями з можливістю «подорожі в часі» (time travel) та контролем схеми, а також аналітичним шаром, що підтримує прогнозування з використанням MLOps для моніторингу, перевірки дрейфу, перевчитування та відстежуваності (lineage). Результати: запропонована архітектура задовольняє ключові потреби надзвичайних умов щодо своєчасності, цілісності та відтворюваності завдяки ACID-транзакціям, версіонуванню наборів даних і курованим рівням; підтримує інтероперабельність на основі стандартів та підключення даних стічних вод, мобільності й інших екологічних джерел; забезпечує єдиний кодовий шлях для пакетної та потокової обробки, зменшуючи тягар узгодження; визначає операційні межі між затримкою та вартістю під час роботи з багатьма таблицями, що оновлюються майже в реальному часі. Окреслено практичні підходи до перевірок якості на «срібному» рівні, правил промоції до «золотого» рівня та управління моделями. Висновки: Lakehouse на основі Delta пропонує чіткий шлях до платформи нагляду, готової до роботи в надзвичайних умовах, яка масштабується разом зі зростанням даних, інтегрує різнорідні джерела та підтримує надійне прогнозування. Наступні кроки включають пілотне розгортання з партнерами у сфері громадського здоров’я, вимірювання фактичних затримок і вартості, а також проспективну валідацію прогнозування та оповіщення в реальних умовах. Public health emergencies demand fast, dependable analytics that combine real-time signals with trustworthy historical data. Open, interoperable platforms that support streaming and batch workflows can shorten the time from detection to action while preserving data quality and auditability. Aim: To design and justify an information system architecture for analyzing epidemic threats under emergency conditions that is scalable, reliable, and fit for integration with clinical and non-traditional data sources. Methods: We conducted a structured review of three data analytics architectures (Lambda, Kappa, Delta) and mapped their strengths and limits to crisis surveillance needs. Based on functional and non-functional requirements, we specified a Delta Lake–based lakehouse with bronze-silver-gold tiers, unified batch/stream ingestion with Spark Structured Streaming, ACID tables with time travel and schema control, and an analytics layer that supports forecasting with MLOps for monitoring, drift checks, retraining, and lineage. Results: The proposed architecture meets core emergency needs for timeliness, integrity, and reproducibility through ACID transactions, versioned datasets, and curated tiers; supports standards-based interoperability and the inclusion of wastewater, mobility, and other environmental feeds; provides a single code path for batch and streaming to reduce reconciliation burden; and sets operational guardrails for latency versus cost when running many near-real-time tables. We outline practical considerations for quality checks in the silver tier, promotion rules to gold, and model governance. Conclusions: A Delta-based lakehouse offers a clear path to an emergency-ready surveillance platform that scales with data growth, integrates heterogeneous sources, and supports reliable forecasting. The next steps are a pilot deployment with public health partners, live latency and cost measurements, and prospective validation of forecasting and alerting in real-world settings. |
| Druh dokumentu: | Article |
| Popis súboru: | application/pdf |
| Jazyk: | English |
| ISSN: | 2522-9052 |
| Prístupová URL adresa: | http://ais.khpi.edu.ua/article/view/340689 |
| Prístupové číslo: | edsair.scientific.p..923d4f44aab70b53d64d351b5c046672 |
| Databáza: | OpenAIRE |
| Abstrakt: | Надзвичайні ситуації у сфері громадського здоров’я потребують швидкої та надійної аналітики, що поєднує сигнали реального часу з достовірними історичними даними. Відкриті, інтероперабельні платформи, які підтримують потокові та пакетні робочі процеси, дають змогу скоротити час від виявлення до реагування, зберігаючи якість даних і можливість аудиту. Мета: спроєктувати та обґрунтувати архітектуру інформаційної системи для аналізу епідемічних загроз в умовах надзвичайних ситуацій, яка є масштабованою, надійною та придатною до інтеграції з клінічними й некласичними джерелами даних. Методи: проведено структурований огляд трьох архітектур аналітики даних (Lambda, Kappa, Delta) та зіставлено їхні сильні сторони й обмеження з потребами нагляду під час криз. Виходячи з функціональних і нефункціональних вимог, визначено Lakehouse на базі Delta Lake із рівнями bronze–silver–gold, уніфікованим прийманням пакетних/потокових даних за допомогою Spark Structured Streaming, ACID-таблицями з можливістю «подорожі в часі» (time travel) та контролем схеми, а також аналітичним шаром, що підтримує прогнозування з використанням MLOps для моніторингу, перевірки дрейфу, перевчитування та відстежуваності (lineage). Результати: запропонована архітектура задовольняє ключові потреби надзвичайних умов щодо своєчасності, цілісності та відтворюваності завдяки ACID-транзакціям, версіонуванню наборів даних і курованим рівням; підтримує інтероперабельність на основі стандартів та підключення даних стічних вод, мобільності й інших екологічних джерел; забезпечує єдиний кодовий шлях для пакетної та потокової обробки, зменшуючи тягар узгодження; визначає операційні межі між затримкою та вартістю під час роботи з багатьма таблицями, що оновлюються майже в реальному часі. Окреслено практичні підходи до перевірок якості на «срібному» рівні, правил промоції до «золотого» рівня та управління моделями. Висновки: Lakehouse на основі Delta пропонує чіткий шлях до платформи нагляду, готової до роботи в надзвичайних умовах, яка масштабується разом зі зростанням даних, інтегрує різнорідні джерела та підтримує надійне прогнозування. Наступні кроки включають пілотне розгортання з партнерами у сфері громадського здоров’я, вимірювання фактичних затримок і вартості, а також проспективну валідацію прогнозування та оповіщення в реальних умовах.<br />Public health emergencies demand fast, dependable analytics that combine real-time signals with trustworthy historical data. Open, interoperable platforms that support streaming and batch workflows can shorten the time from detection to action while preserving data quality and auditability. Aim: To design and justify an information system architecture for analyzing epidemic threats under emergency conditions that is scalable, reliable, and fit for integration with clinical and non-traditional data sources. Methods: We conducted a structured review of three data analytics architectures (Lambda, Kappa, Delta) and mapped their strengths and limits to crisis surveillance needs. Based on functional and non-functional requirements, we specified a Delta Lake–based lakehouse with bronze-silver-gold tiers, unified batch/stream ingestion with Spark Structured Streaming, ACID tables with time travel and schema control, and an analytics layer that supports forecasting with MLOps for monitoring, drift checks, retraining, and lineage. Results: The proposed architecture meets core emergency needs for timeliness, integrity, and reproducibility through ACID transactions, versioned datasets, and curated tiers; supports standards-based interoperability and the inclusion of wastewater, mobility, and other environmental feeds; provides a single code path for batch and streaming to reduce reconciliation burden; and sets operational guardrails for latency versus cost when running many near-real-time tables. We outline practical considerations for quality checks in the silver tier, promotion rules to gold, and model governance. Conclusions: A Delta-based lakehouse offers a clear path to an emergency-ready surveillance platform that scales with data growth, integrates heterogeneous sources, and supports reliable forecasting. The next steps are a pilot deployment with public health partners, live latency and cost measurements, and prospective validation of forecasting and alerting in real-world settings. |
|---|---|
| ISSN: | 25229052 |
Nájsť tento článok vo Web of Science