A comparison of machine learning algorithms for survival with missing data ; Une comparaison des algorithmes d'apprentissage pour la survie avec données manquantes

Uloženo v:
Podrobná bibliografie
Název: A comparison of machine learning algorithms for survival with missing data ; Une comparaison des algorithmes d'apprentissage pour la survie avec données manquantes
Autoři: Dufossé, Paul, Benzekry, Sébastien
Přispěvatelé: Méthodes computationnelles pour la prise en charge thérapeutique en oncologie : Optimisation des stratégies par modélisation mécaniste et statistique (COMPO), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre de Recherche en Cancérologie de Marseille (CRCM), Aix Marseille Université (AMU)-Institut Paoli-Calmettes (IPC), Fédération nationale des Centres de lutte contre le Cancer (FNCLCC)-Fédération nationale des Centres de lutte contre le Cancer (FNCLCC)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-Institut Paoli-Calmettes (IPC), Fédération nationale des Centres de lutte contre le Cancer (FNCLCC)-Fédération nationale des Centres de lutte contre le Cancer (FNCLCC)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS), Laënnec Institute, ITMO Cancer AVIESAN and French Institut National du Cancer (grant #19CM148-00), SFdS
Zdroj: 54es Journées de Statistique de la SFdS
JDS 2023 - 54e Journées de Statistique de la SFds
https://hal.science/hal-04384220
JDS 2023 - 54e Journées de Statistique de la SFds, SFdS, Jul 2023, Bruxelles (BEL), Belgique. ⟨10.48550/arXiv.2303.13590⟩
Informace o vydavateli: HAL CCSD
Rok vydání: 2023
Sbírka: Archive ouverte HAL (Hyper Article en Ligne, CCSD - Centre pour la Communication Scientifique Directe)
Témata: Machine Learning (stat.ML), Machine Learning (cs.LG), Machine learning, neural networks, survival data, simulated data, missing data, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], [STAT.AP]Statistics [stat]/Applications [stat.AP]
Geografické téma: Bruxelles (BEL), Belgium
Popis: International audience ; Survival analysis is an essential tool for the study of health data. An inherent component of such data is the presence of missing values. In recent years, researchers proposed new learning algorithms for survival tasks based on neural networks. Here, we studied the predictive performance of such algorithms coupled with different methods for handling missing values on simulated data that reflect a realistic situation, i.e., when individuals belong to unobserved clusters. We investigated different patterns of missing data. The results show that, without further feature engineering, no single imputation method is better than the others in all cases. The proposed methodology can be used to compare other missing data patterns and/or survival models. The Python code is accessible via the package survivalsim. -- L'analyse de survie est un outil essentiel pour l'étude des données de santé. Une composante inhérente à ces données est la présence de valeurs manquantes. Ces dernières années, de nouveaux algorithmes d'apprentissage pour la survie, basés sur les réseaux de neurones, ont été conçus. L'objectif de ce travail est d'étudier la performance en prédiction de ces algorithmes couplés à différentes méthodes pour gérer les valeurs manquantes, sur des données simulées qui reflètent une situation rencontrée en pratique, c'est-à dire lorsque les individus peuvent être groupés selon leurs covariables. Différents schémas de données manquantes sont étudiés. Les résultats montrent que, sans l'ajout de variables supplémentaires, aucune méthode d'imputation n'est meilleure que les autres dans tous les cas. La méthodologie proposée peut être utilisée pour comparer d'autres modèles de survie. Le code en Python est accessible via le package survivalsim. ; L'analyse de survie est un outil essentiel pour l'étude des données de santé. Une composante inhérente à ces données est la présence de valeurs manquantes. Ces dernières années, de nouveaux algorithmes d'apprentissage pour la survie, basés sur les réseaux ...
Druh dokumentu: conference object
Jazyk: French
Relation: hal-04384220; https://hal.science/hal-04384220; https://hal.science/hal-04384220/document; https://hal.science/hal-04384220/file/preprint_arxiv.pdf
DOI: 10.48550/arXiv.2303.13590
Dostupnost: https://hal.science/hal-04384220
https://hal.science/hal-04384220/document
https://hal.science/hal-04384220/file/preprint_arxiv.pdf
https://doi.org/10.48550/arXiv.2303.13590
Rights: info:eu-repo/semantics/OpenAccess
Přístupové číslo: edsbas.86F8C2A4
Databáze: BASE
Popis
Abstrakt:International audience ; Survival analysis is an essential tool for the study of health data. An inherent component of such data is the presence of missing values. In recent years, researchers proposed new learning algorithms for survival tasks based on neural networks. Here, we studied the predictive performance of such algorithms coupled with different methods for handling missing values on simulated data that reflect a realistic situation, i.e., when individuals belong to unobserved clusters. We investigated different patterns of missing data. The results show that, without further feature engineering, no single imputation method is better than the others in all cases. The proposed methodology can be used to compare other missing data patterns and/or survival models. The Python code is accessible via the package survivalsim. -- L'analyse de survie est un outil essentiel pour l'étude des données de santé. Une composante inhérente à ces données est la présence de valeurs manquantes. Ces dernières années, de nouveaux algorithmes d'apprentissage pour la survie, basés sur les réseaux de neurones, ont été conçus. L'objectif de ce travail est d'étudier la performance en prédiction de ces algorithmes couplés à différentes méthodes pour gérer les valeurs manquantes, sur des données simulées qui reflètent une situation rencontrée en pratique, c'est-à dire lorsque les individus peuvent être groupés selon leurs covariables. Différents schémas de données manquantes sont étudiés. Les résultats montrent que, sans l'ajout de variables supplémentaires, aucune méthode d'imputation n'est meilleure que les autres dans tous les cas. La méthodologie proposée peut être utilisée pour comparer d'autres modèles de survie. Le code en Python est accessible via le package survivalsim. ; L'analyse de survie est un outil essentiel pour l'étude des données de santé. Une composante inhérente à ces données est la présence de valeurs manquantes. Ces dernières années, de nouveaux algorithmes d'apprentissage pour la survie, basés sur les réseaux ...
DOI:10.48550/arXiv.2303.13590