Likelihood inflating sampling algorithm

Markov Chain Monte Carlo (MCMC) sampling from a posterior distribution corresponding to a massive data set can be computationally prohibitive as producing one sample requires a number of operations that is linear in the data size. In this article we introduce a new communication-free parallel method...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Canadian journal of statistics Jg. 46; H. 1; S. 147 - 175
Hauptverfasser: ENTEZARI, Reihaneh, CRAIU, Radu V., ROSENTHAL, Jeffrey S.
Format: Journal Article
Sprache:Englisch
Veröffentlicht: Ottawa Wiley 01.03.2018
Wiley Subscription Services, Inc
Schlagworte:
ISSN:0319-5724, 1708-945X
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Markov Chain Monte Carlo (MCMC) sampling from a posterior distribution corresponding to a massive data set can be computationally prohibitive as producing one sample requires a number of operations that is linear in the data size. In this article we introduce a new communication-free parallel method, the “Likelihood Inflating Sampling Algorithm (LISA),” that significantly reduces computational costs by randomly splitting the data set into smaller subsets and running MCMC methods “independently” in parallel on each subset using different processors. Each processor will be used to run an MCMC chain that samples sub-posterior distributions which are defined using an “inflated” likelihood function. We develop a strategy for combining the draws from different sub-posteriors to study the full posterior of the Bayesian Additive Regression Trees (BART) model. The performance of the method is tested using simulated data and a large socio-economic study. Pour simuler une loi a posteriori issue de données massives, le temps de calcul d’une méthode de Monte Carlo par chaînes de Markov (MCMC) peut s’avérer trop long puisque la production d’un échantillon requiert un nombre d’opérations qui augmente linéairement avec le nombre de données. Les auteurs proposent une nouvelle méthode en parallèle sans communications appelée algorithme d’échantillonnage à vraisemblance gonflée. Ils réduisent substantiellement les besoins en calculs en séparant le jeu de données en sous-échantillons sur lesquels des MCMC indépendantes sont calculées en parallèle. Chacun des processeurs génère ainsi une chaîne pour la sous-distribution a posteriori basée sur une fonction de vraisemblance gonflée. Les auteurs développent une stratégie pour la combinaison des sous-distributions afin de reconstruire la loi a posteriori des arbres de régression additifs bayésiens (BART). Ils évaluent les performances de leur méthode sur des données provenant de simulations et d’une étude socio-économique d’envergure.
Bibliographie:ObjectType-Article-1
SourceType-Scholarly Journals-1
ObjectType-Feature-2
content type line 14
ISSN:0319-5724
1708-945X
DOI:10.1002/cjs.11343