Bootstrap

Santiago Benitez-Vieyra

Muestreo aleatorio original.
Muestreo aleatorio con reposición de igual n.

La muestra-bootstrap es a la muestra, como la muestra es a la población.

Utilizamos nuestra muestra como una nueva población de la que se extraen muestras-bootstrap.

Si la muestra-bootstrap (\(s_{b}\)) es a la muestra (\(s\)) como la muestra(\(s\)) es a la población (\(P\))…
Si calculamos un estadístico \(t’\) en cada muestra-bootstrap, su distribución alrededor del \(t\) en la muestra original es análoga a la distribución de \(t\) alrededor del parámetro poblacional \(\theta\).

¿Para qué se usan estas nuevas muestras?

Razonamiento inverso al de los modelos randomizados: La esperanza del estadístico obtenido en cada muestra-bootstrap es el valor del estadístico en la muestra original, nunca es un valor extremo.

Ejemplo sencillo.

set.seed(123); X<-rgamma(10,8); X # datos

##  [1]  6.043607 11.113663  3.586611  7.858248 12.932261  8.815382  4.435582
##  [8]  3.515541 11.226880  8.517757

mean(X)

## [1] 7.804553

sample(X, replace=T) # ejemplo

##  [1]  4.435582  3.515541  8.815382  8.815382  3.586611 11.113663  8.517757
##  [8]  8.517757  4.435582  3.515541

mean(sample(X, replace=T))

## [1] 8.235931

mean(sample(X, replace=T)) # repetir miles de veces ...

## [1] 8.716476

set.seed(123) ; X<-rgamma(10,8) # datos
Bs<-replicate(100, mean(sample(X, replace=T))); Bs

##   [1] 6.526880 8.235931 8.716476 6.804037 8.057097 7.225461 9.397418
##   [8] 8.840235 9.209577 7.744867 7.269611 8.739118 6.714986 7.686024
##  [15] 7.058632 7.177434 7.558335 8.410224 8.237239 7.014978 8.082967
##  [22] 8.492615 5.935831 9.323396 8.263401 6.503435 6.598202 6.052322
##  [29] 9.073929 8.242644 7.085925 7.906293 8.474917 9.071876 9.934523
##  [36] 6.451601 6.079908 8.599653 7.824749 7.997674 8.742865 7.625658
##  [43] 6.796930 9.727918 6.895597 6.205650 9.034897 5.748942 9.103968
##  [50] 7.796584 8.130081 7.313025 7.987603 6.740423 8.707934 9.429570
##  [57] 8.218629 7.068166 8.543814 7.275313 7.562206 8.230876 6.611311
##  [64] 8.306038 6.930009 9.191050 8.418929 8.243375 7.421547 8.369937
##  [71] 7.028521 8.710881 6.351661 8.968664 8.825323 7.644593 7.974574
##  [78] 8.825205 7.548433 7.220741 6.591575 5.841485 6.777984 9.499326
##  [85] 8.243853 7.698478 6.130728 7.557883 7.468423 8.607888 6.731841
##  [92] 9.918470 9.322870 9.001660 7.808262 7.277521 8.968441 8.170783
##  [99] 9.095671 7.245042

mean(X)

## [1] 7.804553

mean(Bs)

## [1] 7.86056

sesgo<-mean(X)-mean(Bs)
sesgo

## [1] -0.05600726

¿Qué hacemos después de obtener la distribución del estadístico?

La mayor parte de los métodos se enfocan en calcular intervalos de confianza válidos para los parámetros poblacionales a partir del bootstrap.
Podemos probar si un parámetro es distinto de cierto valor (por ejemplo de 0) probando si su intervalo incluye a ese valor.

Intervalos de confianza

Normales: Asumen distribución normal del parámetro.
Percentiles: usan los percentiles observados de la distribución de los bootstraps. No asumen normalidad.
Bias-corrected accelerated percentile intervals. No asumen normalidad y tienen en cuenta el sesgo.