Introducción al Lenguaje R

Santiago Benitez-Vieyra

Bootstrap

Muestreo aleatorio original.
Muestreo aleatorio con reposición de igual n. 

La muestra-bootstrap es a la muestra, como la muestra es a la población.

Utilizamos nuestra muestra como una nueva población de la que se extraen muestras-bootstrap.

Si la muestra-bootstrap (\(s_{b}\)) es a la muestra (\(s\)) como la muestra(\(s\)) es a la población (\(P\))…
Si calculamos un estadístico \(t’\) en cada muestra-bootstrap, su distribución alrededor del \(t\) en la muestra original es análoga a la distribución de \(t\) alrededor del parámetro poblacional \(\theta\).

¿Para qué se usan estas nuevas muestras?

Razonamiento inverso al de los modelos randomizados: La esperanza del estadístico obtenido en cada muestra-bootstrap es el valor del estadístico en la muestra original, nunca es un valor extremo.

Ejemplo sencillo.

set.seed(123); X<-rgamma(10,8); X # datos
##  [1]  6.043607 11.113663  3.586611  7.858248 12.932261  8.815382  4.435582
##  [8]  3.515541 11.226880  8.517757
mean(X)
## [1] 7.804553
sample(X, replace=T) # ejemplo
##  [1]  3.586611  3.515541  8.517757  4.435582  8.517757 11.226880  3.586611
##  [8]  7.858248  6.043607  4.435582
mean(sample(X, replace=T))
## [1] 9.15928
mean(sample(X, replace=T)) # repetir miles de veces ...
## [1] 9.603014

set.seed(123) ; X<-rgamma(10,8) # datos
Bs<-replicate(100, mean(sample(X, replace=T))); Bs
##   [1] 6.172418 9.159280 9.603014 8.097602 8.936395 6.564256 8.288457 6.536834
##   [9] 7.138448 7.655072 6.022087 6.909369 8.315773 7.007871 7.794599 8.724314
##  [17] 8.660249 7.838508 9.510252 8.811314 8.744641 8.385064 8.780316 6.623770
##  [25] 8.233025 8.312796 7.633510 7.712140 6.154325 9.648411 6.448624 7.767684
##  [33] 8.900387 5.112289 8.235018 7.679312 7.613988 9.013344 6.023345 7.654546
##  [41] 6.379825 7.144608 7.767624 6.628911 7.871010 6.176967 8.331140 7.023349
##  [49] 7.649252 6.101063 6.780936 9.348478 7.557473 8.319640 7.374437 8.238489
##  [57] 7.304739 7.094820 7.111532 7.442945 8.244419 7.385758 7.762628 6.617169
##  [65] 6.827189 8.881202 7.974696 8.045198 7.694671 6.429452 7.311043 6.101977
##  [73] 6.754139 6.551626 7.523582 8.156038 7.596228 6.388267 9.669805 7.206107
##  [81] 7.376646 8.896678 5.996693 8.118883 8.263927 8.332952 6.193488 5.927631
##  [89] 9.955004 6.665444 5.845278 8.398438 7.315653 7.547066 7.956145 6.329078
##  [97] 8.125078 7.691596 9.257386 7.627639
mean(X)
## [1] 7.804553
mean(Bs)
## [1] 7.610118
sesgo<-mean(X)-mean(Bs)
sesgo
## [1] 0.1944354

¿Qué hacemos después de obtener la distribución del estadístico?

  • La mayor parte de los métodos se enfocan en calcular intervalos de confianza válidos para los parámetros poblacionales a partir del bootstrap.
  • Podemos probar si un parámetro es distinto de cierto valor (por ejemplo de 0) probando si su intervalo incluye a ese valor.

Intervalos de confianza

  • Normales: Asumen distribución normal del parámetro.
  • Percentiles: usan los percentiles observados de la distribución de los bootstraps. No asumen normalidad.
  • Bias-corrected accelerated percentile intervals. No asumen normalidad y tienen en cuenta el sesgo.

fin