Modelos Mixtos

Modelos con efectos aleatorios

dudas: GLMM FAQ
(gracias Ben Bolker et al.!) o aquí: A brief introduction to…
(gracias Harrison et al.!)

(slides en verde claro pueden obviarse)

  • Las observaciones repetidas sobre la misma unidad causan falta de independencia.
  • En un análisis común estas observaciones serían consideradas pseudorréplicas.
  • Esas unidades de observación no fueron fijadas por el investigador, sino elegidas al azar entre un número desconocido de posibles unidades.

Efectos fijos y alaetorios

  • El efecto fijo es general, determinístico, de x sobre y, habitualmente es lo que se quiere investigar. En el caso de ser un factor, en general sus niveles son limitados y fueron fijados de antemano.
  • El efecto aleatorio es particular, proviene de medidas repetidas sobre la misma unidad de observación o de otras formas de falta de independencia. En caso de ser un factor, en general sólo se han incluido algunos de sus niveles, que potencialmente pueden ser muchos.

Para incluir efectos alatorios extendemos el modelo lineal… \[y_i = \beta_0 + \beta_1x_{1i} + ... \beta_kx_{ki} + \epsilon_i \quad \epsilon_i\sim N(0, I\sigma^2)\]

\[Y_i = X_i\beta + \epsilon_i \quad \epsilon_i\sim N(0, I\sigma^2)\]

\[Y{i} = X_{i}\beta + Z_{i}b_{i} + \epsilon_{i}\] Los efectos aleatorios se distribuyen con media 0 \[b_i \sim N(0, D)\] Los errores se distribuyen con media cero y matriz \(\sum^2\) de varianza-covarianza. \[\epsilon_i \sim N(0, \Sigma^2)\]

La variable respuesta entonces…

\[Y_{i} \sim N(X_i\beta, V_i)\]

  • Esta matriz \(V\) permite manejar el hecho de que las Y no son independientes.
  • Las Y provenientes de una misma unidad de observación están correlacionadas.
  • Abandonamos la idea (ingenua) de que sólo existe una fuente de variabilidad y que es constante en todo el set de datos.

Revisitando la verosimilitud

Para un vector \(y\) existe una función de densidad de probabilidad \(f_{\theta}(y)\) donde \(\theta\) son parámetros desconocidos.
Aquellos valores de \(\theta\) que hacen que \(f_{\theta}(y)\) sea mayor para los valores observados de \(y\) es más verosímil que sean correctos que aquellos que hacen menores los valores de \(f_{\theta}(y)\).
Así que

\[l(\theta) = log(f_{\theta}(y))\] Con la agradable propiedad de
\[2(l(\hat\theta_1)-l(\hat\theta_0)) \sim \chi_{p1-p0}^2\] Y que el respaldo (comparativo) del modelo puede ser
\[AIC = -2(l(\hat\theta)) + 2p\]

REML

si tengo que estimar \(V\) a partir de \[Y_{i} \sim N(X_i\beta, V_i)\] requiere que \(\beta\) sea estimado!
REML evita esta estimación, removiendo \(\beta\) al ecnontrar una matriz \(A'\) que
\[A'X\beta = 0\] \[A'Y \sim N(0, A'VA)\]

Modelos a comparar

1. Diferentes estructuras aleatorias.

1. Diferentes estructuras aleatorias.

¿Cómo elijo la mejor estructura aleatoria?

Efecto de bordes

  • La mayoría de los test de hipótesis asumen que el parámetro a probar no se encuentra en el borde de su distribución posible. La \(H_0: \sigma = 0\) viola ese supuesto.
  • Las pruebas de cocientes de verosimilitudes se vuelven conservadoras, aumentando la posibilidad de cometer error de tipo II.
  • Los grados de libertad necesarios para todo son…

Estrategia step-up de Diggle et al. (2002) y Zuur et al. (2009)

  1. Comenzar con un modelo donde el componente fijo sea tan complejo como sea posible y lógico (beyond optimal).
  2. Plantear diferentes estructuras aleatorias anidadas, ajustar los modelos con REML y comparar estos modelos utilizando P/2 de un likelihood ratio test, AIC, BIC (imagine un emoji aquí), simulación, bootstrap paramétrico, MCMC o validación cruzada.
  3. Una vez que la mejor estructura aleatoria haya sido encontrada, ajustar modelos con diferente estructura fija utilizando ML y compararlos mediante likelihood ratio test, AIC (o similar), model averaging, u otros métodos.
  4. Presentar el modelo final ajustado con REML.

R fauna

(Modificado de GLMM FAQ)
- Modelos lineales mixtos (LMM): aov(), nlme::lme1, lme4::lmer
- Modelos lineales generalizados mixtos (GLMM):
+ frecuentistas: MASS::glmmPQL, lme4::glmer
+ Bayesianos: MCMCglmm::MCMCglmm
- Modelos mixtos no lineales: nlme::nlme, lme4::nlmer
- Modelos aditivos generalizados mixtos: mgcv::gamm

CONCEPTOS CLAVE

  • Identificamos los componentes fijos y aleatorios del modelo.
  • Elegimos el modelo con la mejor parte aleatoria.
  • Elegimos el modelo con la mejor parte fija.
  • Realizamos diagnósticos.
  • Presentamos el modelo.

END

END