Diseños metodológicos y su aplicación en el campo

Santiago Benitez-Vieyra


Los técnicos de la NASA analizaron los datos de la relación entre la temperatura ambiental y el número de fallas en los anillos-O…

… pero excluyeron las observaciones donde no hubo fallas de los anillos-O creyendo que eran no informativas. Desafortunadamente estas observaciones eran cruciales para entender el vínculo entre la temperatura y las fallas.
Michael Friendly http://www.datavis.ca/gallery/

Modelos Lineales Generalizados

¿Por qué usar modelos lineales generales? (normales)

  • Rápidos y numéricamente estables.
  • Es relativamente fácil incorporar efectos aleatorios.
  • Realemente muchos datos son razonablemente normales.
  • Las trasformaciones suelen corregir los problemas.
  • Asumir normalidad es usualmente correcto para grandes sets de datos.

¿Por qué usar modelos lineales generalizados?

  • Modelos más específicos son más eficientes y poderosos.
  • Reflejan mejor la naturaleza de los datos.
  • Algunos datos son resistentes a ser transformados (por ej. discretos, ricos en ceros).
  • Las relaciones lineales a menudos fuerzan las predicciones por fuera del espacio de la respuesta (por ej. fuera del intervalo {0, 1} en proporciones, o predicen valores negativos en los conteos).

La familia exponencial natural

  • Abarca una serie de distribuciones como Normal, Poisson, Binomial, Gamma, Binomial Negativa, Multinomial y varias otras.
  • La elección de la distribución depende de la forma en que se generaron los datos.
  • Cada distribución se caracteriza por la relación entre su parámetro de posición y su parámetro de dispersión.

Forma en que se generan los datos

Distribución Origen
Normal Caracteres métricos y continuos.
Poisson Valores enteros entre 0 y un número indeterminado.
Binomial Conteos distribuidos entre 0 y un número finito conocido. Proporciones.
Bernoulli Caso especial del anterior. Toman sólo valores de 0 y 1.
Binomial Negativa Número de experimentos de Bernoulli hasta la consecución del k-ésimo éxito.
Gamma Similar a la normal, pero no posee valores negativos.

La elección de la distribución es a priori y se basa en nuestro conocimiento de la variable respuesta.

  • Si los datos son conteos (de animales, plantas, individuos) sin un límite superior, Poisson es la primera opción. Si hay una alta sobredispersión, Binomial Negativa es una opción.
  • Si los datos son conteos, pero con un límite superior (por ejemplo número de individuos infectados sobre el total), la opción es Binomial.
  • Si los datos son de presencia/ausencia, es una distribución de Bernoulli, caso especial de la Binomial donde el límite superior es 1.
  • Si los datos son continuos, la mejor opción es Normal, pero Gamma podría ser una alternativa.

Relacion entre el parámetro de posición y el de dispersión.

Distribución Posición Dispersión
Normal \(E(Y) = \mu\) \(var(Y) = \sigma^2\)
Poisson \(E(Y) = \mu\) \(var(Y) = \mu\)
Binomial \(E(Y) = N\pi\) \(var(Y) = N\pi(1-\pi)\)
Bernoulli \(E(Y) = N\pi\) \(var(Y) = N\pi(1-\pi)\)
Binomial Negativa \(E(Y) = \mu\) \(var(Y) = \mu + \mu^2/k\)
Gamma \(E(Y) = k/\lambda\) \(var(Y) = k/\lambda^2\)

Modelos lineales generalizados. Notación.

  • Variable respuesta aleatoria
  • Parte sistemática
  • Supuesto sobre la distribución del error \[Y_{i} = \beta_{0} + \beta_{1}X_{1i} + ... +\beta_{k}X_{ki} + \epsilon_{i}\] \[\epsilon_{i} \sim N(\mu, \sigma^2)\]

La variable respuesta es una variable aleatoria con cierta distribución.
\(Y_{i} \sim N(\mu_{i}, \sigma^2)\) \(E(Y_{i}) = \mu_{i}\) \(var(Y_{i} = \sigma^2)\)

Definir una función predictora \(\eta\) (parte sistemática).

\[\eta(X_{i1}, ..., X_{ik}) = \beta_{0} + \beta_{1}X_{1i} + ... +\beta_{k}X_{ki}\]
Especificar el enlace entre el valor esperado de \(Y_{i}\) (que es \(\mu_{i}\)) y la función predictora \(\eta(X_{i1}, ..., X_{ik})\). Para una distribución normal el enlace canónico es la identidad.

\[E(Y_{i}) = \mu_{i} = \eta(X_{i1}, ..., X_{ik}) = \beta_{0} + \beta_{1}X_{1i} + ... +\beta_{k}X_{ki}\]

Funciones de enlace.

  • Propias de cada distribución (algunas permiten más de una función de enlace).
  • El enlace debe ser reversible.
  • El enlace acota la respuesta a la distribución de la variable respuesta.

Distribución enlace (canónico en negrita)
Normal identidad, log, inverso.
Poisson log, identidad, raíz cuadrada.
Binomial logit, probit, complemento log-log.
Binomial Negativa log, identidad, raíz cuadrada.
Gamma inverso, identidad, log.

Ejemplo, distribución de Poisson

La variable respuesta se distribuye como Poisson.
\(Y_{i} \sim P(\lambda_{i})\) \(E(Y_{i}) = \lambda_{i}\) \(var(Y_{i} = \lambda_{i})\)

Definir una función predictora \(\eta\) (parte sistemática).

\[\eta(X_{i1}, ..., X_{ik}) = \beta_{0} + \beta_{1}X_{1i} + ... +\beta_{k}X_{ki}\]
Especificar el enlace. Para una distribución Poisson el enlace canónico es log.

\[\eta(X_{i1}, ..., X_{ik}) = log\mu_{i}\] \[\mu_{i}= e^{\eta(X_{i1}, ..., X_{ik})}\] \[\mu_{i}= e^{\beta_{0} + \beta_{1}X_{1i} + ... +\beta_{k}X_{ki}}\]

Resumen

  • Elegir la distribución de la variable respuesta.
  • Definir el modelo lineal con su variables predictoras.
  • Elegir un enlace que convierta la predicción al espacio de la variable respuesta.

Estimación por máxima verosimilitud.

¿Qué es el valor P? (en estadística frecuentista)

  • El valor P es la probabilidad de haber observado los datos si la \(H_{0}\) fuese cierta.
  • Si P es pequeño, los datos son muy improbables. Rechazo \(H_{0}\).
  • Si P es muy grande, los datos son muy probables. Acepto \(H_{0}\).

¿Qué es el valor P? (en máxima verosimilitud)

  • El interés es obtener un set de parámetros que maximice la probabilidad de observar los datos. \(P(datos|parametros)\).
  • Para esto rastreo en el espacio de parámetros, cuáles de son los más verosímiles para mi set de datos. \(L(parametros|datos)\).

¿Qué grado de apoyo tienen los parámetros que obtuve?

  • El grado de apoyo es siempre comparativo.
  • El grado en que los datos apoyan el valor de un set de parámetros particular, respecto al apoyo que hacia otro set de parámetros es igual al cociente de sus verosimilitudes.
  • Para ver la significancia de un parámetro basta con comparar la verosimilitud de un modelo con ese parámetro incluido y la de un modelo donde falte.
  • \[\frac{L(H_{1})}{L(H_{0})}\]

¿Qué modelos comparar?

  • Modelo nulo: No ofrece ninguna explicación para los datos, se expresa como y ~ 1 y, gráficamente en una regresión, como una línea horizontal. Es siempre el modelo con la mínima verosimilitud.
  • Modelo saturado: Tiene un parámetro para cada dato, por lo que explica total y absolutamente todas las observaciones. Tiene la máxima verosimilitud posible pero no sirve para nada, salvo algunas excepciones. Gráficamente, en una regresión, es una línea que conecta todos los puntos entre sí.
  • Modelo corriente: es el que intentamos buscar, aquel que explique la mayor parte de la variación de los datos, pero que use el menor número de parámetros posibles.

¿Cómo conozco el ajuste del modelo?

\[Dev = -2 log(L(Modelo_{corriente}/L(Modelo_{saturado})))\] \[Dev \sim \chi^2\]

  • Modelo nulo: tiene la máxima devianza.
  • Modelo saturado: Tiene devianza = 0
  • Modelo corriente: es el que deja una devianza residual lo más pequeña posible.

CONCEPTOS CLAVE

  • Elegimos a priori una distribución para la variable respuesta, basada en su naturaleza y su relación media-varianza.
  • Elijo una función de enlace que proyecta la predicción en el espacio de la variable respuesta.
  • Construyo un modelo con variables X predictoras.
  • Obtengo la Devianza del modelo que me interesa y la comparo con la del modelo saturado.

END