Los técnicos de la NASA analizaron los datos de la relación entre la temperatura ambiental y el número de fallas en los anillos-O…
… pero excluyeron las observaciones donde no hubo fallas de los anillos-O creyendo que eran no informativas. Desafortunadamente estas observaciones eran cruciales para entender el vínculo entre la temperatura y las fallas.
(tomado de http://www.datavis.ca/gallery/)
Vamos a considerar a las teorías como generadoras de patrones de números, que en algunos casos reemplazan a los datos y que en si mismos pueden ser descriptos en términos de un pequeño número de cantidades. Estas cantidades se llaman parámetros. (McCullagh & Nelder 1989)
\[y = \alpha + \beta x\]
En la práctica esta asociación es sólo aproximadamente lineal. Pero aún asi podemos elegir valores de \(\alpha\) y \(\beta\) de alguna manera para describir la relación de y con x.
\[\hat{y} = \alpha + \beta x\] \[y \neq \hat{y}\]
El criterio habitual para elegir \(\alpha\) y \(\beta\) es una medida de discrepancia como \(L_2\)
\[L_2 = \sum (y_i - \hat{y}_i)^2\]
Esto implica dos cosas:
- La adición sencilla indica que las observaciones son independientes.
- La resta sencilla indica que cada desviación tiene el mismo peso independientemente del valor de \(\hat{y}_i\), es decir que la varianza de cada observación es independiente de la media.
La variable respuesta y su distribución de probabilidad: la familia exponencial natural
Por ej.
\[y_i \sim N(\mu_i, \sigma²)\] \[E(y_i) = \mu_i\] \[var(y_i) = \sigma^2\]
supongamos una situación "natural"
Distribución | Origen |
---|---|
Normal | Caracteres métricos y continuos. |
Poisson | Valores enteros entre 0 y un número indeterminado. |
Binomial | Conteos distribuidos entre 0 y un número finito conocido. Proporciones. |
Bernoulli | Caso especial del anterior. Toman sólo valores de 0 y 1. |
Binomial Negativa | Número de experimentos de Bernoulli hasta la consecución del k-ésimo éxito. |
Gamma | Similar a la normal, pero no posee valores negativos. |
Distribución | Posición | Dispersión |
---|---|---|
Normal | \(E(Y) = \mu\) | \(var(Y) = \sigma^2\) |
Poisson | \(E(Y) = \mu\) | \(var(Y) = \mu\) |
Binomial | \(E(Y) = N\pi\) | \(var(Y) = N\pi(1-\pi)\) |
Bernoulli | \(E(Y) = N\pi\) | \(var(Y) = N\pi(1-\pi)\) |
Binomial Negativa | \(E(Y) = \mu\) | \(var(Y) = \mu + \mu^2/k\) |
Gamma | \(E(Y) = k/\lambda\) | \(var(Y) = k/\lambda^2\) |
las variables predictoras en el modelo. Pueden ser continuas, categóricas, funciones polinomiales, interacciones, etc.
Función \(\eta\) formada por una combinación lineal de las variables predictoras \(X\).
\[\eta(X_{i1}, ..., X_{ik}) = \beta_0 + \beta_1 X_{i1} + ... + \beta_k X_{ik}\]
\[g(\mu_i) = \eta(X_{i1}, ..., X_{ik})\]
Distribución | enlace (canónico en negrita) |
---|---|
Normal | identidad, log, inverso. |
Poisson | log, identidad, raíz cuadrada. |
Binomial | logit, probit, complemento log-log. |
Binomial Negativa | log, identidad, raíz cuadrada. |
Gamma | inverso, identidad, log. |
y ~ 1
y, gráficamente en una regresión, como una línea horizontal. Es siempre el modelo con la mínima verosimilitud.\[Dev = -2 log(L(Modelo_{corriente}/L(Modelo_{saturado})))\] \[Dev \sim \chi^2\]