Caso 1.

A lotes con distintas cantidades de moscas (tot) se les aplicó 3 tipos de veneno (veneno) a distintas dosis (dosis) y se contabilizó el número de moscas muertas (muertos). Se intenta conocer cuál es el veneno más efectivo. Dado que la variable respuesta es una proporción (moscas muertas / moscas totales) se propone un modelo lineal generalizado con estructura de errores binomial para datos agregados.

Caso 2.

El archivo uta.txt contiene datos de un estudio donde se examinó la presencia de lagartijas del género Uta en 19 islas de Baja California. Se desea probar si la presencia de lagartijas (Uta: 0 = ausentes, 1= presentes) depende de la relación perímetro/área de las islas (PA.ratio).
Dado que los datos son de naturaleza binaria, se propone aplicar un modelo lineal generalizado con estructura de errores binomial, para datos no agregados (regresión logística).

Ejercicios

  1. El archivo budworm.txt contiene los resultados de un experimento donde a lotes de 20 gusanos del tabaco (Number) machos o hembras (Gender) se les aplicó un veneno en distintas concentraciones (Dose) y se examinó cuántos se morían (Killed). ¿Existe un efecto de la dosis de veneno sobre la mortalidad de los gusanos? ¿Existe un efecto del sexo? ¿Modifica el sexo del gusano su respuesta a dosis crecientes de veneno? ¿A qué dosis se alcanza la Dosis Letal 50, para cada sexo? Fuente: Dunn PK, Smyth GK. 2018. Generalized Linear Models With Examples in R. Springer. (a través del paquete GLMsData)

  2. El archivo toxo.txt muestra el número de individuos afectados por toxoplasmosis (Infected), el número de individuos examinados (Sampled) y la precipitación anual en 34 ciudades de El Salvador. ¿Hay un efecto de la lluvia sobre la ocurrencia de toxoplasmosis? Examine los gráficos de diagnóstico, ¿es un modelo lineal lo más adecuado? Fuente: Dunn PK, Smyth GK. 2018. Generalized Linear Models With Examples in R. Springer. (a través del paquete GLMsData)

  3. Supongamos una enfermedad que tiene baja incidencia (1 en 10000). Para realizar un estudio sobre los factores ambientales que predisponen a esa enfermedad se localizaron 20 individuos afectados en una ciudad y se tomaron como control 50 individuos elegidos de forma aleatoria en la misma ciudad. ¿Cuáles son las consecuencias sobre el modelos estadístico de este diseño?

  4. En una revisión reciente de modelos logísticos en contexto filogenético Ives y Garland afirman que datos (o simulaciones) donde más de 7/8 de las simulaciones sean 0 o 1 “contienen poca información, y un investigador prudente no debería analizarlos en primer lugar”. Esta afirmación aplica no sólo a modelos filogenéticos sino a cualquier regresión logística. Explique los motivos. (Ayuda: utilice tablas de confusión)

  5. ¿Tiene usted datos de naturaleza Binomial? (n > 50). Discuta con sus compañeres de mesa, prestando especial atención a: a) el proceso ue originaron los datos, b) distinga la naturaleza agregada o no agregada de los datos. c) Presente sus datos con gráficos y análisis (o al menos los pasos a seguir en el análisis). d) En caso de datos de naturaleza binaria, divida el set de datos en dos para realizar matrices de confusión sobre datos de entrenamiento y datos de prueba.