Diseños metodológicos y su aplicación en el campo

Santiago Benitez-Vieyra

Aprendizaje estadistico no supervisado

Analisis de componentes principales y análisis de agrupamiento.

  • Durante todo el curso estuvimos viendo modelos de aprendizaje estadístico supervisado donde existe una variable respuesta que se pretende explicar (o predecir) a través de una o una serie de variables independientes.
  • En el aprendizaje estadistico no supervisado no existe variable respuesta, solo una serie de variables independientes. El objetivo es descubrir patrones o agrupamientos en los datos, o simplemente visualizarlos.

Análisis de Componentes Principales (PCA)

  • Produce una representación en pocas dimensiones de todo el set de datos, por lo que es una herramienta muy útil de visialuzación.
  • produce una secuancia de combinaciones lineales de las variables que tienen varianza máxima y se encuentran mutuamente no correlacionadas.

Estimación

El primer componente principal equivale a \[Z_1 = \phi_{11}X-1 + \phi_{21}X_2 + . . . + \phi_{p1}X_p\] \(\phi_i1\) son los loadings del primer componente principal y determinan la contribución de cada variable a ese componente.
El primer componente determina la dirección donde los datos muestran mayor varianza.

PCA ejemplo

  • Para cada uno de los estados de EEUU se registraron las estadísticas de crímenes de asalto, asesinato y violación, así como la proporción de población rural.
  • Antes de realizar el PCA las variables fueron estandarizadas a media cero y varianza igual a la unidad.

PCA ejemplo

Proporción de la varianza explicada.

La varianza total se define como la suma de las varianzas de las variables originales.
Las suma de las varianzas explicadas por cada componente principal debe ser igual a la varianza total.

Proporción de la varianza explicada.

¿cuantos componentes principales retener?

Análisis de Agrupamiento

  • Refiere a diversas técnicas cuyo objetivo es encontrar subgrupos (clusters) en los datos.
  • las observaciones dentro de un grupo deben ser más similares entre sí que observaciones de grupos diferentes.
  • Requiere definir qué significa similar o diferente.

Métodos de agrupamiento.

En K-means las observaciones se agrupan en un número prefijado de clusters.
En el agrupamiento jerárquico no sabemos en cuantos clusters se agruparan los datos. El resultado es un dendrograma.

K-means

Algoritmo

  1. Asignar al azar un número de 1 a K a cada una de las observaciones. Este servirá como indicador inicial de su pertenencia a una cluster.
  2. Iterar hasta que la reasignación del cluster se detenga:
  • Para cada uno de los K clusters computar el centroide.
  • Asignar cada observación al cluster cuyo centroide esté más cerca.

Agrupamiento Jerárquico

Algoritmo

  1. Comenzar con cada punto siendo su propio cluster.
  2. Identificar los dos clusters más cercanos y unirlos.
  3. Repetir.
  4. Finalizar cuando todos los puntos sean un solo cluster.

END