Esta tarea debe ser resuelta en GitHub Class Room. Para acceder a la Tarea N°2 hacer click aquí. Si aún tienes dudas de cómo interactuar con GitHub Class Roomm revisa el práctico
La tarea N°2 consiste en la creación de un script en R que les permita construir datos limpios y procesados que servirán de "input" para los análisis exploratorios que se reporten de los datos procesados (tarea N°3). El ejercicio que deben realizar se basa en un caso simulado de "trabajo" que les han solicitado
En su nuevo trabajo como investigadores/as les han encargado hacer un estudio sobre el efecto de la pandemia sobre el empleo. Para ello, les han solicitado a ustedes la recopilación y procesamiento de una serie de datos relevantes para iniciar el estudio. De manera preliminar, le solicitan los siguientes puntos
-
Debe ocupar la Encuesta Nacional de Empleo (ENE) del Instituto Nacional de Estadísticas, particularmente el trimestre Enero-Febrero-Marzo del año 2019 y del 2021.
-
Las variables que más interesan para el informe son: condición de actividad económica general (CAE), no general (Condición de actividad) y las horas de trabajo de la actividad principal (modulo C)
-
También le han indicado que hay ciertas variables sociodemográficas de interés como el nivel educacional (CINE), edad y sexo
En su equipo de investigación quieren realizar los siguientes análisis, para lo cuál usted debe construir un data set procesado llamado datos_proc.RData que permita realizar estos análisis de manera debida
-
Los análisis solo deben considerar a las personas en edad de trabajar según las definiciones del Instituto Nacional de Estadística.
-
Un análisis de la distribución de sociodemográficos de nivel educacional, edad y sexo. Le han solicitado que el nivel educacional esté solo clasificado en "Superior completa", "Media y básica completa" y "Básica o menos incompleta", que la edad esté clasificada en tramos de "18 a 39 años", "40 a 64 años" y "65 y más"; sexo debe estar codificada como "Mujer" y "Hombre".
-
Un análisis de la distribución de la condición de actividad económica, situación de empleo y las suma de horas trabajadas en la actividad principal para la muestra del 2019 y 2020.
-
Una persona del equipo sospecha de la variable de condición de actividad que no es general (activ). Por ello, le piden que cree una nueva variable llamada "cae_corregido" en base a la definición que se hace de esta variable en el manual metodológico.
Atención: la ejecución concreta de los análisis serán parte de la tarea N°3. Por ahora usted debe preocuparse de:
-
Construir un Rproject ordenado según los criterios establecidos en el curso (02-tarea.Rproject)
-
Construir un script llamado procesamiento-datos.R que esté alojado en la carpeta que corresponda. Este script debe tener un orden y utilizar los comentarios (#) para hacer referencia a los procesos realizados
-
Cargar los paquetes y datos necesarios para el procesamiento
-
Filtrar, seleccionar y crear las variables indicadas (no olvides crear el índice sumativo)
-
Una vez limpios los datos del 2019 y del 2020, unir los datos en un único objeto llamado "datos20202019"
-
Guardar los datos procesados del 2019, 2020 y la unión de ambos en un archivo llamado datos_proc.RData.
-
Bonus: si incorporan un README.md con la explicación de dónde sacaron los datos e información metodológica, será bonificado con 0,4 décimas.
-
Recuerden que puede ser realizada en pareja, la misma durante todo el semestre.
-
La tarea se puede entregar hasta el día viernes 17 de septiembre 23.59