diff --git "a/ Apresentac\314\247a\314\203o_Projeto Final.pdf" "b/ Apresentac\314\247a\314\203o_Projeto Final.pdf" new file mode 100644 index 0000000..dbb3e7b Binary files /dev/null and "b/ Apresentac\314\247a\314\203o_Projeto Final.pdf" differ diff --git a/Link_do_Tableau b/Link_do_Tableau new file mode 100644 index 0000000..6664ecb --- /dev/null +++ b/Link_do_Tableau @@ -0,0 +1 @@ +https://public.tableau.com/app/profile/luana.queiros/viz/Projeto_Final_ENEM2023/Painel2 diff --git "a/Projeto_Final__An\303\241lise_Explorat\303\263ria_ENEM_2023.ipynb" "b/Projeto_Final__An\303\241lise_Explorat\303\263ria_ENEM_2023.ipynb" new file mode 100644 index 0000000..d7bb07f --- /dev/null +++ "b/Projeto_Final__An\303\241lise_Explorat\303\263ria_ENEM_2023.ipynb" @@ -0,0 +1,3550 @@ +{ + "nbformat": 4, + "nbformat_minor": 0, + "metadata": { + "colab": { + "provenance": [], + "include_colab_link": true + }, + "kernelspec": { + "name": "python3", + "display_name": "Python 3" + }, + "language_info": { + "name": "python" + } + }, + "cells": [ + { + "cell_type": "markdown", + "metadata": { + "id": "view-in-github", + "colab_type": "text" + }, + "source": [ + "\"Open" + ] + }, + { + "cell_type": "markdown", + "source": [ + "\n", + "Neste projeto trabalharemos com os microdados do ENEM do ano de 2023 disponiblizado pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira - Inep.\n", + "\n", + "A base utilzada e o dicionário de dados estão disponíveis no link abaixo:\n", + "\n", + "https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem\n", + "\n", + "Serão analisados apenas os incritos do sexo feminino das regiões Norte e Sul do Brasil.\n" + ], + "metadata": { + "id": "JTpyb_IlRCg3" + } + }, + { + "cell_type": "markdown", + "source": [ + "O projeto tem como objetivo analisar se há diferenças significatvas entre as inscritas dos extremos do país." + ], + "metadata": { + "id": "f7MfNw53S0Ws" + } + }, + { + "cell_type": "markdown", + "source": [ + "## Importação, filtragem e exportação dos dados" + ], + "metadata": { + "id": "hGmdiU5dS-C5" + } + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "696WnyG2yKBJ" + }, + "outputs": [], + "source": [ + "#importando as bibliotecas que serão utilizadas\n", + "import pandas as pd\n", + "import numpy as np\n", + "import matplotlib as plt\n", + "import zipfile" + ] + }, + { + "cell_type": "code", + "source": [ + "from google.colab import drive\n", + "drive.mount('/content/drive')" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "-jBGq5tolnfq", + "outputId": "d5f17412-433b-463c-ef7d-40bfd70f97f1" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount(\"/content/drive\", force_remount=True).\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Acessando o drive com pasta onde contém o arquivo dos dados\n", + "\n", + "with zipfile.ZipFile('/content/drive/MyDrive/microdados_enem_2023.zip') as z:\n", + " print(*z.namelist(), sep=\"\\n\")" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "10N_RXeJosmx", + "outputId": "cddc85d3-75f3-4d63-d297-ce36f11a67ba" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "PROVAS E GABARITOS/\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_01_DIA_1_AZUL.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_02_DIA_1_AMARELO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_03_DIA_1_BRANCO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_04_DIA_1_ROSA_AMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_04_DIA_1_ROSA_SUPERAMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_05_DIA_2_AMARELO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_06_DIA_2_CINZA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_07_DIA_2_AZUL.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_08_DIA_2_ROSA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_08_DIA_2_ROSA_AMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_08_DIA_2_ROSA_SUPERAMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_09_DIA_1_LARANJA_BRAILE_LEDOR.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_09_DIA_1_LARANJA_LEITOR_TELA_DOSVOX_CH.txt\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_09_DIA_1_LARANJA_LEITOR_TELA_DOSVOX_LC.txt\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_09_DIA_1_LARANJA_LEITOR_TELA_NVDA_CH.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_09_DIA_1_LARANJA_LEITOR_TELA_NVDA_LC.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_10_DIA_1_VERDE_LIBRAS.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_10_DIA_1_VERDE_LIBRAS_AMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_10_DIA_1_VERDE_LIBRAS_SUPERAMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_11_DIA_2_LARANJA_BRAILE_LEDOR.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_11_DIA_2_LARANJA_LEITOR_TELA_DOSVOX_CN.txt\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_11_DIA_2_LARANJA_LEITOR_TELA_DOSVOX_MT.txt\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_11_DIA_2_LARANJA_LEITOR_TELA_NVDA_CN.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_11_DIA_2_LARANJA_LEITOR_TELA_NVDA_MT.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_12_DIA_2_VERDE_LIBRAS.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_12_DIA_2_VERDE_LIBRAS_AMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_CAD_12_DIA_2_VERDE_LIBRAS_SUPERAMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_01_DIA_1_AZUL.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_02_DIA_1_AMARELO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_03_DIA_1_BRANCO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_04_DIA_1_ROSA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_05_DIA_2_AMARELO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_06_DIA_2_CINZA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_07_DIA_2_AZUL.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_08_DIA_2_ROSA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_09_DIA_1_LARANJA_BRAILE_LEDOR.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_10_DIA_1_VERDE_LIBRAS.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_11_DIA_2_LARANJA_BRAILE_LEDOR.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P1_GAB_12_DIA_2_VERDE_LIBRAS.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_05_DIA_2_AMARELO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_06_DIA_2_CINZA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_07_DIA_2_AZUL.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_08_DIA_2_ROSA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_08_DIA_2_ROSA_AMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_08_DIA_2_ROSA_SUPERAMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_09_DIA_1_LARANJA_BRAILE_LEDOR.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_11_DIA_2_LARANJA_BRAILE_LEDOR.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_1_DIA_1_AZUL.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_2_DIA_1_AMARELO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_3_DIA_1_BRANCO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_4_DIA_1_ROSA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_4_DIA_1_ROSA_AMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_CAD_4_DIA_1_ROSA_SUPERAMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_05_DIA_2_AMARELO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_06_DIA_2_CINZA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_07_DIA_2_AZUL.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_08_DIA_2_ROSA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_08_DIA_2_ROSA_AMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_08_DIA_2_ROSA_SUPERAMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_09_DIA_1_LARANJA_BRAILE_LEDOR.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_11_DIA_2_LARANJA_BRAILE_LEDOR.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_1_DIA_1_AZUL.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_2_DIA_1_AMARELO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_3_DIA_1_BRANCO.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_4_DIA_1_ROSA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_4_DIA_1_ROSA_AMPLIADA.pdf\n", + "PROVAS E GABARITOS/ENEM_2023_P2_GAB_4_DIA_1_ROSA_SUPERAMPLIADA.pdf\n", + "DADOS/\n", + "DADOS/ITENS_PROVA_2023.csv\n", + "DADOS/MICRODADOS_ENEM_2023.csv\n", + "DICION╡RIO/\n", + "DICION╡RIO/Dicionário_Microdados_Enem_2023.ods\n", + "DICION╡RIO/Dicionário_Microdados_Enem_2023.xlsx\n", + "INPUTS/\n", + "INPUTS/INPUT_R_ITENS_PROVA_2023.R\n", + "INPUTS/INPUT_R_MICRODADOS_ENEM_2023.R\n", + "INPUTS/INPUT_SAS_ITENS_PROVA_2023.sas\n", + "INPUTS/INPUT_SAS_MICRODADOS_ENEM_2023.sas\n", + "INPUTS/INPUT_SPSS_ITENS_PROVA_2023.sps\n", + "INPUTS/INPUT_SPSS_MICRODADOS_ENEM_2023.sps\n", + "LEIA-ME E DOCUMENTOS TÉCNICOS/\n", + "LEIA-ME E DOCUMENTOS TÉCNICOS/Edital_Enem_2023_Impresso.pdf\n", + "LEIA-ME E DOCUMENTOS TÉCNICOS/enem_procedimentos_de_analise.pdf\n", + "LEIA-ME E DOCUMENTOS TÉCNICOS/entenda_a_sua_nota_no_enem_guia_do_participante (2).pdf\n", + "LEIA-ME E DOCUMENTOS TÉCNICOS/Leia_Me_Enem_2023.pdf\n", + "LEIA-ME E DOCUMENTOS TÉCNICOS/manual_de_redacao_do_enem_2023.pdf\n", + "LEIA-ME E DOCUMENTOS TÉCNICOS/matriz_referencia_enem.pdf\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "with zipfile.ZipFile('/content/drive/MyDrive/microdados_enem_2023.zip') as z:\n", + " with z.open('DADOS/MICRODADOS_ENEM_2023.csv') as f:\n", + " df = pd.read_csv(f, sep=';' , encoding='ISO-8859-1')" + ], + "metadata": { + "id": "d3c78C-Iq24T" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "df.columns.values" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "KjzYKjnt_Um5", + "outputId": "8dfc30c6-9bb6-4cc5-ea2b-045881c0ff6c" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "array(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',\n", + " 'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE',\n", + " 'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO',\n", + " 'IN_TREINEIRO', 'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',\n", + " 'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',\n", + " 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC', 'CO_MUNICIPIO_PROVA',\n", + " 'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA', 'SG_UF_PROVA',\n", + " 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',\n", + " 'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC',\n", + " 'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC',\n", + " 'NU_NOTA_MT', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',\n", + " 'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TP_LINGUA',\n", + " 'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',\n", + " 'TX_GABARITO_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',\n", + " 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',\n", + " 'NU_NOTA_REDACAO', 'Q001', 'Q002', 'Q003', 'Q004', 'Q005', 'Q006',\n", + " 'Q007', 'Q008', 'Q009', 'Q010', 'Q011', 'Q012', 'Q013', 'Q014',\n", + " 'Q015', 'Q016', 'Q017', 'Q018', 'Q019', 'Q020', 'Q021', 'Q022',\n", + " 'Q023', 'Q024', 'Q025'], dtype=object)" + ] + }, + "metadata": {}, + "execution_count": 6 + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Salvando na variável 'columns' apenas as colunas que serão utilizadas na análise.\n", + "\n", + "columns = ['NU_INSCRICAO', 'TP_FAIXA_ETARIA', 'TP_SEXO',\n", + " 'TP_COR_RACA', 'TP_ST_CONCLUSAO', 'TP_ESCOLA',\n", + " 'IN_TREINEIRO', 'NO_MUNICIPIO_PROVA', 'SG_UF_PROVA',\n", + " 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',\n", + " 'TP_PRESENCA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC',\n", + " 'NU_NOTA_MT', 'TP_LINGUA','TP_STATUS_REDACAO',\n", + " 'NU_NOTA_REDACAO', 'Q006']" + ], + "metadata": { + "id": "qet_L7h9CNNZ" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "markdown", + "source": [ + "Lendo o arquivo apenas com as colunas desejadas, usando 'usecols' e salvando no dataframe 'df_enem'" + ], + "metadata": { + "id": "p9gx05hpGPzX" + } + }, + { + "cell_type": "code", + "source": [ + "with zipfile.ZipFile('/content/drive/MyDrive/microdados_enem_2023.zip') as z:\n", + " with z.open('DADOS/MICRODADOS_ENEM_2023.csv') as f:\n", + " df_enem = pd.read_csv(f, sep=';' , encoding='ISO-8859-1', usecols=columns)" + ], + "metadata": { + "id": "Pc1h0EaRE932" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "markdown", + "source": [ + "\n", + "Visto que, para esta análise tomaremos como base apenas as regiões Norte e Sul do Brasil, faremos um filtro pelos estados de prova e salvaremos em um novo Dataframe." + ], + "metadata": { + "id": "GqgV5MyKG3B6" + } + }, + { + "cell_type": "code", + "source": [ + "# salvando as siglas dos estados da regão norte e sul em variáveis para usarmos no filtro\n", + "\n", + "estados_norte = ['AC', 'AP', 'AM', 'PA', 'RO', 'RR', 'TO']\n", + "estados_sul = ['PR', 'SC', 'RS']\n", + "estados_norte_sul = estados_norte + estados_sul" + ], + "metadata": { + "id": "wlWltlDSHF2d" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "# gerando um novo dataframe apenas com os estados desejados\n", + "\n", + "df_norte_sul = df_enem[df_enem['SG_UF_PROVA'].isin(estados_norte_sul)]" + ], + "metadata": { + "id": "Ywkg8AKdHrK8" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "#Criaremos uma nova coluna chamada 'REGIAO' defininiremos inicialmente o valor como 'Norte'\n", + "\n", + "df_norte_sul['REGIAO'] = 'Norte'\n", + "\n", + "# Atualizando os valores da coluna 'REGIAO' para 'Sul' onde as siglas dos estados correspondem a região Sul\n", + "\n", + "df_norte_sul.loc[df_norte_sul['SG_UF_PROVA'].isin(estados_sul), 'REGIAO'] = 'Sul'" + ], + "metadata": { + "id": "B8iFEgTAIfW2" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "df_norte_sul" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 444 + }, + "id": "BPPwNOwqOL75", + "outputId": "d6b5c0ed-00a9-470f-e118-853518675497" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + " NU_INSCRICAO TP_FAIXA_ETARIA TP_SEXO TP_COR_RACA TP_ST_CONCLUSAO \\\n", + "2 210061103945 6 F 1 1 \n", + "11 210060801595 3 M 3 2 \n", + "16 210058061534 4 F 1 2 \n", + "18 210058387328 11 M 1 1 \n", + "24 210059388088 3 F 1 1 \n", + "... ... ... ... ... ... \n", + "3933947 210061965965 9 M 1 1 \n", + "3933948 210061959674 3 M 1 2 \n", + "3933949 210061959675 6 F 3 1 \n", + "3933950 210061959676 12 M 1 1 \n", + "3933952 210061965966 3 F 3 2 \n", + "\n", + " TP_ESCOLA IN_TREINEIRO NO_MUNICIPIO_PROVA SG_UF_PROVA \\\n", + "2 1 0 Caxias do Sul RS \n", + "11 2 0 Ubiratã PR \n", + "16 2 0 Belém PA \n", + "18 1 0 Londrina PR \n", + "24 1 0 Maringá PR \n", + "... ... ... ... ... \n", + "3933947 1 0 Rio Grande RS \n", + "3933948 2 0 São Leopoldo RS \n", + "3933949 1 0 Igrejinha RS \n", + "3933950 1 0 Cachoeirinha RS \n", + "3933952 2 0 Florianópolis SC \n", + "\n", + " TP_PRESENCA_CN ... TP_PRESENCA_MT NU_NOTA_CN NU_NOTA_CH \\\n", + "2 1 ... 1 502.0 498.9 \n", + "11 1 ... 1 608.2 667.6 \n", + "16 1 ... 1 515.7 553.1 \n", + "18 1 ... 1 571.3 574.7 \n", + "24 1 ... 1 540.5 632.5 \n", + "... ... ... ... ... ... \n", + "3933947 0 ... 0 NaN NaN \n", + "3933948 1 ... 1 476.2 542.9 \n", + "3933949 0 ... 0 NaN NaN \n", + "3933950 1 ... 1 566.2 605.6 \n", + "3933952 0 ... 0 NaN NaN \n", + "\n", + " NU_NOTA_LC NU_NOTA_MT TP_LINGUA TP_STATUS_REDACAO \\\n", + "2 475.6 363.2 1 1.0 \n", + "11 607.9 691.9 0 1.0 \n", + "16 544.4 437.0 0 1.0 \n", + "18 613.3 719.7 0 1.0 \n", + "24 542.8 575.3 0 1.0 \n", + "... ... ... ... ... \n", + "3933947 NaN NaN 0 NaN \n", + "3933948 545.2 530.5 0 1.0 \n", + "3933949 NaN NaN 0 NaN \n", + "3933950 613.7 547.3 0 1.0 \n", + "3933952 NaN NaN 1 NaN \n", + "\n", + " NU_NOTA_REDACAO Q006 REGIAO \n", + "2 700.0 C Sul \n", + "11 780.0 D Sul \n", + "16 880.0 B Norte \n", + "18 560.0 D Sul \n", + "24 880.0 E Sul \n", + "... ... ... ... \n", + "3933947 NaN D Sul \n", + "3933948 600.0 F Sul \n", + "3933949 NaN F Sul \n", + "3933950 540.0 F Sul \n", + "3933952 NaN B Sul \n", + "\n", + "[871142 rows x 22 columns]" + ], + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
NU_INSCRICAOTP_FAIXA_ETARIATP_SEXOTP_COR_RACATP_ST_CONCLUSAOTP_ESCOLAIN_TREINEIRONO_MUNICIPIO_PROVASG_UF_PROVATP_PRESENCA_CN...TP_PRESENCA_MTNU_NOTA_CNNU_NOTA_CHNU_NOTA_LCNU_NOTA_MTTP_LINGUATP_STATUS_REDACAONU_NOTA_REDACAOQ006REGIAO
22100611039456F1110Caxias do SulRS1...1502.0498.9475.6363.211.0700.0CSul
112100608015953M3220UbiratãPR1...1608.2667.6607.9691.901.0780.0DSul
162100580615344F1220BelémPA1...1515.7553.1544.4437.001.0880.0BNorte
1821005838732811M1110LondrinaPR1...1571.3574.7613.3719.701.0560.0DSul
242100593880883F1110MaringáPR1...1540.5632.5542.8575.301.0880.0ESul
..................................................................
39339472100619659659M1110Rio GrandeRS0...0NaNNaNNaNNaN0NaNNaNDSul
39339482100619596743M1220São LeopoldoRS1...1476.2542.9545.2530.501.0600.0FSul
39339492100619596756F3110IgrejinhaRS0...0NaNNaNNaNNaN0NaNNaNFSul
393395021006195967612M1110CachoeirinhaRS1...1566.2605.6613.7547.301.0540.0FSul
39339522100619659663F3220FlorianópolisSC0...0NaNNaNNaNNaN1NaNNaNBSul
\n", + "

871142 rows × 22 columns

\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + " \n", + " \n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "application/vnd.google.colaboratory.intrinsic+json": { + "type": "dataframe", + "variable_name": "df_norte_sul" + } + }, + "metadata": {}, + "execution_count": 12 + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Separando apenas os inscritos do sexo feminino das regiões Norte e Nordeste\n", + "\n", + "df_feminino_norte_sul = df_norte_sul[df_norte_sul['TP_SEXO'] == 'F']" + ], + "metadata": { + "id": "zGMVHxCLI4wU" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "#Exportando a base que será usada nas próximas análises\n", + "\n", + "df_feminino_norte_sul.to_csv('enem_feminino_norte_sul_2023.csv', index=False)" + ], + "metadata": { + "id": "LOE4kvadKCcv" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "markdown", + "source": [ + "## Importação, limpeza e tratamento dos dados" + ], + "metadata": { + "id": "JAfqgprELbt-" + } + }, + { + "cell_type": "markdown", + "source": [ + "Para facilitar, importaremos a base filtrada por sexo e região." + ], + "metadata": { + "id": "HRiXdpypLnR2" + } + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul = pd.read_csv('enem_feminino_norte_sul_2023.csv' , sep=',' , encoding='latin-1', on_bad_lines='warn')\n" + ], + "metadata": { + "id": "7146LSx9LmnB" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul.columns" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "XA8clXqWOeV_", + "outputId": "039292c7-4edd-4d65-fb43-30d64029c809" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "Index(['NU_INSCRICAO', 'TP_FAIXA_ETARIA', 'TP_SEXO', 'TP_COR_RACA',\n", + " 'TP_ST_CONCLUSAO', 'TP_ESCOLA', 'IN_TREINEIRO', 'NO_MUNICIPIO_PROVA',\n", + " 'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',\n", + " 'TP_PRESENCA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC',\n", + " 'NU_NOTA_MT', 'TP_LINGUA', 'TP_STATUS_REDACAO', 'NU_NOTA_REDACAO',\n", + " 'Q006', 'REGIAO'],\n", + " dtype='object')" + ] + }, + "metadata": {}, + "execution_count": 16 + } + ] + }, + { + "cell_type": "code", + "source": [ + "# RENOMEANDO ALGUMAS COLUNAS\n", + "enem_feminino_norte_sul = enem_feminino_norte_sul.rename(columns={\n", + "'IN_TREINEIRO': 'INSCRITOS_TREINEIRO' ,\n", + "'NO_MUNICIPIO_PROVA': 'MUNICIPIO_PROVA' ,\n", + "'TP_PRESENCA_CN': 'TP_PRESENCA_CIENCIAS_NATUREZA' ,\n", + "'TP_PRESENCA_CH': 'TP_PRESENCA_CIENCIAS_HUMANAS' ,\n", + "'TP_PRESENCA_LC': 'TP_PRESENCA_LIGUAGENS_CODIGOS' ,\n", + "'TP_PRESENCA_MT': 'TP_PRESENCA_MATEMATICA' ,\n", + "'NU_NOTA_CN': 'NOTA__CIENCIAS_NATUREZA' ,\n", + "'NU_NOTA_CH': 'NOTA_CIENCIAS_HUMANAS' ,\n", + "'NU_NOTA_LC': 'NOTA__LIGUAGENS_CODIGOS' ,\n", + "'NU_NOTA_MT': 'NOTA_MATEMATICA' ,\n", + "'TP_LINGUA': 'TP_LINGUA_ESTRANGEIRA',\n", + "'NU_NOTA_REDACAO': 'NOTA_REDACAO' ,\n", + "'Q006': 'RENDA_FAMILIAR' })" + ], + "metadata": { + "id": "_sxdE_JwOLsw" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "markdown", + "source": [ + "Nesta fase iremos substituir alguns valores da base, de acordo com o Dicionário de Dados disponiblizado também pelo Inep.\n", + "O objetivo dessa substituição é deixar a visualização e contagem dos dados mais clara.\n", + "\n", + "Segue abaixo um exemplo de legenda contida no dicionário:\n", + "![image.png]()" + ], + "metadata": { + "id": "tiClPcUlXzPe" + } + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['TP_ESCOLA'] = enem_feminino_norte_sul['TP_ESCOLA'].replace({\n", + " 1: 'nao respondeu',\n", + " 2: 'publica',\n", + " 3: 'privada' })" + ], + "metadata": { + "id": "aGcDdTfcWzBZ" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['INSCRITOS_TREINEIRO'] = enem_feminino_norte_sul['INSCRITOS_TREINEIRO'].replace({\n", + "0: 'Nao',\n", + "1: 'Sim' })" + ], + "metadata": { + "id": "BRmn37Y6fXWo" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['TP_FAIXA_ETARIA'] = enem_feminino_norte_sul['TP_FAIXA_ETARIA'].replace({\n", + " 1: 'menor de 17',\n", + " 2: 17,\n", + " 3: 18,\n", + " 4: 19,\n", + " 5: 20,\n", + " 6: 21,\n", + " 7: 22,\n", + " 8: 23,\n", + " 9: 24,\n", + " 10: 25,\n", + " 11: '26-30',\n", + " 12: '31-35',\n", + " 13: '36-40',\n", + " 14: '41-45',\n", + " 15: '46-50',\n", + " 16: '51-55',\n", + " 17: '56-60',\n", + " 18: '61-65',\n", + " 19: '66-70',\n", + " 20: 'maior de 70' })" + ], + "metadata": { + "id": "2mykrqTNXdzr" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['TP_COR_RACA'] = enem_feminino_norte_sul['TP_COR_RACA'].replace({\n", + " 0: 'Não declarado',\n", + " 1: 'Branca',\n", + " 2: 'Preta',\n", + " 3: 'Parda',\n", + " 4: 'Amarela',\n", + " 5: 'Indígena',\n", + " 6: 'Não dispõe da informação' })" + ], + "metadata": { + "id": "PKQNb5LnYddn" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['TP_ST_CONCLUSAO'] = enem_feminino_norte_sul['TP_ST_CONCLUSAO'].replace({\n", + "1: 'Concluido' ,\n", + "2: 'A concluir em 2023',\n", + "3: 'A concluir após 2023' ,\n", + "4: 'Não cursando' })" + ], + "metadata": { + "id": "KYiWb3OmZVJk" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "colunas_para_alterar = ['TP_PRESENCA_CIENCIAS_NATUREZA' ,'TP_PRESENCA_CIENCIAS_HUMANAS', 'TP_PRESENCA_LIGUAGENS_CODIGOS', 'TP_PRESENCA_MATEMATICA']" + ], + "metadata": { + "id": "2oxrIAfRZxvf" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul[colunas_para_alterar] = enem_feminino_norte_sul[colunas_para_alterar].replace({\n", + " 0: 'Faltou' ,\n", + " 1: 'Presente' ,\n", + " 2: 'Eliminado' })" + ], + "metadata": { + "id": "wjQ1eJ_0b8Nq" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['TP_LINGUA_ESTRANGEIRA'] = enem_feminino_norte_sul['TP_LINGUA_ESTRANGEIRA'].replace({\n", + "0: 'Ingles',\n", + "1: 'Espanhol' })" + ], + "metadata": { + "id": "HhFRZyV0gKY9" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['TP_STATUS_REDACAO'] = enem_feminino_norte_sul['TP_STATUS_REDACAO'].replace({\n", + "1: 'Sem problemas',\n", + "2: 'Anulada' ,\n", + "3: 'Cópia Texto Motivador' ,\n", + "4: 'Em Branco',\n", + "6: 'Fuga ao tema',\n", + "7: 'Não atendimento ao tipo textual',\n", + "8: 'Texto insuficiente',\n", + "9: 'Parte desconectada' })" + ], + "metadata": { + "id": "QOmRZiBIgQNy" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['RENDA_FAMILIAR'] = enem_feminino_norte_sul['RENDA_FAMILIAR'].replace({\n", + "'A': 'Nenhuma Renda',\n", + "'B': 'Até 1.320,00',\n", + "'C': '1.320,01 - 1.980,00',\n", + "'D': '1.980,01 - 2.640,00',\n", + "'E': '2.640,01 - 3.300,00',\n", + "'F': '3.300,01 - 3.960,00',\n", + "'G': '3.960,01 - 5.280,00',\n", + "'H': '5.280,01 - 6.600,00',\n", + "'I': '6.600,01 - 7.920,00',\n", + "'J': '7.920,01 - 9.240,00',\n", + "'K': '9.240,01 - 10.560,00',\n", + "'L': '10.560,01 - 11.880,00',\n", + "'M': '11.880,01 - 13.200,00',\n", + "'N': '13.200,01 - 15.840,00',\n", + "'O': '15.840,01 - 19.800,00',\n", + "'P': '19.800,01 - 26.400,00',\n", + "'Q': 'Acima de 26.400,00' })" + ], + "metadata": { + "id": "qJAa8gQQgfS3" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 617 + }, + "id": "cA8Dkr4iJqsf", + "outputId": "e29c790f-9a8e-4b32-a79b-2eb509c0ef6d" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + " NU_INSCRICAO TP_FAIXA_ETARIA TP_SEXO TP_COR_RACA TP_ST_CONCLUSAO \\\n", + "0 210061103945 21 F Branca Concluido \n", + "1 210058061534 19 F Branca A concluir em 2023 \n", + "2 210059388088 18 F Branca Concluido \n", + "3 210058061536 19 F Parda Concluido \n", + "4 210059980946 19 F Branca Concluido \n", + "... ... ... ... ... ... \n", + "536951 210061965960 20 F Branca Concluido \n", + "536952 210061965962 17 F Branca A concluir em 2023 \n", + "536953 210061965964 31-35 F Branca Concluido \n", + "536954 210061959675 21 F Parda Concluido \n", + "536955 210061965966 18 F Parda A concluir em 2023 \n", + "\n", + " TP_ESCOLA INSCRITOS_TREINEIRO MUNICIPIO_PROVA SG_UF_PROVA \\\n", + "0 nao respondeu Nao Caxias do Sul RS \n", + "1 publica Nao Belém PA \n", + "2 nao respondeu Nao Maringá PR \n", + "3 nao respondeu Nao Marituba PA \n", + "4 nao respondeu Nao Belém PA \n", + "... ... ... ... ... \n", + "536951 nao respondeu Nao Cachoeirinha RS \n", + "536952 privada Nao Capão da Canoa RS \n", + "536953 nao respondeu Nao Porto Alegre RS \n", + "536954 nao respondeu Nao Igrejinha RS \n", + "536955 publica Nao Florianópolis SC \n", + "\n", + " TP_PRESENCA_CIENCIAS_NATUREZA ... TP_PRESENCA_MATEMATICA \\\n", + "0 Presente ... Presente \n", + "1 Presente ... Presente \n", + "2 Presente ... Presente \n", + "3 Presente ... Presente \n", + "4 Presente ... Presente \n", + "... ... ... ... \n", + "536951 Presente ... Presente \n", + "536952 Presente ... Presente \n", + "536953 Presente ... Presente \n", + "536954 Faltou ... Faltou \n", + "536955 Faltou ... Faltou \n", + "\n", + " NOTA__CIENCIAS_NATUREZA NOTA_CIENCIAS_HUMANAS NOTA__LIGUAGENS_CODIGOS \\\n", + "0 502.0 498.9 475.6 \n", + "1 515.7 553.1 544.4 \n", + "2 540.5 632.5 542.8 \n", + "3 592.9 624.0 676.4 \n", + "4 632.0 688.4 635.8 \n", + "... ... ... ... \n", + "536951 497.5 446.2 359.6 \n", + "536952 444.0 511.4 514.8 \n", + "536953 568.6 605.2 598.2 \n", + "536954 NaN NaN NaN \n", + "536955 NaN NaN NaN \n", + "\n", + " NOTA_MATEMATICA TP_LINGUA_ESTRANGEIRA TP_STATUS_REDACAO \\\n", + "0 363.2 Espanhol Sem problemas \n", + "1 437.0 Ingles Sem problemas \n", + "2 575.3 Ingles Sem problemas \n", + "3 731.8 Ingles Sem problemas \n", + "4 709.6 Ingles Sem problemas \n", + "... ... ... ... \n", + "536951 602.1 Ingles Sem problemas \n", + "536952 444.9 Ingles Sem problemas \n", + "536953 496.8 Ingles Sem problemas \n", + "536954 NaN Ingles NaN \n", + "536955 NaN Espanhol NaN \n", + "\n", + " NOTA_REDACAO RENDA_FAMILIAR REGIAO \n", + "0 700.0 1.320,01 - 1.980,00 Sul \n", + "1 880.0 Até 1.320,00 Norte \n", + "2 880.0 2.640,01 - 3.300,00 Sul \n", + "3 880.0 Até 1.320,00 Norte \n", + "4 940.0 9.240,01 - 10.560,00 Norte \n", + "... ... ... ... \n", + "536951 800.0 7.920,01 - 9.240,00 Sul \n", + "536952 600.0 9.240,01 - 10.560,00 Sul \n", + "536953 500.0 1.980,01 - 2.640,00 Sul \n", + "536954 NaN 3.300,01 - 3.960,00 Sul \n", + "536955 NaN Até 1.320,00 Sul \n", + "\n", + "[536956 rows x 22 columns]" + ], + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
NU_INSCRICAOTP_FAIXA_ETARIATP_SEXOTP_COR_RACATP_ST_CONCLUSAOTP_ESCOLAINSCRITOS_TREINEIROMUNICIPIO_PROVASG_UF_PROVATP_PRESENCA_CIENCIAS_NATUREZA...TP_PRESENCA_MATEMATICANOTA__CIENCIAS_NATUREZANOTA_CIENCIAS_HUMANASNOTA__LIGUAGENS_CODIGOSNOTA_MATEMATICATP_LINGUA_ESTRANGEIRATP_STATUS_REDACAONOTA_REDACAORENDA_FAMILIARREGIAO
021006110394521FBrancaConcluidonao respondeuNaoCaxias do SulRSPresente...Presente502.0498.9475.6363.2EspanholSem problemas700.01.320,01 - 1.980,00Sul
121005806153419FBrancaA concluir em 2023publicaNaoBelémPAPresente...Presente515.7553.1544.4437.0InglesSem problemas880.0Até 1.320,00Norte
221005938808818FBrancaConcluidonao respondeuNaoMaringáPRPresente...Presente540.5632.5542.8575.3InglesSem problemas880.02.640,01 - 3.300,00Sul
321005806153619FPardaConcluidonao respondeuNaoMaritubaPAPresente...Presente592.9624.0676.4731.8InglesSem problemas880.0Até 1.320,00Norte
421005998094619FBrancaConcluidonao respondeuNaoBelémPAPresente...Presente632.0688.4635.8709.6InglesSem problemas940.09.240,01 - 10.560,00Norte
..................................................................
53695121006196596020FBrancaConcluidonao respondeuNaoCachoeirinhaRSPresente...Presente497.5446.2359.6602.1InglesSem problemas800.07.920,01 - 9.240,00Sul
53695221006196596217FBrancaA concluir em 2023privadaNaoCapão da CanoaRSPresente...Presente444.0511.4514.8444.9InglesSem problemas600.09.240,01 - 10.560,00Sul
53695321006196596431-35FBrancaConcluidonao respondeuNaoPorto AlegreRSPresente...Presente568.6605.2598.2496.8InglesSem problemas500.01.980,01 - 2.640,00Sul
53695421006195967521FPardaConcluidonao respondeuNaoIgrejinhaRSFaltou...FaltouNaNNaNNaNNaNInglesNaNNaN3.300,01 - 3.960,00Sul
53695521006196596618FPardaA concluir em 2023publicaNaoFlorianópolisSCFaltou...FaltouNaNNaNNaNNaNEspanholNaNNaNAté 1.320,00Sul
\n", + "

536956 rows × 22 columns

\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + " \n", + " \n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "application/vnd.google.colaboratory.intrinsic+json": { + "type": "dataframe", + "variable_name": "enem_feminino_norte_sul" + } + }, + "metadata": {}, + "execution_count": 28 + } + ] + }, + { + "cell_type": "markdown", + "source": [ + "# Análise dos dados" + ], + "metadata": { + "id": "b7-M8Zfjixk_" + } + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul.isnull().sum()" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 774 + }, + "id": "Lp4ephUAhMpr", + "outputId": "f839f4bd-e235-4c13-9ed7-61ad0ccc801b" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "NU_INSCRICAO 0\n", + "TP_FAIXA_ETARIA 0\n", + "TP_SEXO 0\n", + "TP_COR_RACA 0\n", + "TP_ST_CONCLUSAO 0\n", + "TP_ESCOLA 0\n", + "INSCRITOS_TREINEIRO 0\n", + "MUNICIPIO_PROVA 0\n", + "SG_UF_PROVA 0\n", + "TP_PRESENCA_CIENCIAS_NATUREZA 0\n", + "TP_PRESENCA_CIENCIAS_HUMANAS 0\n", + "TP_PRESENCA_LIGUAGENS_CODIGOS 0\n", + "TP_PRESENCA_MATEMATICA 0\n", + "NOTA__CIENCIAS_NATUREZA 181107\n", + "NOTA_CIENCIAS_HUMANAS 159337\n", + "NOTA__LIGUAGENS_CODIGOS 159337\n", + "NOTA_MATEMATICA 181107\n", + "TP_LINGUA_ESTRANGEIRA 0\n", + "TP_STATUS_REDACAO 159337\n", + "NOTA_REDACAO 159337\n", + "RENDA_FAMILIAR 0\n", + "REGIAO 0\n", + "dtype: int64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
0
NU_INSCRICAO0
TP_FAIXA_ETARIA0
TP_SEXO0
TP_COR_RACA0
TP_ST_CONCLUSAO0
TP_ESCOLA0
INSCRITOS_TREINEIRO0
MUNICIPIO_PROVA0
SG_UF_PROVA0
TP_PRESENCA_CIENCIAS_NATUREZA0
TP_PRESENCA_CIENCIAS_HUMANAS0
TP_PRESENCA_LIGUAGENS_CODIGOS0
TP_PRESENCA_MATEMATICA0
NOTA__CIENCIAS_NATUREZA181107
NOTA_CIENCIAS_HUMANAS159337
NOTA__LIGUAGENS_CODIGOS159337
NOTA_MATEMATICA181107
TP_LINGUA_ESTRANGEIRA0
TP_STATUS_REDACAO159337
NOTA_REDACAO159337
RENDA_FAMILIAR0
REGIAO0
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 29 + } + ] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['TP_PRESENCA_CIENCIAS_NATUREZA'].value_counts()" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 210 + }, + "id": "e2J1HMUhieX6", + "outputId": "fdaff68d-b864-449a-f24a-42333c4b06ce" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "TP_PRESENCA_CIENCIAS_NATUREZA\n", + "Presente 355849\n", + "Faltou 180850\n", + "Eliminado 257\n", + "Name: count, dtype: int64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
count
TP_PRESENCA_CIENCIAS_NATUREZA
Presente355849
Faltou180850
Eliminado257
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 30 + } + ] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['TP_PRESENCA_CIENCIAS_HUMANAS'].value_counts()" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 210 + }, + "id": "O79oxowQjeCU", + "outputId": "7d8b720c-f631-4931-a0f4-f37a15c01e26" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "TP_PRESENCA_CIENCIAS_HUMANAS\n", + "Presente 377619\n", + "Faltou 158801\n", + "Eliminado 536\n", + "Name: count, dtype: int64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
count
TP_PRESENCA_CIENCIAS_HUMANAS
Presente377619
Faltou158801
Eliminado536
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 31 + } + ] + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['TP_PRESENCA_MATEMATICA'].value_counts()" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 210 + }, + "id": "dFZhRpGNji2F", + "outputId": "c2069bf9-ccb4-4df1-fc80-7ae7084bf262" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "TP_PRESENCA_MATEMATICA\n", + "Presente 355849\n", + "Faltou 180850\n", + "Eliminado 257\n", + "Name: count, dtype: int64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
count
TP_PRESENCA_MATEMATICA
Presente355849
Faltou180850
Eliminado257
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 32 + } + ] + }, + { + "cell_type": "markdown", + "source": [ + "Obs: Os dados nulos da coluna TP_STATUS_REDACAO indicam que o inscrito não fez a prova, uma vez que no dicionário de dados, há uma descrição para cada status de entrega/correção da redação, por isso iremos substituir os valores nulos pelo valor \"Faltou\"." + ], + "metadata": { + "id": "O0NgV8Gw_pKj" + } + }, + { + "cell_type": "code", + "source": [ + "enem_feminino_norte_sul['TP_STATUS_REDACAO'] = enem_feminino_norte_sul['TP_STATUS_REDACAO'].fillna('Faltou')\n" + ], + "metadata": { + "id": "0w0lDUXB_nZl" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "markdown", + "source": [ + "De acordo com a análise realizada, pudemos observar que os dados contabilizados nulos das colunas de Notas, correspondem aos números de faltantes + eliminados das colunas TP_PRESENÇA. Ressaltamos que a princípio manteramos os dados nulos, pois a elimação dos menos poderá acarretar uma distorção da nossa análise." + ], + "metadata": { + "id": "GJ2-5E1bk89v" + } + }, + { + "cell_type": "markdown", + "source": [ + "**Questões Norteadoras**" + ], + "metadata": { + "id": "JFDywCcvl6Fd" + } + }, + { + "cell_type": "markdown", + "source": [ + "## Identificar qual o percentual de inscritos do sexo feminino por região.\n", + "\n", + "Objetivo: Identifcar o percentual de inscrição feminina em cada região e compará-los entre as regiões(Norte x Sul)." + ], + "metadata": { + "id": "Enp3JyQfmCIC" + } + }, + { + "cell_type": "code", + "source": [ + "contagem_fem_por_regiao = enem_feminino_norte_sul.groupby('REGIAO')['NU_INSCRICAO'].count()\n", + "contagem_fem_por_regiao" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 178 + }, + "id": "YtF146m8lVx7", + "outputId": "a590d3b5-4c0c-49c9-ea3e-f00c14617fa7" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "REGIAO\n", + "Norte 278371\n", + "Sul 258585\n", + "Name: NU_INSCRICAO, dtype: int64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
NU_INSCRICAO
REGIAO
Norte278371
Sul258585
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 35 + } + ] + }, + { + "cell_type": "code", + "source": [ + "total_insc_por_regiao = df_norte_sul.groupby('REGIAO')['NU_INSCRICAO'].count()\n", + "total_insc_por_regiao" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 178 + }, + "id": "4Et-SzKs6G9a", + "outputId": "5b1a2682-ab07-4f42-9dc6-81f45866cc30" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "REGIAO\n", + "Norte 453454\n", + "Sul 417688\n", + "Name: NU_INSCRICAO, dtype: int64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
NU_INSCRICAO
REGIAO
Norte453454
Sul417688
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 36 + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Encontrando o percentual de inscrições femininas por região\n", + "\n", + "percentual_feminino_por_regiao = (contagem_fem_por_regiao / total_insc_por_regiao) * 100\n", + "percentual_feminino_por_regiao.round(2)" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 178 + }, + "id": "QK5KBwX27Gwi", + "outputId": "c44e1494-afd7-4508-97df-c14d97c35a8d" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "REGIAO\n", + "Norte 61.39\n", + "Sul 61.91\n", + "Name: NU_INSCRICAO, dtype: float64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
NU_INSCRICAO
REGIAO
Norte61.39
Sul61.91
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 38 + } + ] + }, + { + "cell_type": "code", + "source": [ + "import matplotlib.pyplot as plt" + ], + "metadata": { + "id": "VXZECJLAO0Zr" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "grafico_cor = ['#517EA6', '#F28A2E']\n", + "percentual_feminino_por_regiao.plot(kind='bar', color=grafico_cor)\n", + "plt.ylabel('Percentual de inscrição')\n", + "plt.title('Percentual de inscrição feminina por Região')" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 513 + }, + "id": "YYGvnjrFZT2w", + "outputId": "54855700-5782-439a-a6fb-18495722aa55" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "Text(0.5, 1.0, 'Percentual de inscrição feminina por Região')" + ] + }, + "metadata": {}, + "execution_count": 41 + }, + { + "output_type": "display_data", + "data": { + "text/plain": [ + "
" + ], + "image/png": "\n" + }, + "metadata": {} + } + ] + }, + { + "cell_type": "markdown", + "source": [ + "Isso indica que 61,39% das inscrições na região Norte são de mulheres e que 61,91% das inscrições na região Sul são de mulheres. Isso sugere uma participação feminina equilibrada entre as regiões Norte e Sul no ENEM 2023." + ], + "metadata": { + "id": "4bpKbKgj8Bx2" + } + }, + { + "cell_type": "markdown", + "source": [ + "## Identificar o percentual de falta nas regiões Norte e Sul. Levando em consideração quem faltou em pelos menos uma das provas, incluindo Redação.\n", + "\n", + "Objetivo: comparar se há diferença discrepante entre as duas regiões." + ], + "metadata": { + "id": "2BDcB9-H-N8u" + } + }, + { + "cell_type": "code", + "source": [ + "copia_fem_norte_sul = enem_feminino_norte_sul.copy()" + ], + "metadata": { + "id": "blgXXJcqk2Bb" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "# Criando uma coluna que verifica se a pessoa faltou em pelo menos uma das provas ou redação\n", + "copia_fem_norte_sul['FALTOU_PELO_MENOS_UMA'] = copia_fem_norte_sul[[\n", + " 'TP_PRESENCA_CIENCIAS_NATUREZA',\n", + " 'TP_PRESENCA_CIENCIAS_HUMANAS',\n", + " 'TP_PRESENCA_LIGUAGENS_CODIGOS',\n", + " 'TP_PRESENCA_MATEMATICA',\n", + " 'TP_STATUS_REDACAO']].apply(lambda x: (x == 'Faltou').any(), axis=1)\n" + ], + "metadata": { + "id": "4HFfwldy-VAZ" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "# Calculando o numero de mulheres faltantes por região, comtando apenas as entradas que são True\n", + "\n", + "faltaram_por_regiao = copia_fem_norte_sul.groupby('REGIAO')['FALTOU_PELO_MENOS_UMA'].sum()\n", + "faltaram_por_regiao" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 178 + }, + "id": "qKlvdUPnGHzj", + "outputId": "76f5359f-83b5-4665-eb95-6415f597017d" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "REGIAO\n", + "Norte 102606\n", + "Sul 79942\n", + "Name: FALTOU_PELO_MENOS_UMA, dtype: int64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
FALTOU_PELO_MENOS_UMA
REGIAO
Norte102606
Sul79942
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 44 + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Usaremos a variavel de contagem feminina criada anteriormente para calcular o percentual\n", + "\n", + "percentual_faltas_por_regiao = (faltaram_por_regiao / contagem_fem_por_regiao) * 100\n", + "percentual_faltas_por_regiao.round(2)" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 178 + }, + "id": "StrMepKHG8JI", + "outputId": "59be6bd0-d87e-461b-9da9-9c7ca79d565d" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "REGIAO\n", + "Norte 36.86\n", + "Sul 30.92\n", + "dtype: float64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
0
REGIAO
Norte36.86
Sul30.92
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 45 + } + ] + }, + { + "cell_type": "code", + "source": [ + "grafico_cor = ['#517EA6', '#F28A2E']\n", + "percentual_faltas_por_regiao.plot(kind='bar', color=grafico_cor)\n", + "plt.ylabel('Percentual de Faltas')\n", + "plt.title('Percentual de Faltas por Região')" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 513 + }, + "id": "qzMIPUKcG6jy", + "outputId": "6f2fbd8c-9ff5-41e2-e650-4416b99f604c" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "Text(0.5, 1.0, 'Percentual de Faltas por Região')" + ] + }, + "metadata": {}, + "execution_count": 46 + }, + { + "output_type": "display_data", + "data": { + "text/plain": [ + "
" + ], + "image/png": "\n" + }, + "metadata": {} + } + ] + }, + { + "cell_type": "markdown", + "source": [ + "Podemos verificar que o percentual de faltas entre as inscritas na região Norte foi um pouco superior a região Sul. A região Norte teve 36,86% de faltas, enquanto que a região Sul teve um percentual de 30,92% de inscritas faltantes." + ], + "metadata": { + "id": "IvE6DzPcMDsk" + } + }, + { + "cell_type": "markdown", + "source": [ + "## Identificar qual a média geral de notas por tipo de escola que o participante estudou o ensino e comparar entre as regiões Norte e Sul." + ], + "metadata": { + "id": "-JkAmNCGLPNv" + } + }, + { + "cell_type": "markdown", + "source": [ + "Para esta análise levaremos em consideração apenas quem realizou todas a provas, dessa forma, faremos a limpeza dos dados nulos que constam nas colunas de nota." + ], + "metadata": { + "id": "8-ez_F8SLuS-" + } + }, + { + "cell_type": "code", + "source": [ + "df_notas_sem_null = copia_fem_norte_sul.dropna()" + ], + "metadata": { + "id": "DLDabdNKLttL" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "# Criando uma nova coluna - 'SOMA_DE_NOTAS'\n", + "\n", + "df_notas_sem_null['SOMA_DE_NOTAS'] = df_notas_sem_null['NOTA__CIENCIAS_NATUREZA'] + df_notas_sem_null['NOTA_CIENCIAS_HUMANAS'] + df_notas_sem_null['NOTA__LIGUAGENS_CODIGOS'] + df_notas_sem_null['NOTA_MATEMATICA'] + df_notas_sem_null['NOTA_REDACAO']\n", + "df_notas_sem_null" + ], + "metadata": { + "id": "axCFHfE1LnpG" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "# Agrupando por tipo de escola e região e calculando a média das notas\n", + "\n", + "media_por_tipo_escola_e_regiao = df_notas_sem_null.groupby(['TP_ESCOLA','REGIAO'])['SOMA_DE_NOTAS'].mean()" + ], + "metadata": { + "id": "DsJgmx1sMAed" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "media_por_tipo_escola_e_regiao.round(2)" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 304 + }, + "id": "WK_Xw-TgM-wI", + "outputId": "43a86868-55db-43da-9da2-f38e20ee5f7f" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "TP_ESCOLA REGIAO\n", + "nao respondeu Norte 2534.10\n", + " Sul 2788.12\n", + "privada Norte 3026.11\n", + " Sul 3114.49\n", + "publica Norte 2473.80\n", + " Sul 2652.37\n", + "Name: SOMA_DE_NOTAS, dtype: float64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
SOMA_DE_NOTAS
TP_ESCOLAREGIAO
nao respondeuNorte2534.10
Sul2788.12
privadaNorte3026.11
Sul3114.49
publicaNorte2473.80
Sul2652.37
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 88 + } + ] + }, + { + "cell_type": "code", + "source": [ + "import seaborn as sns" + ], + "metadata": { + "id": "hp4NGyxeOwDG" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "#media_por_tipo_escola_e_regiao = media_por_tipo_escola_e_regiao.reset_index()\n", + "\n", + "# Plotar o gráfico\n", + "plt.figure(figsize=(7, 5))\n", + "sns.barplot(data=media_por_tipo_escola_e_regiao, x='TP_ESCOLA', y='SOMA_DE_NOTAS', hue='REGIAO')\n", + "\n", + "plt.title('Média de Notas por Tipo de Escola e Região', fontsize=12)\n", + "plt.ylabel('Média de Notas')\n", + "plt.xlabel('Tipo de Escola')" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 502 + }, + "id": "MYuhenxDNAck", + "outputId": "1f050ee7-4c4f-44c9-c452-49fcba766977" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "Text(0.5, 0, 'Tipo de Escola')" + ] + }, + "metadata": {}, + "execution_count": 99 + }, + { + "output_type": "display_data", + "data": { + "text/plain": [ + "
" + ], + "image/png": "\n" + }, + "metadata": {} + } + ] + }, + { + "cell_type": "markdown", + "source": [ + "Observou-se que as escolas privadas tiveram as maiores médias de notas em ambas as regiões. Já as escolas públicas apresentaram as menores médias, especialmente no Norte (2473,80). A região Sul, em geral, mostrou melhores resultados do que o Norte para todos os tipos de escola, indicando possíveis disparidades regionais e entre os setores público e privado." + ], + "metadata": { + "id": "kNJGTebLKGAk" + } + }, + { + "cell_type": "markdown", + "source": [ + "## Identificar qual o top 100 de maiores notas entre todas as provas, incluindo Redação e visualizar em qual faixa de renda familiar está a maioria deste Top 100. Também verificar como o Top 100 está distribuído por região (Norte e Sul).\n", + "\n", + "Objetivo: visualizar se há uma possível relação entre as notas mais altas das inscritas x renda familiar e região." + ], + "metadata": { + "id": "HlYgFiLyIbsG" + } + }, + { + "cell_type": "code", + "source": [ + "# Ordenando o dataframe pelas maiores notas, em ordem decrescrente\n", + "df_ordenado = df_notas_sem_null.sort_values(by='SOMA_DE_NOTAS', ascending=False)\n", + "\n", + "# Separando as 100 maiores notas no dataframe 'top_100\"\n", + "top_100 = df_ordenado.head(100)" + ], + "metadata": { + "id": "WoxTBy48Z-J_" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "# Agrupar os 100 melhores por faixa de renda\n", + "\n", + "distribuicao_renda_top_100 = top_100.groupby('RENDA_FAMILIAR')['NU_INSCRICAO'].count()\n", + "\n", + "distribuicao_renda_top_100" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 586 + }, + "id": "s8zgFACmjjMz", + "outputId": "a54c4bba-fc38-450e-ef1d-3fae84fee327" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "RENDA_FAMILIAR\n", + "1.320,01 - 1.980,00 1\n", + "10.560,01 - 11.880,00 3\n", + "11.880,01 - 13.200,00 7\n", + "13.200,01 - 15.840,00 11\n", + "15.840,01 - 19.800,00 6\n", + "19.800,01 - 26.400,00 10\n", + "2.640,01 - 3.300,00 1\n", + "3.300,01 - 3.960,00 3\n", + "3.960,01 - 5.280,00 10\n", + "5.280,01 - 6.600,00 5\n", + "6.600,01 - 7.920,00 9\n", + "7.920,01 - 9.240,00 12\n", + "9.240,01 - 10.560,00 4\n", + "Acima de 26.400,00 17\n", + "Até 1.320,00 1\n", + "Name: NU_INSCRICAO, dtype: int64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
NU_INSCRICAO
RENDA_FAMILIAR
1.320,01 - 1.980,001
10.560,01 - 11.880,003
11.880,01 - 13.200,007
13.200,01 - 15.840,0011
15.840,01 - 19.800,006
19.800,01 - 26.400,0010
2.640,01 - 3.300,001
3.300,01 - 3.960,003
3.960,01 - 5.280,0010
5.280,01 - 6.600,005
6.600,01 - 7.920,009
7.920,01 - 9.240,0012
9.240,01 - 10.560,004
Acima de 26.400,0017
Até 1.320,001
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 50 + } + ] + }, + { + "cell_type": "code", + "source": [ + "distribuicao_renda_top_100_ordenado = distribuicao_renda_top_100.sort_values(ascending=True)" + ], + "metadata": { + "id": "E2_VqZrzBfeU" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "distribuicao_renda_top_100_ordenado.plot(kind='barh', color='#006400')\n", + "plt.ylabel('Valor da Renda Familiar em Real')\n", + "plt.title('Distribuição do Top 100 maiores notas x Faixa de Renda')" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 469 + }, + "id": "bJc9pRP64HJr", + "outputId": "ec147030-7542-4c72-f6e0-d5fb50884c51" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "Text(0.5, 1.0, 'Distribuição do Top 100 maiores notas x Faixa de Renda')" + ] + }, + "metadata": {}, + "execution_count": 52 + }, + { + "output_type": "display_data", + "data": { + "text/plain": [ + "
" + ], + "image/png": "\n" + }, + "metadata": {} + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Agrupando os top 100 por região\n", + "top_100_por_regiao = top_100.groupby('REGIAO')['NU_INSCRICAO'].count()" + ], + "metadata": { + "id": "fm1Kb6vR5JUp" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "top_100_por_regiao" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 178 + }, + "id": "mMapNk7g7212", + "outputId": "798a2ccc-013a-4fc3-d7b2-97df1240ca50" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "REGIAO\n", + "Norte 7\n", + "Sul 93\n", + "Name: NU_INSCRICAO, dtype: int64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
NU_INSCRICAO
REGIAO
Norte7
Sul93
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 54 + } + ] + }, + { + "cell_type": "code", + "source": [ + "top_100_por_regiao.plot(kind='bar', color =grafico_cor)\n", + "plt.ylabel('Número de inscritas')\n", + "plt.title('Distribuição das melhores notas por Região')" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 513 + }, + "id": "1VQnF5Mh8ET5", + "outputId": "1282183f-67b3-4d5c-bdc7-0d72b4188c6c" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "Text(0.5, 1.0, 'Distribuição das melhores notas por Região')" + ] + }, + "metadata": {}, + "execution_count": 55 + }, + { + "output_type": "display_data", + "data": { + "text/plain": [ + "
" + ], + "image/png": "\n" + }, + "metadata": {} + } + ] + }, + { + "cell_type": "markdown", + "source": [ + "Podemos observar que a faixa de renda familiar acima de R$26.400,00 contém o maior número de inscritas entre as 100 maiores notas, em compensação\n", + "existe uma representação mínima entre as menores faixas de renda familar.\n", + "Ao levar essa comparação para região e observar a quantidade de inscrita que cada região obteve entre as 100 melhores notas é gritante a diferença entre as regiões Norte e Sul." + ], + "metadata": { + "id": "chgDiQgXDCqy" + } + }, + { + "cell_type": "code", + "source": [ + "# EXPORTANDO A BASE FINAL\n", + "copia_fem_norte_sul.to_csv('base_final_enem_2023.csv', index=False)" + ], + "metadata": { + "id": "wYK1TD5aLr21" + }, + "execution_count": null, + "outputs": [] + } + ] +} \ No newline at end of file diff --git a/README.md b/README.md index 6f06bd0..c6d71ae 100644 --- a/README.md +++ b/README.md @@ -1,104 +1,41 @@ -

- logo reprograma -

+# Análise de dados Enem 2023 +![enem1](https://github.com/user-attachments/assets/0f22035f-d723-4833-9b95-4016bb4b3217) -# Tema da Aula +## Contexto -Turma Online 34 | Python | Semanas 17 e 18 | 2024 | [Daniele Junior](https://travatech.com.br?router=danijr) +Neste projeto será realizada a análise dos microdados do ENEM do ano de 2023, filtrando apenas pelas regiões Norte e Sul do país, analisaremos especificamente os dados dos inscritos do sexo feminino das regiões Norte e Sul do Brasil. O projeto tem como objetivo analisar se há diferenças entre as inscritas dos extremos do país. -### Instruções -Antes de começar, vamos organizar nosso setup. -* Fork esse repositório -* Clone o fork na sua máquina (Para isso basta abrir o seu terminal e digitar `git clone url-do-seu-repositorio-forkado`) -* Entre na pasta do seu repositório (Para isso basta abrir o seu terminal e digitar `cd nome-do-seu-repositorio-forkado`) -* [Add outras instruções caso necessário] +## Objetivo -### Resumo -O que veremos na aula de hoje? -* [Slide Semana 17](https://docs.google.com/presentation/d/1axo2Dlm0Hx35ahKdZW6s-UAdG61L41QXdete8ZcQV0w/edit?usp=sharing) -* Slide Semana 18 +O objetivo geral é analisar as possíveis diferenças entre as inscritas das regiões Norte e Sul para o ENEM 2023. -* [Escolhendo uma fonte de dados](#Escolhendoumafontededados) -* Análise exploratória -* Criando uma história com dados +Dentre os objetivos específicos temos: -## Conteúdo +* Identificar qual o percentual de inscritos do sexo feminino nas regiões Norte e Sul; +* Identificar o percentual de falta entre as inscritas nas regiões Norte e Sul; +* Identificar o percentual de inscritas por faixa de renda familiar; +* Identificar qual o top 100 de maiores notas entre todas as provas e visualizar em qual faixa de renda familiar está à maioria deste Top 100. Também verificar como o Top 100 está distribuído por região (Norte e Sul). -### O que é um projeto de análise de dados? -Nesse ponto vocês já aprenderam que ter dados não é a mesma coisa que ter informação. -**Dados:** são elementos brutos e não processados, como números, palavras, ou símbolos que precisam ser interpretados para se tornarem úteis. -**Informação:** é o resultado do processamento, organização e interpretação dos dados, fornecendo significado e contexto para tomar decisões ou entender situações. -Assim, dados são a matéria-prima da informação, que é o produto final após análise e interpretação dos dados. +Neste projeto usa-se análise exploratória de dados, a fim de obter informações da base de dados escolhida. -Por isso a importância de nós contarmos uma história estruturada a partir dos dados que conseguimos coletar. E é exatamente sobre isso, que se trata um projeto de análise de dados: **gerar informação útil a partir da construção de uma perspectiva contextualizada!** +## Base Escolhida +Microdados do ENEM do ano de 2023 +Disponibilizado pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira - Inep. +(https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem) -Então aqui vão algumas perguntas gerais que devemos nos fazer ao iniciar um projeto como esse: - -- **Conteúdo** - - O que eu quero informar? -- **Público** - - Para quem eu estou contanto essa história? Com quem vou compartilhar essa informação? -- **Transformação** - - Por que essa informação é relevante? - -Ok, as perguntas são importantes, - -MAS POR ONDE COMEÇAR?! - -### Escolhendo uma fonte de dados - -#### O caminho comum -Se você já fez algum tipo de pesquisa acadêmica (TCC, Iniciação Científica, etc) você certamente está familiarizado com esse processo, pois tudo começa com a escolha de um TEMA, seguindo para a definição do PROBLEMA, que em seguida é desdobrado em PERGUNTAS, que irão guiar a COLETA DE DADOS. - -1. Delimitação do Tema -2. Definição do Problema -3. Desenvolvimento de Perguntas -4. Coleta de Dados - -#### O caminho que iremos seguir -Porque esse projeto é um exercício e encontrar os dados ideais para responder às nossas perguntas pode se tornar um trabalho extremamente complexo... - -Nós iremos fazer um caminho um pouco diferente e a partir de um tema de interesse, escolher uma base e então pensar quais perguntas podem ser respondidas a partir dela. - -O QUE TAMBÉM É SUPER VÁLIDO! E PODE RENDER DESCOBERTAS INCRÍVEIS! - - * **Escolha do tema** - - No primeiro momento você deve escolher qual assunto gostaria de abordar. Pense em um tema atual, relevante e até onde você vai aprofundar a análise. Lembre-se, não adianta abraçar o mundo sozinho, você precisa focar e entregar o melhor resultado possível, então trabalhe na delimitação do Tema! Quais são os recortes possíveis dentro do universo escolhido? - - #Dica: Dê prioridade para algo que você goste, se interesse, tenha afinidade ou conhecimento na área. - - * **Escolha da Base de Dados** - - [Algumas opções de Bases de Dados](#base-de-dados) - -* **Definindo nossas perguntas** +## Ferramentas utilizadas +* Tableau +* Python, com as bibliotecas: +- Pandas +- Matplotlib - O que eu quero tentar responder? VAMOS AO [BRAINSTORM](#material-da-aula)! - -*** - -### Material da aula +##Link da visualização do projeto no Tableau -* [Slides](https://docs.google.com/presentation/d/1axo2Dlm0Hx35ahKdZW6s-UAdG61L41QXdete8ZcQV0w/edit?usp=sharing) +https://public.tableau.com/app/profile/luana.queiros/viz/Projeto_Final_ENEM2023/Painel2 -### Links Úteis -- [Documentação Pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide) -- [Introdução ao Pandas](https://medium.com/tech-grupozap/introdu%C3%A7%C3%A3o-a-biblioteca-pandas-89fa8ed4fa38) -- [Análise Exploratória de Dados I](https://escoladedados.org/tutoriais/analise-exploratoria-de-dados/) -- [Análise Exploratória de Dados II](https://www.alura.com.br/artigos/analise-exploratoria) -- [Storytelling com Dados](https://medium.com/resumos-resenhas/storytelling-com-dados-resumo-fd63ebe4f704) -- [Markdown Cheastsheet](https://www.ibm.com/docs/en/watson-studio-local/1.2.3?topic=notebooks-markdown-jupyter-cheatsheet) +![Reprograma-on34](https://github.com/user-attachments/assets/3942ca3d-6735-430c-aa05-5b540bea2863) - #### Base de Dados -- [Kaggle](https://www.kaggle.com/datasets) -- [IBGE](https://ces.ibge.gov.br/base-de-dados/links-base-de-dados.html) -- [Brasil.io](https://brasil.io/datasets/) -- [Gov.br](https://dados.gov.br/dados/conjuntos-dados) -- [Nosso Mundo em Dados](https://ourworldindata.org/charts) -

-Desenvolvido com :purple_heart: -

+- Luana Paes diff --git a/base_final_e_dicionario.zip b/base_final_e_dicionario.zip new file mode 100644 index 0000000..95dd4d5 Binary files /dev/null and b/base_final_e_dicionario.zip differ