diff --git a/Projeto s18.pdf b/Projeto s18.pdf new file mode 100644 index 0000000..e34c628 Binary files /dev/null and b/Projeto s18.pdf differ diff --git a/README.md b/README.md deleted file mode 100644 index 6f06bd0..0000000 --- a/README.md +++ /dev/null @@ -1,104 +0,0 @@ -

- logo reprograma -

- -# Tema da Aula - -Turma Online 34 | Python | Semanas 17 e 18 | 2024 | [Daniele Junior](https://travatech.com.br?router=danijr) - -### Instruções -Antes de começar, vamos organizar nosso setup. -* Fork esse repositório -* Clone o fork na sua máquina (Para isso basta abrir o seu terminal e digitar `git clone url-do-seu-repositorio-forkado`) -* Entre na pasta do seu repositório (Para isso basta abrir o seu terminal e digitar `cd nome-do-seu-repositorio-forkado`) -* [Add outras instruções caso necessário] - -### Resumo -O que veremos na aula de hoje? -* [Slide Semana 17](https://docs.google.com/presentation/d/1axo2Dlm0Hx35ahKdZW6s-UAdG61L41QXdete8ZcQV0w/edit?usp=sharing) -* Slide Semana 18 - -* [Escolhendo uma fonte de dados](#Escolhendoumafontededados) -* Análise exploratória -* Criando uma história com dados - -## Conteúdo - -### O que é um projeto de análise de dados? -Nesse ponto vocês já aprenderam que ter dados não é a mesma coisa que ter informação. -**Dados:** são elementos brutos e não processados, como números, palavras, ou símbolos que precisam ser interpretados para se tornarem úteis. -**Informação:** é o resultado do processamento, organização e interpretação dos dados, fornecendo significado e contexto para tomar decisões ou entender situações. -Assim, dados são a matéria-prima da informação, que é o produto final após análise e interpretação dos dados. - -Por isso a importância de nós contarmos uma história estruturada a partir dos dados que conseguimos coletar. E é exatamente sobre isso, que se trata um projeto de análise de dados: **gerar informação útil a partir da construção de uma perspectiva contextualizada!** - -Então aqui vão algumas perguntas gerais que devemos nos fazer ao iniciar um projeto como esse: - -- **Conteúdo** - - O que eu quero informar? -- **Público** - - Para quem eu estou contanto essa história? Com quem vou compartilhar essa informação? -- **Transformação** - - Por que essa informação é relevante? - -Ok, as perguntas são importantes, - -MAS POR ONDE COMEÇAR?! - -### Escolhendo uma fonte de dados - -#### O caminho comum -Se você já fez algum tipo de pesquisa acadêmica (TCC, Iniciação Científica, etc) você certamente está familiarizado com esse processo, pois tudo começa com a escolha de um TEMA, seguindo para a definição do PROBLEMA, que em seguida é desdobrado em PERGUNTAS, que irão guiar a COLETA DE DADOS. - -1. Delimitação do Tema -2. Definição do Problema -3. Desenvolvimento de Perguntas -4. Coleta de Dados - -#### O caminho que iremos seguir -Porque esse projeto é um exercício e encontrar os dados ideais para responder às nossas perguntas pode se tornar um trabalho extremamente complexo... - -Nós iremos fazer um caminho um pouco diferente e a partir de um tema de interesse, escolher uma base e então pensar quais perguntas podem ser respondidas a partir dela. - -O QUE TAMBÉM É SUPER VÁLIDO! E PODE RENDER DESCOBERTAS INCRÍVEIS! - - * **Escolha do tema** - - No primeiro momento você deve escolher qual assunto gostaria de abordar. Pense em um tema atual, relevante e até onde você vai aprofundar a análise. Lembre-se, não adianta abraçar o mundo sozinho, você precisa focar e entregar o melhor resultado possível, então trabalhe na delimitação do Tema! Quais são os recortes possíveis dentro do universo escolhido? - - #Dica: Dê prioridade para algo que você goste, se interesse, tenha afinidade ou conhecimento na área. - - * **Escolha da Base de Dados** - - [Algumas opções de Bases de Dados](#base-de-dados) - -* **Definindo nossas perguntas** - - O que eu quero tentar responder? VAMOS AO [BRAINSTORM](#material-da-aula)! - -*** - -### Material da aula - -* [Slides](https://docs.google.com/presentation/d/1axo2Dlm0Hx35ahKdZW6s-UAdG61L41QXdete8ZcQV0w/edit?usp=sharing) - -### Links Úteis -- [Documentação Pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide) -- [Introdução ao Pandas](https://medium.com/tech-grupozap/introdu%C3%A7%C3%A3o-a-biblioteca-pandas-89fa8ed4fa38) -- [Análise Exploratória de Dados I](https://escoladedados.org/tutoriais/analise-exploratoria-de-dados/) -- [Análise Exploratória de Dados II](https://www.alura.com.br/artigos/analise-exploratoria) -- [Storytelling com Dados](https://medium.com/resumos-resenhas/storytelling-com-dados-resumo-fd63ebe4f704) -- [Markdown Cheastsheet](https://www.ibm.com/docs/en/watson-studio-local/1.2.3?topic=notebooks-markdown-jupyter-cheatsheet) - - #### Base de Dados -- [Kaggle](https://www.kaggle.com/datasets) -- [IBGE](https://ces.ibge.gov.br/base-de-dados/links-base-de-dados.html) -- [Brasil.io](https://brasil.io/datasets/) -- [Gov.br](https://dados.gov.br/dados/conjuntos-dados) -- [Nosso Mundo em Dados](https://ourworldindata.org/charts) - -

-Desenvolvido com :purple_heart: -

- - diff --git a/Readme.md b/Readme.md new file mode 100644 index 0000000..3aa4e73 --- /dev/null +++ b/Readme.md @@ -0,0 +1,84 @@ + +

+ +

+ + +

Navegando pela Inclusão: Internet e Computadores no Brasil

+ +

Nos últimos anos, especialmente durante e após a pandemia, o acesso à internet cresceu significativamente, assim como as oportunidades de emprego na área de tecnologia. Diante desse cenário, realizamos uma análise para evidenciar dados alarmantes sobre o impacto das vagas de emprego online no mundo, considerando que uma parte considerável da população ainda não possui acesso a computadores e internet em casa.

+ +

Os dados utilizados para alimentar nossa aplicação (atualmente em execução apenas localmente) foram extraídos de fontes como o IBGE e Kaggle, com base em informações coletadas nos anos de 2022 e 2023.

+ +

Esperamos que essa análise contribua para uma melhor compreensão do acesso à internet e suas oportunidades, sobretudo para empresas que buscam pessoas na área da tecnologia, ajudando a classe minoritária, obtendo um olhar mais humanizado sobre seu desempenho.

+ +

Com os dados em mãos procuramos extrair o máximo de informações e responder algumas das seguintes questões:

+ +
    +
  1. Qual o indice de acesso a internet no Brasil comparado a outros países?
  2. +
  3. Qual a média de acessos da população brasileira por estado da federação a internet?
  4. +
  5. Qual a média de quantos computadores existem por domicilio em cada região do Brasil?
  6. +
+ +

Ferramentas Utilizadas

+ +

Para realizar essa análise, utilizamos as seguintes ferramentas:

+ + + +

O Pandas é uma biblioteca do Python muito utilizada para análise de dados. Com ele podemos ler nossos dados, que é um arquivo XLSX (Excel), e começar a manipular, transformar e limpar, caso necessário. + + Em nosso arquivo temos as seguintes colunas: brasil e Grande Região, Existência de microcomputador ou tablet no domicílio, Ano x Situação do domicílio, etc + + +

Estrutura dos Dados

+ +Em nosso arquivo, temos as seguintes colunas: + + + + Com esses dados devidamente transformados e limpos foi criado o _dashboard_ (painel onde os gráficos são visualizados).

+ +

Foram gerados os seguintes gráficos:

+ + + + +

🌟Algumas análises de acordo com o resultado encontrado:

+ + + +

Links para visualização do projeto:

+ + + + +

Autoras do Projeto:

+ +| [
](https://github.com/TmTeixeira) | [
](https://github.com/veronica-toledo-bm) +| :---: | :---: | + diff --git a/gapminder_internet.csv b/gapminder_internet.csv new file mode 100644 index 0000000..6eb703d --- /dev/null +++ b/gapminder_internet.csv @@ -0,0 +1,214 @@ +country,incomeperperson,internetuserate,urbanrate +Afghanistan,,3.654121623,24.04 +Albania,1914.996551,44.98994696,46.72 +Algeria,2231.993335,12.50007331,65.22 +Andorra,21943.3399,81,88.92 +Angola,1381.004268,9.999953883,56.7 +Antigua and Barbuda,11894.46407,80.64545455,30.46 +Argentina,10749.41924,36.00033495,92 +Armenia,1326.741757,44.00102458,63.86 +Aruba,,41.80088889,46.78 +Australia,25249.98606,75.8956538,88.74 +Austria,26692.98411,72.73157554,67.16 +Azerbaijan,2344.896916,46.67970157,51.92 +Bahamas,19630.54055,42.98458017,83.7 +Bahrain,12505.21254,54.99280903,88.52 +Bangladesh,558.0628766,3.70000326,27.14 +Barbados,9243.587053,70.02859927,39.84 +Belarus,2737.670379,32.05214391,73.46 +Belgium,24496.04826,73.73393447,97.36 +Belize,3545.652174,12.64573333,51.7 +Benin,377.0396995,3.129961803,41.2 +Bermuda,62682.14701,84.65451409,100 +Bhutan,1324.194906,13.59887603,34.48 +Bolivia,1232.794137,20.00171014,65.58 +Bosnia and Herzegovina,2183.344867,52.00206064,47.44 +Botswana,4189.436587,5.999835575,59.58 +Brazil,4699.411262,40.650098,85.58 +Brunei,17092.46,49.98997494,74.82 +Bulgaria,2549.558474,45.98658991,71.1 +Burkina Faso,276.200413,1.4000607,19.56 +Burundi,115.3059959,2.100212706,10.4 +Cambodia,557.9475126,1.259933609,21.56 +Cameroon,713.6393027,3.999977346,56.76 +Canada,25575.35262,81.33839269,80.4 +Cape Verde,1959.844472,29.99993952,59.62 +Cayman Islands,,66,100 +Central African Rep.,239.5187494,2.300026653,38.58 +Chad,275.8842865,1.700031496,26.68 +Chile,6334.105194,45,88.44 +China,2425.471293,34.37778952,43.1 +Colombia,3233.42378,36.49987464,74.5 +Comoros,336.3687495,5.098265306,28.08 +"Congo, Dem. Rep.",103.7758572,0.720008677,33.96 +"Congo, Rep.",1253.292015,4.999875093,61.34 +Cook Islands,,, +Costa Rica,5188.900935,36.49911472,63.26 +Cote d'Ivoire,591.0679443,2.599973655,48.78 +Croatia,6338.494668,60.11970702,57.28 +Cuba,4495.046262,15.89997034,75.66 +Cyprus,15313.85935,53.02474483,69.9 +Czech Rep.,7381.312751,68.63813347,73.5 +Denmark,30532.27704,88.77025387,86.68 +Djibouti,895.3183396,6.49792351,87.3 +Dominica,6147.77961,47.28043603,73.92 +Dominican Rep.,4049.169629,39.53127426,69.02 +Ecuador,1728.020976,28.99947674,65.58 +Egypt,1975.551906,26.74002538,42.72 +El Salvador,2557.433638,15.89998203,60.7 +Equatorial Guinea,8654.536845,6.003437143,39.38 +Eritrea,131.796207,5.399666997,20.72 +Estonia,6238.537506,74.1630403,69.46 +Ethiopia,220.8912479,0.74999585,17 +Faeroe Islands,,75.2,41.42 +Fiji,2230.676374,14.83073588,52.36 +Finland,27110.73159,86.89884451,63.3 +France,22878.46657,77.49861935,77.36 +French Polynesia,,48.95732841,51.64 +Gabon,4180.765821,7.232224246,85.04 +Gambia,354.5997263,9.196775477,56.42 +Georgia,1258.762596,26.29725148,52.74 +Germany,25306.18719,82.52689791,73.64 +Ghana,358.9795398,9.549930701,50.02 +Gibraltar,,65, +Greece,13577.87989,44.57007444,61 +Greenland,20751.89342,63.84915272,83.52 +Grenada,5330.401612,33.61668288,30.84 +Guadeloupe,,, +Guam,,,93.16 +Guatemala,1860.753895,10.49994819,48.58 +Guinea,411.5014473,0.999958926,34.44 +Guinea-Bissau,161.3171371,2.450362244,29.84 +Guyana,1200.652075,29.87992146,28.38 +Haiti,371.4241975,8.370206884,46.84 +Honduras,1392.411829,11.09076463,47.88 +"Hong Kong, China",35536.07247,71.84912394,100 +Hungary,5634.003948,65.16325092,67.5 +Iceland,33945.31442,95.63811321,92.26 +India,786.7000981,7.499995878,29.54 +Indonesia,1143.831514,9.900038672,51.46 +Iran,2161.54651,13.00011072,68.46 +Iraq,736.2680538,2.471948347,66.6 +Ireland,27595.09135,69.77039441,61.34 +Israel,22275.75166,65.38778594,91.66 +Italy,18982.26929,53.7402166,68.08 +Jamaica,3665.348369,26.47722324,53.3 +Japan,39309.47886,77.63853515,66.48 +Jordan,2534.00038,38.88120159,78.42 +Kazakhstan,2481.718918,33.38212816,57.94 +Kenya,468.6960436,25.8997967,21.6 +Kiribati,760.262365,8.95914,43.84 +"Korea, Dem. Rep.",,,62.68 +"Korea, Rep.",16372.49978,82.515928,81.46 +Kuwait,,38.26023355,98.36 +Kyrgyzstan,372.728414,19.58231645,36.28 +Laos,554.8798401,6.999880342,30.88 +Latvia,5011.219456,71.51472354,68.12 +Lebanon,6746.612632,31.00437828,86.96 +Lesotho,495.7342469,3.860565398,25.46 +Liberia,155.0332312,7.000213821,60.14 +Libya,7885.468037,14.00024673,77.54 +Liechtenstein,81647.10003,80,14.32 +Lithuania,5332.238591,62.81190001,66.96 +Luxembourg,52301.58718,90.07952663,82.44 +"Macao, China",33923.31387,56.76408235,100 +"Macedonia, FYR",2221.185664,51.91418432,66.9 +Madagascar,242.6775342,1.699985145,29.52 +Malawi,184.1417966,2.259975885,18.8 +Malaysia,5184.709328,56.3000337,70.36 +Maldives,4038.857818,28.28970095,37.86 +Mali,269.8928811,2.699966448,32.18 +Malta,11066.78414,63.07799279,94.26 +Marshall Islands,2437.282445,,71.08 +Martinique,,, +Mauritania,609.1312059,2.999803179,41 +Mauritius,5182.143721,28.7318835,42.48 +Mexico,6105.280743,31.05001287,77.2 +"Micronesia, Fed. Sts.",2146.358593,20.01153153,22.54 +Moldova,595.8745345,40.1222347,41.76 +Monaco,105147.4377,,100 +Mongolia,772.9333448,12.90000468,57.18 +Montenegro,2222.335052,51.95803797,60.18 +Morocco,1844.351028,49.00063184,56.02 +Mozambique,389.7636343,4.170136385,36.84 +Myanmar,,,32.58 +Namibia,2667.24671,6.500822821,36.84 +Nauru,,, +Nepal,268.2594495,7.930096349,17.24 +Netherlands,26551.84424,90.70355509,81.82 +Netherlands Antilles,,,92.68 +New Caledonia,,,64.78 +New Zealand,14778.16393,83.00258425,86.56 +Nicaragua,948.355952,9.998554154,56.74 +Niger,180.083376,0.829997485,16.54 +Nigeria,544.5994767,28.43003266,48.36 +Niue,,, +Norway,39972.35277,93.27750793,77.48 +Oman,11191.81101,61.98741286,71.62 +Pakistan,668.547943,16.78003702,36.16 +Palau,6243.571318,,80.46 +Panama,5900.616944,42.74781206,73.2 +Papua New Guinea,744.2394132,1.280049647,12.54 +Paraguay,1621.177078,19.80168119,60.3 +Peru,3180.430612,34.30060399,71.4 +Philippines,1383.401869,24.99994585,64.92 +Poland,6575.745044,62.47123013,61.32 +Portugal,11744.83417,51.2804784,59.46 +Puerto Rico,15822.11214,42.69233477,98.32 +Qatar,33931.83208,81.59039727,95.64 +Reunion,,, +Romania,2636.7878,40.02009488,54.24 +Russia,2923.144355,43.36649772,72.84 +Rwanda,338.2663912,13.00000612,18.34 +Saint Kitts and Nevis,9175.796015,76.58753846,32.32 +Saint Lucia,5248.582321,40.06137931,27.84 +Saint Vincent and the Grenadines,4885.046701,,47.04 +Samoa,1784.071284,6.965038043,23 +San Marino,31993.20069,,94.22 +Sao Tome and Principe,,18.79511364,60.56 +Saudi Arabia,9425.32587,41.00012846,82.42 +Senegal,561.7085848,15.99964999,42.38 +Serbia,1194.711433,43.05506706,52.04 +Serbia and Montenegro,,, +Seychelles,8614.120219,40.77285057,54.34 +Sierra Leone,268.3317903,,37.76 +Singapore,32535.83251,71.13170731,100 +Slovak Republic,8445.526689,79.88977734,56.56 +Slovenia,12729.4544,69.33997072,48.6 +Solomon Islands,1144.102193,5.001375465,17.96 +Somalia,,,36.52 +South Africa,3745.649852,12.33489326,60.74 +Spain,15461.75837,65.80855367,77.12 +Sri Lanka,1295.742686,11.99997066,15.1 +Sudan,523.9501515,,43.44 +Suriname,2668.020519,31.5680976,74.92 +Swaziland,1810.230533,9.007735909,24.94 +Sweden,32292.48298,90.01619002,84.54 +Switzerland,37662.75125,82.16665988,73.48 +Syria,1525.780116,20.66315568,54.22 +Taiwan,,, +Tajikistan,279.1804526,11.54939051,26.46 +Tanzania,456.3857117,11.00005544,25.52 +Thailand,2712.517199,21.20007177,33.32 +Timor-Leste,369.5729537,0.210066326,27.3 +Togo,285.2244493,5.379819715,42 +Tonga,2025.282665,12.00669231,24.78 +Trinidad and Tobago,10480.8172,48.51681767,13.22 +Tunisia,3164.927693,36.56255296,66.5 +Turkey,5348.597192,39.82017789,68.68 +Turkmenistan,2062.125152,2.199997818,48.62 +Tuvalu,1714.94289,25, +Uganda,377.4211133,12.50025543,12.98 +Ukraine,1036.830725,44.58535469,67.98 +United Arab Emirates,21087.39412,77.99678115,77.88 +United Kingdom,28033.48928,84.73170475,89.94 +United States,37491.17952,74.247572,81.7 +Uruguay,9106.327234,47.86746863,92.3 +Uzbekistan,952.8272608,19.44502055,36.82 +Vanuatu,1543.956457,7.988366667,24.76 +Venezuela,5528.363114,35.85043696,93.32 +Vietnam,722.8075588,27.85182156,27.84 +West Bank and Gaza,,36.42277179,71.9 +"Yemen, Rep.",610.3573673,12.34975046,30.64 +Zambia,432.226337,10.12498646,35.42 +Zimbabwe,320.7718899,11.50041532,37.34 diff --git a/image.png b/image.png new file mode 100644 index 0000000..d5c0c59 Binary files /dev/null and b/image.png differ diff --git a/material/analise-exploratoria/analise.ipynb b/material/analise-exploratoria/analise.ipynb deleted file mode 100644 index 1cce302..0000000 --- a/material/analise-exploratoria/analise.ipynb +++ /dev/null @@ -1,22 +0,0 @@ -{ - "cells": [ - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "#Utilizar as bibliotecas de Python aprendidas em aula (pandas, matplotlib, seaborn, etc);\n", - "#Trazer um notebook estruturado e organizado com o uso de Markdown. O uso de textos no notebook é altamente incentivado);\n", - "#Mínimo de 3 visualizações que ajudem a sumarizar os resultados da sua análise." - ] - } - ], - "metadata": { - "language_info": { - "name": "python" - } - }, - "nbformat": 4, - "nbformat_minor": 2 -} diff --git a/material/datasets/arquivo.csv b/material/datasets/arquivo.csv deleted file mode 100644 index e69de29..0000000 diff --git a/material/nome-projeto.md b/material/nome-projeto.md deleted file mode 100644 index 55c478b..0000000 --- a/material/nome-projeto.md +++ /dev/null @@ -1,12 +0,0 @@ -## Contexto -Esse projeto consiste na análise de xxxxxx. O objetivo desse projeto é xxxxxxxxx. -Para desenvolver esse projeto, desenvolvemos uma análise exploratória de dados xxxxxxx e utilizamos o Tableau para gerar a visualização das nossas análises. - -### Objetivos gerais e específicos do projeto - -### Bases escolhidas - -- Base 1 (fonte) -- Base 2 (fonte) - -## Ferramentas utilizadas \ No newline at end of file diff --git a/s17_Projeto_Final_Tamy_Vero.ipynb b/s17_Projeto_Final_Tamy_Vero.ipynb new file mode 100644 index 0000000..4364176 --- /dev/null +++ b/s17_Projeto_Final_Tamy_Vero.ipynb @@ -0,0 +1,3089 @@ +{ + "nbformat": 4, + "nbformat_minor": 0, + "metadata": { + "colab": { + "provenance": [], + "collapsed_sections": [ + "NG6IEh8AwcX0", + "bdETNLverP0_" + ], + "include_colab_link": true + }, + "kernelspec": { + "name": "python3", + "display_name": "Python 3" + }, + "language_info": { + "name": "python" + } + }, + "cells": [ + { + "cell_type": "markdown", + "metadata": { + "id": "view-in-github", + "colab_type": "text" + }, + "source": [ + "\"Open" + ] + }, + { + "cell_type": "markdown", + "source": [ + "# **PROJETO FINAL**\n", + "\n", + "# **TEMA: \"Como acesso populacional a internet se relaciona as oportunidades disponiveis no mercado de tecnologia\"**\n", + "\n", + "\n", + "![ai-generated-8671002_1280.jpg]()\n", + "## BASES DE DADOS\n", + "\n", + "1. https://www.kaggle.com/datasets/sansuthi/gapminder-internet (acesso a internet no mundo em 2022) ✅\n", + "\n", + "2. https://sidra.ibge.gov.br/tabela/7302 (base de dados do IBGE sobre Domicílios e Moradores, por situação do domicílio e existência de televisão no domicílio 2022 e 2023 - foi baixado o csv, no drive: https://docs.google.com/spreadsheets/d/1n9T3-S5f5--G37962E7JQ-4doz7nvwV4/edit?usp=sharing&ouid=104113402736912319813&rtpof=true&sd=true) OBS: LINK ONDE FOI BUSCADO O CSV https://www.ibge.gov.br/estatisticas/sociais/trabalho/17270-pnad-continua.html?edicao=38243&t=resultados\n", + "\n", + "\n", + "3. https://www.kaggle.com/datasets/datahackers/state-of-data-brazil-2023/code (essa aqui usar para analisar o mercado de trabalho e o perfil das pessoas que conseguiram vagas em tech em 2023, verificar de qual estado e classe social elas são, se tem mais homens ou mulheres e a faixa de idade) ✅\n" + ], + "metadata": { + "id": "EFraJgVQX9Zq" + } + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": { + "id": "w4h9zFI7X7kJ" + }, + "outputs": [], + "source": [ + "import pandas as pd\n", + "import numpy as np\n", + "import matplotlib.pyplot as plt" + ] + }, + { + "cell_type": "markdown", + "source": [ + "\n", + "Para entender melhor os dados que temos, a distribuição deles e seus tipos, vamos verificar suas colunas e tamanho. Depois vamos limpar o que achamos necessário, como retirar linhas duplicadas ou deletar colunas que não nos ajudariam durante nossa análise." + ], + "metadata": { + "id": "wGKD3A3iJ81s" + } + }, + { + "cell_type": "markdown", + "source": [ + "## IBGE" + ], + "metadata": { + "id": "NG6IEh8AwcX0" + } + }, + { + "cell_type": "code", + "source": [ + "# A base de dados do IBGE \"tabela7302\" estava em xlsx, para utilizar ele, subimos o arquivo no colab e convertemos em csv. Esta tabela é sobre a quantidade de notebooks e tablets no Brasil por domicilio.\n", + "\n", + "# Carregue o arquivo XLSX\n", + "df_dispositivo_per_capto = pd.read_excel('tabela7302_nv.xlsx')\n", + "\n", + "# Salve como CSV\n", + "df_dispositivo_per_capto.to_csv('tabela7302_nv.csv', index=False)\n" + ], + "metadata": { + "id": "i1hd4b8jwruR" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "# Base de Dados do IBGE - Dispositivo por Região do Brasil\n", + "df_dispositivo_per_capto = pd.read_csv('tabela7302_nv.csv')\n", + "\n", + "# Visualização do numero de linhas e colunas do dataframe\n", + "num_linhas = df_dispositivo_per_capto.shape[0]\n", + "num_colunas = df_dispositivo_per_capto.shape[1]\n", + "colunas = df_dispositivo_per_capto.columns.values\n", + "\n", + "print(f\"Número de linhas: {num_linhas} \\n\"\n", + " f\"Número de colunas: {num_colunas} \\n\"\n", + " f\"Colunas: {colunas} \\n\")" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "eSvsF3F4J3z2", + "outputId": "bc5ae328-eaf1-4aef-e937-ca99023b7ba6", + "collapsed": true + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Número de linhas: 37 \n", + "Número de colunas: 8 \n", + "Colunas: ['Unnamed: 0' 'Unnamed: 1' '2022' 'Unnamed: 3' 'Unnamed: 4' '2023'\n", + " 'Unnamed: 6' 'Unnamed: 7'] \n", + "\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Visualização das dez primeiras linhas do dataframe IBGE\n", + "df_dispositivo_per_capto.head(10)\n" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 415 + }, + "id": "RZLyLxVsKIi2", + "outputId": "3ea8c925-b9e6-4bec-d716-b454e021c4bc", + "collapsed": true + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + " Unnamed: 0 Unnamed: 1 \\\n", + "0 Brasil e Região Existência de microcomputador ou tablet no dom... \n", + "1 Brasil Total \n", + "2 Brasil Havia microcomputador ou tablet \n", + "3 Brasil Havia microcomputador \n", + "4 Brasil Havia tablet \n", + "5 Brasil Havia microcomputador e tablet \n", + "6 Brasil Não havia microcomputador nem tablet \n", + "7 Norte Total \n", + "8 Norte Havia microcomputador ou tablet \n", + "9 Norte Havia microcomputador \n", + "\n", + " 2022 Unnamed: 3 Unnamed: 4 2023 Unnamed: 6 Unnamed: 7 \n", + "0 Total_2022 Urbana_2022 Rural_2022 Total_2023 Urbana_2023 Rural_2023 \n", + "1 75323 65831 9493 78322 68852 9470 \n", + "2 31887 30494 1392 32118 30810 1308 \n", + "3 30271 29031 1240 30561 29397 1164 \n", + "4 8090 7795 295 8118 7850 268 \n", + "5 6475 6332 143 6560 6436 124 \n", + "6 43437 35336 8100 46204 38042 8162 \n", + "7 5739 4592 1148 6024 4873 1151 \n", + "8 1716 1627 89 1766 1675 92 \n", + "9 1606 1528 78 1672 1589 83 " + ], + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
Unnamed: 0Unnamed: 12022Unnamed: 3Unnamed: 42023Unnamed: 6Unnamed: 7
0Brasil e RegiãoExistência de microcomputador ou tablet no dom...Total_2022Urbana_2022Rural_2022Total_2023Urbana_2023Rural_2023
1BrasilTotal7532365831949378322688529470
2BrasilHavia microcomputador ou tablet3188730494139232118308101308
3BrasilHavia microcomputador3027129031124030561293971164
4BrasilHavia tablet8090779529581187850268
5BrasilHavia microcomputador e tablet6475633214365606436124
6BrasilNão havia microcomputador nem tablet4343735336810046204380428162
7NorteTotal573945921148602448731151
8NorteHavia microcomputador ou tablet17161627891766167592
9NorteHavia microcomputador16061528781672158983
\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "application/vnd.google.colaboratory.intrinsic+json": { + "type": "dataframe", + "variable_name": "df_dispositivo_por_regiao", + "summary": "{\n \"name\": \"df_dispositivo_por_regiao\",\n \"rows\": 37,\n \"fields\": [\n {\n \"column\": \"Unnamed: 0\",\n \"properties\": {\n \"dtype\": \"category\",\n \"num_unique_values\": 7,\n \"samples\": [\n \"Brasil e Regi\\u00e3o\",\n \"Brasil\",\n \"Sul\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Unnamed: 1\",\n \"properties\": {\n \"dtype\": \"category\",\n \"num_unique_values\": 7,\n \"samples\": [\n \"Exist\\u00eancia de microcomputador ou tablet no domic\\u00edlio\",\n \"Total\",\n \"Havia microcomputador e tablet\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"2022\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 37,\n \"samples\": [\n \"955\",\n \"19632\",\n \"8090\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Unnamed: 3\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 37,\n \"samples\": [\n \"920\",\n \"15164\",\n \"7795\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Unnamed: 4\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 37,\n \"samples\": [\n \"35\",\n \"4468\",\n \"295\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"2023\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 37,\n \"samples\": [\n \"952\",\n \"20691\",\n \"8118\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Unnamed: 6\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 37,\n \"samples\": [\n \"922\",\n \"16082\",\n \"7850\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Unnamed: 7\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"370\",\n \"4609\",\n \"390\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}" + } + }, + "metadata": {}, + "execution_count": 41 + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Quantidade de nulos por coluna IBGE\n", + "print(\"Valores nulos por coluna do dataframe:\")\n", + "print(df_dispositivo_por_regiao.isnull().sum())" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "xKSBHwJ1KMvu", + "outputId": "d1192968-1311-41b6-9c64-20288d992f1f", + "collapsed": true + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Valores nulos por coluna do dataframe:\n", + "Unnamed: 0 0\n", + "Unnamed: 1 0\n", + "2022 0\n", + "Unnamed: 3 0\n", + "Unnamed: 4 0\n", + "2023 0\n", + "Unnamed: 6 0\n", + "Unnamed: 7 0\n", + "dtype: int64\n" + ] + } + ] + }, + { + "cell_type": "markdown", + "source": [ + "## GAPMINDER" + ], + "metadata": { + "id": "PqnKfTtewhmd" + } + }, + { + "cell_type": "code", + "source": [ + "# Nomeando dataframe da ONG GAPMINDER\n", + "df_internet= pd.read_csv('gapminder_internet.csv', encoding='latin1')\n", + "\n", + "# Visualização das dez primeiras linhas do dataframe\n", + "df_internet.head(10)" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 363 + }, + "id": "27fe8QUDgSRV", + "outputId": "09770a6b-0bce-4fbf-ae24-27d719c5ec6a" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + " country incomeperperson internetuserate urbanrate\n", + "0 Afghanistan NaN 3.654122 24.04\n", + "1 Albania 1914.996551 44.989947 46.72\n", + "2 Algeria 2231.993335 12.500073 65.22\n", + "3 Andorra 21943.339900 81.000000 88.92\n", + "4 Angola 1381.004268 9.999954 56.70\n", + "5 Antigua and Barbuda 11894.464070 80.645455 30.46\n", + "6 Argentina 10749.419240 36.000335 92.00\n", + "7 Armenia 1326.741757 44.001025 63.86\n", + "8 Aruba NaN 41.800889 46.78\n", + "9 Australia 25249.986060 75.895654 88.74" + ], + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
countryincomeperpersoninternetuserateurbanrate
0AfghanistanNaN3.65412224.04
1Albania1914.99655144.98994746.72
2Algeria2231.99333512.50007365.22
3Andorra21943.33990081.00000088.92
4Angola1381.0042689.99995456.70
5Antigua and Barbuda11894.46407080.64545530.46
6Argentina10749.41924036.00033592.00
7Armenia1326.74175744.00102563.86
8ArubaNaN41.80088946.78
9Australia25249.98606075.89565488.74
\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "application/vnd.google.colaboratory.intrinsic+json": { + "type": "dataframe", + "variable_name": "df_internet", + "summary": "{\n \"name\": \"df_internet\",\n \"rows\": 213,\n \"fields\": [\n {\n \"column\": \"country\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 213,\n \"samples\": [\n \"Australia\",\n \"Turkmenistan\",\n \"Gabon\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"incomeperperson\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 14262.809082891317,\n \"min\": 103.7758572,\n \"max\": 105147.4377,\n \"num_unique_values\": 190,\n \"samples\": [\n 2062.125152,\n 28033.48928,\n 5182.143721\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"internetuserate\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 27.780284580956998,\n \"min\": 0.210066326,\n \"max\": 95.63811321,\n \"num_unique_values\": 192,\n \"samples\": [\n 60.11970702,\n 1.280049647,\n 2.450362244\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"urbanrate\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 23.844932647298503,\n \"min\": 10.4,\n \"max\": 100.0,\n \"num_unique_values\": 194,\n \"samples\": [\n 71.4,\n 73.46,\n 52.04\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}" + } + }, + "metadata": {}, + "execution_count": 67 + } + ] + }, + { + "cell_type": "markdown", + "source": [ + "## Mercado de Trabalho" + ], + "metadata": { + "id": "T0bebIQDw-PE" + } + }, + { + "cell_type": "code", + "source": [ + "df_mercado_tech= pd.read_csv('State_data_BR_2023.csv', encoding='latin1')" + ], + "metadata": { + "id": "h3fOA9aSxC_v" + }, + "execution_count": 2, + "outputs": [] + }, + { + "cell_type": "markdown", + "source": [ + "#Etapa: Limpeza dos Dados\n", + "\n", + "Agora que temos algumas informações sobre nosso dataframe, podemos aplicar a limpeza.\n", + "\n", + "Para não prejudicar os dados originais e termos mais liberdade ao modifica-los, criamos um dataframe para manipulação, utilizando a função `.copy()`.\n", + "\n" + ], + "metadata": { + "id": "flbjbvy8KTf1" + } + }, + { + "cell_type": "markdown", + "source": [ + "##**IBGE**\n", + "\n" + ], + "metadata": { + "id": "bdETNLverP0_" + } + }, + { + "cell_type": "code", + "source": [ + "# Criação da copia do dataframe - IBGE\n", + "dataframe_copia = df_dispositivo_per_capto.copy()\n", + "\n", + "# Exclusão de linhas duplicadas\n", + "dataframe_copia.drop_duplicates(inplace=True)\n", + "print(\"Linhas duplicadas removidas!\")\n" + ], + "metadata": { + "id": "Z4pqI8vxKUvn", + "colab": { + "base_uri": "https://localhost:8080/" + }, + "outputId": "133ede18-98ac-46a7-df71-6ace2ffbe3b3" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Linhas duplicadas removidas!\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Renomeando as colunas existentes - IBGE\n", + "dataframe_renomeado = dataframe_copia.rename(columns={'Unnamed: 0': 'Localidade', 'Unnamed: 1': 'Dispositivo', '2022': 'Total_2022', 'Unnamed: 3': 'Zonaurbana_2022', 'Unnamed: 4': 'Zonarural_2022', '2023': 'Total_2023', 'Unnamed: 6': 'Zonaurbana_2023', 'Unnamed: 7': 'Zonarural_2023' })\n", + "\n", + "colunas_atualizadas = dataframe_renomeado.columns.values\n", + "\n", + "print(f\"Colunas Atualizadas: {colunas_atualizadas}\")" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "dE2meVODKphL", + "outputId": "99e6a0d9-57e0-4967-a4e6-84dd18cb3300" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Colunas Atualizadas: ['Localidade' 'Dispositivo' 'Total_2022' 'Zonaurbana_2022'\n", + " 'Zonarural_2022' 'Total_2023' 'Zonaurbana_2023' 'Zonarural_2023']\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "#Exclusão de linha \"do índice 0\", onde supostamente estão nomeadas as colunas - IBGE\n", + "dataframe_renomeado.drop(0, axis=0)" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 1000 + }, + "id": "K-UTh0G9K5HR", + "outputId": "4b4fa47f-f472-4675-94bc-19f7b4802109" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + " Localidade Dispositivo Total_2022 \\\n", + "1 Brasil Total 75323 \n", + "2 Brasil Havia microcomputador ou tablet 31887 \n", + "3 Brasil Havia microcomputador 30271 \n", + "4 Brasil Havia tablet 8090 \n", + "5 Brasil Havia microcomputador e tablet 6475 \n", + "6 Brasil Não havia microcomputador nem tablet 43437 \n", + "7 Norte Total 5739 \n", + "8 Norte Havia microcomputador ou tablet 1716 \n", + "9 Norte Havia microcomputador 1606 \n", + "10 Norte Havia tablet 381 \n", + "11 Norte Havia microcomputador e tablet 271 \n", + "12 Norte Não havia microcomputador nem tablet 4024 \n", + "13 Nordeste Total 19632 \n", + "14 Nordeste Havia microcomputador ou tablet 5481 \n", + "15 Nordeste Havia microcomputador 4989 \n", + "16 Nordeste Havia tablet 1447 \n", + "17 Nordeste Havia microcomputador e tablet 955 \n", + "18 Nordeste Não havia microcomputador nem tablet 14151 \n", + "19 Sudeste Total 32761 \n", + "20 Sudeste Havia microcomputador ou tablet 16368 \n", + "21 Sudeste Havia microcomputador 15664 \n", + "22 Sudeste Havia tablet 4358 \n", + "23 Sudeste Havia microcomputador e tablet 3653 \n", + "24 Sudeste Não havia microcomputador nem tablet 16392 \n", + "25 Sul Total 11271 \n", + "26 Sul Havia microcomputador ou tablet 5608 \n", + "27 Sul Havia microcomputador 5404 \n", + "28 Sul Havia tablet 1267 \n", + "29 Sul Havia microcomputador e tablet 1064 \n", + "30 Sul Não havia microcomputador nem tablet 5664 \n", + "31 Centro-Oeste Total 5920 \n", + "32 Centro-Oeste Havia microcomputador ou tablet 2714 \n", + "33 Centro-Oeste Havia microcomputador 2607 \n", + "34 Centro-Oeste Havia tablet 637 \n", + "35 Centro-Oeste Havia microcomputador e tablet 531 \n", + "36 Centro-Oeste Não havia microcomputador nem tablet 3206 \n", + "\n", + " Zonaurbana_2022 Zonarural_2022 Total_2023 Zonaurbana_2023 Zonarural_2023 \n", + "1 65831 9493 78322 68852 9470 \n", + "2 30494 1392 32118 30810 1308 \n", + "3 29031 1240 30561 29397 1164 \n", + "4 7795 295 8118 7850 268 \n", + "5 6332 143 6560 6436 124 \n", + "6 35336 8100 46204 38042 8162 \n", + "7 4592 1148 6024 4873 1151 \n", + "8 1627 89 1766 1675 92 \n", + "9 1528 78 1672 1589 83 \n", + "10 363 17 411 393 18 \n", + "11 265 6 316 307 9 \n", + "12 2965 1059 4258 3198 1059 \n", + "13 15164 4468 20691 16082 4609 \n", + "14 5100 381 5448 5074 374 \n", + "15 4684 305 4961 4657 304 \n", + "16 1337 110 1438 1339 99 \n", + "17 920 35 952 922 29 \n", + "18 10064 4087 15244 11009 4235 \n", + "19 30793 1968 33792 31897 1895 \n", + "20 15979 389 16547 16196 351 \n", + "21 15310 353 15871 15552 319 \n", + "22 4270 88 4321 4255 67 \n", + "23 3601 52 3646 3611 35 \n", + "24 14814 1579 17246 15701 1544 \n", + "25 9836 1435 11584 10241 1343 \n", + "26 5176 432 5600 5210 390 \n", + "27 4993 412 5408 5041 367 \n", + "28 1210 58 1267 1204 63 \n", + "29 1026 38 1075 1036 40 \n", + "30 4660 1003 5984 5031 953 \n", + "31 5446 474 6230 5758 472 \n", + "32 2612 101 2757 2656 102 \n", + "33 2516 92 2648 2557 92 \n", + "34 616 22 680 659 21 \n", + "35 519 12 571 560 11 \n", + "36 2833 373 3473 3103 370 " + ], + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
LocalidadeDispositivoTotal_2022Zonaurbana_2022Zonarural_2022Total_2023Zonaurbana_2023Zonarural_2023
1BrasilTotal7532365831949378322688529470
2BrasilHavia microcomputador ou tablet3188730494139232118308101308
3BrasilHavia microcomputador3027129031124030561293971164
4BrasilHavia tablet8090779529581187850268
5BrasilHavia microcomputador e tablet6475633214365606436124
6BrasilNão havia microcomputador nem tablet4343735336810046204380428162
7NorteTotal573945921148602448731151
8NorteHavia microcomputador ou tablet17161627891766167592
9NorteHavia microcomputador16061528781672158983
10NorteHavia tablet3813631741139318
11NorteHavia microcomputador e tablet27126563163079
12NorteNão havia microcomputador nem tablet402429651059425831981059
13NordesteTotal1963215164446820691160824609
14NordesteHavia microcomputador ou tablet5481510038154485074374
15NordesteHavia microcomputador4989468430549614657304
16NordesteHavia tablet144713371101438133999
17NordesteHavia microcomputador e tablet9559203595292229
18NordesteNão havia microcomputador nem tablet1415110064408715244110094235
19SudesteTotal3276130793196833792318971895
20SudesteHavia microcomputador ou tablet16368159793891654716196351
21SudesteHavia microcomputador15664153103531587115552319
22SudesteHavia tablet43584270884321425567
23SudesteHavia microcomputador e tablet36533601523646361135
24SudesteNão havia microcomputador nem tablet1639214814157917246157011544
25SulTotal112719836143511584102411343
26SulHavia microcomputador ou tablet5608517643256005210390
27SulHavia microcomputador5404499341254085041367
28SulHavia tablet12671210581267120463
29SulHavia microcomputador e tablet10641026381075103640
30SulNão havia microcomputador nem tablet56644660100359845031953
31Centro-OesteTotal5920544647462305758472
32Centro-OesteHavia microcomputador ou tablet2714261210127572656102
33Centro-OesteHavia microcomputador26072516922648255792
34Centro-OesteHavia tablet6376162268065921
35Centro-OesteHavia microcomputador e tablet5315191257156011
36Centro-OesteNão havia microcomputador nem tablet3206283337334733103370
\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "application/vnd.google.colaboratory.intrinsic+json": { + "type": "dataframe", + "summary": "{\n \"name\": \"dataframe_renomeado\",\n \"rows\": 36,\n \"fields\": [\n {\n \"column\": \"Localidade\",\n \"properties\": {\n \"dtype\": \"category\",\n \"num_unique_values\": 6,\n \"samples\": [\n \"Brasil\",\n \"Norte\",\n \"Centro-Oeste\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Dispositivo\",\n \"properties\": {\n \"dtype\": \"category\",\n \"num_unique_values\": 6,\n \"samples\": [\n \"Total\",\n \"Havia microcomputador ou tablet\",\n \"N\\u00e3o havia microcomputador nem tablet\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Total_2022\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"3206\",\n \"5481\",\n \"5404\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Zonaurbana_2022\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"2833\",\n \"5100\",\n \"4993\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Zonarural_2022\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"373\",\n \"381\",\n \"412\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Total_2023\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"3473\",\n \"5448\",\n \"5408\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Zonaurbana_2023\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"3103\",\n \"5074\",\n \"5041\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Zonarural_2023\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 35,\n \"samples\": [\n \"367\",\n \"374\",\n \"1343\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}" + } + }, + "metadata": {}, + "execution_count": 62 + } + ] + }, + { + "cell_type": "markdown", + "source": [ + "##**GAPMINDER**" + ], + "metadata": { + "id": "h6-29WHQrUwz" + } + }, + { + "cell_type": "code", + "source": [ + "# Criação da copia do dataframe - GAPMINDER\n", + "dataframe_copia = df_internet.copy()" + ], + "metadata": { + "id": "_WgQcBh0yNcc" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "# Renomeando as colunas existentes - GAPMINDER\n", + "df_internet_renomeado = df_internet.rename(columns={'country': 'País', 'incomeperperson': 'Renda_per_Capta', 'internetuserate': 'Taxa_Acesso_Internet', 'urbanrate': 'Taxa_Urbanização'})\n", + "\n", + "colunas_atualizadas = df_internet_renomeado.columns.values\n", + "\n", + "print(f\"Colunas Atualizadas: {colunas_atualizadas}\")" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "ozDwKlCfkFbp", + "outputId": "a6ecce86-a2e3-4778-a9d0-d5ff5b94c919" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Colunas Atualizadas: ['País' 'Renda_per_Capta' 'Taxa_Acesso_Internet' 'Taxa_Urbanização']\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "#contando a quantidade de valores nulos - GAPMINDER\n", + "df_internet_renomeado.isnull().sum()" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 210 + }, + "id": "3H7a6efYnJIz", + "outputId": "a0479fb8-e220-44a0-c663-b6d897755cf3" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "País 0\n", + "Renda_per_Capta 23\n", + "Taxa_Acesso_Internet 21\n", + "Taxa_Urbanização 10\n", + "dtype: int64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
0
País0
Renda_per_Capta23
Taxa_Acesso_Internet21
Taxa_Urbanização10
\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 81 + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Exclusão de Nulos - GAPMINDER\n", + "df_internet_renomeado.dropna(inplace=True)\n", + "print(\"Valores nulos removidos!\")" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "cTicGSa3pn9X", + "outputId": "0b954af6-6ae6-423e-d6b6-3b58b8944dbe" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Valores nulos removidos!\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Exclusão de linhas duplicadas - GAPMINDER\n", + "df_internet_renomeado.drop_duplicates(inplace=True)\n", + "print(f\"Linhas duplicadas: {df_internet_renomeado.duplicated().sum()}\")" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "Ae9x0yvUplNt", + "outputId": "461fce7c-24dd-4ce1-f4ef-02e95bee1983" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Linhas duplicadas: 0\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "df_internet_renomeado" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 424 + }, + "id": "YiKrBJdjqIab", + "outputId": "26169374-c97d-4691-f09b-b6b12282474d" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + " País Renda_per_Capta Taxa_Acesso_Internet \\\n", + "1 Albania 1914.996551 44.989947 \n", + "2 Algeria 2231.993335 12.500073 \n", + "3 Andorra 21943.339900 81.000000 \n", + "4 Angola 1381.004268 9.999954 \n", + "5 Antigua and Barbuda 11894.464070 80.645455 \n", + ".. ... ... ... \n", + "207 Venezuela 5528.363114 35.850437 \n", + "208 Vietnam 722.807559 27.851822 \n", + "210 Yemen, Rep. 610.357367 12.349750 \n", + "211 Zambia 432.226337 10.124986 \n", + "212 Zimbabwe 320.771890 11.500415 \n", + "\n", + " Taxa_Urbanização \n", + "1 46.72 \n", + "2 65.22 \n", + "3 88.92 \n", + "4 56.70 \n", + "5 30.46 \n", + ".. ... \n", + "207 93.32 \n", + "208 27.84 \n", + "210 30.64 \n", + "211 35.42 \n", + "212 37.34 \n", + "\n", + "[182 rows x 4 columns]" + ], + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
PaísRenda_per_CaptaTaxa_Acesso_InternetTaxa_Urbanização
1Albania1914.99655144.98994746.72
2Algeria2231.99333512.50007365.22
3Andorra21943.33990081.00000088.92
4Angola1381.0042689.99995456.70
5Antigua and Barbuda11894.46407080.64545530.46
...............
207Venezuela5528.36311435.85043793.32
208Vietnam722.80755927.85182227.84
210Yemen, Rep.610.35736712.34975030.64
211Zambia432.22633710.12498635.42
212Zimbabwe320.77189011.50041537.34
\n", + "

182 rows × 4 columns

\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + " \n", + " \n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "application/vnd.google.colaboratory.intrinsic+json": { + "type": "dataframe", + "variable_name": "df_internet_renomeado", + "summary": "{\n \"name\": \"df_internet_renomeado\",\n \"rows\": 182,\n \"fields\": [\n {\n \"column\": \"Pa\\u00eds\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 182,\n \"samples\": [\n \"Bhutan\",\n \"Croatia\",\n \"Suriname\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Renda_per_Capta\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 12509.740084966688,\n \"min\": 103.7758572,\n \"max\": 81647.10003,\n \"num_unique_values\": 182,\n \"samples\": [\n 1324.194906,\n 6338.494668,\n 2668.020519\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Taxa_Acesso_Internet\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 28.047809543738378,\n \"min\": 0.210066326,\n \"max\": 95.63811321,\n \"num_unique_values\": 182,\n \"samples\": [\n 13.59887603,\n 60.11970702,\n 31.5680976\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Taxa_Urbaniza\\u00e7\\u00e3o\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 23.629312953873434,\n \"min\": 10.4,\n \"max\": 100.0,\n \"num_unique_values\": 175,\n \"samples\": [\n 27.3,\n 60.74,\n 70.36\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}" + } + }, + "metadata": {}, + "execution_count": 84 + } + ] + }, + { + "cell_type": "markdown", + "source": [ + "## **MERCADO DE TRABALHO TECH**" + ], + "metadata": { + "id": "WTSSWJnTsXVn" + } + }, + { + "cell_type": "code", + "source": [ + "# Criação da copia do dataframe - STATE\n", + "data_copia = df_mercado_tech.copy()" + ], + "metadata": { + "id": "HIgldSWByqu_" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "code", + "source": [ + "df_mercado_tech.info()\n" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "476K1T-MtaS1", + "outputId": "243f45c1-e28b-4340-e3c2-90a341084ab7" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "\n", + "RangeIndex: 5293 entries, 0 to 5292\n", + "Columns: 399 entries, ('P0', 'id') to ('P8_d_12 ', 'Treinando e aplicando LLM's para solucionar problemas de negócio.')\n", + "dtypes: float64(328), int64(2), object(69)\n", + "memory usage: 16.1+ MB\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "#contando a quantidade de valores nulos - STATE\n", + "df_mercado_tech.isnull().sum()" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 458 + }, + "id": "yyiWNikp35yz", + "outputId": "3004d173-3151-46b3-e7b4-15022e58c1e9" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "('P0', 'id') 0\n", + "('P1_a ', 'Idade') 0\n", + "('P1_a_1 ', 'Faixa idade') 0\n", + "('P1_b ', 'Genero') 0\n", + "('P1_c ', 'Cor/raca/etnia') 0\n", + " ... \n", + "('P8_d_8 ', 'Utilizando ferramentas avançadas de estatística como SAS, SPSS, Stata etc, para realizar análises.') 4545\n", + "('P8_d_9 ', 'Criando e dando manutenção em ETLs, DAGs e automações de pipelines de dados.') 4545\n", + "('P8_d_10 ', 'Criando e gerenciando soluções de Feature Store e cultura de MLOps.') 4545\n", + "('P8_d_11 ', 'Criando e mantendo a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)') 4545\n", + "('P8_d_12 ', 'Treinando e aplicando LLM's para solucionar problemas de negócio.') 4545\n", + "Length: 399, dtype: int64" + ], + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
0
('P0', 'id')0
('P1_a ', 'Idade')0
('P1_a_1 ', 'Faixa idade')0
('P1_b ', 'Genero')0
('P1_c ', 'Cor/raca/etnia')0
......
('P8_d_8 ', 'Utilizando ferramentas avançadas de estatística como SAS, SPSS, Stata etc, para realizar análises.')4545
('P8_d_9 ', 'Criando e dando manutenção em ETLs, DAGs e automações de pipelines de dados.')4545
('P8_d_10 ', 'Criando e gerenciando soluções de Feature Store e cultura de MLOps.')4545
('P8_d_11 ', 'Criando e mantendo a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)')4545
('P8_d_12 ', 'Treinando e aplicando LLM's para solucionar problemas de negócio.')4545
\n", + "

399 rows × 1 columns

\n", + "

" + ] + }, + "metadata": {}, + "execution_count": 85 + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Exclusão de Nulos - STATE\n", + "df_mercado_tech.dropna(inplace=True)\n", + "print(\"Valores nulos removidos!\")" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "Sdg48tvG4Kx2", + "outputId": "6e3c9d6d-1377-4302-e226-fcd3600b7dee" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Valores nulos removidos!\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Exclusão de linhas duplicadas - STATE\n", + "df_mercado_tech.drop_duplicates(inplace=True)\n", + "print(f\"Linhas duplicadas: {df_internet_renomeado.duplicated().sum()}\")" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "pMUDTBZZ4oCv", + "outputId": "37c9dd54-4ee0-4e57-e87e-d964b820404c" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Linhas duplicadas: 0\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "colunas_atualizadas = data_copia.columns.values\n", + "\n", + "print(f\"Colunas Atualizadas: {colunas_atualizadas}\")" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "collapsed": true, + "id": "NXFiseFRxLxy", + "outputId": "0b8592e6-006c-434b-b6bc-208393f20138" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Colunas Atualizadas: [\"('P0', 'id')\" \"('P1_a ', 'Idade')\" \"('P1_a_1 ', 'Faixa idade')\"\n", + " \"('P1_b ', 'Genero')\" \"('P1_c ', 'Cor/raca/etnia')\" \"('P1_d ', 'PCD')\"\n", + " \"('P1_e ', 'experiencia_profissional_prejudicada')\"\n", + " \"('P1_e_1 ', 'Não acredito que minha experiência profissional seja afetada')\"\n", + " \"('P1_e_2 ', 'Experiencia prejudicada devido a minha Cor Raça Etnia')\"\n", + " \"('P1_e_3 ', 'Experiencia prejudicada devido a minha identidade de gênero')\"\n", + " \"('P1_e_4 ', 'Experiencia prejudicada devido ao fato de ser PCD')\"\n", + " \"('P1_f ', 'aspectos_prejudicados')\"\n", + " \"('P1_f_1', 'Quantidade de oportunidades de emprego/vagas recebidas')\"\n", + " \"('P1_f_2', 'Senioridade das vagas recebidas em relação Ã\\xa0 sua experiência')\"\n", + " \"('P1_f_3', 'Aprovação em processos seletivos/entrevistas')\"\n", + " \"('P1_f_4', 'Oportunidades de progressão de carreira')\"\n", + " \"('P1_f_5', 'Velocidade de progressão de carreira')\"\n", + " \"('P1_f_6', 'NÃ\\xadvel de cobrança no trabalho/Stress no trabalho')\"\n", + " \"('P1_f_7', 'Atenção dada diante das minhas opiniões e ideias')\"\n", + " \"('P1_f_8', 'Relação com outros membros da empresa, em momentos de trabalho')\"\n", + " \"('P1_f_9', 'Relação com outros membros da empresa, em momentos de integração e outros momentos fora do trabalho')\"\n", + " \"('P1_g ', 'vive_no_brasil')\" \"('P1_i ', 'Estado onde mora')\"\n", + " \"('P1_i_1 ', 'uf onde mora')\" \"('P1_i_2 ', 'Regiao onde mora')\"\n", + " \"('P1_j ', 'Mudou de Estado?')\" \"('P1_k ', 'Regiao de origem')\"\n", + " \"('P1_l ', 'Nivel de Ensino')\" \"('P1_m ', 'Ã\\x81rea de Formação')\"\n", + " \"('P2_a ', 'Qual sua situação atual de trabalho?')\"\n", + " \"('P2_b ', 'Setor')\" \"('P2_c ', 'Numero de Funcionarios')\"\n", + " \"('P2_d ', 'Gestor?')\" \"('P2_e ', 'Cargo como Gestor')\"\n", + " \"('P2_f ', 'Cargo Atual')\" \"('P2_g ', 'Nivel')\"\n", + " \"('P2_h ', 'Faixa salarial')\"\n", + " \"('P2_i ', 'Quanto tempo de experiência na área de dados você tem?')\"\n", + " \"('P2_j ', 'Quanto tempo de experiência na área de TI/Engenharia de Software você teve antes de começar a trabalhar na área de dados?')\"\n", + " \"('P2_k ', 'Você está satisfeito na sua empresa atual?')\"\n", + " \"('P2_l ', 'Qual o principal motivo da sua insatisfação com a empresa atual?')\"\n", + " \"('P2_l_1 ', 'Falta de oportunidade de crescimento no emprego atual')\"\n", + " \"('P2_l_2 ', 'Salário atual não corresponde ao mercado')\"\n", + " \"('P2_l_3 ', 'Não tenho uma boa relação com meu lÃ\\xadder/gestor')\"\n", + " \"('P2_l_4 ', 'Gostaria de trabalhar em em outra área de atuação')\"\n", + " \"('P2_l_5 ', 'Gostaria de receber mais benefÃ\\xadcios')\"\n", + " \"('P2_l_6 ', 'O clima de trabalho/ambiente não é bom')\"\n", + " \"('P2_l_7 ', 'Falta de maturidade analÃ\\xadtica na empresa')\"\n", + " \"('P2_m ', 'Você participou de entrevistas de emprego nos últimos 6 meses?')\"\n", + " \"('P2_n ', 'Você pretende mudar de emprego nos próximos 6 meses?')\"\n", + " \"('P2_o ', 'Quais os principais critérios que você leva em consideração no momento de decidir onde trabalhar?')\"\n", + " \"('P2_o_1 ', 'Remuneração/Salário')\" \"('P2_o_2 ', 'BenefÃ\\xadcios')\"\n", + " \"('P2_o_3 ', 'Propósito do trabalho e da empresa')\"\n", + " \"('P2_o_4 ', 'Flexibilidade de trabalho remoto')\"\n", + " \"('P2_o_5 ', 'Ambiente e clima de trabalho')\"\n", + " \"('P2_o_6 ', 'Oportunidade de aprendizado e trabalhar com referências na área')\"\n", + " \"('P2_o_7 ', 'Plano de carreira e oportunidades de crescimento profissional')\"\n", + " \"('P2_o_8 ', 'Maturidade da empresa em termos de tecnologia e dados')\"\n", + " \"('P2_o_9 ', 'Qualidade dos gestores e lÃ\\xadderes')\"\n", + " \"('P2_o_10 ', 'Reputação que a empresa tem no mercado')\"\n", + " \"('P2_q ', 'Empresa que trabaha passou por layoff em 2023')\"\n", + " \"('P2_r ', 'Atualmente qual a sua forma de trabalho?')\"\n", + " \"('P2_s ', 'Qual a forma de trabalho ideal para você?')\"\n", + " \"('P2_t ', 'Caso sua empresa decida pelo modelo 100% presencial qual será sua atitude?')\"\n", + " \"('P3_a ', 'Qual o número aproximado de pessoas que atuam com dados na sua empresa hoje?')\"\n", + " \"('P3_b ', 'Quais desses papéis/cargos fazem parte do time (ou chapter) de dados da sua empresa?')\"\n", + " \"('P3_b_1 ', 'Analytics Engineer')\"\n", + " \"('P3_b_2 ', 'Engenharia de Dados/Data Engineer')\"\n", + " \"('P3_b_3 ', 'Analista de Dados/Data Analyst')\"\n", + " \"('P3_b_4 ', 'Cientista de Dados/Data Scientist')\"\n", + " \"('P3_b_5 ', 'Database Administrator/DBA')\"\n", + " \"('P3_b_6 ', 'Analista de Business Intelligence/BI')\"\n", + " \"('P3_b_7 ', 'Arquiteto de Dados/Data Architect')\"\n", + " \"('P3_b_8 ', 'Data Product Manager/DPM')\"\n", + " \"('P3_b_9 ', 'Business Analyst')\"\n", + " \"('P3_c ', 'Quais dessas responsabilidades fazem parte da sua rotina atual de trabalho como gestor?')\"\n", + " \"('P3_c_1 ', 'Pensar na visão de longo prazo de dados da empresa e fortalecimento da cultura analÃ\\xadtica da companhia.')\"\n", + " \"('P3_c_2 ', 'Organização de treinamentos e iniciativas com o objetivo de aumentar a maturidade analÃ\\xadtica das áreas de negócios.')\"\n", + " \"('P3_c_3 ', 'Atração, seleção e contratação de talentos para o time de dados.')\"\n", + " \"('P3_c_4 ', 'Decisão sobre contratação de ferramentas e tecnologias relacionadas a dados.')\"\n", + " \"('P3_c_5 ', 'Sou gestor da equipe responsável pela engenharia de dados e por manter o Data Lake da empresa como fonte única dos dados, garantindo a qualidade e confiabilidade da informação.')\"\n", + " \"('P3_c_6 ', 'Sou gestor da equipe responsável pela entrega de dados, estudos, relatórios e dashboards para as áreas de negócio da empresa.')\"\n", + " \"('P3_c_7 ', 'Sou gestor da equipe responsável por iniciativas e projetos envolvendo Inteligência Artificial e Machine Learning.')\"\n", + " \"('P3_c_8 ', 'Apesar de ser gestor ainda atuo na parte técnica, construindo soluções/análises/modelos etc.')\"\n", + " \"('P3_c_9 ', 'Gestão de projetos de dados, cuidando das etapas, equipes envolvidas, atingimento dos objetivos etc.')\"\n", + " \"('P3_c_10 ', 'Gestão de produtos de dados, cuidando da visão dos produtos, backlog, feedback de usuários etc.')\"\n", + " \"('P3_c_11 ', 'Gestão de pessoas, apoio no desenvolvimento das pessoas, evolução de carreira')\"\n", + " \"('P3_d ', 'Quais são os 3 maiores desafios que você tem como gestor no atual momento?')\"\n", + " \"('P3_d_1 ', 'a Contratar novos talentos.')\"\n", + " \"('P3_d_2 ', 'b Reter talentos.')\"\n", + " \"('P3_d_3 ', 'c Convencer a empresa a aumentar os investimentos na área de dados.')\"\n", + " \"('P3_d_4 ', 'd Gestão de equipes no ambiente remoto.')\"\n", + " \"('P3_d_5 ', 'e Gestão de projetos envolvendo áreas multidisciplinares da empresa.')\"\n", + " \"('P3_d_6 ', 'f Organizar as informações e garantir a qualidade e confiabilidade.')\"\n", + " \"('P3_d_7 ', 'g Conseguir processar e armazenar um alto volume de dados.')\"\n", + " \"('P3_d_8 ', 'h Conseguir gerar valor para as áreas de negócios através de estudos e experimentos.')\"\n", + " \"('P3_d_9 ', 'i Desenvolver e manter modelos Machine Learning em produção.')\"\n", + " \"('P3_d_10 ', 'j Gerenciar a expectativa das áreas de negócio em relação as entregas das equipes de dados.')\"\n", + " \"('P3_d_11 ', 'k Garantir a manutenção dos projetos e modelos em produção, em meio ao crescimento da empresa.')\"\n", + " \"('P3_d_12 ', 'Conseguir levar inovação para a empresa através dos dados.')\"\n", + " \"('P3_d_13 ', 'Garantir retorno do investimento (ROI) em projetos de dados.')\"\n", + " \"('P3_d_14 ', 'Dividir o tempo entre entregas técnicas e gestão.')\"\n", + " \"('P3_e ', 'AI Generativa é uma prioridade em sua empresa?')\"\n", + " \"('P3_f ', 'Tipos de uso de AI Generativa e LLMs na empresa')\"\n", + " \"('P3_f_1 ', 'Colaboradores usando AI generativa de forma independente e descentralizada')\"\n", + " \"('P3_f_2 ', 'Direcionamento centralizado do uso de AI generativa')\"\n", + " \"('P3_f_3 ', 'Desenvolvedores utilizando Copilots')\"\n", + " \"('P3_f_4 ', 'AI Generativa e LLMs para melhorar produtos externos')\"\n", + " \"('P3_f_5 ', 'AI Generativa e LLMs para melhorar produtos internos para os colaboradores')\"\n", + " \"('P3_f_6 ', 'IA Generativa e LLMs como principal frente do negócio')\"\n", + " \"('P3_f_7 ', 'IA Generativa e LLMs não é prioridade')\"\n", + " \"('P3_f_8 ', 'Não sei opinar sobre o uso de IA Generativa e LLMs na empresa')\"\n", + " \"('P3_g ', 'Motivos que levam a empresa a não usar AI Genrativa e LLMs')\"\n", + " \"('P3_g_1 ', 'Falta de compreensão dos casos de uso')\"\n", + " \"('P3_g_2 ', 'Falta de confiabilidade das saÃ\\xaddas (alucinação dos modelos)')\"\n", + " \"('P3_g_3 ', 'Incerteza em relação a regulamentação')\"\n", + " \"('P3_g_4 ', 'Preocupações com segurança e privacidade de dados')\"\n", + " \"('P3_g_5 ', 'Retorno sobre investimento (ROI) não comprovado de IA Generativa')\"\n", + " \"('P3_g_6 ', 'Dados da empresa não estão prontos para uso de IA Generativa')\"\n", + " \"('P3_g_7 ', 'Falta de expertise ou falta de recursos')\"\n", + " \"('P3_g_8 ', 'Alta direção da empresa não vê valor ou não vê como prioridade')\"\n", + " \"('P3_g_9 ', 'Preocupações com propriedade intelectual')\"\n", + " \"('P4_a ', 'Mesmo que esse não seja seu cargo formal, você considera que sua atuação no dia a dia, reflete alguma das opções listadas abaixo?')\"\n", + " \"('P4_a_1 ', 'Atuacao')\"\n", + " \"('P4_b ', 'Quais das fontes de dados listadas você já analisou ou processou no trabalho?')\"\n", + " \"('P4_b_1 ', 'Dados relacionais (estruturados em bancos SQL)')\"\n", + " \"('P4_b_2 ', 'Dados armazenados em bancos NoSQL')\"\n", + " \"('P4_b_3 ', 'Imagens')\" \"('P4_b_4 ', 'Textos/Documentos')\"\n", + " \"('P4_b_5 ', 'VÃ\\xaddeos')\" \"('P4_b_6 ', 'Ã\\x81udios')\"\n", + " \"('P4_b_7 ', 'Planilhas')\" \"('P4_b_8 ', 'Dados georeferenciados')\"\n", + " \"('P4_c ', 'Entre as fontes de dados listadas, quais você utiliza na maior parte do tempo?')\"\n", + " \"('P4_c_1 ', 'Dados relacionais (estruturados em bancos SQL)')\"\n", + " \"('P4_c_2 ', 'Dados armazenados em bancos NoSQL')\"\n", + " \"('P4_c_3 ', 'Imagens')\" \"('P4_c_4 ', 'Textos/Documentos')\"\n", + " \"('P4_c_5 ', 'VÃ\\xaddeos')\" \"('P4_c_6 ', 'Ã\\x81udios')\"\n", + " \"('P4_c_7 ', 'Planilhas')\" \"('P4_c_8 ', 'Dados georeferenciados')\"\n", + " \"('P4_d ', 'Quais das linguagens listadas abaixo você utiliza no trabalho?')\"\n", + " \"('P4_d_1 ', 'SQL')\" \"('P4_d_2 ', 'R ')\" \"('P4_d_3 ', 'Python')\"\n", + " \"('P4_d_4 ', 'C/C++/C#')\" \"('P4_d_5 ', '.NET')\" \"('P4_d_6 ', 'Java')\"\n", + " \"('P4_d_7 ', 'Julia')\" \"('P4_d_8 ', 'SAS/Stata')\"\n", + " \"('P4_d_9 ', 'Visual Basic/VBA')\" \"('P4_d_10 ', 'Scala')\"\n", + " \"('P4_d_11 ', 'Matlab')\" \"('P4_d_12 ', 'Rust')\" \"('P4_d_13 ', 'PHP')\"\n", + " \"('P4_d_14 ', 'JavaScript')\"\n", + " \"('P4_d_15 ', 'Não utilizo nenhuma linguagem')\"\n", + " \"('P4_e ', 'Entre as linguagens listadas abaixo, qual é a que você mais utiliza no trabalho?')\"\n", + " \"('P4_f ', 'Entre as linguagens listadas abaixo, qual é a sua preferida?')\"\n", + " \"('P4_g ', 'Quais dos bancos de dados/fontes de dados listados abaixo você utiliza no trabalho?')\"\n", + " \"('P4_g_1 ', 'MySQL')\" \"('P4_g_2 ', 'Oracle')\"\n", + " \"('P4_g_3 ', 'SQL SERVER')\" \"('P4_g_4 ', 'Amazon Aurora ou RDS')\"\n", + " \"('P4_g_5 ', 'DynamoDB')\" \"('P4_g_6 ', 'CoachDB')\"\n", + " \"('P4_g_7 ', 'Cassandra')\" \"('P4_g_8 ', 'MongoDB')\"\n", + " \"('P4_g_9 ', 'MariaDB')\" \"('P4_g_10 ', 'Datomic')\" \"('P4_g_11 ', 'S3')\"\n", + " \"('P4_g_12 ', 'PostgreSQL')\" \"('P4_g_13 ', 'ElasticSearch')\"\n", + " \"('P4_g_14 ', 'DB2')\" \"('P4_g_15 ', 'Microsoft Access')\"\n", + " \"('P4_g_16 ', 'SQLite')\" \"('P4_g_17 ', 'Sybase')\"\n", + " \"('P4_g_18 ', 'Firebase')\" \"('P4_g_19 ', 'Vertica')\"\n", + " \"('P4_g_20 ', 'Redis')\" \"('P4_g_21 ', 'Neo4J')\"\n", + " \"('P4_g_22 ', 'Google BigQuery')\" \"('P4_g_23 ', 'Google Firestore')\"\n", + " \"('P4_g_24 ', 'Amazon Redshift')\" \"('P4_g_25 ', 'Amazon Athena')\"\n", + " \"('P4_g_26 ', 'Snowflake')\" \"('P4_g_27 ', 'Databricks')\"\n", + " \"('P4_g_28 ', 'HBase')\" \"('P4_g_29 ', 'Presto')\" \"('P4_g_30 ', 'Splunk')\"\n", + " \"('P4_g_31 ', 'SAP HANA')\" \"('P4_g_32 ', 'Hive')\"\n", + " \"('P4_g_33 ', 'Firebird')\"\n", + " \"('P4_h ', 'Dentre as opções listadas, qual sua Cloud preferida?')\"\n", + " \"('P4_h_1 ', 'Azure (Microsoft)')\"\n", + " \"('P4_h_2 ', 'Amazon Web Services (AWS)')\"\n", + " \"('P4_h_3 ', 'Google Cloud (GCP)')\" \"('P4_h_4 ', 'Oracle Cloud')\"\n", + " \"('P4_h_5 ', 'IBM')\"\n", + " \"('P4_h_6 ', 'Servidores On Premise/Não utilizamos Cloud')\"\n", + " \"('P4_h_7 ', 'Cloud Própria')\" \"('P4_i ', 'Cloud preferida')\"\n", + " \"('P4_j ', 'Ferramenta de BI utilizada no dia a dia')\"\n", + " \"('P4_j_1 ', 'Microsoft PowerBI')\" \"('P4_j_2 ', 'Qlik View/Qlik Sense')\"\n", + " \"('P4_j_3 ', 'Tableau')\" \"('P4_j_4 ', 'Metabase')\"\n", + " \"('P4_j_5 ', 'Superset')\" \"('P4_j_6 ', 'Redash')\" \"('P4_j_7 ', 'Looker')\"\n", + " \"('P4_j_8 ', 'Looker Studio(Google Data Studio)')\"\n", + " \"('P4_j_9 ', 'Amazon Quicksight')\" \"('P4_j_10 ', 'Mode')\"\n", + " \"('P4_j_11 ', 'Alteryx')\" \"('P4_j_12 ', 'MicroStrategy')\"\n", + " \"('P4_j_13 ', 'IBM Analytics/Cognos')\"\n", + " \"('P4_j_14 ', 'SAP Business Objects/SAP Analytics')\"\n", + " \"('P4_j_15 ', 'Oracle Business Intelligence')\"\n", + " \"('P4_j_16 ', 'Salesforce/Einstein Analytics')\" \"('P4_j_17 ', 'Birst')\"\n", + " \"('P4_j_18 ', 'SAS Visual Analytics')\" \"('P4_j_19 ', 'Grafana')\"\n", + " \"('P4_j_20 ', 'TIBCO Spotfire')\" \"('P4_j_21 ', 'Pentaho')\"\n", + " \"('P4_j_22 ', 'Fazemos todas as análises utilizando apenas Excel ou planilhas do google')\"\n", + " \"('P4_j_23 ', 'Não utilizo nenhuma ferramenta de BI no trabalho')\"\n", + " \"('P4_k ', 'Qual sua ferramenta de BI preferida?')\"\n", + " \"('P4_l ', 'Qual o tipo de uso de AI Generativa e LLMs na empresa')\"\n", + " \"('P4_l_1 ', 'Colaboradores usando AI generativa de forma independente e descentralizada')\"\n", + " \"('P4_l_2 ', 'Direcionamento centralizado do uso de AI generativa')\"\n", + " \"('P4_l_3 ', 'Desenvolvedores utilizando Copilots')\"\n", + " \"('P4_l_4 ', 'AI Generativa e LLMs para melhorar produtos externos para os clientes finais')\"\n", + " \"('P4_l_5 ', 'AI Generativa e LLMs para melhorar produtos internos para os colaboradores')\"\n", + " \"('P4_l_6 ', 'IA Generativa e LLMs como principal frente do negócio')\"\n", + " \"('P4_l_7 ', 'IA Generativa e LLMs não é prioridade')\"\n", + " \"('P4_l_8 ', 'Não sei opinar sobre o uso de IA Generativa e LLMs na empresa')\"\n", + " \"('P4_m ', 'Utiliza ChatGPT ou LLMs no trabalho?')\"\n", + " \"('P4_m_1 ', 'Não uso soluções de AI Generativa com foco em produtividade')\"\n", + " \"('P4_m_2 ', 'Uso soluções gratuitas de AI Generativa com foco em produtividade')\"\n", + " \"('P4_m_3 ', 'Uso e pago pelas soluções de AI Generativa com foco em produtividade')\"\n", + " \"('P4_m_4 ', 'A empresa que trabalho paga pelas soluções de AI Generativa com foco em produtividade')\"\n", + " \"('P4_m_5 ', 'Uso soluções do tipo Copilot')\"\n", + " \"('P5_a ', 'Qual seu objetivo na área de dados?')\"\n", + " \"('P5_b ', 'Qual oportunidade você está buscando?')\"\n", + " \"('P5_c ', 'Há quanto tempo você busca uma oportunidade na área de dados?')\"\n", + " \"('P5_d ', 'Como tem sido a busca por um emprego na área de dados?')\"\n", + " \"('P6_a ', 'Quais das opções abaixo fazem parte da sua rotina no trabalho atual como engenheiro de dados?')\"\n", + " \"('P6_a_1 ', 'Desenvolvo pipelines de dados utilizando linguagens de programação como Python, Scala, Java etc.')\"\n", + " \"('P6_a_2 ', 'Realizo construções de ETL's em ferramentas como Pentaho, Talend, Dataflow etc.')\"\n", + " \"('P6_a_3 ', 'Crio consultas através da linguagem SQL para exportar informações e compartilhar com as áreas de negócio.')\"\n", + " \"('P6_a_4 ', 'Atuo na integração de diferentes fontes de dados através de plataformas proprietárias como Stitch Data, Fivetran etc.')\"\n", + " \"('P6_a_5 ', 'Modelo soluções de arquitetura de dados, criando componentes de ingestão de dados, transformação e recuperação da informação.')\"\n", + " \"('P6_a_6 ', 'Desenvolvo/cuido da manutenção de repositórios de dados baseados em streaming de eventos como Data Lakes e Data Lakehouses.')\"\n", + " \"('P6_a_7 ', 'Atuo na modelagem dos dados, com o objetivo de criar conjuntos de dados como Data Warehouses, Data Marts etc.')\"\n", + " \"('P6_a_8 ', 'Cuido da qualidade dos dados, metadados e dicionário de dados.')\"\n", + " \"('P6_a_9 ', 'Nenhuma das opções listadas refletem meu dia a dia.')\"\n", + " \"('P6_b ', 'Quais as ferramentas/tecnologias de ETL que você utiliza no trabalho como Data Engineer?')\"\n", + " \"('P6_b_1 ', 'Scripts Python')\" \"('P6_b_2 ', 'SQL & Stored Procedures')\"\n", + " \"('P6_b_3 ', 'Apache Airflow')\" \"('P6_b_4 ', 'Apache NiFi')\"\n", + " \"('P6_b_5 ', 'Luigi')\" \"('P6_b_6 ', 'AWS Glue')\" \"('P6_b_7 ', 'Talend')\"\n", + " \"('P6_b_8 ', 'Pentaho')\" \"('P6_b_9 ', 'Alteryx')\"\n", + " \"('P6_b_10 ', 'Stitch')\" \"('P6_b_11 ', 'Fivetran')\"\n", + " \"('P6_b_12 ', 'Google Dataflow')\"\n", + " \"('P6_b_13 ', 'Oracle Data Integrator')\" \"('P6_b_14 ', 'IBM DataStage')\"\n", + " \"('P6_b_15 ', 'SAP BW ETL')\"\n", + " \"('P6_b_16 ', 'SQL Server Integration Services (SSIS))\"\n", + " \"('P6_b_17 ', 'SAS Data Integration')\" \"('P6_b_18 ', 'Qlik Sense')\"\n", + " \"('P6_b_19 ', 'Knime')\" \"('P6_b_20 ', 'Databricks')\"\n", + " \"('P6_b_21 ', 'Não utilizo ferramentas de ETL')\"\n", + " \"('P6_c ', 'Sua organização possui um Data Lake?')\"\n", + " \"('P6_d ', 'Qual tecnologia utilizada como plataforma do Data Lake?')\"\n", + " \"('P6_e ', 'Sua organização possui um Data Warehouse?')\"\n", + " \"('P6_f ', 'Qual tecnologia utilizada como plataforma do Data Warehouse?')\"\n", + " \"('P6_g ', 'Quais as ferramentas de gestão de Qualidade de dados, Metadados e catálogo de dados você utiliza no trabalho?')\"\n", + " \"('P6_h ', 'Em qual das opções abaixo você gasta a maior parte do seu tempo?')\"\n", + " \"('P6_h_1 ', 'Desenvolvendo pipelines de dados utilizando linguagens de programação como Python, Scala, Java etc.')\"\n", + " \"('P6_h_2 ', 'Realizando construções de ETL's em ferramentas como Pentaho, Talend, Dataflow etc.')\"\n", + " \"('P6_h_3 ', 'Criando consultas através da linguagem SQL para exportar informações e compartilhar com as áreas de negócio.')\"\n", + " \"('P6_h_4 ', 'Atuando na integração de diferentes fontes de dados através de plataformas proprietárias como Stitch Data, Fivetran etc.')\"\n", + " \"('P6_h_5 ', 'Modelando soluções de arquitetura de dados, criando componentes de ingestão de dados, transformação e recuperação da informação.')\"\n", + " \"('P6_h_6 ', 'Desenvolvendo/cuidando da manutenção de repositórios de dados baseados em streaming de eventos como Data Lakes e Data Lakehouses.')\"\n", + " \"('P6_h_7 ', 'Atuando na modelagem dos dados, com o objetivo de criar conjuntos de dados como Data Warehouses, Data Marts etc.')\"\n", + " \"('P6_h_8 ', 'Cuidando da qualidade dos dados, metadados e dicionário de dados.')\"\n", + " \"('P6_h_9 ', 'Nenhuma das opções listadas refletem meu dia a dia.')\"\n", + " \"('P7_1 ', 'Quais das opções abaixo fazem parte da sua rotina no trabalho atual com análise de dados?')\"\n", + " \"('P7_a_1 ', 'Processo e analiso dados utilizando linguagens de programação como Python, R etc.')\"\n", + " \"('P7_a_2 ', 'Realizo construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik etc.')\"\n", + " \"('P7_a_3 ', 'Crio consultas através da linguagem SQL para exportar informações e compartilhar com as áreas de negócio.')\"\n", + " \"('P7_a_4 ', 'Utilizo API's para extrair dados e complementar minhas análises.')\"\n", + " \"('P7_a_5 ', 'Realizo experimentos e estudos utilizando metodologias estatÃ\\xadsticas como teste de hipótese, modelos de regressão etc.')\"\n", + " \"('P7_a_6 ', 'Desenvolvo/cuido da manutenção de ETL's utilizando tecnologias como Talend, Pentaho, Airflow, Dataflow etc.')\"\n", + " \"('P7_a_7 ', 'Atuo na modelagem dos dados, com o objetivo de criar conjuntos de dados, Data Warehouses, Data Marts etc.')\"\n", + " \"('P7_a_8 ', 'Desenvolvo/cuido da manutenção de planilhas para atender as áreas de negócio.')\"\n", + " \"('P7_a_9 ', 'Utilizo ferramentas avançadas de estatÃ\\xadstica como SASS, PSS, Stata etc')\"\n", + " \"('P7_a_10 ', 'Nenhuma das opções listadas refletem meu dia a dia.')\"\n", + " \"('P7_b ', 'Quais as ferramentas/tecnologias de ETL que você utiliza no trabalho como Data Analyst?')\"\n", + " \"('P7_b_1 ', 'Scripts Python')\" \"('P7_b_2 ', 'SQL & Stored Procedures')\"\n", + " \"('P7_b_3 ', 'Apache Airflow')\" \"('P7_b_4 ', 'Apache NiFi')\"\n", + " \"('P7_b_5 ', 'Luigi')\" \"('P7_b_6 ', 'AWS Glue')\" \"('P7_b_7 ', 'Talend')\"\n", + " \"('P7_b_8 ', 'Pentaho')\" \"('P7_b_9 ', 'Alteryx')\"\n", + " \"('P7_b_10 ', 'Stitch')\" \"('P7_b_11 ', 'Fivetran')\"\n", + " \"('P7_b_12 ', 'Google Dataflow')\"\n", + " \"('P7_b_13 ', 'Oracle Data Integrator')\" \"('P7_b_14 ', 'IBM DataStage')\"\n", + " \"('P7_b_15 ', 'SAP BW ETL')\"\n", + " \"('P7_b_16 ', 'SQL Server Integration Services (SSIS)')\"\n", + " \"('P7_b_17 ', 'SAS Data Integration')\" \"('P7_b_18 ', 'Qlik Sense')\"\n", + " \"('P7_b_19 ', 'Knime')\" \"('P7_b_20 ', 'Databricks')\"\n", + " \"('P7_b_21 ', 'Não utilizo ferramentas de ETL')\"\n", + " \"('P7_c ', 'Sua empresa utiliza alguma das ferramentas listadas para dar mais autonomia em análise de dados para as áreas de negócio?')\"\n", + " \"('P7_c_1 ', 'Ferramentas de AutoML como H2O.ai, Data Robot, BigML etc.')\"\n", + " '(\\'P7_c_2 \\', \\'\"\"Point and Click\"\" Analytics como Alteryx, Knime, Rapidminer etc.\\')'\n", + " \"('P7_c_3 ', 'Product metricts & Insights como Mixpanel, Amplitude, Adobe Analytics.')\"\n", + " \"('P7_c_4 ', 'Ferramentas de análise dentro de ferramentas de CRM como Salesforce Einstein Anaytics ou Zendesk dashboards.')\"\n", + " \"('P7_c_5 ', 'Minha empresa não utiliza essas ferramentas.')\"\n", + " \"('P7_c_6 ', 'Não sei informar.')\"\n", + " \"('P7_d ', 'Em qual das opções abaixo você gasta a maior parte do seu tempo de trabalho?')\"\n", + " \"('P7_d_1 ', 'Processando e analisando dados utilizando linguagens de programação como Python, R etc.')\"\n", + " \"('P7_d_2 ', 'Realizando construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik etc.')\"\n", + " \"('P7_d_3 ', 'Criando consultas através da linguagem SQL para exportar informações e compartilhar com as áreas de negócio.')\"\n", + " \"('P7_d_4 ', 'Utilizando API's para extrair dados e complementar minhas análises.')\"\n", + " \"('P7_d_5 ', 'Realizando experimentos e estudos utilizando metodologias estatÃ\\xadsticas como teste de hipótese, modelos de regressão etc.')\"\n", + " \"('P7_d_6 ', 'Desenvolvendo/cuidando da manutenção de ETL's utilizando tecnologias como Talend, Pentaho, Airflow, Dataflow etc.')\"\n", + " \"('P7_d_7 ', 'Atuando na modelagem dos dados, com o objetivo de criar conjuntos de dados, Data Warehouses, Data Marts etc.')\"\n", + " \"('P7_d_8 ', 'Desenvolvendo/cuidando da manutenção de planilhas do Excel ou Google Sheets para atender as áreas de negócio.')\"\n", + " \"('P7_d_9 ', 'Utilizando ferramentas avançadas de estatÃ\\xadstica como SAS, SPSS, Stata etc, para realizar análises.')\"\n", + " \"('P7_d_10 ', 'Nenhuma das opções listadas refletem meu dia a dia.')\"\n", + " \"('P8_a ', 'Quais das opções abaixo fazem parte da sua rotina no trabalho atual com ciência de dados?')\"\n", + " \"('P8_a_1 ', 'Estudos Ad-hoc com o objetivo de confirmar hipóteses, realizar modelos preditivos, forecasts, análise de cluster para resolver problemas pontuais e responder perguntas das áreas de negócio.')\"\n", + " \"('P8_a_2 ', 'Sou responsável pela coleta e limpeza dos dados que uso para análise e modelagem.')\"\n", + " \"('P8_a_3 ', 'Sou responsável por entrar em contato com os times de negócio para definição do problema, identificar a solução e apresentação de resultados.')\"\n", + " \"('P8_a_4 ', 'Desenvolvo modelos de Machine Learning com o objetivo de colocar em produção em sistemas (produtos de dados).')\"\n", + " \"('P8_a_5 ', 'Sou responsável por colocar modelos em produção, criar os pipelines de dados, APIs de consumo e monitoramento.')\"\n", + " \"('P8_a_6 ', 'Cuido da manutenção de modelos de Machine Learning já em produção, atuando no monitoramento, ajustes e refatoração quando necessário.')\"\n", + " \"('P8_a_7 ', 'Realizo construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik, etc')\"\n", + " \"('P8_a_8 ', 'Utilizo ferramentas avançadas de estatÃ\\xadstica como SAS, SPSS, Stata etc, para realizar análises estatÃ\\xadsticas e ajustar modelos.')\"\n", + " \"('P8_a_9 ', 'Crio e dou manutenção em ETLs, DAGs e automações de pipelines de dados.')\"\n", + " \"('P8_a_10 ', 'Crio e gerencio soluções de Feature Store e cultura de MLOps.')\"\n", + " \"('P8_a_11 ', 'Sou responsável por criar e manter a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)')\"\n", + " \"('P8_a_12 ', 'Treino e aplico LLM's para solucionar problemas de negócio.')\"\n", + " \"('P8_b ', 'Quais as técnicas e métodos listados abaixo você costuma utilizar no trabalho?')\"\n", + " \"('P8_b_1 ', 'Utilizo modelos de regressão (linear, logÃ\\xadstica, GLM)')\"\n", + " \"('P8_b_2 ', 'Utilizo redes neurais ou modelos baseados em árvore para criar modelos de classificação')\"\n", + " \"('P8_b_3 ', 'Desenvolvo sistemas de recomendação (RecSys)')\"\n", + " \"('P8_b_4 ', 'Utilizo métodos estatÃ\\xadsticos Bayesianos para analisar dados')\"\n", + " \"('P8_b_5 ', 'Utilizo técnicas de NLP (Natural Language Processing) para análisar dados não-estruturados')\"\n", + " \"('P8_b_6 ', 'Utilizo métodos estatÃ\\xadsticos clássicos (Testes de hipótese, análise multivariada, sobrevivência, dados longitudinais, inferência estatistica) para analisar dados')\"\n", + " \"('P8_b_7 ', 'Utilizo cadeias de Markov ou HMM's para realizar análises de dados')\"\n", + " \"('P8_b_8 ', 'Desenvolvo técnicas de Clusterização (K-means, Spectral, DBScan etc)')\"\n", + " \"('P8_b_9 ', 'Realizo previsões através de modelos de Séries Temporais (Time Series)')\"\n", + " \"('P8_b_10 ', 'Utilizo modelos de Reinforcement Learning (aprendizado por reforço)')\"\n", + " \"('P8_b_11 ', 'Utilizo modelos de Machine Learning para detecção de fraude')\"\n", + " \"('P8_b_12 ', 'Utilizo métodos de Visão Computacional')\"\n", + " \"('P8_b_13 ', 'Utilizo modelos de Detecção de Churn')\"\n", + " \"('P8_b_14 ', 'Utilizo LLM's para solucionar problemas de negócio')\"\n", + " \"('P8_3 ', 'Quais dessas tecnologias fazem parte do seu dia a dia como cientista de dados?')\"\n", + " \"('P8_c_1 ', 'Ferramentas de BI (PowerBI, Looker, Tableau, Qlik etc)')\"\n", + " \"('P8_c_2 ', 'Planilhas (Excel, Google Sheets etc)')\"\n", + " \"('P8_c_3 ', 'Ambientes de desenvolvimento local (R-studio, JupyterLab, Anaconda)')\"\n", + " \"('P8_c_4 ', 'Ambientes de desenvolvimento na nuvem (Google Colab, AWS Sagemaker, Kaggle Notebooks etc)')\"\n", + " \"('P8_c_5 ', 'Ferramentas de AutoML (Datarobot, H2O, Auto-Keras etc)')\"\n", + " \"('P8_c_6 ', 'Ferramentas de ETL (Apache Airflow, NiFi, Stitch, Fivetran, Pentaho etc)')\"\n", + " \"('P8_c_7 ', 'Plataformas de Machine Learning (TensorFlow, Azure Machine Learning, Kubeflow etc)')\"\n", + " \"('P8_c_8 ', 'Feature Store (Feast, Hopsworks, AWS Feature Store, Databricks Feature Store etc)')\"\n", + " \"('P8_c_9 ', 'Sistemas de controle de versão (Github, DVC, Neptune, Gitlab etc)')\"\n", + " \"('P8_c_10 ', 'Plataformas de Data Apps (Streamlit, Shiny, Plotly Dash etc)')\"\n", + " \"('P8_c_11 ', 'Ferramentas de estatÃ\\xadstica avançada como SPSS, SAS, etc.')\"\n", + " \"('P8_d ', 'Em qual das opções abaixo você gasta a maior parte do seu tempo no trabalho?')\"\n", + " \"('P8_d_1 ', 'Estudos Ad-hoc com o objetivo de confirmar hipóteses, realizar modelos preditivos, forecasts, análise de cluster para resolver problemas pontuais e responder perguntas das áreas de negócio.')\"\n", + " \"('P8_d_2 ', 'Coletando e limpando os dados que uso para análise e modelagem.')\"\n", + " \"('P8_d_3 ', 'Entrando em contato com os times de negócio para definição do problema, identificar a solução e apresentação de resultados.')\"\n", + " \"('P8_d_4 ', 'Desenvolvendo modelos de Machine Learning com o objetivo de colocar em produção em sistemas (produtos de dados).')\"\n", + " \"('P8_d_5 ', 'Colocando modelos em produção, criando os pipelines de dados, APIs de consumo e monitoramento.')\"\n", + " \"('P8_d_6 ', 'Cuidando da manutenção de modelos de Machine Learning já em produção, atuando no monitoramento, ajustes e refatoração quando necessário.')\"\n", + " \"('P8_d_7 ', 'Realizando construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik, etc.')\"\n", + " \"('P8_d_8 ', 'Utilizando ferramentas avançadas de estatÃ\\xadstica como SAS, SPSS, Stata etc, para realizar análises.')\"\n", + " \"('P8_d_9 ', 'Criando e dando manutenção em ETLs, DAGs e automações de pipelines de dados.')\"\n", + " \"('P8_d_10 ', 'Criando e gerenciando soluções de Feature Store e cultura de MLOps.')\"\n", + " \"('P8_d_11 ', 'Criando e mantendo a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)')\"\n", + " \"('P8_d_12 ', 'Treinando e aplicando LLM's para solucionar problemas de negócio.')\"]\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Deletar colunas entre os índices 200 e 300 (considerando a posição das colunas)\n", + "df_mercado_tech.drop(df_mercado_tech.columns[16:301], axis=1, inplace=True)\n", + "\n", + "# Verificar o tamanho e contagem de valores nulos no DataFrame\n", + "print(df_mercado_tech.shape)\n", + "print(df_mercado_tech.isnull().sum())\n" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "oVQbAe4O5VVM", + "outputId": "6e9a2787-f49a-41e3-c73d-c2c08b9e5935" + }, + "execution_count": null, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "(0, 16)\n", + "('P0', 'id') 0\n", + "('P1_a ', 'Idade') 0\n", + "('P1_a_1 ', 'Faixa idade') 0\n", + "('P1_b ', 'Genero') 0\n", + "('P1_c ', 'Cor/raca/etnia') 0\n", + "('P1_d ', 'PCD') 0\n", + "('P1_e ', 'experiencia_profissional_prejudicada') 0\n", + "('P1_e_1 ', 'Não acredito que minha experiência profissional seja afetada') 0\n", + "('P1_e_2 ', 'Experiencia prejudicada devido a minha Cor Raça Etnia') 0\n", + "('P1_e_3 ', 'Experiencia prejudicada devido a minha identidade de gênero') 0\n", + "('P1_e_4 ', 'Experiencia prejudicada devido ao fato de ser PCD') 0\n", + "('P1_f ', 'aspectos_prejudicados') 0\n", + "('P1_f_1', 'Quantidade de oportunidades de emprego/vagas recebidas') 0\n", + "('P1_f_2', 'Senioridade das vagas recebidas em relação à sua experiência') 0\n", + "('P1_f_3', 'Aprovação em processos seletivos/entrevistas') 0\n", + "('P1_f_4', 'Oportunidades de progressão de carreira') 0\n", + "dtype: int64\n" + ] + } + ] + }, + { + "cell_type": "code", + "source": [ + "# Categoria: Dados demográficos\n", + "demograficos = filtrar_por_categoria(df_mercado_tech, 'Dados demográficos')\n", + "\n", + "\n", + "'Faixa_Idade',\n", + "'Genero',\n", + "'Cor_Etnia',\n", + "'PCD',\n", + "'Oportunidades_Emprego',\n", + "'Senioridade_Vagas',\n", + "'Aprovacao_Processos_Seletivos',\n", + "'Vive_no_Brasil',\n", + "'Estado_Mora',\n", + "'UF_Mora',\n", + "'Regiao_Mora',\n", + "'Mudou_Estado',\n", + "'Regiao_Origem',\n", + "'Nivel_Ensino',\n", + "'Area_Formacao'\n" + ], + "metadata": { + "id": "gJXo_twz2A-e" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "markdown", + "source": [ + "## Juntando os três datasets\n", + "\n", + "Fizemos a limpeza dos três datasets, chegou a hora de juntarmos.\n", + "\n", + "Para unir os 3 datasets usaremos a função `merge()`, precisamos entender qual é a coluna em comum entre as bases." + ], + "metadata": { + "id": "oa6vGNH9Auy6" + } + }, + { + "cell_type": "code", + "source": [ + "# O join default da função merge é o inner join.\n", + "\n", + "\"\"\"\n", + "df_final = pd.merge(df_mercado_tech, df_dispositivo_per_capto, df_internet_renomeado on='nome_coluna').merge(df_consumidor, on='customer_id')\n", + "df_final\n", + "\"\"\"" + ], + "metadata": { + "id": "Ew7Lt2OIAvJP" + }, + "execution_count": null, + "outputs": [] + }, + { + "cell_type": "markdown", + "source": [ + "### ***PERGUNTAS***\n", + "\n", + "1.Qual o indice de acesso a internet por país?\n", + "\n", + "2.Qual a média de acessos da população brasileira por estado da federação a internet?\n", + "\n", + "3.Média de quantos computadores existem por domicilio em cada região do Brasil?\n", + "\n", + "4.Qual o perfil socioeconomico dos brasileiros que conseguiram vagas em tech em 2023, por estado?" + ], + "metadata": { + "id": "pLp3HGGeyXvi" + } + } + ] +} \ No newline at end of file diff --git a/tabela7302_nv.xlsx b/tabela7302_nv.xlsx new file mode 100644 index 0000000..6258918 Binary files /dev/null and b/tabela7302_nv.xlsx differ