diff --git a/Projeto s18.pdf b/Projeto s18.pdf
new file mode 100644
index 0000000..e34c628
Binary files /dev/null and b/Projeto s18.pdf differ
diff --git a/README.md b/README.md
deleted file mode 100644
index 6f06bd0..0000000
--- a/README.md
+++ /dev/null
@@ -1,104 +0,0 @@
-
-
-
-
-# Tema da Aula
-
-Turma Online 34 | Python | Semanas 17 e 18 | 2024 | [Daniele Junior](https://travatech.com.br?router=danijr)
-
-### Instruções
-Antes de começar, vamos organizar nosso setup.
-* Fork esse repositório
-* Clone o fork na sua máquina (Para isso basta abrir o seu terminal e digitar `git clone url-do-seu-repositorio-forkado`)
-* Entre na pasta do seu repositório (Para isso basta abrir o seu terminal e digitar `cd nome-do-seu-repositorio-forkado`)
-* [Add outras instruções caso necessário]
-
-### Resumo
-O que veremos na aula de hoje?
-* [Slide Semana 17](https://docs.google.com/presentation/d/1axo2Dlm0Hx35ahKdZW6s-UAdG61L41QXdete8ZcQV0w/edit?usp=sharing)
-* Slide Semana 18
-
-* [Escolhendo uma fonte de dados](#Escolhendoumafontededados)
-* Análise exploratória
-* Criando uma história com dados
-
-## Conteúdo
-
-### O que é um projeto de análise de dados?
-Nesse ponto vocês já aprenderam que ter dados não é a mesma coisa que ter informação.
-**Dados:** são elementos brutos e não processados, como números, palavras, ou símbolos que precisam ser interpretados para se tornarem úteis.
-**Informação:** é o resultado do processamento, organização e interpretação dos dados, fornecendo significado e contexto para tomar decisões ou entender situações.
-Assim, dados são a matéria-prima da informação, que é o produto final após análise e interpretação dos dados.
-
-Por isso a importância de nós contarmos uma história estruturada a partir dos dados que conseguimos coletar. E é exatamente sobre isso, que se trata um projeto de análise de dados: **gerar informação útil a partir da construção de uma perspectiva contextualizada!**
-
-Então aqui vão algumas perguntas gerais que devemos nos fazer ao iniciar um projeto como esse:
-
-- **Conteúdo**
- - O que eu quero informar?
-- **Público**
- - Para quem eu estou contanto essa história? Com quem vou compartilhar essa informação?
-- **Transformação**
- - Por que essa informação é relevante?
-
-Ok, as perguntas são importantes,
-
-MAS POR ONDE COMEÇAR?!
-
-### Escolhendo uma fonte de dados
-
-#### O caminho comum
-Se você já fez algum tipo de pesquisa acadêmica (TCC, Iniciação Científica, etc) você certamente está familiarizado com esse processo, pois tudo começa com a escolha de um TEMA, seguindo para a definição do PROBLEMA, que em seguida é desdobrado em PERGUNTAS, que irão guiar a COLETA DE DADOS.
-
-1. Delimitação do Tema
-2. Definição do Problema
-3. Desenvolvimento de Perguntas
-4. Coleta de Dados
-
-#### O caminho que iremos seguir
-Porque esse projeto é um exercício e encontrar os dados ideais para responder às nossas perguntas pode se tornar um trabalho extremamente complexo...
-
-Nós iremos fazer um caminho um pouco diferente e a partir de um tema de interesse, escolher uma base e então pensar quais perguntas podem ser respondidas a partir dela.
-
-O QUE TAMBÉM É SUPER VÁLIDO! E PODE RENDER DESCOBERTAS INCRÍVEIS!
-
- * **Escolha do tema**
-
- No primeiro momento você deve escolher qual assunto gostaria de abordar. Pense em um tema atual, relevante e até onde você vai aprofundar a análise. Lembre-se, não adianta abraçar o mundo sozinho, você precisa focar e entregar o melhor resultado possível, então trabalhe na delimitação do Tema! Quais são os recortes possíveis dentro do universo escolhido?
-
- #Dica: Dê prioridade para algo que você goste, se interesse, tenha afinidade ou conhecimento na área.
-
- * **Escolha da Base de Dados**
-
- [Algumas opções de Bases de Dados](#base-de-dados)
-
-* **Definindo nossas perguntas**
-
- O que eu quero tentar responder? VAMOS AO [BRAINSTORM](#material-da-aula)!
-
-***
-
-### Material da aula
-
-* [Slides](https://docs.google.com/presentation/d/1axo2Dlm0Hx35ahKdZW6s-UAdG61L41QXdete8ZcQV0w/edit?usp=sharing)
-
-### Links Úteis
-- [Documentação Pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)
-- [Introdução ao Pandas](https://medium.com/tech-grupozap/introdu%C3%A7%C3%A3o-a-biblioteca-pandas-89fa8ed4fa38)
-- [Análise Exploratória de Dados I](https://escoladedados.org/tutoriais/analise-exploratoria-de-dados/)
-- [Análise Exploratória de Dados II](https://www.alura.com.br/artigos/analise-exploratoria)
-- [Storytelling com Dados](https://medium.com/resumos-resenhas/storytelling-com-dados-resumo-fd63ebe4f704)
-- [Markdown Cheastsheet](https://www.ibm.com/docs/en/watson-studio-local/1.2.3?topic=notebooks-markdown-jupyter-cheatsheet)
-
- #### Base de Dados
-- [Kaggle](https://www.kaggle.com/datasets)
-- [IBGE](https://ces.ibge.gov.br/base-de-dados/links-base-de-dados.html)
-- [Brasil.io](https://brasil.io/datasets/)
-- [Gov.br](https://dados.gov.br/dados/conjuntos-dados)
-- [Nosso Mundo em Dados](https://ourworldindata.org/charts)
-
-
-Desenvolvido com :purple_heart:
-
-
-
diff --git a/Readme.md b/Readme.md
new file mode 100644
index 0000000..3aa4e73
--- /dev/null
+++ b/Readme.md
@@ -0,0 +1,84 @@
+
+
+
+
+
+
+Navegando pela Inclusão: Internet e Computadores no Brasil
+
+Nos últimos anos, especialmente durante e após a pandemia, o acesso à internet cresceu significativamente, assim como as oportunidades de emprego na área de tecnologia. Diante desse cenário, realizamos uma análise para evidenciar dados alarmantes sobre o impacto das vagas de emprego online no mundo, considerando que uma parte considerável da população ainda não possui acesso a computadores e internet em casa.
+
+Os dados utilizados para alimentar nossa aplicação (atualmente em execução apenas localmente) foram extraídos de fontes como o IBGE e Kaggle , com base em informações coletadas nos anos de 2022 e 2023.
+
+Esperamos que essa análise contribua para uma melhor compreensão do acesso à internet e suas oportunidades, sobretudo para empresas que buscam pessoas na área da tecnologia, ajudando a classe minoritária, obtendo um olhar mais humanizado sobre seu desempenho.
+
+Com os dados em mãos procuramos extrair o máximo de informações e responder algumas das seguintes questões:
+
+
+ Qual o indice de acesso a internet no Brasil comparado a outros países?
+ Qual a média de acessos da população brasileira por estado da federação a internet?
+ Qual a média de quantos computadores existem por domicilio em cada região do Brasil?
+
+
+Ferramentas Utilizadas
+
+Para realizar essa análise, utilizamos as seguintes ferramentas:
+
+
+ Pandas: Biblioteca Python amplamente utilizada para análise de dados, que nos permite ler e manipular arquivos XLSX (Excel), além de transformar e limpar os dados conforme necessário.
+ Google Colab: Plataforma para criação de notebooks, facilitando a análise colaborativa dos dados.
+ Tableau: Utilizado para criar dashboards e gráficos apresentados na análise.
+
+
+ O Pandas é uma biblioteca do Python muito utilizada para análise de dados. Com ele podemos ler nossos dados, que é um arquivo XLSX (Excel), e começar a manipular, transformar e limpar, caso necessário.
+
+ Em nosso arquivo temos as seguintes colunas: brasil e Grande Região, Existência de microcomputador ou tablet no domicílio, Ano x Situação do domicílio, etc
+
+
+Estrutura dos Dados
+
+Em nosso arquivo, temos as seguintes colunas:
+
+ Brasil e Grande Região
+ Existência de microcomputador ou tablet no domicílio
+ Ano e Situação do domicílio
+
+
+
+ Com esses dados devidamente transformados e limpos foi criado o _dashboard_ (painel onde os gráficos são visualizados).
+
+Foram gerados os seguintes gráficos:
+
+
+ Gráfico de barras com todos os países que possuem acesso a internet.
+ Gráfico de círculo mostrando o acesso a internet por continente.
+ Gráfico de pizza sobre a proporção de domicílios com e sem internet no Brasil.
+ Dashboard onde pode-se selecionar um estado, visualizar os gráficos e seus rótulos mencionados acima, como mostram as imagens abaixo.
+
+
+
+🌟Algumas análises de acordo com o resultado encontrado:
+
+
+ Em 2022, apenas 63,13% da população mundial usava a internet. Isso significa que apenas cerca de dois terços da população global está conectada à rede mundial de computadores. Embora possa parecer um número alto, ainda há uma grande parte da população que permanece offline, destacando disparidades no acesso à tecnologia e à informação e aprofundando o abismo social, sobretudo com o advento da inteligencia artificial.
+ A média de acesso à internet no Brasil era de apenas 40,65%. Isso significa que menos da metade da população brasileira estava conectada à rede, destacando uma significativa desigualdade no acesso à tecnologia e à informação em comparação com países com maior percentual de usuários online.
+ Pensando nisso reunimos dados de quantos computadores e tablets existem por domicilio no Brasil.
+ Sobre a média de computadores nas diferentes regiões também revela -se desigualdades. A região Sudeste mais uma vez se destaca, com uma média de 14.866 computadores, evidenciando uma maior disseminação de tecnologia. O Nordeste aparece em segundo lugar, com uma média de 7.775,83 computadores, seguido pelo Sul com 5.046,33 computadores.
+ Esses números ilustram as diferenças no acesso à tecnologia entre as regiões, com o Sudeste sendo a mais privilegiada em termos de disponibilidade de computadores.
+ Em 2023, as médias de computadores nas diferentes regiões do Brasil mostraram apenas pequenas alterações em relação ao ano anterior. Esse cenário indica que, embora tenha havido algumas mudanças, as desigualdades no acesso à tecnologia entre as regiões brasileiras persistem.
+ A análise mostrou que muitas regiões do Brasil têm um número significativo de domicílios sem computador ou tablet. Isso evidencia desigualdades tecnológicas, especialmente em termos de impacto no desenvolvimento educacional e profissional. O que nos levou a questionar quem são as pessoas que estão efetivamente conseguindo trabalho na área de tecnologia.
+
+
+Links para visualização do projeto:
+
+
+
+
+Autoras do Projeto:
+
+| [ ](https://github.com/TmTeixeira) | [ ](https://github.com/veronica-toledo-bm)
+| :---: | :---: |
+
diff --git a/gapminder_internet.csv b/gapminder_internet.csv
new file mode 100644
index 0000000..6eb703d
--- /dev/null
+++ b/gapminder_internet.csv
@@ -0,0 +1,214 @@
+country,incomeperperson,internetuserate,urbanrate
+Afghanistan,,3.654121623,24.04
+Albania,1914.996551,44.98994696,46.72
+Algeria,2231.993335,12.50007331,65.22
+Andorra,21943.3399,81,88.92
+Angola,1381.004268,9.999953883,56.7
+Antigua and Barbuda,11894.46407,80.64545455,30.46
+Argentina,10749.41924,36.00033495,92
+Armenia,1326.741757,44.00102458,63.86
+Aruba,,41.80088889,46.78
+Australia,25249.98606,75.8956538,88.74
+Austria,26692.98411,72.73157554,67.16
+Azerbaijan,2344.896916,46.67970157,51.92
+Bahamas,19630.54055,42.98458017,83.7
+Bahrain,12505.21254,54.99280903,88.52
+Bangladesh,558.0628766,3.70000326,27.14
+Barbados,9243.587053,70.02859927,39.84
+Belarus,2737.670379,32.05214391,73.46
+Belgium,24496.04826,73.73393447,97.36
+Belize,3545.652174,12.64573333,51.7
+Benin,377.0396995,3.129961803,41.2
+Bermuda,62682.14701,84.65451409,100
+Bhutan,1324.194906,13.59887603,34.48
+Bolivia,1232.794137,20.00171014,65.58
+Bosnia and Herzegovina,2183.344867,52.00206064,47.44
+Botswana,4189.436587,5.999835575,59.58
+Brazil,4699.411262,40.650098,85.58
+Brunei,17092.46,49.98997494,74.82
+Bulgaria,2549.558474,45.98658991,71.1
+Burkina Faso,276.200413,1.4000607,19.56
+Burundi,115.3059959,2.100212706,10.4
+Cambodia,557.9475126,1.259933609,21.56
+Cameroon,713.6393027,3.999977346,56.76
+Canada,25575.35262,81.33839269,80.4
+Cape Verde,1959.844472,29.99993952,59.62
+Cayman Islands,,66,100
+Central African Rep.,239.5187494,2.300026653,38.58
+Chad,275.8842865,1.700031496,26.68
+Chile,6334.105194,45,88.44
+China,2425.471293,34.37778952,43.1
+Colombia,3233.42378,36.49987464,74.5
+Comoros,336.3687495,5.098265306,28.08
+"Congo, Dem. Rep.",103.7758572,0.720008677,33.96
+"Congo, Rep.",1253.292015,4.999875093,61.34
+Cook Islands,,,
+Costa Rica,5188.900935,36.49911472,63.26
+Cote d'Ivoire,591.0679443,2.599973655,48.78
+Croatia,6338.494668,60.11970702,57.28
+Cuba,4495.046262,15.89997034,75.66
+Cyprus,15313.85935,53.02474483,69.9
+Czech Rep.,7381.312751,68.63813347,73.5
+Denmark,30532.27704,88.77025387,86.68
+Djibouti,895.3183396,6.49792351,87.3
+Dominica,6147.77961,47.28043603,73.92
+Dominican Rep.,4049.169629,39.53127426,69.02
+Ecuador,1728.020976,28.99947674,65.58
+Egypt,1975.551906,26.74002538,42.72
+El Salvador,2557.433638,15.89998203,60.7
+Equatorial Guinea,8654.536845,6.003437143,39.38
+Eritrea,131.796207,5.399666997,20.72
+Estonia,6238.537506,74.1630403,69.46
+Ethiopia,220.8912479,0.74999585,17
+Faeroe Islands,,75.2,41.42
+Fiji,2230.676374,14.83073588,52.36
+Finland,27110.73159,86.89884451,63.3
+France,22878.46657,77.49861935,77.36
+French Polynesia,,48.95732841,51.64
+Gabon,4180.765821,7.232224246,85.04
+Gambia,354.5997263,9.196775477,56.42
+Georgia,1258.762596,26.29725148,52.74
+Germany,25306.18719,82.52689791,73.64
+Ghana,358.9795398,9.549930701,50.02
+Gibraltar,,65,
+Greece,13577.87989,44.57007444,61
+Greenland,20751.89342,63.84915272,83.52
+Grenada,5330.401612,33.61668288,30.84
+Guadeloupe,,,
+Guam,,,93.16
+Guatemala,1860.753895,10.49994819,48.58
+Guinea,411.5014473,0.999958926,34.44
+Guinea-Bissau,161.3171371,2.450362244,29.84
+Guyana,1200.652075,29.87992146,28.38
+Haiti,371.4241975,8.370206884,46.84
+Honduras,1392.411829,11.09076463,47.88
+"Hong Kong, China",35536.07247,71.84912394,100
+Hungary,5634.003948,65.16325092,67.5
+Iceland,33945.31442,95.63811321,92.26
+India,786.7000981,7.499995878,29.54
+Indonesia,1143.831514,9.900038672,51.46
+Iran,2161.54651,13.00011072,68.46
+Iraq,736.2680538,2.471948347,66.6
+Ireland,27595.09135,69.77039441,61.34
+Israel,22275.75166,65.38778594,91.66
+Italy,18982.26929,53.7402166,68.08
+Jamaica,3665.348369,26.47722324,53.3
+Japan,39309.47886,77.63853515,66.48
+Jordan,2534.00038,38.88120159,78.42
+Kazakhstan,2481.718918,33.38212816,57.94
+Kenya,468.6960436,25.8997967,21.6
+Kiribati,760.262365,8.95914,43.84
+"Korea, Dem. Rep.",,,62.68
+"Korea, Rep.",16372.49978,82.515928,81.46
+Kuwait,,38.26023355,98.36
+Kyrgyzstan,372.728414,19.58231645,36.28
+Laos,554.8798401,6.999880342,30.88
+Latvia,5011.219456,71.51472354,68.12
+Lebanon,6746.612632,31.00437828,86.96
+Lesotho,495.7342469,3.860565398,25.46
+Liberia,155.0332312,7.000213821,60.14
+Libya,7885.468037,14.00024673,77.54
+Liechtenstein,81647.10003,80,14.32
+Lithuania,5332.238591,62.81190001,66.96
+Luxembourg,52301.58718,90.07952663,82.44
+"Macao, China",33923.31387,56.76408235,100
+"Macedonia, FYR",2221.185664,51.91418432,66.9
+Madagascar,242.6775342,1.699985145,29.52
+Malawi,184.1417966,2.259975885,18.8
+Malaysia,5184.709328,56.3000337,70.36
+Maldives,4038.857818,28.28970095,37.86
+Mali,269.8928811,2.699966448,32.18
+Malta,11066.78414,63.07799279,94.26
+Marshall Islands,2437.282445,,71.08
+Martinique,,,
+Mauritania,609.1312059,2.999803179,41
+Mauritius,5182.143721,28.7318835,42.48
+Mexico,6105.280743,31.05001287,77.2
+"Micronesia, Fed. Sts.",2146.358593,20.01153153,22.54
+Moldova,595.8745345,40.1222347,41.76
+Monaco,105147.4377,,100
+Mongolia,772.9333448,12.90000468,57.18
+Montenegro,2222.335052,51.95803797,60.18
+Morocco,1844.351028,49.00063184,56.02
+Mozambique,389.7636343,4.170136385,36.84
+Myanmar,,,32.58
+Namibia,2667.24671,6.500822821,36.84
+Nauru,,,
+Nepal,268.2594495,7.930096349,17.24
+Netherlands,26551.84424,90.70355509,81.82
+Netherlands Antilles,,,92.68
+New Caledonia,,,64.78
+New Zealand,14778.16393,83.00258425,86.56
+Nicaragua,948.355952,9.998554154,56.74
+Niger,180.083376,0.829997485,16.54
+Nigeria,544.5994767,28.43003266,48.36
+Niue,,,
+Norway,39972.35277,93.27750793,77.48
+Oman,11191.81101,61.98741286,71.62
+Pakistan,668.547943,16.78003702,36.16
+Palau,6243.571318,,80.46
+Panama,5900.616944,42.74781206,73.2
+Papua New Guinea,744.2394132,1.280049647,12.54
+Paraguay,1621.177078,19.80168119,60.3
+Peru,3180.430612,34.30060399,71.4
+Philippines,1383.401869,24.99994585,64.92
+Poland,6575.745044,62.47123013,61.32
+Portugal,11744.83417,51.2804784,59.46
+Puerto Rico,15822.11214,42.69233477,98.32
+Qatar,33931.83208,81.59039727,95.64
+Reunion,,,
+Romania,2636.7878,40.02009488,54.24
+Russia,2923.144355,43.36649772,72.84
+Rwanda,338.2663912,13.00000612,18.34
+Saint Kitts and Nevis,9175.796015,76.58753846,32.32
+Saint Lucia,5248.582321,40.06137931,27.84
+Saint Vincent and the Grenadines,4885.046701,,47.04
+Samoa,1784.071284,6.965038043,23
+San Marino,31993.20069,,94.22
+Sao Tome and Principe,,18.79511364,60.56
+Saudi Arabia,9425.32587,41.00012846,82.42
+Senegal,561.7085848,15.99964999,42.38
+Serbia,1194.711433,43.05506706,52.04
+Serbia and Montenegro,,,
+Seychelles,8614.120219,40.77285057,54.34
+Sierra Leone,268.3317903,,37.76
+Singapore,32535.83251,71.13170731,100
+Slovak Republic,8445.526689,79.88977734,56.56
+Slovenia,12729.4544,69.33997072,48.6
+Solomon Islands,1144.102193,5.001375465,17.96
+Somalia,,,36.52
+South Africa,3745.649852,12.33489326,60.74
+Spain,15461.75837,65.80855367,77.12
+Sri Lanka,1295.742686,11.99997066,15.1
+Sudan,523.9501515,,43.44
+Suriname,2668.020519,31.5680976,74.92
+Swaziland,1810.230533,9.007735909,24.94
+Sweden,32292.48298,90.01619002,84.54
+Switzerland,37662.75125,82.16665988,73.48
+Syria,1525.780116,20.66315568,54.22
+Taiwan,,,
+Tajikistan,279.1804526,11.54939051,26.46
+Tanzania,456.3857117,11.00005544,25.52
+Thailand,2712.517199,21.20007177,33.32
+Timor-Leste,369.5729537,0.210066326,27.3
+Togo,285.2244493,5.379819715,42
+Tonga,2025.282665,12.00669231,24.78
+Trinidad and Tobago,10480.8172,48.51681767,13.22
+Tunisia,3164.927693,36.56255296,66.5
+Turkey,5348.597192,39.82017789,68.68
+Turkmenistan,2062.125152,2.199997818,48.62
+Tuvalu,1714.94289,25,
+Uganda,377.4211133,12.50025543,12.98
+Ukraine,1036.830725,44.58535469,67.98
+United Arab Emirates,21087.39412,77.99678115,77.88
+United Kingdom,28033.48928,84.73170475,89.94
+United States,37491.17952,74.247572,81.7
+Uruguay,9106.327234,47.86746863,92.3
+Uzbekistan,952.8272608,19.44502055,36.82
+Vanuatu,1543.956457,7.988366667,24.76
+Venezuela,5528.363114,35.85043696,93.32
+Vietnam,722.8075588,27.85182156,27.84
+West Bank and Gaza,,36.42277179,71.9
+"Yemen, Rep.",610.3573673,12.34975046,30.64
+Zambia,432.226337,10.12498646,35.42
+Zimbabwe,320.7718899,11.50041532,37.34
diff --git a/image.png b/image.png
new file mode 100644
index 0000000..d5c0c59
Binary files /dev/null and b/image.png differ
diff --git a/material/analise-exploratoria/analise.ipynb b/material/analise-exploratoria/analise.ipynb
deleted file mode 100644
index 1cce302..0000000
--- a/material/analise-exploratoria/analise.ipynb
+++ /dev/null
@@ -1,22 +0,0 @@
-{
- "cells": [
- {
- "cell_type": "code",
- "execution_count": null,
- "metadata": {},
- "outputs": [],
- "source": [
- "#Utilizar as bibliotecas de Python aprendidas em aula (pandas, matplotlib, seaborn, etc);\n",
- "#Trazer um notebook estruturado e organizado com o uso de Markdown. O uso de textos no notebook é altamente incentivado);\n",
- "#Mínimo de 3 visualizações que ajudem a sumarizar os resultados da sua análise."
- ]
- }
- ],
- "metadata": {
- "language_info": {
- "name": "python"
- }
- },
- "nbformat": 4,
- "nbformat_minor": 2
-}
diff --git a/material/datasets/arquivo.csv b/material/datasets/arquivo.csv
deleted file mode 100644
index e69de29..0000000
diff --git a/material/nome-projeto.md b/material/nome-projeto.md
deleted file mode 100644
index 55c478b..0000000
--- a/material/nome-projeto.md
+++ /dev/null
@@ -1,12 +0,0 @@
-## Contexto
-Esse projeto consiste na análise de xxxxxx. O objetivo desse projeto é xxxxxxxxx.
-Para desenvolver esse projeto, desenvolvemos uma análise exploratória de dados xxxxxxx e utilizamos o Tableau para gerar a visualização das nossas análises.
-
-### Objetivos gerais e específicos do projeto
-
-### Bases escolhidas
-
-- Base 1 (fonte)
-- Base 2 (fonte)
-
-## Ferramentas utilizadas
\ No newline at end of file
diff --git a/s17_Projeto_Final_Tamy_Vero.ipynb b/s17_Projeto_Final_Tamy_Vero.ipynb
new file mode 100644
index 0000000..4364176
--- /dev/null
+++ b/s17_Projeto_Final_Tamy_Vero.ipynb
@@ -0,0 +1,3089 @@
+{
+ "nbformat": 4,
+ "nbformat_minor": 0,
+ "metadata": {
+ "colab": {
+ "provenance": [],
+ "collapsed_sections": [
+ "NG6IEh8AwcX0",
+ "bdETNLverP0_"
+ ],
+ "include_colab_link": true
+ },
+ "kernelspec": {
+ "name": "python3",
+ "display_name": "Python 3"
+ },
+ "language_info": {
+ "name": "python"
+ }
+ },
+ "cells": [
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "id": "view-in-github",
+ "colab_type": "text"
+ },
+ "source": [
+ " "
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "source": [
+ "# **PROJETO FINAL**\n",
+ "\n",
+ "# **TEMA: \"Como acesso populacional a internet se relaciona as oportunidades disponiveis no mercado de tecnologia\"**\n",
+ "\n",
+ "\n",
+ "\n",
+ "## BASES DE DADOS\n",
+ "\n",
+ "1. https://www.kaggle.com/datasets/sansuthi/gapminder-internet (acesso a internet no mundo em 2022) ✅\n",
+ "\n",
+ "2. https://sidra.ibge.gov.br/tabela/7302 (base de dados do IBGE sobre Domicílios e Moradores, por situação do domicílio e existência de televisão no domicílio 2022 e 2023 - foi baixado o csv, no drive: https://docs.google.com/spreadsheets/d/1n9T3-S5f5--G37962E7JQ-4doz7nvwV4/edit?usp=sharing&ouid=104113402736912319813&rtpof=true&sd=true) OBS: LINK ONDE FOI BUSCADO O CSV https://www.ibge.gov.br/estatisticas/sociais/trabalho/17270-pnad-continua.html?edicao=38243&t=resultados\n",
+ "\n",
+ "\n",
+ "3. https://www.kaggle.com/datasets/datahackers/state-of-data-brazil-2023/code (essa aqui usar para analisar o mercado de trabalho e o perfil das pessoas que conseguiram vagas em tech em 2023, verificar de qual estado e classe social elas são, se tem mais homens ou mulheres e a faixa de idade) ✅\n"
+ ],
+ "metadata": {
+ "id": "EFraJgVQX9Zq"
+ }
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 1,
+ "metadata": {
+ "id": "w4h9zFI7X7kJ"
+ },
+ "outputs": [],
+ "source": [
+ "import pandas as pd\n",
+ "import numpy as np\n",
+ "import matplotlib.pyplot as plt"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "source": [
+ "\n",
+ "Para entender melhor os dados que temos, a distribuição deles e seus tipos, vamos verificar suas colunas e tamanho. Depois vamos limpar o que achamos necessário, como retirar linhas duplicadas ou deletar colunas que não nos ajudariam durante nossa análise."
+ ],
+ "metadata": {
+ "id": "wGKD3A3iJ81s"
+ }
+ },
+ {
+ "cell_type": "markdown",
+ "source": [
+ "## IBGE"
+ ],
+ "metadata": {
+ "id": "NG6IEh8AwcX0"
+ }
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# A base de dados do IBGE \"tabela7302\" estava em xlsx, para utilizar ele, subimos o arquivo no colab e convertemos em csv. Esta tabela é sobre a quantidade de notebooks e tablets no Brasil por domicilio.\n",
+ "\n",
+ "# Carregue o arquivo XLSX\n",
+ "df_dispositivo_per_capto = pd.read_excel('tabela7302_nv.xlsx')\n",
+ "\n",
+ "# Salve como CSV\n",
+ "df_dispositivo_per_capto.to_csv('tabela7302_nv.csv', index=False)\n"
+ ],
+ "metadata": {
+ "id": "i1hd4b8jwruR"
+ },
+ "execution_count": null,
+ "outputs": []
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Base de Dados do IBGE - Dispositivo por Região do Brasil\n",
+ "df_dispositivo_per_capto = pd.read_csv('tabela7302_nv.csv')\n",
+ "\n",
+ "# Visualização do numero de linhas e colunas do dataframe\n",
+ "num_linhas = df_dispositivo_per_capto.shape[0]\n",
+ "num_colunas = df_dispositivo_per_capto.shape[1]\n",
+ "colunas = df_dispositivo_per_capto.columns.values\n",
+ "\n",
+ "print(f\"Número de linhas: {num_linhas} \\n\"\n",
+ " f\"Número de colunas: {num_colunas} \\n\"\n",
+ " f\"Colunas: {colunas} \\n\")"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "eSvsF3F4J3z2",
+ "outputId": "bc5ae328-eaf1-4aef-e937-ca99023b7ba6",
+ "collapsed": true
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "Número de linhas: 37 \n",
+ "Número de colunas: 8 \n",
+ "Colunas: ['Unnamed: 0' 'Unnamed: 1' '2022' 'Unnamed: 3' 'Unnamed: 4' '2023'\n",
+ " 'Unnamed: 6' 'Unnamed: 7'] \n",
+ "\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Visualização das dez primeiras linhas do dataframe IBGE\n",
+ "df_dispositivo_per_capto.head(10)\n"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/",
+ "height": 415
+ },
+ "id": "RZLyLxVsKIi2",
+ "outputId": "3ea8c925-b9e6-4bec-d716-b454e021c4bc",
+ "collapsed": true
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "execute_result",
+ "data": {
+ "text/plain": [
+ " Unnamed: 0 Unnamed: 1 \\\n",
+ "0 Brasil e Região Existência de microcomputador ou tablet no dom... \n",
+ "1 Brasil Total \n",
+ "2 Brasil Havia microcomputador ou tablet \n",
+ "3 Brasil Havia microcomputador \n",
+ "4 Brasil Havia tablet \n",
+ "5 Brasil Havia microcomputador e tablet \n",
+ "6 Brasil Não havia microcomputador nem tablet \n",
+ "7 Norte Total \n",
+ "8 Norte Havia microcomputador ou tablet \n",
+ "9 Norte Havia microcomputador \n",
+ "\n",
+ " 2022 Unnamed: 3 Unnamed: 4 2023 Unnamed: 6 Unnamed: 7 \n",
+ "0 Total_2022 Urbana_2022 Rural_2022 Total_2023 Urbana_2023 Rural_2023 \n",
+ "1 75323 65831 9493 78322 68852 9470 \n",
+ "2 31887 30494 1392 32118 30810 1308 \n",
+ "3 30271 29031 1240 30561 29397 1164 \n",
+ "4 8090 7795 295 8118 7850 268 \n",
+ "5 6475 6332 143 6560 6436 124 \n",
+ "6 43437 35336 8100 46204 38042 8162 \n",
+ "7 5739 4592 1148 6024 4873 1151 \n",
+ "8 1716 1627 89 1766 1675 92 \n",
+ "9 1606 1528 78 1672 1589 83 "
+ ],
+ "text/html": [
+ "\n",
+ " \n",
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " Unnamed: 0 \n",
+ " Unnamed: 1 \n",
+ " 2022 \n",
+ " Unnamed: 3 \n",
+ " Unnamed: 4 \n",
+ " 2023 \n",
+ " Unnamed: 6 \n",
+ " Unnamed: 7 \n",
+ " \n",
+ " \n",
+ " \n",
+ " \n",
+ " 0 \n",
+ " Brasil e Região \n",
+ " Existência de microcomputador ou tablet no dom... \n",
+ " Total_2022 \n",
+ " Urbana_2022 \n",
+ " Rural_2022 \n",
+ " Total_2023 \n",
+ " Urbana_2023 \n",
+ " Rural_2023 \n",
+ " \n",
+ " \n",
+ " 1 \n",
+ " Brasil \n",
+ " Total \n",
+ " 75323 \n",
+ " 65831 \n",
+ " 9493 \n",
+ " 78322 \n",
+ " 68852 \n",
+ " 9470 \n",
+ " \n",
+ " \n",
+ " 2 \n",
+ " Brasil \n",
+ " Havia microcomputador ou tablet \n",
+ " 31887 \n",
+ " 30494 \n",
+ " 1392 \n",
+ " 32118 \n",
+ " 30810 \n",
+ " 1308 \n",
+ " \n",
+ " \n",
+ " 3 \n",
+ " Brasil \n",
+ " Havia microcomputador \n",
+ " 30271 \n",
+ " 29031 \n",
+ " 1240 \n",
+ " 30561 \n",
+ " 29397 \n",
+ " 1164 \n",
+ " \n",
+ " \n",
+ " 4 \n",
+ " Brasil \n",
+ " Havia tablet \n",
+ " 8090 \n",
+ " 7795 \n",
+ " 295 \n",
+ " 8118 \n",
+ " 7850 \n",
+ " 268 \n",
+ " \n",
+ " \n",
+ " 5 \n",
+ " Brasil \n",
+ " Havia microcomputador e tablet \n",
+ " 6475 \n",
+ " 6332 \n",
+ " 143 \n",
+ " 6560 \n",
+ " 6436 \n",
+ " 124 \n",
+ " \n",
+ " \n",
+ " 6 \n",
+ " Brasil \n",
+ " Não havia microcomputador nem tablet \n",
+ " 43437 \n",
+ " 35336 \n",
+ " 8100 \n",
+ " 46204 \n",
+ " 38042 \n",
+ " 8162 \n",
+ " \n",
+ " \n",
+ " 7 \n",
+ " Norte \n",
+ " Total \n",
+ " 5739 \n",
+ " 4592 \n",
+ " 1148 \n",
+ " 6024 \n",
+ " 4873 \n",
+ " 1151 \n",
+ " \n",
+ " \n",
+ " 8 \n",
+ " Norte \n",
+ " Havia microcomputador ou tablet \n",
+ " 1716 \n",
+ " 1627 \n",
+ " 89 \n",
+ " 1766 \n",
+ " 1675 \n",
+ " 92 \n",
+ " \n",
+ " \n",
+ " 9 \n",
+ " Norte \n",
+ " Havia microcomputador \n",
+ " 1606 \n",
+ " 1528 \n",
+ " 78 \n",
+ " 1672 \n",
+ " 1589 \n",
+ " 83 \n",
+ " \n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n"
+ ],
+ "application/vnd.google.colaboratory.intrinsic+json": {
+ "type": "dataframe",
+ "variable_name": "df_dispositivo_por_regiao",
+ "summary": "{\n \"name\": \"df_dispositivo_por_regiao\",\n \"rows\": 37,\n \"fields\": [\n {\n \"column\": \"Unnamed: 0\",\n \"properties\": {\n \"dtype\": \"category\",\n \"num_unique_values\": 7,\n \"samples\": [\n \"Brasil e Regi\\u00e3o\",\n \"Brasil\",\n \"Sul\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Unnamed: 1\",\n \"properties\": {\n \"dtype\": \"category\",\n \"num_unique_values\": 7,\n \"samples\": [\n \"Exist\\u00eancia de microcomputador ou tablet no domic\\u00edlio\",\n \"Total\",\n \"Havia microcomputador e tablet\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"2022\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 37,\n \"samples\": [\n \"955\",\n \"19632\",\n \"8090\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Unnamed: 3\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 37,\n \"samples\": [\n \"920\",\n \"15164\",\n \"7795\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Unnamed: 4\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 37,\n \"samples\": [\n \"35\",\n \"4468\",\n \"295\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"2023\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 37,\n \"samples\": [\n \"952\",\n \"20691\",\n \"8118\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Unnamed: 6\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 37,\n \"samples\": [\n \"922\",\n \"16082\",\n \"7850\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Unnamed: 7\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"370\",\n \"4609\",\n \"390\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}"
+ }
+ },
+ "metadata": {},
+ "execution_count": 41
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Quantidade de nulos por coluna IBGE\n",
+ "print(\"Valores nulos por coluna do dataframe:\")\n",
+ "print(df_dispositivo_por_regiao.isnull().sum())"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "xKSBHwJ1KMvu",
+ "outputId": "d1192968-1311-41b6-9c64-20288d992f1f",
+ "collapsed": true
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "Valores nulos por coluna do dataframe:\n",
+ "Unnamed: 0 0\n",
+ "Unnamed: 1 0\n",
+ "2022 0\n",
+ "Unnamed: 3 0\n",
+ "Unnamed: 4 0\n",
+ "2023 0\n",
+ "Unnamed: 6 0\n",
+ "Unnamed: 7 0\n",
+ "dtype: int64\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "source": [
+ "## GAPMINDER"
+ ],
+ "metadata": {
+ "id": "PqnKfTtewhmd"
+ }
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Nomeando dataframe da ONG GAPMINDER\n",
+ "df_internet= pd.read_csv('gapminder_internet.csv', encoding='latin1')\n",
+ "\n",
+ "# Visualização das dez primeiras linhas do dataframe\n",
+ "df_internet.head(10)"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/",
+ "height": 363
+ },
+ "id": "27fe8QUDgSRV",
+ "outputId": "09770a6b-0bce-4fbf-ae24-27d719c5ec6a"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "execute_result",
+ "data": {
+ "text/plain": [
+ " country incomeperperson internetuserate urbanrate\n",
+ "0 Afghanistan NaN 3.654122 24.04\n",
+ "1 Albania 1914.996551 44.989947 46.72\n",
+ "2 Algeria 2231.993335 12.500073 65.22\n",
+ "3 Andorra 21943.339900 81.000000 88.92\n",
+ "4 Angola 1381.004268 9.999954 56.70\n",
+ "5 Antigua and Barbuda 11894.464070 80.645455 30.46\n",
+ "6 Argentina 10749.419240 36.000335 92.00\n",
+ "7 Armenia 1326.741757 44.001025 63.86\n",
+ "8 Aruba NaN 41.800889 46.78\n",
+ "9 Australia 25249.986060 75.895654 88.74"
+ ],
+ "text/html": [
+ "\n",
+ " \n",
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " country \n",
+ " incomeperperson \n",
+ " internetuserate \n",
+ " urbanrate \n",
+ " \n",
+ " \n",
+ " \n",
+ " \n",
+ " 0 \n",
+ " Afghanistan \n",
+ " NaN \n",
+ " 3.654122 \n",
+ " 24.04 \n",
+ " \n",
+ " \n",
+ " 1 \n",
+ " Albania \n",
+ " 1914.996551 \n",
+ " 44.989947 \n",
+ " 46.72 \n",
+ " \n",
+ " \n",
+ " 2 \n",
+ " Algeria \n",
+ " 2231.993335 \n",
+ " 12.500073 \n",
+ " 65.22 \n",
+ " \n",
+ " \n",
+ " 3 \n",
+ " Andorra \n",
+ " 21943.339900 \n",
+ " 81.000000 \n",
+ " 88.92 \n",
+ " \n",
+ " \n",
+ " 4 \n",
+ " Angola \n",
+ " 1381.004268 \n",
+ " 9.999954 \n",
+ " 56.70 \n",
+ " \n",
+ " \n",
+ " 5 \n",
+ " Antigua and Barbuda \n",
+ " 11894.464070 \n",
+ " 80.645455 \n",
+ " 30.46 \n",
+ " \n",
+ " \n",
+ " 6 \n",
+ " Argentina \n",
+ " 10749.419240 \n",
+ " 36.000335 \n",
+ " 92.00 \n",
+ " \n",
+ " \n",
+ " 7 \n",
+ " Armenia \n",
+ " 1326.741757 \n",
+ " 44.001025 \n",
+ " 63.86 \n",
+ " \n",
+ " \n",
+ " 8 \n",
+ " Aruba \n",
+ " NaN \n",
+ " 41.800889 \n",
+ " 46.78 \n",
+ " \n",
+ " \n",
+ " 9 \n",
+ " Australia \n",
+ " 25249.986060 \n",
+ " 75.895654 \n",
+ " 88.74 \n",
+ " \n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n"
+ ],
+ "application/vnd.google.colaboratory.intrinsic+json": {
+ "type": "dataframe",
+ "variable_name": "df_internet",
+ "summary": "{\n \"name\": \"df_internet\",\n \"rows\": 213,\n \"fields\": [\n {\n \"column\": \"country\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 213,\n \"samples\": [\n \"Australia\",\n \"Turkmenistan\",\n \"Gabon\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"incomeperperson\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 14262.809082891317,\n \"min\": 103.7758572,\n \"max\": 105147.4377,\n \"num_unique_values\": 190,\n \"samples\": [\n 2062.125152,\n 28033.48928,\n 5182.143721\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"internetuserate\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 27.780284580956998,\n \"min\": 0.210066326,\n \"max\": 95.63811321,\n \"num_unique_values\": 192,\n \"samples\": [\n 60.11970702,\n 1.280049647,\n 2.450362244\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"urbanrate\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 23.844932647298503,\n \"min\": 10.4,\n \"max\": 100.0,\n \"num_unique_values\": 194,\n \"samples\": [\n 71.4,\n 73.46,\n 52.04\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}"
+ }
+ },
+ "metadata": {},
+ "execution_count": 67
+ }
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "source": [
+ "## Mercado de Trabalho"
+ ],
+ "metadata": {
+ "id": "T0bebIQDw-PE"
+ }
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "df_mercado_tech= pd.read_csv('State_data_BR_2023.csv', encoding='latin1')"
+ ],
+ "metadata": {
+ "id": "h3fOA9aSxC_v"
+ },
+ "execution_count": 2,
+ "outputs": []
+ },
+ {
+ "cell_type": "markdown",
+ "source": [
+ "#Etapa: Limpeza dos Dados\n",
+ "\n",
+ "Agora que temos algumas informações sobre nosso dataframe, podemos aplicar a limpeza.\n",
+ "\n",
+ "Para não prejudicar os dados originais e termos mais liberdade ao modifica-los, criamos um dataframe para manipulação, utilizando a função `.copy()`.\n",
+ "\n"
+ ],
+ "metadata": {
+ "id": "flbjbvy8KTf1"
+ }
+ },
+ {
+ "cell_type": "markdown",
+ "source": [
+ "##**IBGE**\n",
+ "\n"
+ ],
+ "metadata": {
+ "id": "bdETNLverP0_"
+ }
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Criação da copia do dataframe - IBGE\n",
+ "dataframe_copia = df_dispositivo_per_capto.copy()\n",
+ "\n",
+ "# Exclusão de linhas duplicadas\n",
+ "dataframe_copia.drop_duplicates(inplace=True)\n",
+ "print(\"Linhas duplicadas removidas!\")\n"
+ ],
+ "metadata": {
+ "id": "Z4pqI8vxKUvn",
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "outputId": "133ede18-98ac-46a7-df71-6ace2ffbe3b3"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "Linhas duplicadas removidas!\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Renomeando as colunas existentes - IBGE\n",
+ "dataframe_renomeado = dataframe_copia.rename(columns={'Unnamed: 0': 'Localidade', 'Unnamed: 1': 'Dispositivo', '2022': 'Total_2022', 'Unnamed: 3': 'Zonaurbana_2022', 'Unnamed: 4': 'Zonarural_2022', '2023': 'Total_2023', 'Unnamed: 6': 'Zonaurbana_2023', 'Unnamed: 7': 'Zonarural_2023' })\n",
+ "\n",
+ "colunas_atualizadas = dataframe_renomeado.columns.values\n",
+ "\n",
+ "print(f\"Colunas Atualizadas: {colunas_atualizadas}\")"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "dE2meVODKphL",
+ "outputId": "99e6a0d9-57e0-4967-a4e6-84dd18cb3300"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "Colunas Atualizadas: ['Localidade' 'Dispositivo' 'Total_2022' 'Zonaurbana_2022'\n",
+ " 'Zonarural_2022' 'Total_2023' 'Zonaurbana_2023' 'Zonarural_2023']\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "#Exclusão de linha \"do índice 0\", onde supostamente estão nomeadas as colunas - IBGE\n",
+ "dataframe_renomeado.drop(0, axis=0)"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/",
+ "height": 1000
+ },
+ "id": "K-UTh0G9K5HR",
+ "outputId": "4b4fa47f-f472-4675-94bc-19f7b4802109"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "execute_result",
+ "data": {
+ "text/plain": [
+ " Localidade Dispositivo Total_2022 \\\n",
+ "1 Brasil Total 75323 \n",
+ "2 Brasil Havia microcomputador ou tablet 31887 \n",
+ "3 Brasil Havia microcomputador 30271 \n",
+ "4 Brasil Havia tablet 8090 \n",
+ "5 Brasil Havia microcomputador e tablet 6475 \n",
+ "6 Brasil Não havia microcomputador nem tablet 43437 \n",
+ "7 Norte Total 5739 \n",
+ "8 Norte Havia microcomputador ou tablet 1716 \n",
+ "9 Norte Havia microcomputador 1606 \n",
+ "10 Norte Havia tablet 381 \n",
+ "11 Norte Havia microcomputador e tablet 271 \n",
+ "12 Norte Não havia microcomputador nem tablet 4024 \n",
+ "13 Nordeste Total 19632 \n",
+ "14 Nordeste Havia microcomputador ou tablet 5481 \n",
+ "15 Nordeste Havia microcomputador 4989 \n",
+ "16 Nordeste Havia tablet 1447 \n",
+ "17 Nordeste Havia microcomputador e tablet 955 \n",
+ "18 Nordeste Não havia microcomputador nem tablet 14151 \n",
+ "19 Sudeste Total 32761 \n",
+ "20 Sudeste Havia microcomputador ou tablet 16368 \n",
+ "21 Sudeste Havia microcomputador 15664 \n",
+ "22 Sudeste Havia tablet 4358 \n",
+ "23 Sudeste Havia microcomputador e tablet 3653 \n",
+ "24 Sudeste Não havia microcomputador nem tablet 16392 \n",
+ "25 Sul Total 11271 \n",
+ "26 Sul Havia microcomputador ou tablet 5608 \n",
+ "27 Sul Havia microcomputador 5404 \n",
+ "28 Sul Havia tablet 1267 \n",
+ "29 Sul Havia microcomputador e tablet 1064 \n",
+ "30 Sul Não havia microcomputador nem tablet 5664 \n",
+ "31 Centro-Oeste Total 5920 \n",
+ "32 Centro-Oeste Havia microcomputador ou tablet 2714 \n",
+ "33 Centro-Oeste Havia microcomputador 2607 \n",
+ "34 Centro-Oeste Havia tablet 637 \n",
+ "35 Centro-Oeste Havia microcomputador e tablet 531 \n",
+ "36 Centro-Oeste Não havia microcomputador nem tablet 3206 \n",
+ "\n",
+ " Zonaurbana_2022 Zonarural_2022 Total_2023 Zonaurbana_2023 Zonarural_2023 \n",
+ "1 65831 9493 78322 68852 9470 \n",
+ "2 30494 1392 32118 30810 1308 \n",
+ "3 29031 1240 30561 29397 1164 \n",
+ "4 7795 295 8118 7850 268 \n",
+ "5 6332 143 6560 6436 124 \n",
+ "6 35336 8100 46204 38042 8162 \n",
+ "7 4592 1148 6024 4873 1151 \n",
+ "8 1627 89 1766 1675 92 \n",
+ "9 1528 78 1672 1589 83 \n",
+ "10 363 17 411 393 18 \n",
+ "11 265 6 316 307 9 \n",
+ "12 2965 1059 4258 3198 1059 \n",
+ "13 15164 4468 20691 16082 4609 \n",
+ "14 5100 381 5448 5074 374 \n",
+ "15 4684 305 4961 4657 304 \n",
+ "16 1337 110 1438 1339 99 \n",
+ "17 920 35 952 922 29 \n",
+ "18 10064 4087 15244 11009 4235 \n",
+ "19 30793 1968 33792 31897 1895 \n",
+ "20 15979 389 16547 16196 351 \n",
+ "21 15310 353 15871 15552 319 \n",
+ "22 4270 88 4321 4255 67 \n",
+ "23 3601 52 3646 3611 35 \n",
+ "24 14814 1579 17246 15701 1544 \n",
+ "25 9836 1435 11584 10241 1343 \n",
+ "26 5176 432 5600 5210 390 \n",
+ "27 4993 412 5408 5041 367 \n",
+ "28 1210 58 1267 1204 63 \n",
+ "29 1026 38 1075 1036 40 \n",
+ "30 4660 1003 5984 5031 953 \n",
+ "31 5446 474 6230 5758 472 \n",
+ "32 2612 101 2757 2656 102 \n",
+ "33 2516 92 2648 2557 92 \n",
+ "34 616 22 680 659 21 \n",
+ "35 519 12 571 560 11 \n",
+ "36 2833 373 3473 3103 370 "
+ ],
+ "text/html": [
+ "\n",
+ " \n",
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " Localidade \n",
+ " Dispositivo \n",
+ " Total_2022 \n",
+ " Zonaurbana_2022 \n",
+ " Zonarural_2022 \n",
+ " Total_2023 \n",
+ " Zonaurbana_2023 \n",
+ " Zonarural_2023 \n",
+ " \n",
+ " \n",
+ " \n",
+ " \n",
+ " 1 \n",
+ " Brasil \n",
+ " Total \n",
+ " 75323 \n",
+ " 65831 \n",
+ " 9493 \n",
+ " 78322 \n",
+ " 68852 \n",
+ " 9470 \n",
+ " \n",
+ " \n",
+ " 2 \n",
+ " Brasil \n",
+ " Havia microcomputador ou tablet \n",
+ " 31887 \n",
+ " 30494 \n",
+ " 1392 \n",
+ " 32118 \n",
+ " 30810 \n",
+ " 1308 \n",
+ " \n",
+ " \n",
+ " 3 \n",
+ " Brasil \n",
+ " Havia microcomputador \n",
+ " 30271 \n",
+ " 29031 \n",
+ " 1240 \n",
+ " 30561 \n",
+ " 29397 \n",
+ " 1164 \n",
+ " \n",
+ " \n",
+ " 4 \n",
+ " Brasil \n",
+ " Havia tablet \n",
+ " 8090 \n",
+ " 7795 \n",
+ " 295 \n",
+ " 8118 \n",
+ " 7850 \n",
+ " 268 \n",
+ " \n",
+ " \n",
+ " 5 \n",
+ " Brasil \n",
+ " Havia microcomputador e tablet \n",
+ " 6475 \n",
+ " 6332 \n",
+ " 143 \n",
+ " 6560 \n",
+ " 6436 \n",
+ " 124 \n",
+ " \n",
+ " \n",
+ " 6 \n",
+ " Brasil \n",
+ " Não havia microcomputador nem tablet \n",
+ " 43437 \n",
+ " 35336 \n",
+ " 8100 \n",
+ " 46204 \n",
+ " 38042 \n",
+ " 8162 \n",
+ " \n",
+ " \n",
+ " 7 \n",
+ " Norte \n",
+ " Total \n",
+ " 5739 \n",
+ " 4592 \n",
+ " 1148 \n",
+ " 6024 \n",
+ " 4873 \n",
+ " 1151 \n",
+ " \n",
+ " \n",
+ " 8 \n",
+ " Norte \n",
+ " Havia microcomputador ou tablet \n",
+ " 1716 \n",
+ " 1627 \n",
+ " 89 \n",
+ " 1766 \n",
+ " 1675 \n",
+ " 92 \n",
+ " \n",
+ " \n",
+ " 9 \n",
+ " Norte \n",
+ " Havia microcomputador \n",
+ " 1606 \n",
+ " 1528 \n",
+ " 78 \n",
+ " 1672 \n",
+ " 1589 \n",
+ " 83 \n",
+ " \n",
+ " \n",
+ " 10 \n",
+ " Norte \n",
+ " Havia tablet \n",
+ " 381 \n",
+ " 363 \n",
+ " 17 \n",
+ " 411 \n",
+ " 393 \n",
+ " 18 \n",
+ " \n",
+ " \n",
+ " 11 \n",
+ " Norte \n",
+ " Havia microcomputador e tablet \n",
+ " 271 \n",
+ " 265 \n",
+ " 6 \n",
+ " 316 \n",
+ " 307 \n",
+ " 9 \n",
+ " \n",
+ " \n",
+ " 12 \n",
+ " Norte \n",
+ " Não havia microcomputador nem tablet \n",
+ " 4024 \n",
+ " 2965 \n",
+ " 1059 \n",
+ " 4258 \n",
+ " 3198 \n",
+ " 1059 \n",
+ " \n",
+ " \n",
+ " 13 \n",
+ " Nordeste \n",
+ " Total \n",
+ " 19632 \n",
+ " 15164 \n",
+ " 4468 \n",
+ " 20691 \n",
+ " 16082 \n",
+ " 4609 \n",
+ " \n",
+ " \n",
+ " 14 \n",
+ " Nordeste \n",
+ " Havia microcomputador ou tablet \n",
+ " 5481 \n",
+ " 5100 \n",
+ " 381 \n",
+ " 5448 \n",
+ " 5074 \n",
+ " 374 \n",
+ " \n",
+ " \n",
+ " 15 \n",
+ " Nordeste \n",
+ " Havia microcomputador \n",
+ " 4989 \n",
+ " 4684 \n",
+ " 305 \n",
+ " 4961 \n",
+ " 4657 \n",
+ " 304 \n",
+ " \n",
+ " \n",
+ " 16 \n",
+ " Nordeste \n",
+ " Havia tablet \n",
+ " 1447 \n",
+ " 1337 \n",
+ " 110 \n",
+ " 1438 \n",
+ " 1339 \n",
+ " 99 \n",
+ " \n",
+ " \n",
+ " 17 \n",
+ " Nordeste \n",
+ " Havia microcomputador e tablet \n",
+ " 955 \n",
+ " 920 \n",
+ " 35 \n",
+ " 952 \n",
+ " 922 \n",
+ " 29 \n",
+ " \n",
+ " \n",
+ " 18 \n",
+ " Nordeste \n",
+ " Não havia microcomputador nem tablet \n",
+ " 14151 \n",
+ " 10064 \n",
+ " 4087 \n",
+ " 15244 \n",
+ " 11009 \n",
+ " 4235 \n",
+ " \n",
+ " \n",
+ " 19 \n",
+ " Sudeste \n",
+ " Total \n",
+ " 32761 \n",
+ " 30793 \n",
+ " 1968 \n",
+ " 33792 \n",
+ " 31897 \n",
+ " 1895 \n",
+ " \n",
+ " \n",
+ " 20 \n",
+ " Sudeste \n",
+ " Havia microcomputador ou tablet \n",
+ " 16368 \n",
+ " 15979 \n",
+ " 389 \n",
+ " 16547 \n",
+ " 16196 \n",
+ " 351 \n",
+ " \n",
+ " \n",
+ " 21 \n",
+ " Sudeste \n",
+ " Havia microcomputador \n",
+ " 15664 \n",
+ " 15310 \n",
+ " 353 \n",
+ " 15871 \n",
+ " 15552 \n",
+ " 319 \n",
+ " \n",
+ " \n",
+ " 22 \n",
+ " Sudeste \n",
+ " Havia tablet \n",
+ " 4358 \n",
+ " 4270 \n",
+ " 88 \n",
+ " 4321 \n",
+ " 4255 \n",
+ " 67 \n",
+ " \n",
+ " \n",
+ " 23 \n",
+ " Sudeste \n",
+ " Havia microcomputador e tablet \n",
+ " 3653 \n",
+ " 3601 \n",
+ " 52 \n",
+ " 3646 \n",
+ " 3611 \n",
+ " 35 \n",
+ " \n",
+ " \n",
+ " 24 \n",
+ " Sudeste \n",
+ " Não havia microcomputador nem tablet \n",
+ " 16392 \n",
+ " 14814 \n",
+ " 1579 \n",
+ " 17246 \n",
+ " 15701 \n",
+ " 1544 \n",
+ " \n",
+ " \n",
+ " 25 \n",
+ " Sul \n",
+ " Total \n",
+ " 11271 \n",
+ " 9836 \n",
+ " 1435 \n",
+ " 11584 \n",
+ " 10241 \n",
+ " 1343 \n",
+ " \n",
+ " \n",
+ " 26 \n",
+ " Sul \n",
+ " Havia microcomputador ou tablet \n",
+ " 5608 \n",
+ " 5176 \n",
+ " 432 \n",
+ " 5600 \n",
+ " 5210 \n",
+ " 390 \n",
+ " \n",
+ " \n",
+ " 27 \n",
+ " Sul \n",
+ " Havia microcomputador \n",
+ " 5404 \n",
+ " 4993 \n",
+ " 412 \n",
+ " 5408 \n",
+ " 5041 \n",
+ " 367 \n",
+ " \n",
+ " \n",
+ " 28 \n",
+ " Sul \n",
+ " Havia tablet \n",
+ " 1267 \n",
+ " 1210 \n",
+ " 58 \n",
+ " 1267 \n",
+ " 1204 \n",
+ " 63 \n",
+ " \n",
+ " \n",
+ " 29 \n",
+ " Sul \n",
+ " Havia microcomputador e tablet \n",
+ " 1064 \n",
+ " 1026 \n",
+ " 38 \n",
+ " 1075 \n",
+ " 1036 \n",
+ " 40 \n",
+ " \n",
+ " \n",
+ " 30 \n",
+ " Sul \n",
+ " Não havia microcomputador nem tablet \n",
+ " 5664 \n",
+ " 4660 \n",
+ " 1003 \n",
+ " 5984 \n",
+ " 5031 \n",
+ " 953 \n",
+ " \n",
+ " \n",
+ " 31 \n",
+ " Centro-Oeste \n",
+ " Total \n",
+ " 5920 \n",
+ " 5446 \n",
+ " 474 \n",
+ " 6230 \n",
+ " 5758 \n",
+ " 472 \n",
+ " \n",
+ " \n",
+ " 32 \n",
+ " Centro-Oeste \n",
+ " Havia microcomputador ou tablet \n",
+ " 2714 \n",
+ " 2612 \n",
+ " 101 \n",
+ " 2757 \n",
+ " 2656 \n",
+ " 102 \n",
+ " \n",
+ " \n",
+ " 33 \n",
+ " Centro-Oeste \n",
+ " Havia microcomputador \n",
+ " 2607 \n",
+ " 2516 \n",
+ " 92 \n",
+ " 2648 \n",
+ " 2557 \n",
+ " 92 \n",
+ " \n",
+ " \n",
+ " 34 \n",
+ " Centro-Oeste \n",
+ " Havia tablet \n",
+ " 637 \n",
+ " 616 \n",
+ " 22 \n",
+ " 680 \n",
+ " 659 \n",
+ " 21 \n",
+ " \n",
+ " \n",
+ " 35 \n",
+ " Centro-Oeste \n",
+ " Havia microcomputador e tablet \n",
+ " 531 \n",
+ " 519 \n",
+ " 12 \n",
+ " 571 \n",
+ " 560 \n",
+ " 11 \n",
+ " \n",
+ " \n",
+ " 36 \n",
+ " Centro-Oeste \n",
+ " Não havia microcomputador nem tablet \n",
+ " 3206 \n",
+ " 2833 \n",
+ " 373 \n",
+ " 3473 \n",
+ " 3103 \n",
+ " 370 \n",
+ " \n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n"
+ ],
+ "application/vnd.google.colaboratory.intrinsic+json": {
+ "type": "dataframe",
+ "summary": "{\n \"name\": \"dataframe_renomeado\",\n \"rows\": 36,\n \"fields\": [\n {\n \"column\": \"Localidade\",\n \"properties\": {\n \"dtype\": \"category\",\n \"num_unique_values\": 6,\n \"samples\": [\n \"Brasil\",\n \"Norte\",\n \"Centro-Oeste\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Dispositivo\",\n \"properties\": {\n \"dtype\": \"category\",\n \"num_unique_values\": 6,\n \"samples\": [\n \"Total\",\n \"Havia microcomputador ou tablet\",\n \"N\\u00e3o havia microcomputador nem tablet\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Total_2022\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"3206\",\n \"5481\",\n \"5404\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Zonaurbana_2022\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"2833\",\n \"5100\",\n \"4993\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Zonarural_2022\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"373\",\n \"381\",\n \"412\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Total_2023\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"3473\",\n \"5448\",\n \"5408\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Zonaurbana_2023\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 36,\n \"samples\": [\n \"3103\",\n \"5074\",\n \"5041\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Zonarural_2023\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 35,\n \"samples\": [\n \"367\",\n \"374\",\n \"1343\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}"
+ }
+ },
+ "metadata": {},
+ "execution_count": 62
+ }
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "source": [
+ "##**GAPMINDER**"
+ ],
+ "metadata": {
+ "id": "h6-29WHQrUwz"
+ }
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Criação da copia do dataframe - GAPMINDER\n",
+ "dataframe_copia = df_internet.copy()"
+ ],
+ "metadata": {
+ "id": "_WgQcBh0yNcc"
+ },
+ "execution_count": null,
+ "outputs": []
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Renomeando as colunas existentes - GAPMINDER\n",
+ "df_internet_renomeado = df_internet.rename(columns={'country': 'País', 'incomeperperson': 'Renda_per_Capta', 'internetuserate': 'Taxa_Acesso_Internet', 'urbanrate': 'Taxa_Urbanização'})\n",
+ "\n",
+ "colunas_atualizadas = df_internet_renomeado.columns.values\n",
+ "\n",
+ "print(f\"Colunas Atualizadas: {colunas_atualizadas}\")"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "ozDwKlCfkFbp",
+ "outputId": "a6ecce86-a2e3-4778-a9d0-d5ff5b94c919"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "Colunas Atualizadas: ['País' 'Renda_per_Capta' 'Taxa_Acesso_Internet' 'Taxa_Urbanização']\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "#contando a quantidade de valores nulos - GAPMINDER\n",
+ "df_internet_renomeado.isnull().sum()"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/",
+ "height": 210
+ },
+ "id": "3H7a6efYnJIz",
+ "outputId": "a0479fb8-e220-44a0-c663-b6d897755cf3"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "execute_result",
+ "data": {
+ "text/plain": [
+ "País 0\n",
+ "Renda_per_Capta 23\n",
+ "Taxa_Acesso_Internet 21\n",
+ "Taxa_Urbanização 10\n",
+ "dtype: int64"
+ ],
+ "text/html": [
+ "\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " 0 \n",
+ " \n",
+ " \n",
+ " \n",
+ " \n",
+ " País \n",
+ " 0 \n",
+ " \n",
+ " \n",
+ " Renda_per_Capta \n",
+ " 23 \n",
+ " \n",
+ " \n",
+ " Taxa_Acesso_Internet \n",
+ " 21 \n",
+ " \n",
+ " \n",
+ " Taxa_Urbanização \n",
+ " 10 \n",
+ " \n",
+ " \n",
+ "
\n",
+ "
dtype: int64 "
+ ]
+ },
+ "metadata": {},
+ "execution_count": 81
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Exclusão de Nulos - GAPMINDER\n",
+ "df_internet_renomeado.dropna(inplace=True)\n",
+ "print(\"Valores nulos removidos!\")"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "cTicGSa3pn9X",
+ "outputId": "0b954af6-6ae6-423e-d6b6-3b58b8944dbe"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "Valores nulos removidos!\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Exclusão de linhas duplicadas - GAPMINDER\n",
+ "df_internet_renomeado.drop_duplicates(inplace=True)\n",
+ "print(f\"Linhas duplicadas: {df_internet_renomeado.duplicated().sum()}\")"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "Ae9x0yvUplNt",
+ "outputId": "461fce7c-24dd-4ce1-f4ef-02e95bee1983"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "Linhas duplicadas: 0\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "df_internet_renomeado"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/",
+ "height": 424
+ },
+ "id": "YiKrBJdjqIab",
+ "outputId": "26169374-c97d-4691-f09b-b6b12282474d"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "execute_result",
+ "data": {
+ "text/plain": [
+ " País Renda_per_Capta Taxa_Acesso_Internet \\\n",
+ "1 Albania 1914.996551 44.989947 \n",
+ "2 Algeria 2231.993335 12.500073 \n",
+ "3 Andorra 21943.339900 81.000000 \n",
+ "4 Angola 1381.004268 9.999954 \n",
+ "5 Antigua and Barbuda 11894.464070 80.645455 \n",
+ ".. ... ... ... \n",
+ "207 Venezuela 5528.363114 35.850437 \n",
+ "208 Vietnam 722.807559 27.851822 \n",
+ "210 Yemen, Rep. 610.357367 12.349750 \n",
+ "211 Zambia 432.226337 10.124986 \n",
+ "212 Zimbabwe 320.771890 11.500415 \n",
+ "\n",
+ " Taxa_Urbanização \n",
+ "1 46.72 \n",
+ "2 65.22 \n",
+ "3 88.92 \n",
+ "4 56.70 \n",
+ "5 30.46 \n",
+ ".. ... \n",
+ "207 93.32 \n",
+ "208 27.84 \n",
+ "210 30.64 \n",
+ "211 35.42 \n",
+ "212 37.34 \n",
+ "\n",
+ "[182 rows x 4 columns]"
+ ],
+ "text/html": [
+ "\n",
+ " \n",
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " País \n",
+ " Renda_per_Capta \n",
+ " Taxa_Acesso_Internet \n",
+ " Taxa_Urbanização \n",
+ " \n",
+ " \n",
+ " \n",
+ " \n",
+ " 1 \n",
+ " Albania \n",
+ " 1914.996551 \n",
+ " 44.989947 \n",
+ " 46.72 \n",
+ " \n",
+ " \n",
+ " 2 \n",
+ " Algeria \n",
+ " 2231.993335 \n",
+ " 12.500073 \n",
+ " 65.22 \n",
+ " \n",
+ " \n",
+ " 3 \n",
+ " Andorra \n",
+ " 21943.339900 \n",
+ " 81.000000 \n",
+ " 88.92 \n",
+ " \n",
+ " \n",
+ " 4 \n",
+ " Angola \n",
+ " 1381.004268 \n",
+ " 9.999954 \n",
+ " 56.70 \n",
+ " \n",
+ " \n",
+ " 5 \n",
+ " Antigua and Barbuda \n",
+ " 11894.464070 \n",
+ " 80.645455 \n",
+ " 30.46 \n",
+ " \n",
+ " \n",
+ " ... \n",
+ " ... \n",
+ " ... \n",
+ " ... \n",
+ " ... \n",
+ " \n",
+ " \n",
+ " 207 \n",
+ " Venezuela \n",
+ " 5528.363114 \n",
+ " 35.850437 \n",
+ " 93.32 \n",
+ " \n",
+ " \n",
+ " 208 \n",
+ " Vietnam \n",
+ " 722.807559 \n",
+ " 27.851822 \n",
+ " 27.84 \n",
+ " \n",
+ " \n",
+ " 210 \n",
+ " Yemen, Rep. \n",
+ " 610.357367 \n",
+ " 12.349750 \n",
+ " 30.64 \n",
+ " \n",
+ " \n",
+ " 211 \n",
+ " Zambia \n",
+ " 432.226337 \n",
+ " 10.124986 \n",
+ " 35.42 \n",
+ " \n",
+ " \n",
+ " 212 \n",
+ " Zimbabwe \n",
+ " 320.771890 \n",
+ " 11.500415 \n",
+ " 37.34 \n",
+ " \n",
+ " \n",
+ "
\n",
+ "
182 rows × 4 columns
\n",
+ "
\n",
+ "
\n",
+ "
\n"
+ ],
+ "application/vnd.google.colaboratory.intrinsic+json": {
+ "type": "dataframe",
+ "variable_name": "df_internet_renomeado",
+ "summary": "{\n \"name\": \"df_internet_renomeado\",\n \"rows\": 182,\n \"fields\": [\n {\n \"column\": \"Pa\\u00eds\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 182,\n \"samples\": [\n \"Bhutan\",\n \"Croatia\",\n \"Suriname\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Renda_per_Capta\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 12509.740084966688,\n \"min\": 103.7758572,\n \"max\": 81647.10003,\n \"num_unique_values\": 182,\n \"samples\": [\n 1324.194906,\n 6338.494668,\n 2668.020519\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Taxa_Acesso_Internet\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 28.047809543738378,\n \"min\": 0.210066326,\n \"max\": 95.63811321,\n \"num_unique_values\": 182,\n \"samples\": [\n 13.59887603,\n 60.11970702,\n 31.5680976\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Taxa_Urbaniza\\u00e7\\u00e3o\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 23.629312953873434,\n \"min\": 10.4,\n \"max\": 100.0,\n \"num_unique_values\": 175,\n \"samples\": [\n 27.3,\n 60.74,\n 70.36\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}"
+ }
+ },
+ "metadata": {},
+ "execution_count": 84
+ }
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "source": [
+ "## **MERCADO DE TRABALHO TECH**"
+ ],
+ "metadata": {
+ "id": "WTSSWJnTsXVn"
+ }
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Criação da copia do dataframe - STATE\n",
+ "data_copia = df_mercado_tech.copy()"
+ ],
+ "metadata": {
+ "id": "HIgldSWByqu_"
+ },
+ "execution_count": null,
+ "outputs": []
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "df_mercado_tech.info()\n"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "476K1T-MtaS1",
+ "outputId": "243f45c1-e28b-4340-e3c2-90a341084ab7"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "\n",
+ "RangeIndex: 5293 entries, 0 to 5292\n",
+ "Columns: 399 entries, ('P0', 'id') to ('P8_d_12 ', 'Treinando e aplicando LLM's para solucionar problemas de negócio.')\n",
+ "dtypes: float64(328), int64(2), object(69)\n",
+ "memory usage: 16.1+ MB\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "#contando a quantidade de valores nulos - STATE\n",
+ "df_mercado_tech.isnull().sum()"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/",
+ "height": 458
+ },
+ "id": "yyiWNikp35yz",
+ "outputId": "3004d173-3151-46b3-e7b4-15022e58c1e9"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "execute_result",
+ "data": {
+ "text/plain": [
+ "('P0', 'id') 0\n",
+ "('P1_a ', 'Idade') 0\n",
+ "('P1_a_1 ', 'Faixa idade') 0\n",
+ "('P1_b ', 'Genero') 0\n",
+ "('P1_c ', 'Cor/raca/etnia') 0\n",
+ " ... \n",
+ "('P8_d_8 ', 'Utilizando ferramentas avançadas de estatÃstica como SAS, SPSS, Stata etc, para realizar análises.') 4545\n",
+ "('P8_d_9 ', 'Criando e dando manutenção em ETLs, DAGs e automações de pipelines de dados.') 4545\n",
+ "('P8_d_10 ', 'Criando e gerenciando soluções de Feature Store e cultura de MLOps.') 4545\n",
+ "('P8_d_11 ', 'Criando e mantendo a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)') 4545\n",
+ "('P8_d_12 ', 'Treinando e aplicando LLM's para solucionar problemas de negócio.') 4545\n",
+ "Length: 399, dtype: int64"
+ ],
+ "text/html": [
+ "\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " 0 \n",
+ " \n",
+ " \n",
+ " \n",
+ " \n",
+ " ('P0', 'id') \n",
+ " 0 \n",
+ " \n",
+ " \n",
+ " ('P1_a ', 'Idade') \n",
+ " 0 \n",
+ " \n",
+ " \n",
+ " ('P1_a_1 ', 'Faixa idade') \n",
+ " 0 \n",
+ " \n",
+ " \n",
+ " ('P1_b ', 'Genero') \n",
+ " 0 \n",
+ " \n",
+ " \n",
+ " ('P1_c ', 'Cor/raca/etnia') \n",
+ " 0 \n",
+ " \n",
+ " \n",
+ " ... \n",
+ " ... \n",
+ " \n",
+ " \n",
+ " ('P8_d_8 ', 'Utilizando ferramentas avançadas de estatÃstica como SAS, SPSS, Stata etc, para realizar análises.') \n",
+ " 4545 \n",
+ " \n",
+ " \n",
+ " ('P8_d_9 ', 'Criando e dando manutenção em ETLs, DAGs e automações de pipelines de dados.') \n",
+ " 4545 \n",
+ " \n",
+ " \n",
+ " ('P8_d_10 ', 'Criando e gerenciando soluções de Feature Store e cultura de MLOps.') \n",
+ " 4545 \n",
+ " \n",
+ " \n",
+ " ('P8_d_11 ', 'Criando e mantendo a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)') \n",
+ " 4545 \n",
+ " \n",
+ " \n",
+ " ('P8_d_12 ', 'Treinando e aplicando LLM's para solucionar problemas de negócio.') \n",
+ " 4545 \n",
+ " \n",
+ " \n",
+ "
\n",
+ "
399 rows × 1 columns
\n",
+ "
dtype: int64 "
+ ]
+ },
+ "metadata": {},
+ "execution_count": 85
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Exclusão de Nulos - STATE\n",
+ "df_mercado_tech.dropna(inplace=True)\n",
+ "print(\"Valores nulos removidos!\")"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "Sdg48tvG4Kx2",
+ "outputId": "6e3c9d6d-1377-4302-e226-fcd3600b7dee"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "Valores nulos removidos!\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Exclusão de linhas duplicadas - STATE\n",
+ "df_mercado_tech.drop_duplicates(inplace=True)\n",
+ "print(f\"Linhas duplicadas: {df_internet_renomeado.duplicated().sum()}\")"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "pMUDTBZZ4oCv",
+ "outputId": "37c9dd54-4ee0-4e57-e87e-d964b820404c"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "Linhas duplicadas: 0\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "colunas_atualizadas = data_copia.columns.values\n",
+ "\n",
+ "print(f\"Colunas Atualizadas: {colunas_atualizadas}\")"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "collapsed": true,
+ "id": "NXFiseFRxLxy",
+ "outputId": "0b8592e6-006c-434b-b6bc-208393f20138"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "Colunas Atualizadas: [\"('P0', 'id')\" \"('P1_a ', 'Idade')\" \"('P1_a_1 ', 'Faixa idade')\"\n",
+ " \"('P1_b ', 'Genero')\" \"('P1_c ', 'Cor/raca/etnia')\" \"('P1_d ', 'PCD')\"\n",
+ " \"('P1_e ', 'experiencia_profissional_prejudicada')\"\n",
+ " \"('P1_e_1 ', 'Não acredito que minha experiência profissional seja afetada')\"\n",
+ " \"('P1_e_2 ', 'Experiencia prejudicada devido a minha Cor Raça Etnia')\"\n",
+ " \"('P1_e_3 ', 'Experiencia prejudicada devido a minha identidade de gênero')\"\n",
+ " \"('P1_e_4 ', 'Experiencia prejudicada devido ao fato de ser PCD')\"\n",
+ " \"('P1_f ', 'aspectos_prejudicados')\"\n",
+ " \"('P1_f_1', 'Quantidade de oportunidades de emprego/vagas recebidas')\"\n",
+ " \"('P1_f_2', 'Senioridade das vagas recebidas em relação Ã\\xa0 sua experiência')\"\n",
+ " \"('P1_f_3', 'Aprovação em processos seletivos/entrevistas')\"\n",
+ " \"('P1_f_4', 'Oportunidades de progressão de carreira')\"\n",
+ " \"('P1_f_5', 'Velocidade de progressão de carreira')\"\n",
+ " \"('P1_f_6', 'NÃ\\xadvel de cobrança no trabalho/Stress no trabalho')\"\n",
+ " \"('P1_f_7', 'Atenção dada diante das minhas opiniões e ideias')\"\n",
+ " \"('P1_f_8', 'Relação com outros membros da empresa, em momentos de trabalho')\"\n",
+ " \"('P1_f_9', 'Relação com outros membros da empresa, em momentos de integração e outros momentos fora do trabalho')\"\n",
+ " \"('P1_g ', 'vive_no_brasil')\" \"('P1_i ', 'Estado onde mora')\"\n",
+ " \"('P1_i_1 ', 'uf onde mora')\" \"('P1_i_2 ', 'Regiao onde mora')\"\n",
+ " \"('P1_j ', 'Mudou de Estado?')\" \"('P1_k ', 'Regiao de origem')\"\n",
+ " \"('P1_l ', 'Nivel de Ensino')\" \"('P1_m ', 'Ã\\x81rea de Formação')\"\n",
+ " \"('P2_a ', 'Qual sua situação atual de trabalho?')\"\n",
+ " \"('P2_b ', 'Setor')\" \"('P2_c ', 'Numero de Funcionarios')\"\n",
+ " \"('P2_d ', 'Gestor?')\" \"('P2_e ', 'Cargo como Gestor')\"\n",
+ " \"('P2_f ', 'Cargo Atual')\" \"('P2_g ', 'Nivel')\"\n",
+ " \"('P2_h ', 'Faixa salarial')\"\n",
+ " \"('P2_i ', 'Quanto tempo de experiência na área de dados você tem?')\"\n",
+ " \"('P2_j ', 'Quanto tempo de experiência na área de TI/Engenharia de Software você teve antes de começar a trabalhar na área de dados?')\"\n",
+ " \"('P2_k ', 'Você está satisfeito na sua empresa atual?')\"\n",
+ " \"('P2_l ', 'Qual o principal motivo da sua insatisfação com a empresa atual?')\"\n",
+ " \"('P2_l_1 ', 'Falta de oportunidade de crescimento no emprego atual')\"\n",
+ " \"('P2_l_2 ', 'Salário atual não corresponde ao mercado')\"\n",
+ " \"('P2_l_3 ', 'Não tenho uma boa relação com meu lÃ\\xadder/gestor')\"\n",
+ " \"('P2_l_4 ', 'Gostaria de trabalhar em em outra área de atuação')\"\n",
+ " \"('P2_l_5 ', 'Gostaria de receber mais benefÃ\\xadcios')\"\n",
+ " \"('P2_l_6 ', 'O clima de trabalho/ambiente não é bom')\"\n",
+ " \"('P2_l_7 ', 'Falta de maturidade analÃ\\xadtica na empresa')\"\n",
+ " \"('P2_m ', 'Você participou de entrevistas de emprego nos últimos 6 meses?')\"\n",
+ " \"('P2_n ', 'Você pretende mudar de emprego nos próximos 6 meses?')\"\n",
+ " \"('P2_o ', 'Quais os principais critérios que você leva em consideração no momento de decidir onde trabalhar?')\"\n",
+ " \"('P2_o_1 ', 'Remuneração/Salário')\" \"('P2_o_2 ', 'BenefÃ\\xadcios')\"\n",
+ " \"('P2_o_3 ', 'Propósito do trabalho e da empresa')\"\n",
+ " \"('P2_o_4 ', 'Flexibilidade de trabalho remoto')\"\n",
+ " \"('P2_o_5 ', 'Ambiente e clima de trabalho')\"\n",
+ " \"('P2_o_6 ', 'Oportunidade de aprendizado e trabalhar com referências na área')\"\n",
+ " \"('P2_o_7 ', 'Plano de carreira e oportunidades de crescimento profissional')\"\n",
+ " \"('P2_o_8 ', 'Maturidade da empresa em termos de tecnologia e dados')\"\n",
+ " \"('P2_o_9 ', 'Qualidade dos gestores e lÃ\\xadderes')\"\n",
+ " \"('P2_o_10 ', 'Reputação que a empresa tem no mercado')\"\n",
+ " \"('P2_q ', 'Empresa que trabaha passou por layoff em 2023')\"\n",
+ " \"('P2_r ', 'Atualmente qual a sua forma de trabalho?')\"\n",
+ " \"('P2_s ', 'Qual a forma de trabalho ideal para você?')\"\n",
+ " \"('P2_t ', 'Caso sua empresa decida pelo modelo 100% presencial qual será sua atitude?')\"\n",
+ " \"('P3_a ', 'Qual o número aproximado de pessoas que atuam com dados na sua empresa hoje?')\"\n",
+ " \"('P3_b ', 'Quais desses papéis/cargos fazem parte do time (ou chapter) de dados da sua empresa?')\"\n",
+ " \"('P3_b_1 ', 'Analytics Engineer')\"\n",
+ " \"('P3_b_2 ', 'Engenharia de Dados/Data Engineer')\"\n",
+ " \"('P3_b_3 ', 'Analista de Dados/Data Analyst')\"\n",
+ " \"('P3_b_4 ', 'Cientista de Dados/Data Scientist')\"\n",
+ " \"('P3_b_5 ', 'Database Administrator/DBA')\"\n",
+ " \"('P3_b_6 ', 'Analista de Business Intelligence/BI')\"\n",
+ " \"('P3_b_7 ', 'Arquiteto de Dados/Data Architect')\"\n",
+ " \"('P3_b_8 ', 'Data Product Manager/DPM')\"\n",
+ " \"('P3_b_9 ', 'Business Analyst')\"\n",
+ " \"('P3_c ', 'Quais dessas responsabilidades fazem parte da sua rotina atual de trabalho como gestor?')\"\n",
+ " \"('P3_c_1 ', 'Pensar na visão de longo prazo de dados da empresa e fortalecimento da cultura analÃ\\xadtica da companhia.')\"\n",
+ " \"('P3_c_2 ', 'Organização de treinamentos e iniciativas com o objetivo de aumentar a maturidade analÃ\\xadtica das áreas de negócios.')\"\n",
+ " \"('P3_c_3 ', 'Atração, seleção e contratação de talentos para o time de dados.')\"\n",
+ " \"('P3_c_4 ', 'Decisão sobre contratação de ferramentas e tecnologias relacionadas a dados.')\"\n",
+ " \"('P3_c_5 ', 'Sou gestor da equipe responsável pela engenharia de dados e por manter o Data Lake da empresa como fonte única dos dados, garantindo a qualidade e confiabilidade da informação.')\"\n",
+ " \"('P3_c_6 ', 'Sou gestor da equipe responsável pela entrega de dados, estudos, relatórios e dashboards para as áreas de negócio da empresa.')\"\n",
+ " \"('P3_c_7 ', 'Sou gestor da equipe responsável por iniciativas e projetos envolvendo Inteligência Artificial e Machine Learning.')\"\n",
+ " \"('P3_c_8 ', 'Apesar de ser gestor ainda atuo na parte técnica, construindo soluções/análises/modelos etc.')\"\n",
+ " \"('P3_c_9 ', 'Gestão de projetos de dados, cuidando das etapas, equipes envolvidas, atingimento dos objetivos etc.')\"\n",
+ " \"('P3_c_10 ', 'Gestão de produtos de dados, cuidando da visão dos produtos, backlog, feedback de usuários etc.')\"\n",
+ " \"('P3_c_11 ', 'Gestão de pessoas, apoio no desenvolvimento das pessoas, evolução de carreira')\"\n",
+ " \"('P3_d ', 'Quais são os 3 maiores desafios que você tem como gestor no atual momento?')\"\n",
+ " \"('P3_d_1 ', 'a Contratar novos talentos.')\"\n",
+ " \"('P3_d_2 ', 'b Reter talentos.')\"\n",
+ " \"('P3_d_3 ', 'c Convencer a empresa a aumentar os investimentos na área de dados.')\"\n",
+ " \"('P3_d_4 ', 'd Gestão de equipes no ambiente remoto.')\"\n",
+ " \"('P3_d_5 ', 'e Gestão de projetos envolvendo áreas multidisciplinares da empresa.')\"\n",
+ " \"('P3_d_6 ', 'f Organizar as informações e garantir a qualidade e confiabilidade.')\"\n",
+ " \"('P3_d_7 ', 'g Conseguir processar e armazenar um alto volume de dados.')\"\n",
+ " \"('P3_d_8 ', 'h Conseguir gerar valor para as áreas de negócios através de estudos e experimentos.')\"\n",
+ " \"('P3_d_9 ', 'i Desenvolver e manter modelos Machine Learning em produção.')\"\n",
+ " \"('P3_d_10 ', 'j Gerenciar a expectativa das áreas de negócio em relação as entregas das equipes de dados.')\"\n",
+ " \"('P3_d_11 ', 'k Garantir a manutenção dos projetos e modelos em produção, em meio ao crescimento da empresa.')\"\n",
+ " \"('P3_d_12 ', 'Conseguir levar inovação para a empresa através dos dados.')\"\n",
+ " \"('P3_d_13 ', 'Garantir retorno do investimento (ROI) em projetos de dados.')\"\n",
+ " \"('P3_d_14 ', 'Dividir o tempo entre entregas técnicas e gestão.')\"\n",
+ " \"('P3_e ', 'AI Generativa é uma prioridade em sua empresa?')\"\n",
+ " \"('P3_f ', 'Tipos de uso de AI Generativa e LLMs na empresa')\"\n",
+ " \"('P3_f_1 ', 'Colaboradores usando AI generativa de forma independente e descentralizada')\"\n",
+ " \"('P3_f_2 ', 'Direcionamento centralizado do uso de AI generativa')\"\n",
+ " \"('P3_f_3 ', 'Desenvolvedores utilizando Copilots')\"\n",
+ " \"('P3_f_4 ', 'AI Generativa e LLMs para melhorar produtos externos')\"\n",
+ " \"('P3_f_5 ', 'AI Generativa e LLMs para melhorar produtos internos para os colaboradores')\"\n",
+ " \"('P3_f_6 ', 'IA Generativa e LLMs como principal frente do negócio')\"\n",
+ " \"('P3_f_7 ', 'IA Generativa e LLMs não é prioridade')\"\n",
+ " \"('P3_f_8 ', 'Não sei opinar sobre o uso de IA Generativa e LLMs na empresa')\"\n",
+ " \"('P3_g ', 'Motivos que levam a empresa a não usar AI Genrativa e LLMs')\"\n",
+ " \"('P3_g_1 ', 'Falta de compreensão dos casos de uso')\"\n",
+ " \"('P3_g_2 ', 'Falta de confiabilidade das saÃ\\xaddas (alucinação dos modelos)')\"\n",
+ " \"('P3_g_3 ', 'Incerteza em relação a regulamentação')\"\n",
+ " \"('P3_g_4 ', 'Preocupações com segurança e privacidade de dados')\"\n",
+ " \"('P3_g_5 ', 'Retorno sobre investimento (ROI) não comprovado de IA Generativa')\"\n",
+ " \"('P3_g_6 ', 'Dados da empresa não estão prontos para uso de IA Generativa')\"\n",
+ " \"('P3_g_7 ', 'Falta de expertise ou falta de recursos')\"\n",
+ " \"('P3_g_8 ', 'Alta direção da empresa não vê valor ou não vê como prioridade')\"\n",
+ " \"('P3_g_9 ', 'Preocupações com propriedade intelectual')\"\n",
+ " \"('P4_a ', 'Mesmo que esse não seja seu cargo formal, você considera que sua atuação no dia a dia, reflete alguma das opções listadas abaixo?')\"\n",
+ " \"('P4_a_1 ', 'Atuacao')\"\n",
+ " \"('P4_b ', 'Quais das fontes de dados listadas você já analisou ou processou no trabalho?')\"\n",
+ " \"('P4_b_1 ', 'Dados relacionais (estruturados em bancos SQL)')\"\n",
+ " \"('P4_b_2 ', 'Dados armazenados em bancos NoSQL')\"\n",
+ " \"('P4_b_3 ', 'Imagens')\" \"('P4_b_4 ', 'Textos/Documentos')\"\n",
+ " \"('P4_b_5 ', 'VÃ\\xaddeos')\" \"('P4_b_6 ', 'Ã\\x81udios')\"\n",
+ " \"('P4_b_7 ', 'Planilhas')\" \"('P4_b_8 ', 'Dados georeferenciados')\"\n",
+ " \"('P4_c ', 'Entre as fontes de dados listadas, quais você utiliza na maior parte do tempo?')\"\n",
+ " \"('P4_c_1 ', 'Dados relacionais (estruturados em bancos SQL)')\"\n",
+ " \"('P4_c_2 ', 'Dados armazenados em bancos NoSQL')\"\n",
+ " \"('P4_c_3 ', 'Imagens')\" \"('P4_c_4 ', 'Textos/Documentos')\"\n",
+ " \"('P4_c_5 ', 'VÃ\\xaddeos')\" \"('P4_c_6 ', 'Ã\\x81udios')\"\n",
+ " \"('P4_c_7 ', 'Planilhas')\" \"('P4_c_8 ', 'Dados georeferenciados')\"\n",
+ " \"('P4_d ', 'Quais das linguagens listadas abaixo você utiliza no trabalho?')\"\n",
+ " \"('P4_d_1 ', 'SQL')\" \"('P4_d_2 ', 'R ')\" \"('P4_d_3 ', 'Python')\"\n",
+ " \"('P4_d_4 ', 'C/C++/C#')\" \"('P4_d_5 ', '.NET')\" \"('P4_d_6 ', 'Java')\"\n",
+ " \"('P4_d_7 ', 'Julia')\" \"('P4_d_8 ', 'SAS/Stata')\"\n",
+ " \"('P4_d_9 ', 'Visual Basic/VBA')\" \"('P4_d_10 ', 'Scala')\"\n",
+ " \"('P4_d_11 ', 'Matlab')\" \"('P4_d_12 ', 'Rust')\" \"('P4_d_13 ', 'PHP')\"\n",
+ " \"('P4_d_14 ', 'JavaScript')\"\n",
+ " \"('P4_d_15 ', 'Não utilizo nenhuma linguagem')\"\n",
+ " \"('P4_e ', 'Entre as linguagens listadas abaixo, qual é a que você mais utiliza no trabalho?')\"\n",
+ " \"('P4_f ', 'Entre as linguagens listadas abaixo, qual é a sua preferida?')\"\n",
+ " \"('P4_g ', 'Quais dos bancos de dados/fontes de dados listados abaixo você utiliza no trabalho?')\"\n",
+ " \"('P4_g_1 ', 'MySQL')\" \"('P4_g_2 ', 'Oracle')\"\n",
+ " \"('P4_g_3 ', 'SQL SERVER')\" \"('P4_g_4 ', 'Amazon Aurora ou RDS')\"\n",
+ " \"('P4_g_5 ', 'DynamoDB')\" \"('P4_g_6 ', 'CoachDB')\"\n",
+ " \"('P4_g_7 ', 'Cassandra')\" \"('P4_g_8 ', 'MongoDB')\"\n",
+ " \"('P4_g_9 ', 'MariaDB')\" \"('P4_g_10 ', 'Datomic')\" \"('P4_g_11 ', 'S3')\"\n",
+ " \"('P4_g_12 ', 'PostgreSQL')\" \"('P4_g_13 ', 'ElasticSearch')\"\n",
+ " \"('P4_g_14 ', 'DB2')\" \"('P4_g_15 ', 'Microsoft Access')\"\n",
+ " \"('P4_g_16 ', 'SQLite')\" \"('P4_g_17 ', 'Sybase')\"\n",
+ " \"('P4_g_18 ', 'Firebase')\" \"('P4_g_19 ', 'Vertica')\"\n",
+ " \"('P4_g_20 ', 'Redis')\" \"('P4_g_21 ', 'Neo4J')\"\n",
+ " \"('P4_g_22 ', 'Google BigQuery')\" \"('P4_g_23 ', 'Google Firestore')\"\n",
+ " \"('P4_g_24 ', 'Amazon Redshift')\" \"('P4_g_25 ', 'Amazon Athena')\"\n",
+ " \"('P4_g_26 ', 'Snowflake')\" \"('P4_g_27 ', 'Databricks')\"\n",
+ " \"('P4_g_28 ', 'HBase')\" \"('P4_g_29 ', 'Presto')\" \"('P4_g_30 ', 'Splunk')\"\n",
+ " \"('P4_g_31 ', 'SAP HANA')\" \"('P4_g_32 ', 'Hive')\"\n",
+ " \"('P4_g_33 ', 'Firebird')\"\n",
+ " \"('P4_h ', 'Dentre as opções listadas, qual sua Cloud preferida?')\"\n",
+ " \"('P4_h_1 ', 'Azure (Microsoft)')\"\n",
+ " \"('P4_h_2 ', 'Amazon Web Services (AWS)')\"\n",
+ " \"('P4_h_3 ', 'Google Cloud (GCP)')\" \"('P4_h_4 ', 'Oracle Cloud')\"\n",
+ " \"('P4_h_5 ', 'IBM')\"\n",
+ " \"('P4_h_6 ', 'Servidores On Premise/Não utilizamos Cloud')\"\n",
+ " \"('P4_h_7 ', 'Cloud Própria')\" \"('P4_i ', 'Cloud preferida')\"\n",
+ " \"('P4_j ', 'Ferramenta de BI utilizada no dia a dia')\"\n",
+ " \"('P4_j_1 ', 'Microsoft PowerBI')\" \"('P4_j_2 ', 'Qlik View/Qlik Sense')\"\n",
+ " \"('P4_j_3 ', 'Tableau')\" \"('P4_j_4 ', 'Metabase')\"\n",
+ " \"('P4_j_5 ', 'Superset')\" \"('P4_j_6 ', 'Redash')\" \"('P4_j_7 ', 'Looker')\"\n",
+ " \"('P4_j_8 ', 'Looker Studio(Google Data Studio)')\"\n",
+ " \"('P4_j_9 ', 'Amazon Quicksight')\" \"('P4_j_10 ', 'Mode')\"\n",
+ " \"('P4_j_11 ', 'Alteryx')\" \"('P4_j_12 ', 'MicroStrategy')\"\n",
+ " \"('P4_j_13 ', 'IBM Analytics/Cognos')\"\n",
+ " \"('P4_j_14 ', 'SAP Business Objects/SAP Analytics')\"\n",
+ " \"('P4_j_15 ', 'Oracle Business Intelligence')\"\n",
+ " \"('P4_j_16 ', 'Salesforce/Einstein Analytics')\" \"('P4_j_17 ', 'Birst')\"\n",
+ " \"('P4_j_18 ', 'SAS Visual Analytics')\" \"('P4_j_19 ', 'Grafana')\"\n",
+ " \"('P4_j_20 ', 'TIBCO Spotfire')\" \"('P4_j_21 ', 'Pentaho')\"\n",
+ " \"('P4_j_22 ', 'Fazemos todas as análises utilizando apenas Excel ou planilhas do google')\"\n",
+ " \"('P4_j_23 ', 'Não utilizo nenhuma ferramenta de BI no trabalho')\"\n",
+ " \"('P4_k ', 'Qual sua ferramenta de BI preferida?')\"\n",
+ " \"('P4_l ', 'Qual o tipo de uso de AI Generativa e LLMs na empresa')\"\n",
+ " \"('P4_l_1 ', 'Colaboradores usando AI generativa de forma independente e descentralizada')\"\n",
+ " \"('P4_l_2 ', 'Direcionamento centralizado do uso de AI generativa')\"\n",
+ " \"('P4_l_3 ', 'Desenvolvedores utilizando Copilots')\"\n",
+ " \"('P4_l_4 ', 'AI Generativa e LLMs para melhorar produtos externos para os clientes finais')\"\n",
+ " \"('P4_l_5 ', 'AI Generativa e LLMs para melhorar produtos internos para os colaboradores')\"\n",
+ " \"('P4_l_6 ', 'IA Generativa e LLMs como principal frente do negócio')\"\n",
+ " \"('P4_l_7 ', 'IA Generativa e LLMs não é prioridade')\"\n",
+ " \"('P4_l_8 ', 'Não sei opinar sobre o uso de IA Generativa e LLMs na empresa')\"\n",
+ " \"('P4_m ', 'Utiliza ChatGPT ou LLMs no trabalho?')\"\n",
+ " \"('P4_m_1 ', 'Não uso soluções de AI Generativa com foco em produtividade')\"\n",
+ " \"('P4_m_2 ', 'Uso soluções gratuitas de AI Generativa com foco em produtividade')\"\n",
+ " \"('P4_m_3 ', 'Uso e pago pelas soluções de AI Generativa com foco em produtividade')\"\n",
+ " \"('P4_m_4 ', 'A empresa que trabalho paga pelas soluções de AI Generativa com foco em produtividade')\"\n",
+ " \"('P4_m_5 ', 'Uso soluções do tipo Copilot')\"\n",
+ " \"('P5_a ', 'Qual seu objetivo na área de dados?')\"\n",
+ " \"('P5_b ', 'Qual oportunidade você está buscando?')\"\n",
+ " \"('P5_c ', 'Há quanto tempo você busca uma oportunidade na área de dados?')\"\n",
+ " \"('P5_d ', 'Como tem sido a busca por um emprego na área de dados?')\"\n",
+ " \"('P6_a ', 'Quais das opções abaixo fazem parte da sua rotina no trabalho atual como engenheiro de dados?')\"\n",
+ " \"('P6_a_1 ', 'Desenvolvo pipelines de dados utilizando linguagens de programação como Python, Scala, Java etc.')\"\n",
+ " \"('P6_a_2 ', 'Realizo construções de ETL's em ferramentas como Pentaho, Talend, Dataflow etc.')\"\n",
+ " \"('P6_a_3 ', 'Crio consultas através da linguagem SQL para exportar informações e compartilhar com as áreas de negócio.')\"\n",
+ " \"('P6_a_4 ', 'Atuo na integração de diferentes fontes de dados através de plataformas proprietárias como Stitch Data, Fivetran etc.')\"\n",
+ " \"('P6_a_5 ', 'Modelo soluções de arquitetura de dados, criando componentes de ingestão de dados, transformação e recuperação da informação.')\"\n",
+ " \"('P6_a_6 ', 'Desenvolvo/cuido da manutenção de repositórios de dados baseados em streaming de eventos como Data Lakes e Data Lakehouses.')\"\n",
+ " \"('P6_a_7 ', 'Atuo na modelagem dos dados, com o objetivo de criar conjuntos de dados como Data Warehouses, Data Marts etc.')\"\n",
+ " \"('P6_a_8 ', 'Cuido da qualidade dos dados, metadados e dicionário de dados.')\"\n",
+ " \"('P6_a_9 ', 'Nenhuma das opções listadas refletem meu dia a dia.')\"\n",
+ " \"('P6_b ', 'Quais as ferramentas/tecnologias de ETL que você utiliza no trabalho como Data Engineer?')\"\n",
+ " \"('P6_b_1 ', 'Scripts Python')\" \"('P6_b_2 ', 'SQL & Stored Procedures')\"\n",
+ " \"('P6_b_3 ', 'Apache Airflow')\" \"('P6_b_4 ', 'Apache NiFi')\"\n",
+ " \"('P6_b_5 ', 'Luigi')\" \"('P6_b_6 ', 'AWS Glue')\" \"('P6_b_7 ', 'Talend')\"\n",
+ " \"('P6_b_8 ', 'Pentaho')\" \"('P6_b_9 ', 'Alteryx')\"\n",
+ " \"('P6_b_10 ', 'Stitch')\" \"('P6_b_11 ', 'Fivetran')\"\n",
+ " \"('P6_b_12 ', 'Google Dataflow')\"\n",
+ " \"('P6_b_13 ', 'Oracle Data Integrator')\" \"('P6_b_14 ', 'IBM DataStage')\"\n",
+ " \"('P6_b_15 ', 'SAP BW ETL')\"\n",
+ " \"('P6_b_16 ', 'SQL Server Integration Services (SSIS))\"\n",
+ " \"('P6_b_17 ', 'SAS Data Integration')\" \"('P6_b_18 ', 'Qlik Sense')\"\n",
+ " \"('P6_b_19 ', 'Knime')\" \"('P6_b_20 ', 'Databricks')\"\n",
+ " \"('P6_b_21 ', 'Não utilizo ferramentas de ETL')\"\n",
+ " \"('P6_c ', 'Sua organização possui um Data Lake?')\"\n",
+ " \"('P6_d ', 'Qual tecnologia utilizada como plataforma do Data Lake?')\"\n",
+ " \"('P6_e ', 'Sua organização possui um Data Warehouse?')\"\n",
+ " \"('P6_f ', 'Qual tecnologia utilizada como plataforma do Data Warehouse?')\"\n",
+ " \"('P6_g ', 'Quais as ferramentas de gestão de Qualidade de dados, Metadados e catálogo de dados você utiliza no trabalho?')\"\n",
+ " \"('P6_h ', 'Em qual das opções abaixo você gasta a maior parte do seu tempo?')\"\n",
+ " \"('P6_h_1 ', 'Desenvolvendo pipelines de dados utilizando linguagens de programação como Python, Scala, Java etc.')\"\n",
+ " \"('P6_h_2 ', 'Realizando construções de ETL's em ferramentas como Pentaho, Talend, Dataflow etc.')\"\n",
+ " \"('P6_h_3 ', 'Criando consultas através da linguagem SQL para exportar informações e compartilhar com as áreas de negócio.')\"\n",
+ " \"('P6_h_4 ', 'Atuando na integração de diferentes fontes de dados através de plataformas proprietárias como Stitch Data, Fivetran etc.')\"\n",
+ " \"('P6_h_5 ', 'Modelando soluções de arquitetura de dados, criando componentes de ingestão de dados, transformação e recuperação da informação.')\"\n",
+ " \"('P6_h_6 ', 'Desenvolvendo/cuidando da manutenção de repositórios de dados baseados em streaming de eventos como Data Lakes e Data Lakehouses.')\"\n",
+ " \"('P6_h_7 ', 'Atuando na modelagem dos dados, com o objetivo de criar conjuntos de dados como Data Warehouses, Data Marts etc.')\"\n",
+ " \"('P6_h_8 ', 'Cuidando da qualidade dos dados, metadados e dicionário de dados.')\"\n",
+ " \"('P6_h_9 ', 'Nenhuma das opções listadas refletem meu dia a dia.')\"\n",
+ " \"('P7_1 ', 'Quais das opções abaixo fazem parte da sua rotina no trabalho atual com análise de dados?')\"\n",
+ " \"('P7_a_1 ', 'Processo e analiso dados utilizando linguagens de programação como Python, R etc.')\"\n",
+ " \"('P7_a_2 ', 'Realizo construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik etc.')\"\n",
+ " \"('P7_a_3 ', 'Crio consultas através da linguagem SQL para exportar informações e compartilhar com as áreas de negócio.')\"\n",
+ " \"('P7_a_4 ', 'Utilizo API's para extrair dados e complementar minhas análises.')\"\n",
+ " \"('P7_a_5 ', 'Realizo experimentos e estudos utilizando metodologias estatÃ\\xadsticas como teste de hipótese, modelos de regressão etc.')\"\n",
+ " \"('P7_a_6 ', 'Desenvolvo/cuido da manutenção de ETL's utilizando tecnologias como Talend, Pentaho, Airflow, Dataflow etc.')\"\n",
+ " \"('P7_a_7 ', 'Atuo na modelagem dos dados, com o objetivo de criar conjuntos de dados, Data Warehouses, Data Marts etc.')\"\n",
+ " \"('P7_a_8 ', 'Desenvolvo/cuido da manutenção de planilhas para atender as áreas de negócio.')\"\n",
+ " \"('P7_a_9 ', 'Utilizo ferramentas avançadas de estatÃ\\xadstica como SASS, PSS, Stata etc')\"\n",
+ " \"('P7_a_10 ', 'Nenhuma das opções listadas refletem meu dia a dia.')\"\n",
+ " \"('P7_b ', 'Quais as ferramentas/tecnologias de ETL que você utiliza no trabalho como Data Analyst?')\"\n",
+ " \"('P7_b_1 ', 'Scripts Python')\" \"('P7_b_2 ', 'SQL & Stored Procedures')\"\n",
+ " \"('P7_b_3 ', 'Apache Airflow')\" \"('P7_b_4 ', 'Apache NiFi')\"\n",
+ " \"('P7_b_5 ', 'Luigi')\" \"('P7_b_6 ', 'AWS Glue')\" \"('P7_b_7 ', 'Talend')\"\n",
+ " \"('P7_b_8 ', 'Pentaho')\" \"('P7_b_9 ', 'Alteryx')\"\n",
+ " \"('P7_b_10 ', 'Stitch')\" \"('P7_b_11 ', 'Fivetran')\"\n",
+ " \"('P7_b_12 ', 'Google Dataflow')\"\n",
+ " \"('P7_b_13 ', 'Oracle Data Integrator')\" \"('P7_b_14 ', 'IBM DataStage')\"\n",
+ " \"('P7_b_15 ', 'SAP BW ETL')\"\n",
+ " \"('P7_b_16 ', 'SQL Server Integration Services (SSIS)')\"\n",
+ " \"('P7_b_17 ', 'SAS Data Integration')\" \"('P7_b_18 ', 'Qlik Sense')\"\n",
+ " \"('P7_b_19 ', 'Knime')\" \"('P7_b_20 ', 'Databricks')\"\n",
+ " \"('P7_b_21 ', 'Não utilizo ferramentas de ETL')\"\n",
+ " \"('P7_c ', 'Sua empresa utiliza alguma das ferramentas listadas para dar mais autonomia em análise de dados para as áreas de negócio?')\"\n",
+ " \"('P7_c_1 ', 'Ferramentas de AutoML como H2O.ai, Data Robot, BigML etc.')\"\n",
+ " '(\\'P7_c_2 \\', \\'\"\"Point and Click\"\" Analytics como Alteryx, Knime, Rapidminer etc.\\')'\n",
+ " \"('P7_c_3 ', 'Product metricts & Insights como Mixpanel, Amplitude, Adobe Analytics.')\"\n",
+ " \"('P7_c_4 ', 'Ferramentas de análise dentro de ferramentas de CRM como Salesforce Einstein Anaytics ou Zendesk dashboards.')\"\n",
+ " \"('P7_c_5 ', 'Minha empresa não utiliza essas ferramentas.')\"\n",
+ " \"('P7_c_6 ', 'Não sei informar.')\"\n",
+ " \"('P7_d ', 'Em qual das opções abaixo você gasta a maior parte do seu tempo de trabalho?')\"\n",
+ " \"('P7_d_1 ', 'Processando e analisando dados utilizando linguagens de programação como Python, R etc.')\"\n",
+ " \"('P7_d_2 ', 'Realizando construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik etc.')\"\n",
+ " \"('P7_d_3 ', 'Criando consultas através da linguagem SQL para exportar informações e compartilhar com as áreas de negócio.')\"\n",
+ " \"('P7_d_4 ', 'Utilizando API's para extrair dados e complementar minhas análises.')\"\n",
+ " \"('P7_d_5 ', 'Realizando experimentos e estudos utilizando metodologias estatÃ\\xadsticas como teste de hipótese, modelos de regressão etc.')\"\n",
+ " \"('P7_d_6 ', 'Desenvolvendo/cuidando da manutenção de ETL's utilizando tecnologias como Talend, Pentaho, Airflow, Dataflow etc.')\"\n",
+ " \"('P7_d_7 ', 'Atuando na modelagem dos dados, com o objetivo de criar conjuntos de dados, Data Warehouses, Data Marts etc.')\"\n",
+ " \"('P7_d_8 ', 'Desenvolvendo/cuidando da manutenção de planilhas do Excel ou Google Sheets para atender as áreas de negócio.')\"\n",
+ " \"('P7_d_9 ', 'Utilizando ferramentas avançadas de estatÃ\\xadstica como SAS, SPSS, Stata etc, para realizar análises.')\"\n",
+ " \"('P7_d_10 ', 'Nenhuma das opções listadas refletem meu dia a dia.')\"\n",
+ " \"('P8_a ', 'Quais das opções abaixo fazem parte da sua rotina no trabalho atual com ciência de dados?')\"\n",
+ " \"('P8_a_1 ', 'Estudos Ad-hoc com o objetivo de confirmar hipóteses, realizar modelos preditivos, forecasts, análise de cluster para resolver problemas pontuais e responder perguntas das áreas de negócio.')\"\n",
+ " \"('P8_a_2 ', 'Sou responsável pela coleta e limpeza dos dados que uso para análise e modelagem.')\"\n",
+ " \"('P8_a_3 ', 'Sou responsável por entrar em contato com os times de negócio para definição do problema, identificar a solução e apresentação de resultados.')\"\n",
+ " \"('P8_a_4 ', 'Desenvolvo modelos de Machine Learning com o objetivo de colocar em produção em sistemas (produtos de dados).')\"\n",
+ " \"('P8_a_5 ', 'Sou responsável por colocar modelos em produção, criar os pipelines de dados, APIs de consumo e monitoramento.')\"\n",
+ " \"('P8_a_6 ', 'Cuido da manutenção de modelos de Machine Learning já em produção, atuando no monitoramento, ajustes e refatoração quando necessário.')\"\n",
+ " \"('P8_a_7 ', 'Realizo construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik, etc')\"\n",
+ " \"('P8_a_8 ', 'Utilizo ferramentas avançadas de estatÃ\\xadstica como SAS, SPSS, Stata etc, para realizar análises estatÃ\\xadsticas e ajustar modelos.')\"\n",
+ " \"('P8_a_9 ', 'Crio e dou manutenção em ETLs, DAGs e automações de pipelines de dados.')\"\n",
+ " \"('P8_a_10 ', 'Crio e gerencio soluções de Feature Store e cultura de MLOps.')\"\n",
+ " \"('P8_a_11 ', 'Sou responsável por criar e manter a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)')\"\n",
+ " \"('P8_a_12 ', 'Treino e aplico LLM's para solucionar problemas de negócio.')\"\n",
+ " \"('P8_b ', 'Quais as técnicas e métodos listados abaixo você costuma utilizar no trabalho?')\"\n",
+ " \"('P8_b_1 ', 'Utilizo modelos de regressão (linear, logÃ\\xadstica, GLM)')\"\n",
+ " \"('P8_b_2 ', 'Utilizo redes neurais ou modelos baseados em árvore para criar modelos de classificação')\"\n",
+ " \"('P8_b_3 ', 'Desenvolvo sistemas de recomendação (RecSys)')\"\n",
+ " \"('P8_b_4 ', 'Utilizo métodos estatÃ\\xadsticos Bayesianos para analisar dados')\"\n",
+ " \"('P8_b_5 ', 'Utilizo técnicas de NLP (Natural Language Processing) para análisar dados não-estruturados')\"\n",
+ " \"('P8_b_6 ', 'Utilizo métodos estatÃ\\xadsticos clássicos (Testes de hipótese, análise multivariada, sobrevivência, dados longitudinais, inferência estatistica) para analisar dados')\"\n",
+ " \"('P8_b_7 ', 'Utilizo cadeias de Markov ou HMM's para realizar análises de dados')\"\n",
+ " \"('P8_b_8 ', 'Desenvolvo técnicas de Clusterização (K-means, Spectral, DBScan etc)')\"\n",
+ " \"('P8_b_9 ', 'Realizo previsões através de modelos de Séries Temporais (Time Series)')\"\n",
+ " \"('P8_b_10 ', 'Utilizo modelos de Reinforcement Learning (aprendizado por reforço)')\"\n",
+ " \"('P8_b_11 ', 'Utilizo modelos de Machine Learning para detecção de fraude')\"\n",
+ " \"('P8_b_12 ', 'Utilizo métodos de Visão Computacional')\"\n",
+ " \"('P8_b_13 ', 'Utilizo modelos de Detecção de Churn')\"\n",
+ " \"('P8_b_14 ', 'Utilizo LLM's para solucionar problemas de negócio')\"\n",
+ " \"('P8_3 ', 'Quais dessas tecnologias fazem parte do seu dia a dia como cientista de dados?')\"\n",
+ " \"('P8_c_1 ', 'Ferramentas de BI (PowerBI, Looker, Tableau, Qlik etc)')\"\n",
+ " \"('P8_c_2 ', 'Planilhas (Excel, Google Sheets etc)')\"\n",
+ " \"('P8_c_3 ', 'Ambientes de desenvolvimento local (R-studio, JupyterLab, Anaconda)')\"\n",
+ " \"('P8_c_4 ', 'Ambientes de desenvolvimento na nuvem (Google Colab, AWS Sagemaker, Kaggle Notebooks etc)')\"\n",
+ " \"('P8_c_5 ', 'Ferramentas de AutoML (Datarobot, H2O, Auto-Keras etc)')\"\n",
+ " \"('P8_c_6 ', 'Ferramentas de ETL (Apache Airflow, NiFi, Stitch, Fivetran, Pentaho etc)')\"\n",
+ " \"('P8_c_7 ', 'Plataformas de Machine Learning (TensorFlow, Azure Machine Learning, Kubeflow etc)')\"\n",
+ " \"('P8_c_8 ', 'Feature Store (Feast, Hopsworks, AWS Feature Store, Databricks Feature Store etc)')\"\n",
+ " \"('P8_c_9 ', 'Sistemas de controle de versão (Github, DVC, Neptune, Gitlab etc)')\"\n",
+ " \"('P8_c_10 ', 'Plataformas de Data Apps (Streamlit, Shiny, Plotly Dash etc)')\"\n",
+ " \"('P8_c_11 ', 'Ferramentas de estatÃ\\xadstica avançada como SPSS, SAS, etc.')\"\n",
+ " \"('P8_d ', 'Em qual das opções abaixo você gasta a maior parte do seu tempo no trabalho?')\"\n",
+ " \"('P8_d_1 ', 'Estudos Ad-hoc com o objetivo de confirmar hipóteses, realizar modelos preditivos, forecasts, análise de cluster para resolver problemas pontuais e responder perguntas das áreas de negócio.')\"\n",
+ " \"('P8_d_2 ', 'Coletando e limpando os dados que uso para análise e modelagem.')\"\n",
+ " \"('P8_d_3 ', 'Entrando em contato com os times de negócio para definição do problema, identificar a solução e apresentação de resultados.')\"\n",
+ " \"('P8_d_4 ', 'Desenvolvendo modelos de Machine Learning com o objetivo de colocar em produção em sistemas (produtos de dados).')\"\n",
+ " \"('P8_d_5 ', 'Colocando modelos em produção, criando os pipelines de dados, APIs de consumo e monitoramento.')\"\n",
+ " \"('P8_d_6 ', 'Cuidando da manutenção de modelos de Machine Learning já em produção, atuando no monitoramento, ajustes e refatoração quando necessário.')\"\n",
+ " \"('P8_d_7 ', 'Realizando construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik, etc.')\"\n",
+ " \"('P8_d_8 ', 'Utilizando ferramentas avançadas de estatÃ\\xadstica como SAS, SPSS, Stata etc, para realizar análises.')\"\n",
+ " \"('P8_d_9 ', 'Criando e dando manutenção em ETLs, DAGs e automações de pipelines de dados.')\"\n",
+ " \"('P8_d_10 ', 'Criando e gerenciando soluções de Feature Store e cultura de MLOps.')\"\n",
+ " \"('P8_d_11 ', 'Criando e mantendo a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)')\"\n",
+ " \"('P8_d_12 ', 'Treinando e aplicando LLM's para solucionar problemas de negócio.')\"]\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Deletar colunas entre os índices 200 e 300 (considerando a posição das colunas)\n",
+ "df_mercado_tech.drop(df_mercado_tech.columns[16:301], axis=1, inplace=True)\n",
+ "\n",
+ "# Verificar o tamanho e contagem de valores nulos no DataFrame\n",
+ "print(df_mercado_tech.shape)\n",
+ "print(df_mercado_tech.isnull().sum())\n"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "oVQbAe4O5VVM",
+ "outputId": "6e9a2787-f49a-41e3-c73d-c2c08b9e5935"
+ },
+ "execution_count": null,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "(0, 16)\n",
+ "('P0', 'id') 0\n",
+ "('P1_a ', 'Idade') 0\n",
+ "('P1_a_1 ', 'Faixa idade') 0\n",
+ "('P1_b ', 'Genero') 0\n",
+ "('P1_c ', 'Cor/raca/etnia') 0\n",
+ "('P1_d ', 'PCD') 0\n",
+ "('P1_e ', 'experiencia_profissional_prejudicada') 0\n",
+ "('P1_e_1 ', 'Não acredito que minha experiência profissional seja afetada') 0\n",
+ "('P1_e_2 ', 'Experiencia prejudicada devido a minha Cor Raça Etnia') 0\n",
+ "('P1_e_3 ', 'Experiencia prejudicada devido a minha identidade de gênero') 0\n",
+ "('P1_e_4 ', 'Experiencia prejudicada devido ao fato de ser PCD') 0\n",
+ "('P1_f ', 'aspectos_prejudicados') 0\n",
+ "('P1_f_1', 'Quantidade de oportunidades de emprego/vagas recebidas') 0\n",
+ "('P1_f_2', 'Senioridade das vagas recebidas em relação à sua experiência') 0\n",
+ "('P1_f_3', 'Aprovação em processos seletivos/entrevistas') 0\n",
+ "('P1_f_4', 'Oportunidades de progressão de carreira') 0\n",
+ "dtype: int64\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# Categoria: Dados demográficos\n",
+ "demograficos = filtrar_por_categoria(df_mercado_tech, 'Dados demográficos')\n",
+ "\n",
+ "\n",
+ "'Faixa_Idade',\n",
+ "'Genero',\n",
+ "'Cor_Etnia',\n",
+ "'PCD',\n",
+ "'Oportunidades_Emprego',\n",
+ "'Senioridade_Vagas',\n",
+ "'Aprovacao_Processos_Seletivos',\n",
+ "'Vive_no_Brasil',\n",
+ "'Estado_Mora',\n",
+ "'UF_Mora',\n",
+ "'Regiao_Mora',\n",
+ "'Mudou_Estado',\n",
+ "'Regiao_Origem',\n",
+ "'Nivel_Ensino',\n",
+ "'Area_Formacao'\n"
+ ],
+ "metadata": {
+ "id": "gJXo_twz2A-e"
+ },
+ "execution_count": null,
+ "outputs": []
+ },
+ {
+ "cell_type": "markdown",
+ "source": [
+ "## Juntando os três datasets\n",
+ "\n",
+ "Fizemos a limpeza dos três datasets, chegou a hora de juntarmos.\n",
+ "\n",
+ "Para unir os 3 datasets usaremos a função `merge()`, precisamos entender qual é a coluna em comum entre as bases."
+ ],
+ "metadata": {
+ "id": "oa6vGNH9Auy6"
+ }
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# O join default da função merge é o inner join.\n",
+ "\n",
+ "\"\"\"\n",
+ "df_final = pd.merge(df_mercado_tech, df_dispositivo_per_capto, df_internet_renomeado on='nome_coluna').merge(df_consumidor, on='customer_id')\n",
+ "df_final\n",
+ "\"\"\""
+ ],
+ "metadata": {
+ "id": "Ew7Lt2OIAvJP"
+ },
+ "execution_count": null,
+ "outputs": []
+ },
+ {
+ "cell_type": "markdown",
+ "source": [
+ "### ***PERGUNTAS***\n",
+ "\n",
+ "1.Qual o indice de acesso a internet por país?\n",
+ "\n",
+ "2.Qual a média de acessos da população brasileira por estado da federação a internet?\n",
+ "\n",
+ "3.Média de quantos computadores existem por domicilio em cada região do Brasil?\n",
+ "\n",
+ "4.Qual o perfil socioeconomico dos brasileiros que conseguiram vagas em tech em 2023, por estado?"
+ ],
+ "metadata": {
+ "id": "pLp3HGGeyXvi"
+ }
+ }
+ ]
+}
\ No newline at end of file
diff --git a/tabela7302_nv.xlsx b/tabela7302_nv.xlsx
new file mode 100644
index 0000000..6258918
Binary files /dev/null and b/tabela7302_nv.xlsx differ