Análise de dados utilizando PySpark

Projeto de análise de dados desenvolvido como projeto final do Bootcamp Analista de Dados do IGTI (Instituto de Gestão e Tecnologia da Informação). Este projeto engloba os seguintes conceitos trabalhados no cruso:

Construção de seção Spark para leitura dos dados;
Carregamento de dados para o Spark;
Análise inicial dos dados para avaliar comportamento dos dados e a presença outliers;
Pré-processamento dos dados;
Uso de Regressão Logística para a previsão de dados;
Avaliação do modelo treinado.

Resumo

Este projeto consiste em utilizar de uma seção Spark através da biblioteca pySpark para fazer a análise de dados disponíveis no arquivo "healthcare-dataset-stroke-data.csv". Este dataset é então usado para prever, através de regressão logística, se um paciente possui alguma tendência de apresentar derrame cerebral com base em dados como idade, sexo, bmi (índice de massa corporal - i.e. IMC), nível médio de glicose no sangue e dados de saúde e hábito.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
README.md		README.md
desafio_CID.ipynb		desafio_CID.ipynb
healthcare-dataset-stroke-data.csv		healthcare-dataset-stroke-data.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Análise de dados utilizando PySpark

Resumo

About

Uh oh!

Releases

Packages

Languages

rbonela/data_analysis_stroke

Folders and files

Latest commit

History

Repository files navigation

Análise de dados utilizando PySpark

Resumo

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages