Skip to content

rbonela/data_analysis_stroke

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

Análise de dados utilizando PySpark

Projeto de análise de dados desenvolvido como projeto final do Bootcamp Analista de Dados do IGTI (Instituto de Gestão e Tecnologia da Informação). Este projeto engloba os seguintes conceitos trabalhados no cruso:

  • Construção de seção Spark para leitura dos dados;
  • Carregamento de dados para o Spark;
  • Análise inicial dos dados para avaliar comportamento dos dados e a presença outliers;
  • Pré-processamento dos dados;
  • Uso de Regressão Logística para a previsão de dados;
  • Avaliação do modelo treinado.

Resumo

Este projeto consiste em utilizar de uma seção Spark através da biblioteca pySpark para fazer a análise de dados disponíveis no arquivo "healthcare-dataset-stroke-data.csv". Este dataset é então usado para prever, através de regressão logística, se um paciente possui alguma tendência de apresentar derrame cerebral com base em dados como idade, sexo, bmi (índice de massa corporal - i.e. IMC), nível médio de glicose no sangue e dados de saúde e hábito.

About

Projeto com a solução do desafio final do Bootcamp Analista de Dados do IGTI.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published