Projeto de análise de dados desenvolvido como projeto final do Bootcamp Analista de Dados do IGTI (Instituto de Gestão e Tecnologia da Informação). Este projeto engloba os seguintes conceitos trabalhados no cruso:
- Construção de seção Spark para leitura dos dados;
- Carregamento de dados para o Spark;
- Análise inicial dos dados para avaliar comportamento dos dados e a presença outliers;
- Pré-processamento dos dados;
- Uso de Regressão Logística para a previsão de dados;
- Avaliação do modelo treinado.
Este projeto consiste em utilizar de uma seção Spark através da biblioteca pySpark para fazer a análise de dados disponíveis no arquivo "healthcare-dataset-stroke-data.csv". Este dataset é então usado para prever, através de regressão logística, se um paciente possui alguma tendência de apresentar derrame cerebral com base em dados como idade, sexo, bmi (índice de massa corporal - i.e. IMC), nível médio de glicose no sangue e dados de saúde e hábito.