Skip to content

lvgalvao/data-engineering-roadmap

Repository files navigation

Formação Profissional em Engenharia de Dados e Inteligência Artificial

(Extensão Universitária)

Jornada de Dados

Nossa missão é fornecer o melhor ensino em engenharia de dados

📋 Sobre

Este é o repositório oficial da Formação Profissional em Engenharia de Dados e Inteligência Artificial (Extensão Universitária) da Jornada de Dados.

Esse é o roadmap para se especializar em engenharia de dados, baseado em fundamentos, principais tecnologias de mercado e projetos práticos do mundo real. Este repositório contém todo o conteúdo prático, projetos, exercícios e materiais de apoio utilizados durante a formação.

🎓 Por que "Formação Profissional"?

Este não é apenas um curso ou bootcamp. É uma formação completa que:

  • Eleva o nível profissional: Conteúdo estruturado para profissionais que buscam especialização
  • Reconhecimento institucional: Extensão Universitária com validade acadêmica
  • Foco em mercado: Baseado em tecnologias e práticas reais do mercado de trabalho
  • Preparação completa: Do zero até projetos avançados de produção

🛠️ Engenharia de Dados como Eixo Central

A formação tem como núcleo a Engenharia de Dados, cobrindo:

  • Pipelines de dados: ETL/ELT, processamento em batch e streaming
  • Infraestrutura: Cloud, containers, orquestração
  • Qualidade e observabilidade: Validação, monitoramento, testes
  • Produção: Deploy, escalabilidade, manutenção

🤖 Inteligência Artificial como Complemento Estratégico

A IA entra de forma estratégica e prática:

  • Agentes de IA: RAG, Vector Search, LangChain
  • Aplicações reais: Chatbots, análise de dados com LLMs
  • Integração com dados: Databricks + IA, pipelines inteligentes
  • Preparação para o futuro: Conteúdo alinhado com 2026+

🎓 Extensão Universitária

A formação possui reconhecimento como Extensão Universitária, oferecendo:

  • Horas complementares: Válidas para graduação
  • Diferenciação no currículo: Certificação com validade acadêmica
  • Legitimidade institucional: Reconhecimento pelo MEC
  • Valor profissional: Diferencial competitivo no mercado

Estrutura do Repositório:

  • 01-projetos/: Projetos práticos completos que demonstram conceitos avançados de engenharia de dados
  • 02-fundamentos-dados/: Fundamentos essenciais (Git, GitHub, Deploy, WSL)
  • 03-python-avancado-para-dados/: Conteúdo avançado de Python aplicado a dados
  • 04-sql-analytics-dbt-core/: SQL avançado e Analytics Engineering com dbt
  • 04-workflow-orchestration-deploy-airflow/: Orquestração de workflows com Airflow
  • 05-engenharia-de-dados-e-ia/: Projetos avançados (APIs, Kafka, Streamlit, Terraform)
  • 06-cloud-aws-para-dados/: Conteúdo prático de Cloud AWS para dados

🎯 Objetivos da Formação

Esta Formação Profissional visa capacitar profissionais para:

  • Construir pipelines de dados robustos e escaláveis para ambientes de produção
  • Dominar ferramentas modernas de engenharia de dados (Python, SQL, Airflow, dbt, Cloud, Databricks)
  • Aplicar boas práticas de desenvolvimento, arquitetura de dados e engenharia de software
  • Implementar soluções de dados em produção com qualidade e observabilidade
  • Trabalhar com dados em grande escala (Big Data) e processamento distribuído
  • Integrar Inteligência Artificial em pipelines e aplicações de dados
  • Preparar-se para o mercado com habilidades alinhadas às demandas reais das empresas

🚀 Como Usar Este Repositório

  1. Navegue pelas pastas seguindo a ordem sugerida ou conforme seu nível de conhecimento
  2. Cada projeto/módulo possui seu próprio README com instruções detalhadas
  3. Clone o repositório para ter acesso local aos códigos:
    git clone https://github.com/lvgalvao/data-engineering-roadmap.git
    cd data-engineering-roadmap
  4. Siga os pré-requisitos indicados em cada projeto antes de começar

📚 Conteúdo Disponível

Projetos Práticos (01-projetos/)

  1. Data Project Foundations: Estruturação de projetos de dados com boas práticas
  2. Python Big Data Processing: Processamento de grandes volumes de dados (1 bilhão de linhas)
  3. CRUD API Data Application: API REST completa com FastAPI, PostgreSQL e Streamlit
  4. Data Quality Engineering: Engenharia de qualidade de dados com DuckDB
  5. SQL Advanced Analytics: Análises avançadas com SQL (banco Northwind)
  6. Web Scraping NoSQL Pipelines: Web scraping com Redis e MongoDB
  7. PDF Data Extraction: Extração de dados de PDFs com S3 e SQS
  8. Databricks Data Modeling: Modelagem de dados no Databricks (Bronze-Silver-Gold)
  9. Databricks AI Project: Agentes de IA com LangChain e Vector Search

Fundamentos (02-fundamentos-dados/)

  • Git e GitHub
  • Deploy de aplicações de dados
  • Configuração de ambiente WSL

Python Avançado (03-python-avancado-para-dados/)

  • 20 aulas cobrindo desde fundamentos até APIs e projetos completos
  • Programação Orientada a Objetos
  • ETL pipelines
  • Logging e tratamento de erros

SQL e Analytics (04-sql-analytics-dbt-core/)

  • SQL avançado para Analytics
  • dbt-core para transformação de dados
  • 13 aulas práticas + conteúdo Databricks

Orquestração (04-workflow-orchestration-deploy-airflow/)

  • Airflow do básico ao avançado
  • Deploy de workflows
  • 7 exemplos práticos

Engenharia de Dados e IA (05-engenharia-de-dados-e-ia/)

  • REST APIs com FastAPI para aplicações de dados
  • Kafka e Pub/Sub para streaming de dados em tempo real
  • Dashboards em tempo real com Streamlit
  • Infrastructure as Code com Terraform
  • Integração de IA em pipelines de dados

Cloud AWS (06-cloud-aws-para-dados/)

  • 15 aulas práticas sobre AWS para dados + projetos integrados
  • S3, EC2, RDS, Lambda, VPC, IAM, SQS, SNS, API Gateway, DynamoDB, Amplify e mais

🔗 Links Importantes

Se você gostou do conteúdo e quer se inscrever na Formação Profissional em Engenharia de Dados e Inteligência Artificial (Extensão Universitária), acesse: Jornada de Dados


About

Formação Profissional em Engenharia de Dados e IA

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 5