(Extensão Universitária)
Nossa missão é fornecer o melhor ensino em engenharia de dados
Este é o repositório oficial da Formação Profissional em Engenharia de Dados e Inteligência Artificial (Extensão Universitária) da Jornada de Dados.
Esse é o roadmap para se especializar em engenharia de dados, baseado em fundamentos, principais tecnologias de mercado e projetos práticos do mundo real. Este repositório contém todo o conteúdo prático, projetos, exercícios e materiais de apoio utilizados durante a formação.
Este não é apenas um curso ou bootcamp. É uma formação completa que:
- ✅ Eleva o nível profissional: Conteúdo estruturado para profissionais que buscam especialização
- ✅ Reconhecimento institucional: Extensão Universitária com validade acadêmica
- ✅ Foco em mercado: Baseado em tecnologias e práticas reais do mercado de trabalho
- ✅ Preparação completa: Do zero até projetos avançados de produção
A formação tem como núcleo a Engenharia de Dados, cobrindo:
- Pipelines de dados: ETL/ELT, processamento em batch e streaming
- Infraestrutura: Cloud, containers, orquestração
- Qualidade e observabilidade: Validação, monitoramento, testes
- Produção: Deploy, escalabilidade, manutenção
A IA entra de forma estratégica e prática:
- Agentes de IA: RAG, Vector Search, LangChain
- Aplicações reais: Chatbots, análise de dados com LLMs
- Integração com dados: Databricks + IA, pipelines inteligentes
- Preparação para o futuro: Conteúdo alinhado com 2026+
A formação possui reconhecimento como Extensão Universitária, oferecendo:
- ✅ Horas complementares: Válidas para graduação
- ✅ Diferenciação no currículo: Certificação com validade acadêmica
- ✅ Legitimidade institucional: Reconhecimento pelo MEC
- ✅ Valor profissional: Diferencial competitivo no mercado
Estrutura do Repositório:
01-projetos/: Projetos práticos completos que demonstram conceitos avançados de engenharia de dados02-fundamentos-dados/: Fundamentos essenciais (Git, GitHub, Deploy, WSL)03-python-avancado-para-dados/: Conteúdo avançado de Python aplicado a dados04-sql-analytics-dbt-core/: SQL avançado e Analytics Engineering com dbt04-workflow-orchestration-deploy-airflow/: Orquestração de workflows com Airflow05-engenharia-de-dados-e-ia/: Projetos avançados (APIs, Kafka, Streamlit, Terraform)06-cloud-aws-para-dados/: Conteúdo prático de Cloud AWS para dados
Esta Formação Profissional visa capacitar profissionais para:
- Construir pipelines de dados robustos e escaláveis para ambientes de produção
- Dominar ferramentas modernas de engenharia de dados (Python, SQL, Airflow, dbt, Cloud, Databricks)
- Aplicar boas práticas de desenvolvimento, arquitetura de dados e engenharia de software
- Implementar soluções de dados em produção com qualidade e observabilidade
- Trabalhar com dados em grande escala (Big Data) e processamento distribuído
- Integrar Inteligência Artificial em pipelines e aplicações de dados
- Preparar-se para o mercado com habilidades alinhadas às demandas reais das empresas
- Navegue pelas pastas seguindo a ordem sugerida ou conforme seu nível de conhecimento
- Cada projeto/módulo possui seu próprio README com instruções detalhadas
- Clone o repositório para ter acesso local aos códigos:
git clone https://github.com/lvgalvao/data-engineering-roadmap.git cd data-engineering-roadmap - Siga os pré-requisitos indicados em cada projeto antes de começar
- Data Project Foundations: Estruturação de projetos de dados com boas práticas
- Python Big Data Processing: Processamento de grandes volumes de dados (1 bilhão de linhas)
- CRUD API Data Application: API REST completa com FastAPI, PostgreSQL e Streamlit
- Data Quality Engineering: Engenharia de qualidade de dados com DuckDB
- SQL Advanced Analytics: Análises avançadas com SQL (banco Northwind)
- Web Scraping NoSQL Pipelines: Web scraping com Redis e MongoDB
- PDF Data Extraction: Extração de dados de PDFs com S3 e SQS
- Databricks Data Modeling: Modelagem de dados no Databricks (Bronze-Silver-Gold)
- Databricks AI Project: Agentes de IA com LangChain e Vector Search
- Git e GitHub
- Deploy de aplicações de dados
- Configuração de ambiente WSL
- 20 aulas cobrindo desde fundamentos até APIs e projetos completos
- Programação Orientada a Objetos
- ETL pipelines
- Logging e tratamento de erros
- SQL avançado para Analytics
- dbt-core para transformação de dados
- 13 aulas práticas + conteúdo Databricks
- Airflow do básico ao avançado
- Deploy de workflows
- 7 exemplos práticos
- REST APIs com FastAPI para aplicações de dados
- Kafka e Pub/Sub para streaming de dados em tempo real
- Dashboards em tempo real com Streamlit
- Infrastructure as Code com Terraform
- Integração de IA em pipelines de dados
- 15 aulas práticas sobre AWS para dados + projetos integrados
- S3, EC2, RDS, Lambda, VPC, IAM, SQS, SNS, API Gateway, DynamoDB, Amplify e mais
- Site Oficial: Jornada de Dados
- Plataforma de Ensino: Alpaclass
- Canal YouTube: Workshops ao vivo e tutoriais
Se você gostou do conteúdo e quer se inscrever na Formação Profissional em Engenharia de Dados e Inteligência Artificial (Extensão Universitária), acesse: Jornada de Dados
