Projeto RFB

Pipeline de engenharia de dados para ingestão, transformação e disponibilização dos dados cadastrais públicos de empresas da Receita Federal do Brasil (CNPJ), seguindo a arquitetura Medallion.

Objetivo

Processar os dados abertos do CNPJ da RFB em um formato estruturado e analítico, passando pelas camadas Bronze, Silver e Gold com rastreabilidade e qualidade de dados em cada etapa.

Stack

Databricks Community Edition — plataforma de processamento distribuído
Delta Lake — formato de armazenamento nas camadas Bronze, Silver e Gold
dbt — transformações SQL a partir da camada Bronze
Python / PySpark — ingestão e carga inicial
Databricks SDK — upload de arquivos para Volumes
Scrapy — crawler para coleta dos arquivos no portal da RFB
sidrapy — fonte de dados do PIB (IBGE/SIDRA)
Astro — Gerenciador do Airflow

Arquitetura

Fonte (RFB)
    │
    ▼
Staging (Volume)        ← arquivos .csv brutos da RFB e IBGE
    │
    ▼
Bronze (Delta Table)    ← dados sem tratamento com schema/colunas basicas aplicadas (apenas para organizar em tabelas)
    │
    ▼
Silver (dbt)            ← schema aplicado, tipos corretos, colunas nomeadas
    │
    ▼
Gold (dbt)              ← agregações e visões analíticas

Estrutura do Projeto

rfb/
├── dags/
│   ├── ingestion/
│   └── transformation/
├── rfb_crawler/
│   ├── spiders/
│   │   └── rfb_spider.py
│   ├── pipelines.py
│   └── settings.py
├── src/
│   ├── ingestion/
│   │   ├── download_rfb_data.py
│   │   ├── send_data_to_remote.py
│   │   └── dto/
│   └── dbt/
│       ├── models/
│       ├── macros/
│       ├── seeds/
│       └── dbt_project.yml
└── tests/
    └── dags/

Fontes de Dados

CNPJ (RFB): Portal de Dados Abertos da Receita Federal, atualizado mensalmente
PIB: API do IBGE via sidrapy

Como Rodar

Pré-requisito: é necessário ter acesso ao Databricks (pode ser a Community Edition) com Unity Catalog habilitado.

1. Configurar o Unity Catalog

No Databricks, abra um notebook e execute os comandos abaixo para criar o catálogo e os schemas necessários:

spark.sql("CREATE CATALOG IF NOT EXISTS rfb")
spark.sql("CREATE SCHEMA IF NOT EXISTS rfb.transient")
spark.sql("CREATE SCHEMA IF NOT EXISTS rfb.bronze")
spark.sql("CREATE SCHEMA IF NOT EXISTS rfb.silver")
spark.sql("CREATE SCHEMA IF NOT EXISTS rfb.gold")

2. Instalar dependências locais

pip install poetry
poetry install

3. Configurar variáveis de ambiente

Crie um arquivo .env na raiz do projeto com as credenciais do Databricks:

DATABRICKS_HOST=https://<your-workspace>.azuredatabricks.net
DATABRICKS_TOKEN=<your-token>

4. Executar airflow

# Inicia uma instancia do airflow, podendo rodar maunalmente as dags ou com agendamento
astro dev start

5. Criar Variables do Airflow

Crie as variaveis do databricks para as dags conseguirem conectar com fontes externas. (Ex: Databricks)

6. Executar as transformações com dbt OU Executar as dags direto na UI do airflow

cd src/dbt
dbt deps
dbt run

Obs: Caso queira testar todo o fluxo pode rodar direto as dags no airflow.

As DAGs de ingestão e transformação ficam disponíveis na interface do Airflow em localhost:8080.

Name		Name	Last commit message	Last commit date
Latest commit History 37 Commits
.astro		.astro
dags		dags
imgs		imgs
jobs		jobs
quality		quality
rfb_crawler		rfb_crawler
src		src
tests		tests
.dockerignore		.dockerignore
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
airflow_settings.yaml		airflow_settings.yaml
docker-compose.overrride.yml		docker-compose.overrride.yml
packages.txt		packages.txt
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projeto RFB

Objetivo

Stack

Arquitetura

Estrutura do Projeto

Fontes de Dados

Como Rodar

1. Configurar o Unity Catalog

2. Instalar dependências locais

3. Configurar variáveis de ambiente

4. Executar airflow

5. Criar Variables do Airflow

6. Executar as transformações com dbt OU Executar as dags direto na UI do airflow

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Projeto RFB

Objetivo

Stack

Arquitetura

Estrutura do Projeto

Fontes de Dados

Como Rodar

1. Configurar o Unity Catalog

2. Instalar dependências locais

3. Configurar variáveis de ambiente

4. Executar airflow

5. Criar Variables do Airflow

6. Executar as transformações com dbt OU Executar as dags direto na UI do airflow

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages