Привет! Меня зовут Андрей. Я стремлюсь развиваться в области Data Engineering и создавать проекты, которые помогают компаниям оптимизировать обработку данных и принимать более обоснованные бизнес-решения.
- StarSpark - автоматизированный пайплайн для сбора, обработки и анализа данных о спутниковой сети Starlink на основе открытого API SpaceX. Проект объединяет PostgreSQL для хранения сырых данных, Apache Airflow для оркестрации процессов, PySpark для масштабируемой обработки данных, ClickHouse для создания витрин и Metabase для визуализации.
Starlink API → PostgreSQL → Airflow + PySpark → ClickHouse → Metabase
- MovieFlow - полный цикл обработки данных: от загрузки
.csvфайла с платформы Kaggle и его преобразования до визуализации в Power BI для анализа и принятия бизнес-решений.
Kaggle → CSV → PostgreSQL → PowerBI
- Python (Pandas, SQLAlchemy)
- SQL
- Apache Airflow
- Apache Spark (PySpark)
- ClickHouse, PostgreSQL
- Docker
- Linux, Git, Bash
- Metabase, Power BI

