Codeforces Contest Submission Analysis

This project provides a big data architecture for analyzing Codeforces contest submissions. It leverages a modern data pipeline using Apache Spark, Kafka, ClickHouse, MinIO, Airflow, and Grafana to ingest, process, store, and visualize large-scale contest data.

Project Structure

airflow/: Orchestration and workflow management (DAGs, configs, requirements).
clickhouse/: ClickHouse database setup and scripts.
fake-stream/: Data generator for simulating contest submissions.
grafana/: Configuration for Grafana dashboards and monitoring.
images/: Architecture diagrams and related images.
init/: Initialization scripts (e.g., MinIO bucket creation).
kafka/, kafka_script/: Kafka broker and related scripts for streaming data.
minio/: MinIO object storage configuration.
sample/: Sample data.
spark-clean/, spark-cleaned/, spark-clickhouse/, spark-flatten/, spark-transform/: Spark jobs for ETL and data processing.

Main Components

Data Ingestion: Simulated by fake-stream/send_by_time.py, which streams submission data to Kafka.
Data Processing: Apache Spark jobs process and transform the data, storing intermediate results in MinIO and final results in ClickHouse.
Orchestration: Apache Airflow schedules and manages the ETL workflows.
Storage: MinIO for raw/intermediate data, ClickHouse for analytics-ready data.
Visualization: Grafana dashboards connect to ClickHouse for real-time analytics.

Getting Started

Clone the repository

git clone https://github.com/DOCUTEE/CFBIGDATA.git
cd CFBIGDATA

Start the stack
```
docker-compose up --build
```
Access Services
- Airflow: http://localhost:8080
- Grafana: http://localhost:3000
- MinIO: http://localhost:9000
- ClickHouse: http://localhost:8123
Simulate Data
- Run the data generator in fake-stream to start streaming submissions.

Requirements

Docker & Docker Compose
Python (for scripts in init and fake-stream)
See airflow/requirements.txt and init/requirements.txt for Python dependencies.

Usage

Modify or add Spark jobs in the respective spark-* directories.
Update Airflow DAGs in airflow/dags to orchestrate new workflows.
Use Grafana to create or modify dashboards for analytics.

License

This project is licensed under the Apache License 2.0.

For more details, see the architecture diagram above and explore the individual directories for configuration and code.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Codeforces Contest Submission Analysis

Project Structure

Main Components

Getting Started

Requirements

Usage

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 2

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
airflow		airflow
clickhouse		clickhouse
fake-stream		fake-stream
grafana/conf		grafana/conf
images		images
init		init
kafka		kafka
kafka_script		kafka_script
minio		minio
sample		sample
spark-clean		spark-clean
spark-cleaned		spark-cleaned
spark-clickhouse		spark-clickhouse
spark-flatten		spark-flatten
spark-transform		spark-transform
.gitignore		.gitignore
README.md		README.md
docker-compose.yml		docker-compose.yml
test.py		test.py

DOCUTEE/CFBIGDATA

Folders and files

Latest commit

History

Repository files navigation

Codeforces Contest Submission Analysis

Project Structure

Main Components

Getting Started

Requirements

Usage

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 2

Uh oh!

Languages

Packages