Skip to content

The name successfully combines the cultural theme of a new wave coffee shop with a technological metaphor, which makes it promising for a long-term data analysis project.

License

Notifications You must be signed in to change notification settings

OlegPicPulse/beanpath-core

Repository files navigation

Анализ данных кофейни «третьей волны»

Использую

  • MacOS
  • VSCode
  • Terminal внутри VSCode
  • Python
  • Jupyter Notebook внутри VSCode
  • PostgreSQL
  • pgAdmin 4
  • Apache Superset

1. Цель проекта

Провести комплексный анализ продаж кофейни для выявления ключевых метрик и закономерностей. Основные задачи включают определение популярных напитков, изучение поведения клиентов, анализ динамики продаж по времени суток и дням недели, а также по способам оплаты. Полученные результаты призваны помочь в оптимизации ассортимента и улучшении бизнес-процессов.

2. Начало работы

  • Продумать логичную структуру папок и файлов.
  • Интегрировать с Kaggle API.
  • Использовать файл .env для безопасного управления учетными данными.
  • Создать виртуальное окружение python -m venv .venv source .venv/bin/activate.
  • Установить все необходимые зависимости для библиотек pip install -r requirements.txt, чтобы обеспечить воспроизводимую среду. Сгенерировать файл pip freeze > requirements.txt.

3. Архитектура проекта

beanpath (beanpath-core)/
├── notebooks/  # Jupyter-ноутбуки с исследованиями
│   ├── 2025-10-10_data_exploration.ipynb  # Разведочный анализ данных
│   ├── 2025-10-10_data_cleaning.ipynb     # Очистка и предобработка данных
│   ├── 2025-10-10_modeling.ipynb  
├── sql/
│   ├── sales/
│   │   ├── create_tables.sql              # Создание таблиц
│   │   ├── extract_data.sql               # Извлечение сырых данных
│   │   └── transform_queries.sql          # Трансформация данных
├── src/
│   ├── db/
│   │   ├── connection.py.                 # Подключение к БД
│   │   ├── queries.py.                    # SQL-запросы
│   ├── utils/                             # Вспомогательные функции
│   │   ├── data_helpers.py
│   │   ├── visualization.py
│   ├── models/
│   │   ├── regression.py
│   ├── __init__.py
├── data/                                  # Данные (добавить в .gitignore) 
│   ├── raw/                               # Сырые данные 
│   ├── intermediate/                      # Промежуточные результаты
│   ├── processed/                         # Готовые к анализу данные
│   ├── exports/                           # Результаты для выгрузки
├── tests/
│   ├── test_data_helpers.py
├── .env                                   # Переменные окружения (секреты)
├── .gitignore                             # Исключаемые файлы для Git
├── requirements.txt                       # Зависимости проекта
├── README.md                              # Описание проекта
├── config.py                              # Конфигурация

4. Использование Kaggle API

Чтобы скачивать датасеты с Kaggle, необходимо установить пакет kaggle. Полученный при создании API-токена файл kaggle.json нужно поместить в папку ~/.kaggle/ или указать переменными окружения KAGGLE_USERNAME и KAGGLE_KEY (их можно хранить в .env).

Run the script: python -m src.utils.data_acquisition (data_acquisition.py)

Через терминал: kaggle datasets download -d minahilfatima12328/daily-coffee-transactions

5. Данные

Data_Generation_Synthetic_Coffee_Shop.md

  • Источник: Синтетические логи продаж из файла third_wave_coffee_shop.csv
  • Период: Июль – сентябрь 2025 г.
  • Объем: 4943 записи, соответствующие 3547 уникальным чекам.
  • Качество: Пропуски (null) в данных отсутствуют.
  • Структура: Каждая строка представляет один напиток в чеке и содержит следующие поля: transaction_id, customer_id, дата/время продажи, coffee_name, drink_price, total_cost, payment_method, time_of_day и др.
  • Примечание: Поле total_cost дублируется для всех позиций одного чека и отражает его итоговую сумму. Все расчеты выручки, а также анализ по дням и времени, проводились на основе уникальных transaction_id.

6. Методы анализа

  • Предобработка данных: Выполнена проверка на наличие пропусков и дубликатов, проведено преобразование типов данных (в частности, для даты и времени), а также созданы новые признаки (месяц, час, время дня).
  • Агрегация и группировка: Построены сводные таблицы для анализа транзакций, напитков, клиентов, дней недели и способов оплаты.
  • Визуализация: Для наглядного представления данных использовались гистограммы, диаграммы boxplot, столбчатые диаграммы и тепловые карты, построенные с помощью библиотек Matplotlib, Seaborn и Plotly.
  • Статистический анализ: Рассчитаны ключевые статистические показатели (среднее, медиана, квартили) для цен на напитки и сумм чеков, а также определены доли по различным категориям.
  • Извлечение данных: Для выборок и фильтрации данных применялись SQL-запросы extract_data.sql

7. Основные наблюдения

Популярные напитки и средний чек

  • Лидеры продаж: Капучино (1165 продаж) и Латте (1042 продажи).
  • Наименее популярные: Эспрессо (205 продаж) и Чай (267 продаж).
  • Средний чек: ≈ 470 ₽ (медианный чек – 340 ₽).
  • Средняя цена напитка: ≈ 337 ₽.
  • Наполняемость чека: В среднем 1-2 напитка на заказ.

Распределение заказов по количеству напитков Визуализация распределения цен (drink_price и total_cost) Визуализация распределения цен (drink_price и total_cost) Количество проданных напитков, выручка

Ценовые распределения

  • Гистограмма цен на напитки имеет несколько пиков, что соответствует различным ценовым категориям напитков.
  • Диаграмма boxplot для сумм чеков показывает относительно небольшой разброс (межквартильный диапазон: Q1 = 320 ₽, Q3 = 580 ₽).

Визуализация распределения цен (drink_price и total_cost)

Динамика продаж по времени

  • Пиковая активность: Наибольшее число заказов приходится на дневное время (Afternoon) – 1918 транзакций с выручкой ~891 450 ₽.
  • Утренние продажи: 1175 транзакций с выручкой ~558 610 ₽.
  • Вечерние продажи: 453 транзакции с выручкой ~217 550 ₽.
  • Средний чек по времени суток: Вечером (~480 ₽) и утром (~475 ₽) средний чек немного выше, чем днем (≈465 ₽).

Продажи по времени дня (time_of_day)

Продажи по дням недели

  • Наибольшая активность продаж наблюдается в будние дни. В выходные количество заказов снижается.

Анализ по дням недели (is_weekend и day_name) Анализ по дням недели (is_weekend и day_name) Временной анализ (нагрузка и планирование персонала)

Способы оплаты

  • Банковские карты: 71% выручки (2515 чеков на сумму 1 187 240 ₽).
  • Наличные: 29% выручки (1032 чека на сумму 480 810 ₽).

Методы оплаты

Анализ клиентов

  • Наиболее лояльные клиенты за 3 месяца потратили в сумме от 2000 до 3000 ₽.
  • Топ-клиент совершил 4 заказа на общую сумму 2980 ₽.
  • Средний чек у топ-клиентов составляет 600–750 ₽ за заказ.
  • Выявлена группа регулярных покупателей, для которых целесообразно внедрение программы лояльности.

Анализ клиентов (топ-клиенты по тратам)

8. Выводы и практическая ценность

Анализ выявил ключевые точки для роста и оптимизации бизнеса кофейни.

Рекомендации:

  1. Ассортимент: Сконцентрировать маркетинговые усилия на продвижении самых популярных напитков (капучино, латте) и рассмотреть возможность расширения их вариаций.

  2. Операционное управление: Прогнозирование загрузки (пики утром и днем) поможет оптимизировать графики работы персонала и управление запасами.

  3. Ценообразование: Полученные статистические данные (средние цены, разброс чеков) могут служить основой для формирования ценовой политики и разработки специальных предложений.

Дальнейшие шаги:

  • Углубленный анализ: Проведение анализа сезонных трендов на более длительном периоде данных и кластеризация клиентов для персонализированного маркетинга.
  • Эксперименты: Проведение A/B-тестов для оценки эффективности различных акций и спецпредложений.
  • Прогнозирование: Построение моделей машинного обучения для прогнозирования выручки.
  • Дополнительные факторы: Анализ влияния мероприятий (каппинги, dj-сеты) на продажи и изучение сопутствующих товаров в чеке (например, "кофе + круассан").

Сводный отчет по анализу

Продолжение исследования датасета

Обзор бизнес-модели кофеен третьей волны (Specialty Coffee) на 2025-2026 гг.

About

The name successfully combines the cultural theme of a new wave coffee shop with a technological metaphor, which makes it promising for a long-term data analysis project.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published