Использую
- MacOS
- VSCode
- Terminal внутри VSCode
- Python
- Jupyter Notebook внутри VSCode
- PostgreSQL
- pgAdmin 4
- Apache Superset
Провести комплексный анализ продаж кофейни для выявления ключевых метрик и закономерностей. Основные задачи включают определение популярных напитков, изучение поведения клиентов, анализ динамики продаж по времени суток и дням недели, а также по способам оплаты. Полученные результаты призваны помочь в оптимизации ассортимента и улучшении бизнес-процессов.
- Продумать логичную структуру папок и файлов.
- Интегрировать с Kaggle API.
- Использовать файл
.envдля безопасного управления учетными данными. - Создать виртуальное окружение
python -m venv .venvsource .venv/bin/activate. - Установить все необходимые зависимости для библиотек
pip install -r requirements.txt, чтобы обеспечить воспроизводимую среду. Сгенерировать файлpip freeze > requirements.txt.
beanpath (beanpath-core)/
├── notebooks/ # Jupyter-ноутбуки с исследованиями
│ ├── 2025-10-10_data_exploration.ipynb # Разведочный анализ данных
│ ├── 2025-10-10_data_cleaning.ipynb # Очистка и предобработка данных
│ ├── 2025-10-10_modeling.ipynb
├── sql/
│ ├── sales/
│ │ ├── create_tables.sql # Создание таблиц
│ │ ├── extract_data.sql # Извлечение сырых данных
│ │ └── transform_queries.sql # Трансформация данных
├── src/
│ ├── db/
│ │ ├── connection.py. # Подключение к БД
│ │ ├── queries.py. # SQL-запросы
│ ├── utils/ # Вспомогательные функции
│ │ ├── data_helpers.py
│ │ ├── visualization.py
│ ├── models/
│ │ ├── regression.py
│ ├── __init__.py
├── data/ # Данные (добавить в .gitignore)
│ ├── raw/ # Сырые данные
│ ├── intermediate/ # Промежуточные результаты
│ ├── processed/ # Готовые к анализу данные
│ ├── exports/ # Результаты для выгрузки
├── tests/
│ ├── test_data_helpers.py
├── .env # Переменные окружения (секреты)
├── .gitignore # Исключаемые файлы для Git
├── requirements.txt # Зависимости проекта
├── README.md # Описание проекта
├── config.py # Конфигурация
Чтобы скачивать датасеты с Kaggle, необходимо установить пакет kaggle. Полученный при создании API-токена файл kaggle.json нужно поместить в папку ~/.kaggle/ или указать переменными окружения KAGGLE_USERNAME и KAGGLE_KEY (их можно хранить в .env).
Run the script: python -m src.utils.data_acquisition (data_acquisition.py)
Через терминал:
kaggle datasets download -d minahilfatima12328/daily-coffee-transactions
Data_Generation_Synthetic_Coffee_Shop.md
- Источник: Синтетические логи продаж из файла
third_wave_coffee_shop.csv - Период: Июль – сентябрь 2025 г.
- Объем: 4943 записи, соответствующие 3547 уникальным чекам.
- Качество: Пропуски (null) в данных отсутствуют.
- Структура: Каждая строка представляет один напиток в чеке и содержит следующие поля:
transaction_id,customer_id, дата/время продажи,coffee_name,drink_price,total_cost,payment_method,time_of_dayи др. - Примечание: Поле
total_costдублируется для всех позиций одного чека и отражает его итоговую сумму. Все расчеты выручки, а также анализ по дням и времени, проводились на основе уникальныхtransaction_id.
- Предобработка данных: Выполнена проверка на наличие пропусков и дубликатов, проведено преобразование типов данных (в частности, для даты и времени), а также созданы новые признаки (месяц, час, время дня).
- Агрегация и группировка: Построены сводные таблицы для анализа транзакций, напитков, клиентов, дней недели и способов оплаты.
- Визуализация: Для наглядного представления данных использовались гистограммы, диаграммы boxplot, столбчатые диаграммы и тепловые карты, построенные с помощью библиотек Matplotlib, Seaborn и Plotly.
- Статистический анализ: Рассчитаны ключевые статистические показатели (среднее, медиана, квартили) для цен на напитки и сумм чеков, а также определены доли по различным категориям.
- Извлечение данных: Для выборок и фильтрации данных применялись SQL-запросы
extract_data.sql
- Лидеры продаж: Капучино (1165 продаж) и Латте (1042 продажи).
- Наименее популярные: Эспрессо (205 продаж) и Чай (267 продаж).
- Средний чек: ≈ 470 ₽ (медианный чек – 340 ₽).
- Средняя цена напитка: ≈ 337 ₽.
- Наполняемость чека: В среднем 1-2 напитка на заказ.
- Гистограмма цен на напитки имеет несколько пиков, что соответствует различным ценовым категориям напитков.
- Диаграмма boxplot для сумм чеков показывает относительно небольшой разброс (межквартильный диапазон: Q1 = 320 ₽, Q3 = 580 ₽).
- Пиковая активность: Наибольшее число заказов приходится на дневное время (Afternoon) – 1918 транзакций с выручкой ~891 450 ₽.
- Утренние продажи: 1175 транзакций с выручкой ~558 610 ₽.
- Вечерние продажи: 453 транзакции с выручкой ~217 550 ₽.
- Средний чек по времени суток: Вечером (~480 ₽) и утром (~475 ₽) средний чек немного выше, чем днем (≈465 ₽).
- Наибольшая активность продаж наблюдается в будние дни. В выходные количество заказов снижается.
- Банковские карты: 71% выручки (2515 чеков на сумму 1 187 240 ₽).
- Наличные: 29% выручки (1032 чека на сумму 480 810 ₽).
- Наиболее лояльные клиенты за 3 месяца потратили в сумме от 2000 до 3000 ₽.
- Топ-клиент совершил 4 заказа на общую сумму 2980 ₽.
- Средний чек у топ-клиентов составляет 600–750 ₽ за заказ.
- Выявлена группа регулярных покупателей, для которых целесообразно внедрение программы лояльности.
Анализ выявил ключевые точки для роста и оптимизации бизнеса кофейни.
Рекомендации:
-
Ассортимент: Сконцентрировать маркетинговые усилия на продвижении самых популярных напитков (капучино, латте) и рассмотреть возможность расширения их вариаций.
-
Операционное управление: Прогнозирование загрузки (пики утром и днем) поможет оптимизировать графики работы персонала и управление запасами.
-
Ценообразование: Полученные статистические данные (средние цены, разброс чеков) могут служить основой для формирования ценовой политики и разработки специальных предложений.
Дальнейшие шаги:
- Углубленный анализ: Проведение анализа сезонных трендов на более длительном периоде данных и кластеризация клиентов для персонализированного маркетинга.
- Эксперименты: Проведение A/B-тестов для оценки эффективности различных акций и спецпредложений.
- Прогнозирование: Построение моделей машинного обучения для прогнозирования выручки.
- Дополнительные факторы: Анализ влияния мероприятий (каппинги, dj-сеты) на продажи и изучение сопутствующих товаров в чеке (например, "кофе + круассан").
Продолжение исследования датасета
Обзор бизнес-модели кофеен третьей волны (Specialty Coffee) на 2025-2026 гг.










