Skip to content

nvladimiri/Wildberries-DA

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

Wildberries-DA

Описание проекта

Wildberries-DA — проект, посвящённый анализу данных о нарушениях и инспекциях в ресторанах Нью-Йорка. Его цель — исследовать факторы, влияющие на популярность ресторанов в этом мегаполисе.

Данные проекта взяты из открытого источника: NYC Inspections Dataset.


Этапы проекта

1. Предобработка данных

  • Преобразование типов данных (например, дат в формат datetime).
  • Заполнение пропущенных значений.
  • Очистка данных от некорректных записей и дубликатов.
  • Описание структуры данных и выбор наиболее релевантных переменных:
    • Название ресторана
    • Тип кухни
    • Адрес
    • Оценка
    • Дата инспекции
    • Результат инспекции
    • Количество нарушений

2. SQL: Запросы, триггеры и хранимые процедуры

Запросы:

  1. Список всех типов кухонь ресторанов.
  2. Количество инспектированных ресторанов по годам (сортировка по убыванию).
  3. Топ-10 ресторанов с наивысшей оценкой.
  4. Рестораны, инспектированные в заданном году и с оценкой выше указанной.
  5. Средняя оценка ресторанов по типам кухонь.
  6. Рестораны в заданном районе.
  7. Рестораны с количеством нарушений выше заданного значения.
  8. Количество ресторанов с конкретной оценкой.
  9. Рестораны с наилучшим результатом инспекции.
  10. Средняя оценка ресторанов за указанный месяц.

Триггеры:

  1. Запись информации о добавлении нового ресторана.
  2. Автоматическое обновление описания ресторана при изменении оценки.
  3. Запись информации о времени удаления ресторана.
  4. Создание таблицы для нового типа кухни.
  5. Обновление информации о ресторане при изменении района.

Хранимые процедуры:

  1. Поиск ресторанов по заданным критериям (тип кухни, район, дата инспекции, оценка, количество нарушений).
  2. Расчёт средней оценки для типа кухни.
  3. Определение топ-5 ресторанов по оценке.
  4. Генерация статистики по ресторанам (по типам кухни, районам, датам инспекции).
  5. Среднее количество нарушений в заданном году.

3. Визуализация данных

Примеры визуализаций:

  • Гистограмма распределения оценок ресторанов.
  • Диаграмма столбцов: количество ресторанов по типам кухни.
  • Scatter plot: зависимость оценки от количества нарушений.
  • Line chart: изменение среднего рейтинга ресторанов со временем.
  • Box plot: распределение оценок по районам.
  • Heatmap: зависимость оценки от типа кухни и района.
  • Bar chart: количество ресторанов с различными результатами инспекции.
  • Карта ресторанов по районам Нью-Йорка.
  • Гистограмма распределения количества нарушений.

Требования к реализации

  • Использование Python и библиотеки Pandas для анализа данных.
  • SQL для запросов, триггеров и хранимых процедур.
  • Качественное оформление графиков.
  • Подробная документация и пояснения к коду.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors