Wildberries-DA — проект, посвящённый анализу данных о нарушениях и инспекциях в ресторанах Нью-Йорка. Его цель — исследовать факторы, влияющие на популярность ресторанов в этом мегаполисе.
Данные проекта взяты из открытого источника: NYC Inspections Dataset.
- Преобразование типов данных (например, дат в формат
datetime). - Заполнение пропущенных значений.
- Очистка данных от некорректных записей и дубликатов.
- Описание структуры данных и выбор наиболее релевантных переменных:
- Название ресторана
- Тип кухни
- Адрес
- Оценка
- Дата инспекции
- Результат инспекции
- Количество нарушений
- Список всех типов кухонь ресторанов.
- Количество инспектированных ресторанов по годам (сортировка по убыванию).
- Топ-10 ресторанов с наивысшей оценкой.
- Рестораны, инспектированные в заданном году и с оценкой выше указанной.
- Средняя оценка ресторанов по типам кухонь.
- Рестораны в заданном районе.
- Рестораны с количеством нарушений выше заданного значения.
- Количество ресторанов с конкретной оценкой.
- Рестораны с наилучшим результатом инспекции.
- Средняя оценка ресторанов за указанный месяц.
- Запись информации о добавлении нового ресторана.
- Автоматическое обновление описания ресторана при изменении оценки.
- Запись информации о времени удаления ресторана.
- Создание таблицы для нового типа кухни.
- Обновление информации о ресторане при изменении района.
- Поиск ресторанов по заданным критериям (тип кухни, район, дата инспекции, оценка, количество нарушений).
- Расчёт средней оценки для типа кухни.
- Определение топ-5 ресторанов по оценке.
- Генерация статистики по ресторанам (по типам кухни, районам, датам инспекции).
- Среднее количество нарушений в заданном году.
- Гистограмма распределения оценок ресторанов.
- Диаграмма столбцов: количество ресторанов по типам кухни.
- Scatter plot: зависимость оценки от количества нарушений.
- Line chart: изменение среднего рейтинга ресторанов со временем.
- Box plot: распределение оценок по районам.
- Heatmap: зависимость оценки от типа кухни и района.
- Bar chart: количество ресторанов с различными результатами инспекции.
- Карта ресторанов по районам Нью-Йорка.
- Гистограмма распределения количества нарушений.
- Использование Python и библиотеки Pandas для анализа данных.
- SQL для запросов, триггеров и хранимых процедур.
- Качественное оформление графиков.
- Подробная документация и пояснения к коду.