Разведывательный анализ данных — Exploratory Data Analysis. Этот этап дата-сайентисты проводят перед построением самой модели.
Построение предсказательной модели обычно состоит из таких этапов:
- Формулировка бизнес-проблемы
- Сбор данных и их очистка
- Разведывательный анализ данных
- Разработка и построение модели
- Внедрение модели в продакшен
Основные методы и алгоритмы разведовательного анализа показаны в данном проекте:
- FEATURE ENGINEERING (ПРОЕКТИРОВАНИЕ ПРИЗНАКОВ)
- FEATURE SELECTION (ОТБОР ПРИЗНАКОВ)
- КОДИРОВАНИЕ ПРИЗНАКОВ
Цель Разведовательного Анализа Данных — понять, что нам могут дать данные, и как признаки могут быть взаимосвязаны между собой. Понимание изначальных признаков позволяет создать новые, более сильные признаки и повысить качество модели.
Данный проект направлен на демонстрацию применения различных методов и алгоритмов Exploratory Data Analysis на примере датасета с соревнования на сайте kaggle.
О структуре проекта:
- images - папка с изображениями, необходимыми для проекта
- project_3.ipynb - jupyter-ноутбук, содержащий основной код проекта, в котором демонстрируются методы и алгоритмы Exploratory Data Analysis.
- requirements.txt - файл с зафиксированными версиями библиотек.
Постановка проблемы — представьте, что вы работаете датасаентистом в компании Booking. Одна из проблем компании — это нечестные отели, которые накручивают себе рейтинг.
Цель проекта — построение модели, на основе алгоритмов машинного обучения, которая предсказывает рейтинг отеля.
Задачи проекта:
- Принять участие в соревновании на платформе KAGGLE.COM
- Выполнить подготовку данных, которые будут использованы для обучения модели
- Изучить пример машинного обучения (scikitlearn класс RandomForsetRegressor)
- Проверить эффективность предлагаемой модели, используя метрику MAPE
- average_score - средний балл отеля, рассчитанный на основе последнего комментария за последний год
- total_number_of_reviews_reviewer_has_given - количество отзывов, которые рецензенты дали в прошлом
- additional_number_of_scoring - есть также некоторые гости, которые просто поставили оценку сервису, а не оставили отзыв. Это число указывает, сколько там действительных оценок без проверки.
Изначальные данные можно скачать здесь.
Необходимо заранее создать папку data в директории, где лежит файл project_3.ipynb. Затем нужно сохранить файлы в формате .csv, скачанные по ссылкам предоставленным выше и положить эти файлы в папку data.
Вся информация о работе представлена в jupyter-ноутбуке project_3.ipynb.
- Ярослав Москаленко
- Эксперементально убедился, что отбор признаков может сильно повлиять на конечный результат работы модели.
- Не нашёл однозначного способа отбора признаков. Признаки с высокой корреляцией важны для работы модели и при их удалении приводят к ухудшению результатов метрики. Приходилось эксперементально определять признаки для удаления на этапе отбора признаков.
- Для построения предсказательной модели наибольшее значение имеет анализ и обработка отзывов.
- На практике воспользовалься несколькими методами и библиотеками для обработки отзывов.
