Данные проекты были выполнены в ходе обучения профессии "Специалист по Data Science" в Яндекс.Практикуме. Проекты расположены в хронологическом порядке, и можно отследить как растет количество навыков, которыми я владею. Оригинальные описания проектов были сокращены и переформулированы.
| Название проекта | Описание | Используемые библиотеки |
|---|---|---|
| 1. Музыка больших городов | Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга в зависимости от времени и дня недели. Подготовка, очистка данных, исследовательский анализ данных. | pandas |
| 2. Исследование надежности заемщиков | Исследование как семейное положение, количество детей и доход влияют на возврат кредита в срок. Подготовка, очистка данных, исследовательский анализ данных, категоризация переменных | pandas, pymystem3 |
| 3. Исследование объявлений о продаже квартир | Определение рыночной цены недвижимости в Санкт-Петербурге и окрестностях, и определение параметров на нее влияющих, чтобы создать систему для отслеживания аномалий и мошеннической деятельности. Подготовка данных, добавление фичей, исследовательский анализ, корреляция между ценой квартир и различными фичами. | pandas, matplotlib.pyplot, plotly.express |
| 4. Определение перспективного тарифа для телеком компании | Анализ поведения пользователей двух тарифов телеком компании в целях определения более выгодного для компании тарифа. В процессе работы был проведен статистический анализ, проверены гипотезы об отличии выручки за пользователей двух тарифов и пользователей из Москвы и регионов. Подготовка, очистка данных, добавление фичей. | pandas, matplotlib.pyplot, plotly, numpy, scipy.stats |
| 5. Исследование популярности компьютерных игр | Прогнозирование популярности игры в зависимости от жанра и платформы, основываясь на исторических данных. Исследовательский анализ данных, составление портрета пользователя каждого региона, проверка гипотез о равенстве рейтингов игр на двух платформах и игр двух разных жанров. | pandas, matplotlib.pyplot, plotly, numpy, scipy.stats |
| 6. Рекомендация тарифов | Построение модели машинного обучения для классификации пользователей тарифов мобильного оператора. Обучение проводится на исторических данных с поведением пользователей, модель будет использоваться для рекомендаций пользователям подходящего тарифа. Подготовка и очистка данных здесь не требовалась. Следующие модели были протестированы: DecisionTreeClassifier, RandomForestClassifier, LogisticRegression. | pandas, sklearn, numpy |
| 7. Моделирование оттока клиентов банка | Построение модели машинного обучения для предсказания ухода клиента из банка, основываясь на исторических данных о поведении клиентов. Подготовка, очистка данных, преобразование категориальных переменных в качественные методом OHE, масштабирование количественных переменных, борьба с дисбалансом классов (взвешивание классов, уменьшение и увеличение выборки). Были простестированы разные модели (DecisionTreeClassifier, RandomForestClassifier, LogisticRegression), оптимальные гиперпараметры были найдены с помощью GridSearchCV, считались F1-мера и AUC-ROC. | pandas, sklearn, numpy, matplotlib.pyplot |
| 8. Выбор локации для скважины | Построение модели машинного обучения для определения наиболее прибыльного региона для бурения скважины на основе данных о 3ех регионах с 10000 месторождениями в каждом. Имеются описания каждой скважины и количество нефти в ней, бюджет на освоение, стоимость барреля нефти. Прибыль и риски проанализированы техникой Bootstrap. Использовалась LinearRegression. | pandas, sklearn, numpy, scipy.stats, seaborn, matplotlib.pyplot |
| 9. Коэффициент восстановления золота из золотосодержащей руды | Построение модели машинного обучения для предсказания коэффициента восстановления золота из руды. Имеется большое количество параметров сложного технологического процесса, состоящего из 3 этапов: флотация и 2 этапа очистки. Данные нужно подготовить, проверить на наличие аномалий. Использовались модели: LinearRegression, DecisionTreeRegressor, RandomForestRegressor. Оптимальные параметры находились с помощью кросс-валидации. | pandas, sklearn, numpy, seaborn, matplotlib.pyplot |
| 10. Защита персональных данных клиентов | Разработка метода шифрования данных посредством умножения признаков на обратимую матрицу. Корректность метода математически обоснована. Показано, что качество линейной регрессии на преобразованных данных не меняется. | pandas, sklearn, numpy, seaborn, matplotlib.pyplot |
| 11. Определение стоимости автомобилей | Построение модели машинного обучения для предсказания рыночной цены автомобиля на основе исторических данных. Данные были подготовлены, категориальные данные закодированы с помощью OrdinalEncoder. Использовались модели: Gradient Boosting, Random Forest. Оптимальные параметры были найдены с помощью GridSearchCV. Были построены графики важности факторов. | pandas, sklearn, numpy, seaborn, matplotlib.pyplot, plotly, lightgbm |
| 12. Прогнозирование количества заказов такси | Построение модели машинного обучения для временных рядов, а именно для прогнозирования количества заказов такси на следующий час. Был проведен ресемплинг данных по 1 часу, были изучены тренды и сезонность. Добавлены новые фичи: календарные признаки, отстающие значения и скользящее среднее. Использовались следующие модели: Gradient Boosting (CatBoost), Linear Regression. Оптимальные параметры были найдены с помощью GridSearchCV. | statsmodels.tsa.seasonal, catboost, pandas, sklearn, numpy, matplotlib.pyplot |
| 13. Анализ тональности текста | Разработка модели машинного обучения для обработки текстов, а именно анализ их тональности. Тексты были очищены от лишних символов и лемматизированы с помощью Spacy. Были использованы следующие модели: CatBoost, TF-IDF + Logistic Regression | catboost, pandas, sklearn, re, nltk |
| 14. Аналитика предпочтений клиентов авиакомпании | Анализ полетов клиентов в разные города в сентябре 2018 года. Изучение базы данных и выгрузка необходимой информации. Анализ средствами python. | pandas, PostgreSQL |