Проекты курса "Специалист по Data Science" от Яндекс

Данные проекты были выполнены в ходе обучения профессии "Специалист по Data Science" в Яндекс.Практикуме. Проекты расположены в хронологическом порядке, и можно отследить как растет количество навыков, которыми я владею. Оригинальные описания проектов были сокращены и переформулированы.

Название проекта	Описание	Используемые библиотеки
1. Музыка больших городов	Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга в зависимости от времени и дня недели. Подготовка, очистка данных, исследовательский анализ данных.	pandas
2. Исследование надежности заемщиков	Исследование как семейное положение, количество детей и доход влияют на возврат кредита в срок. Подготовка, очистка данных, исследовательский анализ данных, категоризация переменных	pandas, pymystem3
3. Исследование объявлений о продаже квартир	Определение рыночной цены недвижимости в Санкт-Петербурге и окрестностях, и определение параметров на нее влияющих, чтобы создать систему для отслеживания аномалий и мошеннической деятельности. Подготовка данных, добавление фичей, исследовательский анализ, корреляция между ценой квартир и различными фичами.	pandas, matplotlib.pyplot, plotly.express
4. Определение перспективного тарифа для телеком компании	Анализ поведения пользователей двух тарифов телеком компании в целях определения более выгодного для компании тарифа. В процессе работы был проведен статистический анализ, проверены гипотезы об отличии выручки за пользователей двух тарифов и пользователей из Москвы и регионов. Подготовка, очистка данных, добавление фичей.	pandas, matplotlib.pyplot, plotly, numpy, scipy.stats
5. Исследование популярности компьютерных игр	Прогнозирование популярности игры в зависимости от жанра и платформы, основываясь на исторических данных. Исследовательский анализ данных, составление портрета пользователя каждого региона, проверка гипотез о равенстве рейтингов игр на двух платформах и игр двух разных жанров.	pandas, matplotlib.pyplot, plotly, numpy, scipy.stats
6. Рекомендация тарифов	Построение модели машинного обучения для классификации пользователей тарифов мобильного оператора. Обучение проводится на исторических данных с поведением пользователей, модель будет использоваться для рекомендаций пользователям подходящего тарифа. Подготовка и очистка данных здесь не требовалась. Следующие модели были протестированы: DecisionTreeClassifier, RandomForestClassifier, LogisticRegression.	pandas, sklearn, numpy
7. Моделирование оттока клиентов банка	Построение модели машинного обучения для предсказания ухода клиента из банка, основываясь на исторических данных о поведении клиентов. Подготовка, очистка данных, преобразование категориальных переменных в качественные методом OHE, масштабирование количественных переменных, борьба с дисбалансом классов (взвешивание классов, уменьшение и увеличение выборки). Были простестированы разные модели (DecisionTreeClassifier, RandomForestClassifier, LogisticRegression), оптимальные гиперпараметры были найдены с помощью GridSearchCV, считались F1-мера и AUC-ROC.	pandas, sklearn, numpy, matplotlib.pyplot
8. Выбор локации для скважины	Построение модели машинного обучения для определения наиболее прибыльного региона для бурения скважины на основе данных о 3ех регионах с 10000 месторождениями в каждом. Имеются описания каждой скважины и количество нефти в ней, бюджет на освоение, стоимость барреля нефти. Прибыль и риски проанализированы техникой Bootstrap. Использовалась LinearRegression.	pandas, sklearn, numpy, scipy.stats, seaborn, matplotlib.pyplot
9. Коэффициент восстановления золота из золотосодержащей руды	Построение модели машинного обучения для предсказания коэффициента восстановления золота из руды. Имеется большое количество параметров сложного технологического процесса, состоящего из 3 этапов: флотация и 2 этапа очистки. Данные нужно подготовить, проверить на наличие аномалий. Использовались модели: LinearRegression, DecisionTreeRegressor, RandomForestRegressor. Оптимальные параметры находились с помощью кросс-валидации.	pandas, sklearn, numpy, seaborn, matplotlib.pyplot
10. Защита персональных данных клиентов	Разработка метода шифрования данных посредством умножения признаков на обратимую матрицу. Корректность метода математически обоснована. Показано, что качество линейной регрессии на преобразованных данных не меняется.	pandas, sklearn, numpy, seaborn, matplotlib.pyplot
11. Определение стоимости автомобилей	Построение модели машинного обучения для предсказания рыночной цены автомобиля на основе исторических данных. Данные были подготовлены, категориальные данные закодированы с помощью OrdinalEncoder. Использовались модели: Gradient Boosting, Random Forest. Оптимальные параметры были найдены с помощью GridSearchCV. Были построены графики важности факторов.	pandas, sklearn, numpy, seaborn, matplotlib.pyplot, plotly, lightgbm
12. Прогнозирование количества заказов такси	Построение модели машинного обучения для временных рядов, а именно для прогнозирования количества заказов такси на следующий час. Был проведен ресемплинг данных по 1 часу, были изучены тренды и сезонность. Добавлены новые фичи: календарные признаки, отстающие значения и скользящее среднее. Использовались следующие модели: Gradient Boosting (CatBoost), Linear Regression. Оптимальные параметры были найдены с помощью GridSearchCV.	statsmodels.tsa.seasonal, catboost, pandas, sklearn, numpy, matplotlib.pyplot
13. Анализ тональности текста	Разработка модели машинного обучения для обработки текстов, а именно анализ их тональности. Тексты были очищены от лишних символов и лемматизированы с помощью Spacy. Были использованы следующие модели: CatBoost, TF-IDF + Logistic Regression	catboost, pandas, sklearn, re, nltk
14. Аналитика предпочтений клиентов авиакомпании	Анализ полетов клиентов в разные города в сентябре 2018 года. Изучение базы данных и выгрузка необходимой информации. Анализ средствами python.	pandas, PostgreSQL

Name		Name	Last commit message	Last commit date
Latest commit History 97 Commits
01_yandex_music		01_yandex_music
02_credit_scoring		02_credit_scoring
03_real_estate_prices		03_real_estate_prices
04_telecom_tariff		04_telecom_tariff
05_games		05_games
06_users_classification		06_users_classification
07_bank_customer_churn_modeling		07_bank_customer_churn_modeling
08_oil_extraction_location		08_oil_extraction_location
09_gold_recovery		09_gold_recovery
10_customer_data_encryption		10_customer_data_encryption
11_car_prices_boosting		11_car_prices_boosting
12_time_series		12_time_series
13_nlp		13_nlp
14_sql		14_sql
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Проекты курса "Специалист по Data Science" от Яндекс

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Проекты курса "Специалист по Data Science" от Яндекс

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages