Skip to content

nickboyar/ML_HT_1

Repository files navigation

ML_HT_1

Была проделана работа по разработке сервиса для предсказания цены автомобиля по его параметрам. Сперва были проанализированны данные датасета. Была произведена предобработка датасета, в частности изменены фичи 'mileage' 'engine 'max_power' для корректной работы с ними, как с численными признаками. Были попытки заполнить пропуски разными значениями, в конечном счете выбор остановился на медиане. Были найдены статистики и построены графики зависимостей фичей друг от друга. Стало понятно, какие фичи сильно скоррелированы друг с другом. Многие выводы были вполне ожидаемы, например, ясно, что машина стоит тем дешевле, чем меньше год ее выпуска. Были дополнительно проанализированны категориальные фичи, построены круговые диаграммы. После предварительного анализа начался процесс построения модели. Сперва была протестированна простейшая линейная регрессия с дефолтными параметрами на численных признаках. Сперва обучение проводилось не на отнормированных данных, это давало худший результат на тестовой выборке. Затем началась попытка применить регуляризацию. На мой взгляд лучше всего отработала Lasso регрессия. Также мне кажется, что добавление категориальных фичей не сильно улучшило качество прогноза. Была рзработана специальная бизнес-метрика. Затем был реализован сервис на Fast API для предсказания на одном объекте. Могу сделать вывод о том, что линейные модели дают не самое лучшее качество на большой выборке, однако по своему опыту скажу, что они работают лучше сложных алгоритмов (деревья, бустинги) на маленьких датасетах.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published