Была проделана работа по разработке сервиса для предсказания цены автомобиля по его параметрам. Сперва были проанализированны данные датасета. Была произведена предобработка датасета, в частности изменены фичи 'mileage' 'engine 'max_power' для корректной работы с ними, как с численными признаками. Были попытки заполнить пропуски разными значениями, в конечном счете выбор остановился на медиане. Были найдены статистики и построены графики зависимостей фичей друг от друга. Стало понятно, какие фичи сильно скоррелированы друг с другом. Многие выводы были вполне ожидаемы, например, ясно, что машина стоит тем дешевле, чем меньше год ее выпуска. Были дополнительно проанализированны категориальные фичи, построены круговые диаграммы. После предварительного анализа начался процесс построения модели. Сперва была протестированна простейшая линейная регрессия с дефолтными параметрами на численных признаках. Сперва обучение проводилось не на отнормированных данных, это давало худший результат на тестовой выборке. Затем началась попытка применить регуляризацию. На мой взгляд лучше всего отработала Lasso регрессия. Также мне кажется, что добавление категориальных фичей не сильно улучшило качество прогноза. Была рзработана специальная бизнес-метрика. Затем был реализован сервис на Fast API для предсказания на одном объекте. Могу сделать вывод о том, что линейные модели дают не самое лучшее качество на большой выборке, однако по своему опыту скажу, что они работают лучше сложных алгоритмов (деревья, бустинги) на маленьких датасетах.
-
Notifications
You must be signed in to change notification settings - Fork 0
nickboyar/ML_HT_1
Folders and files
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published