Для работы необходим make и docker. Перед началом работы нужно скачать датасет в папку data.
- LightGBM с подбором гиперпараметров через hyperopt.
- Mean target Encoding для категориальных фич.
- Для 8-го датасета отбор фич через BorutaPy.
- Лик от bagxi.
Так же есть, но не используются: Vowpal Wabbit, H2O AutoML.
Скор на ЛБ: 5,30072.
make download - cкачать датасет в папку data.
make train DATASET=1 - обучение модели на датасете с указанным номером [1-8].
make predict DATASET=1 - валидация модели на датасете с указанным номером [1-8].
make score - валидация модели на всех датасетах и сохранение результата в папку scores.
make docker-build - сборка Docker-образа.
make docker-push - залить Docker-образ на Docker Hub.
make run-bash - запустить терминал в Docker-контейнере.
make run-jupyter - запустить Jupyter в Docker-контейнере по адресу http://localhost:8888.
make submission - создать сабмит-файл в директории submissions.
- Зарегистрироваться на Docker Hub.
- Отредактировать Makefile и указать название образа на первой строчке
IMAGE=username/image. - Отредактировать Dockerfile и добавить установку нужных пакетов.
- Запустить сборку образа
make docker-build. - Залить Docker-образ на Docker Hub
make docker-push. - Убедиться, что созданный репозиторий публичный (Public), а не приватный (Private). Приватность настраивается по ссылке
https://hub.docker.com/r/username/image/~/settings/.