Skip to content

lyuiixp/CodeStates_Section3_Project

Repository files navigation

프로야구 선수(타자)들의 성적데이터를 통한 연봉 예측

과제 목표

  • 데이터 파이프라인 구축
  • api서비스 개발
  • 데이터베이스 활용
  • 대시보드 활용

데이터 선정 이유

  • 스포츠선수들의 성적과 또 하나의 성적지표가 될 수도 있는 연봉데이터의 연관성을 찾을 수 있을거라 생각했습니다.
  • 스포츠구단들과 선수들의 연봉협상등에 활용될 수 있을거라 생각했습니다.

1. 데이터수집

  • statiz 웹사이트에서 국내 프로야구선수들의 데이터 수집
  • selenium을 사용한 동적 웹페이지 크롤링
  • 2011~2021년도 사이의 타자들의 성적과 연봉데이터 수집
  • 성적 데이터 : 3673 rows × 30 columns
  • 연봉 데이터 : 6408 rows × 5 columns
  • 수집한 데이터를 mongoDB를 활용하여 DB에 저장 및 불러오는 방식으로 진행

2. 데이터 전처리

  • 타자들의 성적과 연봉데이터를 합침
  • 결측치, 중복, 이상치 데이터 제거
  • 필요없는 column 제거

image

  • 총 24개의 column을 가짐

3. 모델 선정

  • LinearRegression모델 사용
  • VIF를 이용한 변수선택(다중공선성 제거)
  • 적절한 feature들로 다시 학습(타수, 타율, 홈런, 병살, 삼진)

4. 결과 및 배포

  • Flask를 통해 로컬 웹 생성 image

image

  • 대쉬보드를 통해 데이터를 확인해보면 홈런개수 평균이상, 삼진율 평균이하 일수록 연봉이 높아지는 경향
  • wRC+ 지표(타자의 득점생산력)는 최근 가장 정확한 타격스탯으로 여겨지는데 지표값이 연봉과 선형적으로 높아지는 경향 확인

5. 한계점

  • heroku를 사용한 웹배포 서비스를 제공하지 못한 점
  • 전체적인 기능들을 다양하게 활용해보지 못한 점

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages