프로야구 선수(타자)들의 성적데이터를 통한 연봉 예측 과제 목표 데이터 파이프라인 구축 api서비스 개발 데이터베이스 활용 대시보드 활용 데이터 선정 이유 스포츠선수들의 성적과 또 하나의 성적지표가 될 수도 있는 연봉데이터의 연관성을 찾을 수 있을거라 생각했습니다. 스포츠구단들과 선수들의 연봉협상등에 활용될 수 있을거라 생각했습니다. 1. 데이터수집 statiz 웹사이트에서 국내 프로야구선수들의 데이터 수집 selenium을 사용한 동적 웹페이지 크롤링 2011~2021년도 사이의 타자들의 성적과 연봉데이터 수집 성적 데이터 : 3673 rows × 30 columns 연봉 데이터 : 6408 rows × 5 columns 수집한 데이터를 mongoDB를 활용하여 DB에 저장 및 불러오는 방식으로 진행 2. 데이터 전처리 타자들의 성적과 연봉데이터를 합침 결측치, 중복, 이상치 데이터 제거 필요없는 column 제거 총 24개의 column을 가짐 3. 모델 선정 LinearRegression모델 사용 VIF를 이용한 변수선택(다중공선성 제거) 적절한 feature들로 다시 학습(타수, 타율, 홈런, 병살, 삼진) 4. 결과 및 배포 Flask를 통해 로컬 웹 생성 대쉬보드를 통해 데이터를 확인해보면 홈런개수 평균이상, 삼진율 평균이하 일수록 연봉이 높아지는 경향 wRC+ 지표(타자의 득점생산력)는 최근 가장 정확한 타격스탯으로 여겨지는데 지표값이 연봉과 선형적으로 높아지는 경향 확인 5. 한계점 heroku를 사용한 웹배포 서비스를 제공하지 못한 점 전체적인 기능들을 다양하게 활용해보지 못한 점