Skip to content

futuremirae/Dima_Project_1

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 

Repository files navigation

URL 기반 바이어 추천 시스템

한국 무역협회 디지털 마스터 과정 3기 1차 데이터 분석 프로젝트

🖥️ 프로젝트 개요

  • 개발 기간: 2023.12.04 ~ 2024.01,10
  • 개발 멤버: 김미래, 주진명, 이태수, 홍서희, 장혜지
  • 개발 언어: Python
  • 담당 역할: 추천시스템에 필요한 코드 담당 (크롤링, 코사인 유사도, 전처리)

🤸‍♀️ 추진 배경 및 분석 목표

  • 국내기업의 수출 활성화 (수출에 어려움을 겪는 기업을 대상으로 기회를 부여하여 수출에 도움)
  • 국내/해외 바이어의 검색 상품에 맞게 바이어 추천
  • 불필요한 프로세스를 간소화시켜 바이어와의 거래시간을 단축

🔍 분석 방법 (데이터 분석 작업 프로세스)

데이터분석프로세스

📝 전처리

텍스트 전처리

  • URL 사전 작업 : 기존 URL 34만건에서 수출입과 관련없는 URL 삭제 약 27만건 URL 선별
  • 모든 url에 http:// 추가 후 응답고드가 오류인 것 제외
  • 크롤링틀 통해 기업별 URL에 접속하여 하위 a태그까지의 모든 텍스트 수집
  • 추출된 텍스트에서 기업의 이메일 정보와 품목 정보 추출
  • 추출한 텍스트 토큰화
    • 영문: word/sententence tokenize 모듈 및 pos_tag, WordnetLemmatizer활용
    • 국문: mecab & nltk.pos활용

품목 분류 전처리

  • 국문: 21만 여건의 품목 데이터에서 약 6000개 키워드 추출
  • 영문: trade korea 홈페이지의 카테고리에 있는 품목 추출 후 토큰화, 불용어 제거 및 표제어 추출

👨🏻‍💻 모델링

  • 사용자가 입력한 값에 대해 토큰화 Countervectorizer 진행
  • 이후 추출된 키워드와 BoW데이터 간 Cosine 유사도 측정
  • 유사도 순 정렬 후 추출된 키워드를 모두 포함하는 URL을 우선 순위로 출력

⭐️ 추천 시스템 모델 개발

스크린샷 2024-06-07 오후 12 32 41

📚 결과

코사인유사도결과

About

디지털 마스터 과정 1차 프로젝트 저장소

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages