한국 무역협회 디지털 마스터 과정 3기 1차 데이터 분석 프로젝트
- 개발 기간: 2023.12.04 ~ 2024.01,10
- 개발 멤버: 김미래, 주진명, 이태수, 홍서희, 장혜지
- 개발 언어: Python
- 담당 역할: 추천시스템에 필요한 코드 담당 (크롤링, 코사인 유사도, 전처리)
- 국내기업의 수출 활성화 (수출에 어려움을 겪는 기업을 대상으로 기회를 부여하여 수출에 도움)
- 국내/해외 바이어의 검색 상품에 맞게 바이어 추천
- 불필요한 프로세스를 간소화시켜 바이어와의 거래시간을 단축
- URL 사전 작업 : 기존 URL 34만건에서 수출입과 관련없는 URL 삭제 약 27만건 URL 선별
- 모든 url에 http:// 추가 후 응답고드가 오류인 것 제외
- 크롤링틀 통해 기업별 URL에 접속하여 하위 a태그까지의 모든 텍스트 수집
- 추출된 텍스트에서 기업의 이메일 정보와 품목 정보 추출
- 추출한 텍스트 토큰화
- 영문: word/sententence tokenize 모듈 및 pos_tag, WordnetLemmatizer활용
- 국문: mecab & nltk.pos활용
- 국문: 21만 여건의 품목 데이터에서 약 6000개 키워드 추출
- 영문: trade korea 홈페이지의 카테고리에 있는 품목 추출 후 토큰화, 불용어 제거 및 표제어 추출
- 사용자가 입력한 값에 대해 토큰화 Countervectorizer 진행
- 이후 추출된 키워드와 BoW데이터 간 Cosine 유사도 측정
- 유사도 순 정렬 후 추출된 키워드를 모두 포함하는 URL을 우선 순위로 출력


