- 한글 슬랭(신조어, 은어) 번역: 신조어나 은어를 표준어로 번역.
- 번역 결과 확인: 입력 문장과 번역 결과 비교 가능.
- 간단한 사용자 인터페이스: React 기반의 직관적인 UI 제공.
- BM25 및 형태소 분석기를 통한 뜻 제공: 의미 분석과 단어 매칭을 통해 보다 정확한 번역 제공.
- Frontend: React, React Router
- Styling: CSS
- Backend: FastAPI
- Model: hongggggggggggg/korea-slang-translator-kobart
- KoBART를 기반으로 파인튜닝하여 한국어 신조어 번역에 최적화.
- 입력: 사용자가 입력한 텍스트를 JSON 형태로 백엔드로 전송.
- 문단 분리: 문단을 개별 문장으로 나눔.
- 모델 적용: 분리된 문장을 파인튜닝된 KoBART 모델에 입력.
- 형태소 변환: 형태소 변환기를 통해 입력 문장과 번역 결과 비교.
- BM25 검색: 변환된 문장을 신조어 DB에서 검색하여 의미를 매칭.
- 메인 페이지
- 실행 결과
-
현상: 변환된 문장이 DB에 정확히 매칭되지 않음.
예)- 입력 문장: "우리 고양이 너무 커여워"
- 변환 문장: "우리 고양이 너무 귀여워"
- DB에 저장된 단어: "커엽다" → 검색 실패
-
해결: BM25 도입으로 단어 빈도를 기반으로 유사도 계산. BM25 점수가 0 이상인 경우만 결과로 반환.
- 원인: 데이터 부족 및 문맥 이해 한계.
- 대안 검토:
- Seq2Seq 모델이나 BaRT 활용 검토.
- 학습 데이터 부족으로 형태소 추출기를 통해 단어를 분리하여 비교.
예) "롤하고 싶다" → "롤", "하고", "싶다"
-
형태소 변환기 한계:
- 모든 신조어를 인식하지 못하여 정확한 변환이 어려움.
- 예) "커여워" → "귀여워"는 변환되지만, "커엽다"를 인식하지 못함.
-
VectorDB 활용 검토:
- 단어의 의미를 벡터로 표현하여 보다 정교한 검색 가능.
- 예) 유사 단어(의미 기반) 검색 기능 추가.
-
프로젝트 클론:
git clone <repository-url>
-
프론트엔드 설치 및 실행:
cd front npm install npm start -
백엔드 실행:
uvicorn main:app --reload

