Skip to content

CodeBBakGoSu/Korea_Slang_Translator

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Korean Slang Translator

📚 주요 기능

  • 한글 슬랭(신조어, 은어) 번역: 신조어나 은어를 표준어로 번역.
  • 번역 결과 확인: 입력 문장과 번역 결과 비교 가능.
  • 간단한 사용자 인터페이스: React 기반의 직관적인 UI 제공.
  • BM25 및 형태소 분석기를 통한 뜻 제공: 의미 분석과 단어 매칭을 통해 보다 정확한 번역 제공.

🛠️ 기술 스택


⚙️ 데이터 처리 과정

  1. 입력: 사용자가 입력한 텍스트를 JSON 형태로 백엔드로 전송.
  2. 문단 분리: 문단을 개별 문장으로 나눔.
  3. 모델 적용: 분리된 문장을 파인튜닝된 KoBART 모델에 입력.
  4. 형태소 변환: 형태소 변환기를 통해 입력 문장과 번역 결과 비교.
  5. BM25 검색: 변환된 문장을 신조어 DB에서 검색하여 의미를 매칭.

📷 실행 화면

시작 페이지

  • 메인 페이지

실행 결과

  • 실행 결과

🚧 트러블슈팅

문제 1: 데이터베이스 검색 오류

  • 현상: 변환된 문장이 DB에 정확히 매칭되지 않음.
    예)

    • 입력 문장: "우리 고양이 너무 커여워"
    • 변환 문장: "우리 고양이 너무 귀여워"
    • DB에 저장된 단어: "커엽다" → 검색 실패
  • 해결: BM25 도입으로 단어 빈도를 기반으로 유사도 계산. BM25 점수가 0 이상인 경우만 결과로 반환.


문제 2: BM25 적용 후에도 검색 성능 부족

  • 원인: 데이터 부족 및 문맥 이해 한계.
  • 대안 검토:
    1. Seq2Seq 모델이나 BaRT 활용 검토.
    2. 학습 데이터 부족으로 형태소 추출기를 통해 단어를 분리하여 비교.
      예) "롤하고 싶다" → "롤", "하고", "싶다"

🔎 한계점 및 향후 개선 방향

  1. 형태소 변환기 한계:

    • 모든 신조어를 인식하지 못하여 정확한 변환이 어려움.
    • 예) "커여워" → "귀여워"는 변환되지만, "커엽다"를 인식하지 못함.
  2. VectorDB 활용 검토:

    • 단어의 의미를 벡터로 표현하여 보다 정교한 검색 가능.
    • 예) 유사 단어(의미 기반) 검색 기능 추가.

📌 사용 방법

  1. 프로젝트 클론:

    git clone <repository-url>
  2. 프론트엔드 설치 및 실행:

    cd front
    npm install
    npm start
  3. 백엔드 실행:

    uvicorn main:app --reload

About

한국어 슬랭(은어,비속어) 번역기 입니다.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published