Skip to content

Latest commit

 

History

History
188 lines (126 loc) · 10.4 KB

File metadata and controls

188 lines (126 loc) · 10.4 KB

텍스트 필터링 모델

1. 배경

인터넷 접근성이 향상되면서 정보에 대한 접근이 쉬워졌으나, 부정적인 영향을 미칠 수 있는 정보도 많이 생성되고 있다.

특히, 디지털 격차로 인해 인터넷 활용 능력이 부족한 사람들은 이러한 정보에 더 큰 영향을 받을 수 있다.

이를 해결하기 위해 텍스트 필터링 모델을 개발하고자 하였다.

2. 데이터 수집 및 가공

2.1 데이터 타입 분류

  • 일반 0
  • 정치성 글 1
  • 성적인 글 2
  • 우울한 글 3 (슬픔)
  • 공격적인 글 4 (분노, 혐오)

2.2 초기 데이터셋 구성

2.3 데이터 추가 수집

3. 모델 학습

image image (1)
  • 결과 분석
    • 추가된 데이터로 인해 3번 클래스의 성능이 약간 향상되었으나, 여전히 1번(정치성 글)으로의 오분류가 많았다.
    • 그러나 사용성을 생각했을 때 해당이 없는 데이터를 오인식하는 것은 매우 불편하게 느껴질 것이라고 판단하였다.

4. Hazard Filter 모델

  • 모델 구성
    • 사용자가 정상 댓글을 유해 댓글로 오분류하는 경우 불편을 느낄 수 있다는 점을 고려하여, 1번 타입(정치성 글)을 제거하고 0(정상)과 1(유해)로 나머지 댓글을 분류하는 Hazard Filter 모델을 개발했다.
  • 학습 결과
    • Hazard Filter 모델은 정상 댓글을 최대한 정확하게 분류하면서 유해 댓글을 탐지하는 데 중점을 두어 학습되었다.
image (2)

5. 최종 구조

  • 1차 필터링: Hazard Filter 모델
    • 댓글의 유해성을 1차적으로 필터링
  • 2차 필터링: Type Filter 모델
    • Hazard Filter 모델에서 유해한 것으로 분류된 댓글을 다시 세부적으로 유형(일반, 정치, 성적, 우울, 공격적)으로 분류

이와 같은 구조로 최종 필터링 시스템을 구축하여 인터넷상에서 부정적인 영향을 미칠 수 있는 다양한 유형의 정보를 효율적으로 필터링할 수 있게 함.

이 프로젝트는 다음의 오픈소스 소프트웨어와 데이터셋을 사용하며, 각 라이브러리는 저작권 표시와 함께 해당 라이선스 조건에 따라 배포됩니다:

소프트웨어 라이브러리

  • Pandas (BSD 3-Clause License)

    Copyright (c) 2008-2011, AQR Capital Management, LLC, Lambda Foundry, Inc. and PyData Development Team All rights reserved.

    BSD 3-Clause License

  • Scikit-learn (BSD 3-Clause License)

    Copyright (c) 2007-2024 The scikit-learn developers.

    BSD 3-Clause License

  • PyTorch (BSD 3-Clause License)

    Copyright (c) 2016- Facebook, Inc (Adam Paszke)

    BSD 3-Clause License

  • Transformers (Hugging Face) (Apache License 2.0)

    Copyright 2018- The Hugging Face team. All rights reserved.

    Apache License 2.0

  • Imbalanced-learn (MIT License)

    Copyright (c) 2014-2020 The imbalanced-learn developers. All rights reserved.

    MIT License

  • NLP-Aug (MIT License)

    Copyright (c) 2019 Edward Ma

    MIT License

  • KcELECTRA-base (Beomi) (MIT License)

    Copyright (c) 2021 Junbum Lee

    MIT License

API 서비스 및 데이터셋

  • YouTube API

    이 프로젝트는 YouTube API를 사용하며, YouTube API Services 이용 약관을 준수합니다. YouTube API Services Terms of Service

  • AIHub Datasets

    AIHub에서 제공하는 데이터셋을 사용하며, AIHub 이용 약관을 준수합니다. AIHub 이용 약관

  • Korean Hate Speech Dataset

    데이터셋 이용 약관에 따라 사용하며, 해당 약관을 준수합니다. 각 데이터셋의 공식 홈페이지를 참고하여 이용 약관을 준수하십시오.

  • 한국어 감정 정보가 포함된 단발성 대화 데이터셋 (AIHub)

    AIHub 이용 약관에 따라 사용하며, 해당 약관을 준수합니다. AIHub 이용 약관

  • 텍스트 윤리 검증 데이터셋 (AIHub)

    AIHub 이용 약관에 따라 사용하며, 해당 약관을 준수합니다. AIHub 이용 약관

  • 감성 대화 말뭉치 (AIHub)

    AIHub 이용 약관에 따라 사용하며, 해당 약관을 준수합니다. AIHub 이용 약관

각 라이브러리의 라이선스와 고지 사항을 확인하고, 모든 저작권과 라이선스를 준수하여 소프트웨어를 배포하시기 바랍니다. 또한, 데이터셋과 API는 이용 약관에 따라 사용되므로, 이에 대한 이용 약관을 준수하십시오.