Skip to content

Latest commit

 

History

History
83 lines (63 loc) · 2.32 KB

File metadata and controls

83 lines (63 loc) · 2.32 KB

📋 기획안 (Specification)

건기식 팩트체크 프로젝트 기획서

모듈 구조

[M-1] 데이터 수집 모듈

  • 리뷰 데이터 수집 및 전처리

[M-2] 검증 로직 모듈 (Validator)

  • 13단계 광고 판별 체크리스트

    1. 무상 제공 언급
    2. 체험단/모니터링 언급
    3. 대가성 문구 ("받았어요", "선물로" 등)
    4. 홍보성 어미 ("~했답니다", "~해드립니다" 등)
    5. 과도한 긍정 표현
    6. 원료 특징 나열 (지식 나열형)
    7. 제품명 반복 언급
    8. 구매 유도 문구
    9. 링크/연락처 포함
    10. 짧은 리뷰 (10자 미만)
    11. 특정 브랜드 비교
    12. 의료진 추천 문구
    13. 기타 광고성 패턴
  • 신뢰도 점수 공식

    S = (L*0.2) + (R*0.2) + (M*0.3) + (P*0.1) + (C*0.2)
    
    • L: Length (리뷰 길이 점수)
    • R: Review quality (리뷰 품질 점수)
    • M: Metadata (메타데이터 점수)
    • P: Pattern (패턴 매칭 점수)
    • C: Content (내용 신뢰도 점수)
  • 감점 규칙

    • 13단계 체크리스트 항목당 -10점 감점
    • 광고로 판별된 경우 최종 점수 70점 미만

[M-3] AI 분석 엔진 모듈 (Analyzer)

  • AI 페르소나: 15년 경력 임상 약사

    • 객관적이고 보수적인 톤앤매너
    • 전문 지식 기반 신뢰성 있는 분석
    • 일반 사용자도 이해할 수 있는 표현
  • JSON 출력 규격

    {
      "summary": "리뷰 요약 (사용자 체감 중심)",
      "efficacy": "효능 관련 내용 (원문 근거만)",
      "side_effects": "부작용 관련 내용",
      "tip": "약사 관점의 조언"
    }
  • 할루시네이션 방지

    • 리뷰 원문에 근거한 내용만 추출
    • 사용자 체감임을 명시
    • 리뷰에 없는 효능을 지어내지 않음

데이터 흐름

  1. 원본 리뷰 데이터 입력
  2. 검증 로직 모듈에서 신뢰도 점수 계산 및 광고 판별
  3. 광고가 아닌 경우 AI 분석 엔진에서 약사 관점 분석
  4. 최종 JSON 결과 출력

기술 스택

  • 언어: Python
  • AI 모델: OpenAI GPT-4o
  • 보안: .env 파일을 통한 API Key 관리

예외 처리

  • 리뷰 텍스트가 10자 미만인 경우 분석 대상에서 제외
  • API Key 유출 방지를 위한 환경 변수 관리
  • LLM API 호출 실패 시 적절한 에러 메시지 반환