건기식 팩트체크 프로젝트 기획서
- 리뷰 데이터 수집 및 전처리
-
13단계 광고 판별 체크리스트
- 무상 제공 언급
- 체험단/모니터링 언급
- 대가성 문구 ("받았어요", "선물로" 등)
- 홍보성 어미 ("~했답니다", "~해드립니다" 등)
- 과도한 긍정 표현
- 원료 특징 나열 (지식 나열형)
- 제품명 반복 언급
- 구매 유도 문구
- 링크/연락처 포함
- 짧은 리뷰 (10자 미만)
- 특정 브랜드 비교
- 의료진 추천 문구
- 기타 광고성 패턴
-
신뢰도 점수 공식
S = (L*0.2) + (R*0.2) + (M*0.3) + (P*0.1) + (C*0.2)- L: Length (리뷰 길이 점수)
- R: Review quality (리뷰 품질 점수)
- M: Metadata (메타데이터 점수)
- P: Pattern (패턴 매칭 점수)
- C: Content (내용 신뢰도 점수)
-
감점 규칙
- 13단계 체크리스트 항목당 -10점 감점
- 광고로 판별된 경우 최종 점수 70점 미만
-
AI 페르소나: 15년 경력 임상 약사
- 객관적이고 보수적인 톤앤매너
- 전문 지식 기반 신뢰성 있는 분석
- 일반 사용자도 이해할 수 있는 표현
-
JSON 출력 규격
{ "summary": "리뷰 요약 (사용자 체감 중심)", "efficacy": "효능 관련 내용 (원문 근거만)", "side_effects": "부작용 관련 내용", "tip": "약사 관점의 조언" } -
할루시네이션 방지
- 리뷰 원문에 근거한 내용만 추출
- 사용자 체감임을 명시
- 리뷰에 없는 효능을 지어내지 않음
- 원본 리뷰 데이터 입력
- 검증 로직 모듈에서 신뢰도 점수 계산 및 광고 판별
- 광고가 아닌 경우 AI 분석 엔진에서 약사 관점 분석
- 최종 JSON 결과 출력
- 언어: Python
- AI 모델: OpenAI GPT-4o
- 보안: .env 파일을 통한 API Key 관리
- 리뷰 텍스트가 10자 미만인 경우 분석 대상에서 제외
- API Key 유출 방지를 위한 환경 변수 관리
- LLM API 호출 실패 시 적절한 에러 메시지 반환