LLM기반 경량화 기법을 적용한 전자결재 문서 생성 요약
2024/10/26 ~ 2024/11/30
국민대학교 학부생 5명 - Llama3.2 3B instruct Model 담당 가톨릭관동대 석사생 2명 - Llama3.1 8B instruct Model 담당
- deployment가 최종 레포지토리이며, 해당 Branch에는 가장 우수한 성능을 보인 모델 - Llama3.2 3B Instruct입니다.
-
PDF 파일 처리
- PDF 파일에서 텍스트와 메타데이터를 추출.
- 추출된 데이터를 JSON 형식으로 저장.
-
요약 생성
- LLM(Llama3.2 모델)을 활용하여 긴 텍스트를 요약.
- 도메인에 적합한 요약문 생성.
-
검색 기능
- RAG 기법을 사용하여 요약 데이터를 벡터화.
- 사용자 쿼리에 대해 연관 문서를 검색하고 응답 생성.
-
평가 지표
- BLEU: n-gram 기반 평가로 요약의 정밀도를 측정.
- BERTScore: 문맥적 유사성을 기반으로 요약 품질 평가.
pip install -r requirements.txt
-
PDF 파일 처리 PDF 파일을 특정 디렉토리에 배치한 후 아래 명령을 실행하십시오: python pdf_processor.py --input-dir ./pdfs --output-dir ./jsons
-
요약 생성 추출된 JSON 파일을 바탕으로 Llama3.2 모델을 사용하여 요약을 생성하십시오: python summarize.py --input-dir ./jsons --output-dir ./summaries
-
검색 및 응답 시스템 실행 RAG 기반 검색 시스템을 실행하려면 다음 명령을 실행하십시오: python rag_service.py
| 모델 ID | BLEU | BERTScore | 학습 도메인 |
|---|---|---|---|
| 제공된 요약 샘플 | 0.4644 | 0.7197 | - |
| Llama3.1 - 8B | 0.1306 | 0.6906 | 뉴스 |
| Llama3.2 - 3B | 0.2618 | 0.7466 | 보고서 |
| 항목 | 설명 |
|---|---|
| 언어 | Python |
| 모델 | Llama3.2 (LoRA 적용) |
| 데이터 처리 | pdfplumber, json |
| 검색 기술 | RAG (Chroma 벡터 스토어) |
자세한 프로젝트의 아래의 diagram을 참고하세요.
| Workflow | Data Flow Diagram (DFD) | Sequence Diagram |
|---|---|---|
![]() |
![]() |
![]() |


