Document-Summarization-LLM

Team


김영천	최장원	배창현	박성우	조예람	이소영B
팀장	팀원	팀원	팀원	팀원	팀원

0. Overview

Environment

Vscode, ssh server(RTX 3090/Ubuntu 20.04.6), pytorch

1. Competiton Info

Overview

해당 대회는 Upstage AI Lab 과정에서 비공개로 진행된 내부 대회이며 일상 대화에 대한 요약을 효과적으로 생성하는 모델을 개발하는 대회입니다. 해당 대회에서 주어진 데이터셋은 영어 일상 대화 요약 Task에서 많이 활용되는 Dialogsum 데이터셋을 한국어로 번역한 데이터라는 점이 대회의 특징입니다.

Evaluation

요약문을 정확하게 평가할 수 있는 평가지표를 설계하는 것은 매우 어렵습니다. 왜나하면 요약문은 관점에 따라서 다르게 요약이 될 수 있기 때문입니다. 따라서 해당 대회에서는 예측된 요약 문장을 3개의 정답 요약 문장과 비교하여 metric의 평균 점수를 산출합니다.

본 대회에서는 ROUGE-1-F1, ROUGE-2-F1, ROUGE-L-F1, 총 3가지 종류의 metric으로부터 산출된 평균 점수를 더하여 최종 점수를 계산합니다. DialogSum 데이터셋은 Multi-Reference Dataset으로 multi-reference에 대한 average를 보는 것이 중요합니다. 따라서 데이터셋의 특성에 맞추어 최종 점수 산출도 평균을 활용했습니다. ROUGE 스코어는 단순히 예측된 요약문과 정답 요약문을 비교하여 맞춘 단어 갯수를 비교하는 평가지표입니다. 최종스코어 산출 방식은 아래와 같습니다.

Timeline

2024.03.08 ~ 2024.03.20

2. Data descrption

Dataset overview

해당 데이터는 영어 일상 대화 데이터셋은 Dialogsum 데이터셋을 한국어로 번역한 데이터입니다. 대화문과 요약문을 포함하고 있으며 이러한 비정형 텍스트 데이터를 고려하여 모델을 훈련하고, 요약문의 생성 성능을 높이기 위한 최적의 방법을 찾아야 합니다.

Train Data 12457개, Valid Data 499개, Test Data 499개로 이루어져 있으며 발화자 및 여러 개인정보에 대해서 마스킹 처리가 돼 있는 것 또한 해당 데이터셋의 특징입니다.

EDA

샘플데이터

Train, Valid, Test 대화문 및 요약문 길이 비교

Data cleansing

정규식을 활용하여 잘못 마스킹된 데이터 및 순서가 이상한 데이터를 수정하였습니다.

Data Processing

GPT3.5 Api를 사용하여 데이터를 합성했습니다. 위 그림과 같이 GPT에게 Instruction을 주고 학습데이터에서 샘플링한 5개의 대화문-요약문 쌍데이터를 예시로 보여준 뒤 질문으로 1개의 대화문을 입력해 요약문을 생성했습니다.

SAMSUM 데이터셋 활용

대회 데이터셋이 번역 데이터라는 점을 활용하여 다른 영어 대화문 데이터셋을 한글로 번역하여 학습 데이터셋으로 활용하였습니다. 해당 데이터셋이 Upstage에서 추최하는 대회이기에 Solar Api를 활용하여 번역을 진행하면 좋을 것이라고 판단해서 Solar Api를 활용해 번역을 진행하였습니다.

3. Modeling

Model descrition

Bart, T5, Pegasus-X 등 요약 Task에 강점을 보이는 주요 모델들을 fine-tuning 한 뒤 성능을 비교하였음
digit82/kobart-summarization
- 기본적으로 좋은 성능을 보여줌
eenzeenee/t5-base-korean-summarization
- 해당 대회에서 수행하고자하는 Task인 요약에 대해서 많은 자료들로 사전에 Finetuning 돼 있었고 실제로 다른 T5 모델보다 좋은 성능을 보임
GPT 3.5 API로 생성한 추가적인 대화문 데이터와 SAMSUM 데이터셋을 활용하여 Data Augumentation을 수행한 뒤 T5 모델을 Fine-tuning 진행
- Fine-tuning 수행한 T5

4. Result

Leader Board

final_result: 40.4343
rouge1-F1: 0.4953
rouge2-F1: 0.3025
rougeL-F1: 0.4153

Presentation

ppt폴더 참조
대회회고

etc

Reference

train.csv, test.csv, dev.csv, sample_submission.csv 등의 파일은 DialogSum을 활용하여 만들어진 Upstage사의 2차 저작물임을 알려드립니다.
- DialogSum: cc-by-nc-sa-4.0
SAMSUM Dataset: cc-by-nc-nd-4.0
Kobart: https://huggingface.co/digit82/kobart-summarization
원본 T5: https://huggingface.co/eenzeenee/t5-base-korean-summarization

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
code		code
data		data
.gitignore		.gitignore
.txt		.txt
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Document-Summarization-LLM

Team

0. Overview

Environment

1. Competiton Info

Overview

Evaluation

Timeline

2. Data descrption

Dataset overview

EDA

샘플데이터

Train, Valid, Test 대화문 및 요약문 길이 비교

Data cleansing

Data Processing

3. Modeling

Model descrition

4. Result

Leader Board

Presentation

etc

Reference

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Document-Summarization-LLM

Team

0. Overview

Environment

1. Competiton Info

Overview

Evaluation

Timeline

2. Data descrption

Dataset overview

EDA

샘플데이터

Train, Valid, Test 대화문 및 요약문 길이 비교

Data cleansing

Data Processing

3. Modeling

Model descrition

4. Result

Leader Board

Presentation

etc

Reference

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages