Legal Document Retrieval - SoICT Hackathon 2024

Đây là solution đạt Top 3 tại cuộc thi Legal Document Retrieval - SoICT Hackathon 2024, với MRR@10 = 0.7754 trên tập private test.

🧾 Nhiệm vụ

Truy vấn và tìm kiếm thông tin pháp luật từ các văn bản tiếng Việt.

📦 Dữ liệu

Dữ liệu được cung cấp bởi ban tổ chức bao gồm 3 tập:

Training data: 119,456 cặp (truy vấn, văn bản liên quan) — dùng để huấn luyện mô hình.
Public test: 10,000 truy vấn — dùng để đánh giá công khai.
Private test: 50,000 truy vấn — dùng để đánh giá cuối cùng trên hệ thống.

Tiêu chí đánh giá: MRR@10

⚙️ Phương pháp

Pipeline của chúng tôi gồm 2 bước:

Retrieval — sử dụng Bi-Encoder: vietnamese-bi-encoder
Re-ranking — sử dụng Cross-Encoder: itdainb/PhoRanker

Chi tiết:

Vì dữ liệu chỉ có dạng Question-Answer, việc fine-tune dễ gây bias.
Với Bi-Encoder, chúng tôi sử dụng MultiNegativeRanking loss.
Với Cross-Encoder, chúng tôi áp dụng negative mining để tăng chất lượng mô hình.

Lưu ý:

Tập training được chia nhỏ thành train và eval để tự đánh giá do hạn chế số lần nộp bài.
Sự khác biệt giữa các tập eval, public, private là không đáng kể.
Phương pháp không dùng ensemble nhưng vẫn đạt hiệu quả cao.
Dễ dàng mở rộng cho các dataset khác chỉ có dạng QA.

Do kích thước mô hình và cơ sở dữ liệu khá lớn, bạn cần tải thủ công các tệp từ liên kết sau:
🔗 Tải xuống tại đây

Sau khi tải về, vui lòng thay thế các thư mục gốc của dự án bằng các thư mục tương ứng:

data
result
saved_model

🚀 Reproduce

1. Data processing:

$python data_processing.py

2. Train BiEncoder:

$python train_bi.py
#$python bm25.py (Optinal) Thử nghiệm BM25:

3. Retrieval candiates:

$python predict_bi.py --train

4. Get negative examples for CrossEncoder training:

$python negative_mining.py

5. Train CrossEncoder

$python train_cross.py

6. Re-rank candidates by CrossEncoder:

$python predict_cross.py

🚀 Hướng dẫn sử dụng

Bạn có thể đặt câu hỏi liên quan đến pháp luật Việt Nam bằng cách sử dụng dòng lệnh như sau:

$ python run.py --question "Tội bán hàng giả bị xử lý như thế nào?"

📬 Liên hệ

Nếu bạn có bất kỳ thắc mắc hoặc góp ý nào, vui lòng liên hệ qua email:
📧 22520490@gm.uit.edu.vn

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
docs		docs
src		src
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
bm25.py		bm25.py
data_processing.py		data_processing.py
evaluation.py		evaluation.py
negative_mining.py		negative_mining.py
predict_bi.py		predict_bi.py
predict_cross.py		predict_cross.py
requirements.txt		requirements.txt
run.py		run.py
train_bi.py		train_bi.py
train_cross.py		train_cross.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Legal Document Retrieval - SoICT Hackathon 2024

🧾 Nhiệm vụ

📦 Dữ liệu

⚙️ Phương pháp

Chi tiết:

Lưu ý:

🚀 Reproduce

1. Data processing:

2. Train BiEncoder:

3. Retrieval candiates:

4. Get negative examples for CrossEncoder training:

5. Train CrossEncoder

6. Re-rank candidates by CrossEncoder:

🚀 Hướng dẫn sử dụng

📬 Liên hệ

About

Uh oh!

Releases

Packages

Languages

hoivd/Legal_Retrieval

Folders and files

Latest commit

History

Repository files navigation

Legal Document Retrieval - SoICT Hackathon 2024

🧾 Nhiệm vụ

📦 Dữ liệu

⚙️ Phương pháp

Chi tiết:

Lưu ý:

🚀 Reproduce

1. Data processing:

2. Train BiEncoder:

3. Retrieval candiates:

4. Get negative examples for CrossEncoder training:

5. Train CrossEncoder

6. Re-rank candidates by CrossEncoder:

🚀 Hướng dẫn sử dụng

📬 Liên hệ

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages