Hệ thống xử lý ảnh RGB-D để phát hiện gói hàng và ước lượng vị trí 3D (x, y, z) cùng góc xoay (Rx, Ry, Rz).
pip install -r requirements.txt
Mở file config.json và chỉnh sửa đường dẫn thư mục ảnh của bạn:
{
"paths": {
"yolo_model": "runs/segment/train18/weights/last.pt",
"fastsam_model": "FastSAM-x.pt",
"rgb_folder": "GD4/ThiSinh/rgb", // ← Đổi đường dẫn thư mục ảnh RGB
"depth_folder": "GD4/ThiSinh/depth", // ← Đổi đường dẫn thư mục ảnh Depth
"output_dir": "output"
}
"system": {
"global_seed": 42,
"yolo_device": "cpu", // <- Đổi sang "0" để dùng GPU, phải pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu[CUDA_version]
"yolo_conf": 0.5,
"show_yolo": true
}
}
Lưu ý:
- Thư mục RGB và Depth phải chứa các ảnh cùng tên (ví dụ:
image_0000.png) - Ảnh RGB và Depth phải được paired (cùng tên file)
Sau khi đã cài đặt và cấu hình đường dẫn, chạy lệnh:
python task3.py
Để mở giao diện debug và visualize kết quả:
python debug_UI.py
Khi được hỏi chế độ, nhập 3 để mở UI Tkinter với các tính năng:
- Load và xem từng ảnh RGB-D
- Hiển thị kết quả YOLO segmentation và center point
- Visualize top-down view (XY) và side view (XZ)
- Xem point cloud 3D với Open3D
File output Submission_3D.csv sẽ được tạo với format:
image_filename,x,y,z,Rx,Ry,Rz
image_0000.png,0.0606,-0.0106,1.0470,0.0000,0.0000,1.0000
image_0001.png,0.0976,-0.1174,1.0370,0.1549,0.2844,0.9461
- x, y, z: Vị trí 3D (mét)
- Rx, Ry, Rz: Rotation vector (axis-angle)