Skip to content

greasyLemon/VT-cv3d

Repository files navigation

Hệ thống Phát hiện và Ước lượng Tư thế 3D Gói hàng

Hệ thống xử lý ảnh RGB-D để phát hiện gói hàng và ước lượng vị trí 3D (x, y, z) cùng góc xoay (Rx, Ry, Rz).

Cài đặt

1. Cài đặt Dependencies

pip install -r requirements.txt

2. Cấu hình Đường dẫn Ảnh

Mở file config.json và chỉnh sửa đường dẫn thư mục ảnh của bạn:

{
  "paths": {
    "yolo_model": "runs/segment/train18/weights/last.pt",
    "fastsam_model": "FastSAM-x.pt",
    "rgb_folder": "GD4/ThiSinh/rgb",          // ← Đổi đường dẫn thư mục ảnh RGB
    "depth_folder": "GD4/ThiSinh/depth",      // ← Đổi đường dẫn thư mục ảnh Depth
    "output_dir": "output"
  }
    "system": {
    "global_seed": 42,
    "yolo_device": "cpu", // <- Đổi sang "0" để dùng GPU, phải pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu[CUDA_version]
    "yolo_conf": 0.5,
    "show_yolo": true
  }
}

Lưu ý:

  • Thư mục RGB và Depth phải chứa các ảnh cùng tên (ví dụ: image_0000.png)
  • Ảnh RGB và Depth phải được paired (cùng tên file)

Cách Chạy

Chạy Batch Processing

Sau khi đã cài đặt và cấu hình đường dẫn, chạy lệnh:

python task3.py

Chạy Debug UI

Để mở giao diện debug và visualize kết quả:

python debug_UI.py

Khi được hỏi chế độ, nhập 3 để mở UI Tkinter với các tính năng:

  • Load và xem từng ảnh RGB-D
  • Hiển thị kết quả YOLO segmentation và center point
  • Visualize top-down view (XY) và side view (XZ)
  • Xem point cloud 3D với Open3D

Kết quả

File output Submission_3D.csv sẽ được tạo với format:

image_filename,x,y,z,Rx,Ry,Rz
image_0000.png,0.0606,-0.0106,1.0470,0.0000,0.0000,1.0000
image_0001.png,0.0976,-0.1174,1.0370,0.1549,0.2844,0.9461
  • x, y, z: Vị trí 3D (mét)
  • Rx, Ry, Rz: Rotation vector (axis-angle)

About

Package 3D Pose Detection and Estimation Algorithm

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors