VLMLocPredictor

A Vision-Language Model for Next Location Prediction in Trajectory Data.

Overview

VLMLocPredictor is a model that combines vision-language capabilities with trajectory data to predict locations. It uses a two-stage training approach: Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL) based fine-tuning.

Installation

# Clone the repository
git clone https://github.com/Rising0321/VLMLocPredictor.git
cd VLMLocPredictor

# Install dependencies
pip install -r requirements.txt

Dataset Preparation

Configure your dataset paths in data/dataset_info.json
Supported datasets:
- Chengdu: pointLabel, pointLogic
- Porto: pointLabelPorto, pointLogicPorto
- San Francisco: pointLabelSanfrancisco, pointLogicSanfrancisco
- Rome: pointLabelRome, pointLogicRome

Training Pipeline

Stage 1: Supervised Fine-Tuning (SFT)

We use Llama Factory for the SFT stage.

First Stage SFT

Set up your Vision-Language Model path as PATH_MODEL

Configure datasets:

pointLabel,pointLabelPorto,pointLabelSanfrancisco,pointLabelRome

Run:

bash scripts/train/cot_sft/resume_finetune_qwen2vl_2b_pointLabel_cot_sft.sh

Second Stage SFT

Use the model trained in First Stage as PRETRAIN_MODEL_PATH

Add logic datasets:

pointLabel,pointLabelPorto,pointLabelSanfrancisco,pointLabelRome,pointLogic,pointLogicPorto,pointLogicSanfrancisco,pointLogicRome

Run the same script as First Stage

Stage 2: RL-based Fine-tuning

The RL model implementation is located in train/stage_rl/.

Configure:
- DATASET_NAME: Path to your dataset
- MODEL_NAME_OR_PATH: Path to your pre-trained model
- IMAGE_PATH: Path to your image data (will be released soon)

Run:

bash scripts/train/reason_rft_zero/resume_finetune_qwen2vl_2b_traj_only_rl.sh

Project Structure

VLMLocPredictor/
├── data/               # Dataset configuration
├── eval/               # Evaluation scripts
├── train/
│   ├── stage_sft/     # Supervised Fine-Tuning
│   └── stage_rl/      # RL-based Fine-tuning
├── trajDataJsonsDirty/  # Training Dataset
├── VLM/               # Training Images (upload later)
├── roadSoftMap/       # Distance to Closet Road (upload later)
├── scripts/           # Training scripts
└── utils/            # Utility functions

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VLMLocPredictor

Overview

Installation

Dataset Preparation

Training Pipeline

Stage 1: Supervised Fine-Tuning (SFT)

First Stage SFT

Second Stage SFT

Stage 2: RL-based Fine-tuning

Project Structure

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data		data
eval		eval
scripts		scripts
train		train
trajDataJsonsDirty		trajDataJsonsDirty
utils		utils
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Rising0321/VLMLocPredictor

Folders and files

Latest commit

History

Repository files navigation

VLMLocPredictor

Overview

Installation

Dataset Preparation

Training Pipeline

Stage 1: Supervised Fine-Tuning (SFT)

First Stage SFT

Second Stage SFT

Stage 2: RL-based Fine-tuning

Project Structure

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages