MetricGround: Bridging the Dimensionality Gap for Metric-Aware Embodied Vision-Language Models

Official implementation of the paper:
MetricGround: Bridging the Dimensionality Gap for Metric-Aware Embodied Vision-Language Models

This repository contains the PyTorch implementation of MetricGround – a modular architecture that enables metric-aware 3D grounding in pre-trained Vision-Language Models with minimal disturbance.

Key Features

Frozen 2D VLM backbone + lightweight adapters
Semantic-Metric Fusion via cross-attention
Language-mediated cross-modal distillation
Support for SQA (Spatial Question Answering) with metric outputs

Installation

git clone https://github.com/yourusername/MetricGround.git
cd MetricGround
pip install -r requirements.txt

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
src/model		src/model
Datasets		Datasets
Quickstart		Quickstart
README.md		README.md
Requirements		Requirements

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MetricGround: Bridging the Dimensionality Gap for Metric-Aware Embodied Vision-Language Models

Key Features

Installation

About

Uh oh!

Releases

Packages

Languages

muthusamir/MetricGround

Folders and files

Latest commit

History

Repository files navigation

MetricGround: Bridging the Dimensionality Gap for Metric-Aware Embodied Vision-Language Models

Key Features

Installation

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages