Advanced Image Segmentation

Open-Vocabulary Segmentation

Segearth-OV: Towards training-free open-vocabulary segmentation for remote sensing images. CVPR'2025. [Paper | Code]
Open-Vocabulary Remote Sensing Image Semantic Segmentation. TGRS'2025. [Paper | Code]
Towards open-vocabulary remote sensing image semantic segmentation. AAAI'2025. [Paper | Code]
SkySense-O: Towards Open-World Remote Sensing Interpretation with Vision-Centric Visual-Language Modeling. CVPR'2025. [Paper | Code]
AerOSeg: Harnessing SAM for Open-Vocabulary Segmentation in Remote Sensing Images. CVPRW'2025. [Paper]
InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition. arXiv'2025. [Paper | Code]
RemoteSAM: Towards Segment Anything for Earth Observation. ACMMM'2025. [Paper | Code]
SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation. ICCV'2025. [Paper | Code]
Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images. arXiv'2025. [Paper | Code]
FarSLIP: Discovering Effective CLIP Adaptation for Fine-Grained Remote Sensing Understanding. arXiv'2025. [Paper | Code]
Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing. AAAI'2026. [Paper | Code]
SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images. arXiv'2025. [Paper | Code]
Reducing semantic ambiguity in open-vocabulary remote sensing image segmentation via knowledge graph-enhanced class representations. ISPRS P&RS'2026. [Paper | Code]

SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model. arXiv'2025. [Paper | Code]
LISAt: Language-Instructed Segmentation Assistant for Satellite Imagery. arXiv'2025. [Paper] | [Code]]
RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow. arXiv'2025. [Paper]
Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning. arXiv'2025. [Paper | Code]
SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images. CVPR'2026. [Paper | Code]
Urban Socio-Semantic Segmentation with Vision-Language Reasoning. ICLR'2026. [Paper | Code]
GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery. arXiv'2026. [Paper]

RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts. arXiv'2024. [Paper | Code]]
GeoGround: A Unified Large Vision-Language Model. for Remote Sensing Visual Grounding. arXiv'2024. [Paper | Code]
GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing. arXiv'2025. [Paper | Code]
Falcon: A Remote Sensing Vision-Language Foundation Model. arXiv'2025. [Paper | Code]
EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models. arXiv'2025. [Paper | Code]
RemoteSAM: Towards Segment Anything for Earth Observation. ACMMM'2025. [Paper | Code]
GeoMag: A Vision-Language Model for Pixel-level Fine-Grained Remote Sensing Image Parsing. arXiv'2025. [Paper]
RSRefSeg 2: Decoupling Referring Remote Sensing Image Segmentation with Foundation Models. arXiv'2025. [Paper | Code]
DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models. arXiv'2025. [Paper]

GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing. ICML'2025. [Paper | Code]

SpectralX: Parameter-efficient Domain Generalization for Spectral Remote Sensing Foundation Models. arXiv'2025. [Paper | Code]