Vision-Language Bootcamp

Repository contains resources, notebooks, and implementation patterns from the Vision Language Bootcamp. This project focuses on the operating principles, training dynamics, and practical application of modern vision-language systems.

Core Modules

1. Contrastive Vision-Language Pretraining (CLIP)

Implementation of CLIP-style models focusing on text–image embedding alignment.

Mechanics: Text and image encoders projecting to a shared latent space.
Retrieval: Cosine-similarity based search between modalities.
Workflows: Zero-shot image classification without explicit labels.

2. Instruction-Tuned Vision-Language Models

Prompting of Large Vision Multimodal Models, specifically Qwen 2.5-VL (3B).

Architecture: Understanding multimodal reasoning capabilities.
Prompt Engineering: Implementing role-formatted prompting (System, User, Assistant) and chat templates.
Infrastructure: Cloud GPU setup for inference and execution.

3. Multimodal Inference Pipelines

End to end pipelines for processing visual inputs.

Captioning: Multi image context generation.
Detection: Zero-shot object detection utilizing VLM semantic reasoning (bypassing task-specific training).
Analysis: Interpreting spatial and semantic reasoning outputs.

Tech Stack

Language: Python
Models: Qwen 2.5-VL, CLIP variants
Compute: CUDA enabled GPU Inference, Kaggle

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
CLIP_Internals_and_Architecture.pdf		CLIP_Internals_and_Architecture.pdf
Qwen-2.5VL.pdf		Qwen-2.5VL.pdf
README.md		README.md
vlm-bootcamp-notebook-1-clip-intro.ipynb		vlm-bootcamp-notebook-1-clip-intro.ipynb
vlm-bootcamp-notebook-2-clip-imageclassification.ipynb		vlm-bootcamp-notebook-2-clip-imageclassification.ipynb
vlm-bootcamp-notebook-3-qwen-image-caption.ipynb		vlm-bootcamp-notebook-3-qwen-image-caption.ipynb
vlm-bootcamp-notebook-4-qwen-object-detection.ipynb		vlm-bootcamp-notebook-4-qwen-object-detection.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Vision-Language Bootcamp

Core Modules

1. Contrastive Vision-Language Pretraining (CLIP)

2. Instruction-Tuned Vision-Language Models

3. Multimodal Inference Pipelines

Tech Stack

About

Uh oh!

Releases

Packages

Languages

Showrav-Dhar/Vision_Languge_Model_Bootcamp

Folders and files

Latest commit

History

Repository files navigation

Vision-Language Bootcamp

Core Modules

1. Contrastive Vision-Language Pretraining (CLIP)

2. Instruction-Tuned Vision-Language Models

3. Multimodal Inference Pipelines

Tech Stack

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages