Martin's Blog

CLIP Models and Image Captioning using CLIP embeddings.

Exploring contrastive learning and Info-NCE loss and training a CLIP vision encoder, then building a GPT-2 image captioning model (ClipCap) trained on chest X-ray CLIP embeddings.

25 min read · April 18, 2026

2026 · VLA VLM CLIP pytorch GPT
Learning VIT's

Building a Vision Transformer (ViT) from scratch in PyTorch with 2D-RoPE positional encoding, applied to multi-label chest X-ray classification.

19 min read · April 15, 2026

2026 · VLA VIT CS
Hello World

First post.

1 min read · April 13, 2026

2026