grpo — AI Assistant Context

GRPO: Guided Reinforcement Policy Optimization for LLM Fine-tuning

A comprehensive guide and toolkit for fine-tuning language models using reinforcement learning techniques on the Hanzo AI platform.