RL post-training - a jaygala24 Collection

jaygala24 's Collections

RL post-training

RL post-training

updated Apr 29

jaygala24/Qwen3-4B-GRPO-KL-math-reasoning

Text Generation • 4B • Updated Apr 20 • 138
jaygala24/Qwen3-4B-GRPO-math-reasoning

Text Generation • 4B • Updated Apr 20 • 36
jaygala24/Qwen3-4B-ReMax-math-reasoning

Text Generation • 4B • Updated Apr 20 • 29
jaygala24/Qwen3-4B-RLOO-math-reasoning

Text Generation • 4B • Updated Apr 26 • 182
jaygala24/Qwen3-4B-DAPO-math-reasoning

Text Generation • 4B • Updated Apr 29 • 201
jaygala24/Qwen3-1.7B-GRPO-KL-math-reasoning

Text Generation • 2B • Updated Apr 20 • 26
jaygala24/Qwen3-1.7B-GRPO-math-reasoning

Text Generation • 2B • Updated Apr 20 • 149
jaygala24/Qwen3-1.7B-ReMax-math-reasoning

Text Generation • 2B • Updated Apr 20 • 52
jaygala24/Qwen3-1.7B-RLOO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 178
jaygala24/Qwen3-1.7B-DAPO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 185
jaygala24/Qwen2.5-3B-GRPO-KL-math-reasoning

Text Generation • 3B • Updated Apr 20 • 13
jaygala24/Qwen2.5-3B-GRPO-math-reasoning

Text Generation • 3B • Updated Apr 20 • 10
jaygala24/Qwen2.5-3B-ReMax-math-reasoning

Text Generation • 3B • Updated Apr 20 • 27
jaygala24/Qwen2.5-3B-RLOO-math-reasoning

Text Generation • 3B • Updated Apr 25 • 188
jaygala24/Qwen2.5-3B-DAPO-math-reasoning

Text Generation • 3B • Updated Apr 25 • 189
jaygala24/Qwen2.5-1.5B-GRPO-KL-math-reasoning

Text Generation • 2B • Updated Apr 20 • 26
jaygala24/Qwen2.5-1.5B-GRPO-math-reasoning

Text Generation • 2B • Updated Apr 20 • 24
jaygala24/Qwen2.5-1.5B-ReMax-math-reasoning

Text Generation • 2B • Updated Apr 20 • 22
jaygala24/Qwen2.5-1.5B-RLOO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 186
jaygala24/Qwen2.5-1.5B-DAPO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 206
jaygala24/Qwen2.5-0.5B-GRPO-KL-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 21
jaygala24/Qwen2.5-0.5B-GRPO-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 24
jaygala24/Qwen2.5-0.5B-ReMax-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 20
jaygala24/Qwen2.5-0.5B-RLOO-math-reasoning

Text Generation • 0.5B • Updated Apr 25 • 184
jaygala24/Qwen2.5-0.5B-DAPO-math-reasoning

Text Generation • 0.5B • Updated Apr 25 • 347