HyperAI

3 months ago

Reinforcement Learning

Method/Architecture

Paper - SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization | Papers | HyperAI