Reasoning

Plan Then Action: High-Level Planning Guidance Reinforcement Learning for LLM Reasoning

We propose PTA-GRPO, a two-stage framework that improves LLM reasoning by combining high-level planning guidance with guidance-aware reinforcement learning.

Zhihao Dou, Qinjian Zhao, Zhongwei Wan, Dinggen Zhang, Weida Wang, Towsif Raiyan, Benteng Chen, Qingtao Pan, Yang Ouyang, Zhiqiang Gao, Shufei Zhang, Sumon Biswas

Plan Then Action: High-Level Planning Guidance Reinforcement Learning for LLM Reasoning

Reasoning and Planning in Large Language Models

We study how large language models reason, aiming to move beyond local, token-by-token decisions toward reliable global planning through structured guidance and reinforcement learning.