-
Notifications
You must be signed in to change notification settings - Fork 4
Open
Description
您好,很好的工作!很有启发!
想问一下关于Reagent-U训练的一些问题。在Reagent-U刚开始训练的阶段,对于使用Reagent-C得到的轨迹来说,它们的质量可能会更高,在GRPO中会得到更多的优势值,agent在梯度更新时更容易学习到这些轨迹的输出模式。但是,由于这些轨迹是参考Agent-RRM的critique得来的,它们是否会受到prompt较大影响,输出一些类似于“根据critique结果分析”等等格式泄露的内容?
例如,对于Figure 5: Case 1: a search question from GAIA.,agent在Second Response开头输出了“Following the critique, I ...”这样的话,但是实际测试时,并没有任何critique提供给agent。这种推理范式是否也会被agent学习到,从而影响真正测试时的推理范式呢?
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels