Skip to content

关于Reagent-U训练可能出现的格式泄露问题 #2

@asilverlight

Description

@asilverlight

您好,很好的工作!很有启发!
想问一下关于Reagent-U训练的一些问题。在Reagent-U刚开始训练的阶段,对于使用Reagent-C得到的轨迹来说,它们的质量可能会更高,在GRPO中会得到更多的优势值,agent在梯度更新时更容易学习到这些轨迹的输出模式。但是,由于这些轨迹是参考Agent-RRM的critique得来的,它们是否会受到prompt较大影响,输出一些类似于“根据critique结果分析”等等格式泄露的内容?
例如,对于Figure 5: Case 1: a search question from GAIA.,agent在Second Response开头输出了“Following the critique, I ...”这样的话,但是实际测试时,并没有任何critique提供给agent。这种推理范式是否也会被agent学习到,从而影响真正测试时的推理范式呢?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions