关于Reagent-U训练可能出现的格式泄露问题

您好，很好的工作！很有启发！
想问一下关于Reagent-U训练的一些问题。在Reagent-U刚开始训练的阶段，对于使用Reagent-C得到的轨迹来说，它们的质量可能会更高，在GRPO中会得到更多的优势值，agent在梯度更新时更容易学习到这些轨迹的输出模式。但是，由于这些轨迹是参考Agent-RRM的critique得来的，它们是否会受到prompt较大影响，输出一些类似于“根据critique结果分析”等等格式泄露的内容？
例如，对于Figure 5: Case 1: a search question from GAIA.，agent在Second Response开头输出了“Following the critique, I ...”这样的话，但是实际测试时，并没有任何critique提供给agent。这种推理范式是否也会被agent学习到，从而影响真正测试时的推理范式呢？