作者您好,感谢您的工作! 看到您有对比各种 SFT / RL 各种组合的效果,请问这里的 SFT 是带着 COT + label 微调的么?如果是,假设不带 COT,直接用纯 Label 微调的话,效果和 paper 中的 SFT 比相差多少。 期待您的回复~ 感谢 <img width="300" alt="Image" src="https://github.com/user-attachments/assets/6adf06d4-eb48-4cb9-af2a-ccd84e1cf20b" />