模型不太会严格按照\boxed格式要求输出,导致解析结果为空,最后成绩异常低。 作者是否考虑让judge model直接按照原始输出评判正误? 图中给出的是llava-v1.5的结果文件 <img width="2699" height="1221" alt="Image" src="https://github.com/user-attachments/assets/2ac213e4-a5cd-4939-9eb8-1c8df48a04f3" />