答案解析逻辑对于旧的非推理模型（如llava-v1.5）不友好

模型不太会严格按照\boxed格式要求输出，导致解析结果为空，最后成绩异常低。
作者是否考虑让judge model直接按照原始输出评判正误？
图中给出的是llava-v1.5的结果文件
<img width="2699" height="1221" alt="Image" src="https://github.com/user-attachments/assets/2ac213e4-a5cd-4939-9eb8-1c8df48a04f3" />