[Bug] 裁判模型场景下如果裁判模型没有推理完，reuse会有问题

### 操作系统及版本

所有版本

### 安装工具的python环境

在anaconda/miniconda创建的python虚拟环境

### python版本

3.10

### AISBench工具版本

3.1.20250305

### AISBench执行命令

执行 ais_bench --models vllm_api_general_chat --datasets aime2025_gen_0_shot_llmjudge --reuse {时间戳} --mode eval

### 模型配置文件或自定义配置文件内容

不涉及

### 预期行为

补齐了judge推理的结果，最后分数为全部跑完的分数。
实际应该是因为judge过程中改了推理结果的id，导致未推理完成的场景失败的id和改过的id错乱了

### 实际行为

<img width="1472" height="445" alt="Image" src="https://github.com/user-attachments/assets/93b0bca1-043b-496a-bc01-9868ecf3577e" />
看起来像是多跑了几条。

### 前置检查

- [x] 我已读懂主页文档的快速入门，无法解决问题
- [x] 我已检索过FAQ，无重复问题
- [x] 我已搜索过现有Issue，无重复问题
- [x] 我已更新到最新版本，问题仍存在

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Bug] 裁判模型场景下如果裁判模型没有推理完，reuse会有问题 #172

操作系统及版本

安装工具的python环境

python版本

AISBench工具版本

AISBench执行命令

模型配置文件或自定义配置文件内容

预期行为

实际行为

前置检查

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[Bug] 裁判模型场景下如果裁判模型没有推理完，reuse会有问题 #172

Description

操作系统及版本

安装工具的python环境

python版本

AISBench工具版本

AISBench执行命令

模型配置文件或自定义配置文件内容

预期行为

实际行为

前置检查

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions