Skip to content

[Bug] 裁判模型场景下如果裁判模型没有推理完,reuse会有问题 #172

@SJTUyh

Description

@SJTUyh

操作系统及版本

所有版本

安装工具的python环境

在anaconda/miniconda创建的python虚拟环境

python版本

3.10

AISBench工具版本

3.1.20250305

AISBench执行命令

执行 ais_bench --models vllm_api_general_chat --datasets aime2025_gen_0_shot_llmjudge --reuse {时间戳} --mode eval

模型配置文件或自定义配置文件内容

不涉及

预期行为

补齐了judge推理的结果,最后分数为全部跑完的分数。
实际应该是因为judge过程中改了推理结果的id,导致未推理完成的场景失败的id和改过的id错乱了

实际行为

Image 看起来像是多跑了几条。

前置检查

  • 我已读懂主页文档的快速入门,无法解决问题
  • 我已检索过FAQ,无重复问题
  • 我已搜索过现有Issue,无重复问题
  • 我已更新到最新版本,问题仍存在

Metadata

Metadata

Assignees

Labels

bugSomething isn't workingcontent_check_passedissue content check passed

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions