-
Notifications
You must be signed in to change notification settings - Fork 19
Open
Labels
bugSomething isn't workingSomething isn't workingcontent_check_passedissue content check passedissue content check passed
Description
操作系统及版本
所有版本
安装工具的python环境
在anaconda/miniconda创建的python虚拟环境
python版本
3.10
AISBench工具版本
3.1.20250305
AISBench执行命令
执行 ais_bench --models vllm_api_general_chat --datasets aime2025_gen_0_shot_llmjudge --reuse {时间戳} --mode eval
模型配置文件或自定义配置文件内容
不涉及
预期行为
补齐了judge推理的结果,最后分数为全部跑完的分数。
实际应该是因为judge过程中改了推理结果的id,导致未推理完成的场景失败的id和改过的id错乱了
实际行为
看起来像是多跑了几条。
前置检查
- 我已读懂主页文档的快速入门,无法解决问题
- 我已检索过FAQ,无重复问题
- 我已搜索过现有Issue,无重复问题
- 我已更新到最新版本,问题仍存在
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
bugSomething isn't workingSomething isn't workingcontent_check_passedissue content check passedissue content check passed