-
Notifications
You must be signed in to change notification settings - Fork 64
Table 1 存在事实性错误:Tongyi DeepResearch 的 44.5 不是 BrowseComp-Plus 结果 #4
Copy link
Copy link
Open
Description
Hi,
Table 1 里这里看起来有一个事实性错误。
你们将 Tongyi DeepResearch 的 44.5 列在了 BrowseComp-Plus 一栏下,但这个结果大概率其实是 BrowseComp,而不是 BrowseComp-Plus。
这不是一个小问题,因为 BrowseComp-Plus 和 BrowseComp 不是同一个设定。BrowseComp-Plus 使用的是提前收集好的网页集合,并通过 embedding-based retrieval 做检索,通常会比原始 BrowseComp 容易很多,分数也会显著更高。
我们自己的复现里,Tongyi DeepResearch 在 BrowseComp-Plus 上大约能到 68%,明显高于表里的 44.5。这基本说明当前表格很可能混淆了两个不同 benchmark 的结果。
如果这一点不修正,那么当前比较就是有误导性的。
另外,右侧 BrowseComp 的对比基线也明显不完整,而且偏旧。既然要做 BrowseComp 对比,至少应该补充一些更有代表性的近期 open baseline,例如:
- WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
- REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
尤其是 REDSearcher,不应该缺席当前的 BrowseComp 对比。它开源的数据已经足够强,仅使用 SFT,在 BrowseComp 上就可以做到约 37%。
相关资源:
- REDSearcher SFT:
https://huggingface.co/datasets/Zchu/REDSearcher_SFT_10K - REDSearcher RL:
https://huggingface.co/datasets/Zchu/REDSearcher_RL_1K
目前这个 Table 1 同时存在 benchmark 设定混淆 和 强基线缺失 的问题,会让读者对结果比较的公平性产生误判。
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels