Skip to content

Table 1 存在事实性错误:Tongyi DeepResearch 的 44.5 不是 BrowseComp-Plus 结果 #4

@BeyonderXX

Description

@BeyonderXX

Hi,

Table 1 里这里看起来有一个事实性错误

你们将 Tongyi DeepResearch 的 44.5 列在了 BrowseComp-Plus 一栏下,但这个结果大概率其实是 BrowseComp,而不是 BrowseComp-Plus。

这不是一个小问题,因为 BrowseComp-Plus 和 BrowseComp 不是同一个设定。BrowseComp-Plus 使用的是提前收集好的网页集合,并通过 embedding-based retrieval 做检索,通常会比原始 BrowseComp 容易很多,分数也会显著更高。

我们自己的复现里,Tongyi DeepResearch 在 BrowseComp-Plus 上大约能到 68%,明显高于表里的 44.5。这基本说明当前表格很可能混淆了两个不同 benchmark 的结果

如果这一点不修正,那么当前比较就是有误导性的。

另外,右侧 BrowseComp 的对比基线也明显不完整,而且偏旧。既然要做 BrowseComp 对比,至少应该补充一些更有代表性的近期 open baseline,例如:

  • WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
  • REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

尤其是 REDSearcher,不应该缺席当前的 BrowseComp 对比。它开源的数据已经足够强,仅使用 SFT,在 BrowseComp 上就可以做到约 37%

相关资源:

  • REDSearcher SFT: https://huggingface.co/datasets/Zchu/REDSearcher_SFT_10K
  • REDSearcher RL: https://huggingface.co/datasets/Zchu/REDSearcher_RL_1K

目前这个 Table 1 同时存在 benchmark 设定混淆强基线缺失 的问题,会让读者对结果比较的公平性产生误判。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions