Table 1 存在事实性错误：Tongyi DeepResearch 的 44.5 不是 BrowseComp-Plus 结果

Hi，

Table 1 里这里看起来有一个**事实性错误**。

你们将 **Tongyi DeepResearch 的 44.5** 列在了 **BrowseComp-Plus** 一栏下，但这个结果大概率其实是 **BrowseComp**，而不是 BrowseComp-Plus。

这不是一个小问题，因为 **BrowseComp-Plus 和 BrowseComp 不是同一个设定**。BrowseComp-Plus 使用的是**提前收集好的网页集合**，并通过 **embedding-based retrieval** 做检索，通常会比原始 BrowseComp **容易很多**，分数也会显著更高。

我们自己的复现里，**Tongyi DeepResearch 在 BrowseComp-Plus 上大约能到 68%**，明显高于表里的 **44.5**。这基本说明当前表格很可能**混淆了两个不同 benchmark 的结果**。

如果这一点不修正，那么当前比较就是有误导性的。

另外，右侧 **BrowseComp** 的对比基线也明显不完整，而且偏旧。既然要做 BrowseComp 对比，至少应该补充一些更有代表性的近期 open baseline，例如：

* **WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning**
* **REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents**

尤其是 **REDSearcher**，不应该缺席当前的 BrowseComp 对比。它开源的数据已经足够强，**仅使用 SFT，在 BrowseComp 上就可以做到约 37%**。

相关资源：

* REDSearcher SFT: `https://huggingface.co/datasets/Zchu/REDSearcher_SFT_10K`
* REDSearcher RL: `https://huggingface.co/datasets/Zchu/REDSearcher_RL_1K`


目前这个 Table 1 同时存在 **benchmark 设定混淆** 和 **强基线缺失** 的问题，会让读者对结果比较的公平性产生误判。



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Table 1 存在事实性错误：Tongyi DeepResearch 的 44.5 不是 BrowseComp-Plus 结果 #4

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Table 1 存在事实性错误：Tongyi DeepResearch 的 44.5 不是 BrowseComp-Plus 结果 #4

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions