DeepResearch
DeepResearch copied to clipboard
复现browsecomp-en的问题
请问一下有没有复现browsecomp分数的同学,用的是什么prompt和工具呢? 我在openai官方的simple-eval上自己添加了vllm+langchain+duckduckgo进行测试,准确率只有15%左右。 我看了一下issue126. 关于如何复现这个问题,应该是prompt和工具导致gap过大,请问通义的大佬们,能提供一下复现的代码和工具嘛
这条评论给其他同学做参考~
在官方提供的WebAgent中找到了相关复现代码,只不过Google和jina的免费API已经被我薅完了😂😂完整1266个问题测下来,应该要氪不少,而且和我自己适配的免费&本地版工具准确率应该要好很多,感觉应该是能复现出来,虽然我只测了example和一点bc-en的问题。
在tongyi deepresearch上尝试了一下,使用了官方技术报告中的system prompt和bing,只拿到了20%左右的正确率。虽然用的搜索工具有差异,但是20%的差距还是有点大😭请问还有其他复现成功的同学吗~