namespace-Pt

Results 50 comments of namespace-Pt

Hi, thanks for your interest! Released a second ago~

Hi, 尝试设置--nproc_per_node 1,因为你只用一个gpu

Hi,icl的数据应该是误删了query_id和answers列,我争取尽快更新一下;icl的template已经更新过了。 当前icl数据集最好直接用我们提供好的score。

你好。score=-loss,加不加eos其实都行,差别不会很大。我们去掉eos是考虑对于base模型,其没有学过生成eos,因此认为将eos纳入loss计算是不正确的。

Hi,谢谢你的关注, 1. 我们所有测试都加了instruction。tool、convsearch、mmlu、popqa均直接调用了[eval_retrieval.py](https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/llm_embedder/evaluation/eval_retrieval.py), 其默认会在[prepare_eval_dataset](https://github.com/FlagOpen/FlagEmbedding/blob/957d5e153339a392a2a3f3a4f8485b09320683d8/FlagEmbedding/llm_embedder/evaluation/eval_retrieval.py#L61)和[prepare_corpus](https://github.com/FlagOpen/FlagEmbedding/blob/957d5e153339a392a2a3f3a4f8485b09320683d8/FlagEmbedding/llm_embedder/evaluation/eval_retrieval.py#L66)中加入instruction。 2. 可以;但我们没有相关的实验和分析。如果你做了类似的实验,方便的话可以将效果评论在这个thread下。

你好,中文数据比较有限,qa方面可以考虑使用dureader,memory可以考虑使用language modeling的数据集,in-context learning这块我也不太清楚有没有优质的数据,tool和conversational search同样缺少开源数据。

+1 here. Especially the chat template