Rclurn

Results 5 comments of Rclurn
trafficstars

Hello, I would like to know if you have finally resolved this issue

> 你好, > > 你指出的这些问题是存在的。由于语料分成了多个块交给了不同的标注员完成,且我们的程序在预处理的时候会根据解析预生成推荐的答案(可见标注手册部分),因此部分标注员会因为不仔细等原因可能直接按照推荐答案认证作为了最终答案。 > > 但是由于这些有问题的样本在整个语料库中占比不会太大,因此建议直接对MOD和INS的操作进行简单的清洗,如当需要插入或修改非常多Token(例如8个以上)的时候,基本上这个操作/例子(如果其只有这种改法)可以被忽略。 > > 非常感谢你的反馈,我们之后等有时间的时候会再对语料进行检查,来改正这部分的数据。 感谢回复,在[convert_seq2seq_to_operation.py]这个脚本文件中,可以注意到其实数据集中是有很多原始句子与目标句子长度不同的,但是操作还是先switch再进行其他operation的,但是在这个脚本文件中发现只有原始句子与目标句子长度一致,才会进行switch标签的生成,所以想请教一下,类似于这种是人工标注的么?

> "很多时候是既有content也有工具调用的结果" > > 请问这个具体是以下哪种情况: > > 1. 情形一:模型返回两条messages,分别是 {'role': 'assistant', 'content': '非空的content'} 和 {'role': 'assistant': 'content': '', 'function_call': ...} > 2. 情形二:模型返回一条message里面既有content也有function call:{'role': 'assistant': 'content': '非空的content', 'function_call': ...} >...

> 你的上下文是什么样的?确定每轮对话都会调用工具吗 上下文是相对较复杂的场景,不确定是不是因为这一轮调用了工具,然后下一轮模型因为看到了历史然后判断需要掉工具(我们把调用工具的那个message也加入history了的)

> Hi 请问你是在哪里部署的 72b-instruct?可以分享下么?谢谢~ 我们就是按照官方给的,用vllm进行部署的,具体代码大概是 python -m vllm.entrypoints.openai.api_server --served-model-name 需要部署的模型名 --model 模型权重地址 --tensor-parallel-size=并行卡数