xyfZzz

Results 12 comments of xyfZzz

> > if you want to map variable A to B, the name(contains scope) of A&B should has the same scope level, eg, the scope of A is xx/xx/xxx/name_a, then,...

> history 不会计算损失,但会加入到 input 中,只有 output 会计算损失 那如果要训练多轮对话的语料的话,相当于我要把history中的每一轮都拿出来充当一次input和output并构造成单独的一条样本放在数据集中,然后进行训练,对么?

> 是的,你需要这样做 像如下这种构造多轮的数据样例输入能够被当前glm这个项目支持吗? "Human: 你好,请问许志安的《爱你》是哪一年发行的?\n\nAssistant: 你好,Human!许志安的《爱你》这首歌曲首次发行于1998年,收录在他的粤语专辑《好许志安》中。\n\nHuman: 这首歌的时长是多少呢?\n\nAssistant: 《爱你》这首歌的时长为3分15秒。\n\nHuman: 这首歌的歌词能告诉我一些吗?\n\nAssistant: 当然可以。"

> We found some model repos' checkpoints in HF and MS not aligned and we fixed. @JustinLin610 Are the models of qwen1.5-72b-chat-awq in HF and MS aligned? Because I found...

能否提供一份数据集,非常感谢![email protected]

> I have implemented a simple version of the prefix cache function, which shows significant performance improvement in specific scenarios. Do you require this feature? If so, I can prepare...

> @xyfZzz 还不能很好的支持,一个是开源实现的triton int4weightonly gemm 算子性能不是很好。还有就是直接加载awq的权重需要去适配相关权重的加载。这个后续会继续优化提升。 好的,请问,那4bit gptq目前是不是也暂时不支持?

> @xyfZzz 目前只有一些量化计算的算子支持了,默认情况下是直接量化原始的权重,没有做PTQ等权重调整,也还没有适配gptq这种量化后权重的加载。 好的,感谢大佬

> @sunxichen qwen 目前没有支持 完整的 动态 ntk 和 logn_att, 所以太长的句子可能性能会有下降。 而且不同模型的 config.json 在描述和使用 ntk 特性的时候,感觉很多都有一些魔改,实在是很难对齐所有实现 。而且这个小模型的长句能力感觉也不能抱太大的期望。 大佬有计划解决一下Qwen的ntk长度扩展吗?

> @xyfZzz 其实实现过一个版本,但是魔改版本太多了,很多模型的 config.json 参数名称也是改来改去的,搞得很无语。下周定制修改一个 Qwen-7B 的版本吧,不过我尝试的效果来看,这种 7b 规模的小模型,其长句能力也就那样吧。 不固定的参数是不是可以不使用config里的内容,而是从外部传呢?