xyfZzz comments

Results 12 comments of


                                            xyfZzz

ValueError: Assignment map with scope only name xxx should map to scope only xxx. Should be 'scope/': 'other_scope/'.

> > if you want to map variable A to B, the name(contains scope) of A&B should has the same scope level, eg, the scope of A is xx/xx/xxx/name_a, then,...

数据集中"history"中的数据会被拿去做decoder生成训练吗？

> history 不会计算损失，但会加入到 input 中，只有 output 会计算损失那如果要训练多轮对话的语料的话，相当于我要把history中的每一轮都拿出来充当一次input和output并构造成单独的一条样本放在数据集中，然后进行训练，对么？

数据集中"history"中的数据会被拿去做decoder生成训练吗？

> 是的，你需要这样做像如下这种构造多轮的数据样例输入能够被当前glm这个项目支持吗？ "Human: 你好，请问许志安的《爱你》是哪一年发行的？\n\nAssistant: 你好，Human！许志安的《爱你》这首歌曲首次发行于1998年，收录在他的粤语专辑《好许志安》中。\n\nHuman: 这首歌的时长是多少呢？\n\nAssistant: 《爱你》这首歌的时长为3分15秒。\n\nHuman: 这首歌的歌词能告诉我一些吗？\n\nAssistant: 当然可以。"

What has been updated on modelscope for qwen1.5-72b-chat? 2024/03/07

> We found some model repos' checkpoints in HF and MS not aligned and we fixed. @JustinLin610 Are the models of qwen1.5-72b-chat-awq in HF and MS aligned? Because I found...

The Tianchi Dataset

能否提供一份数据集，非常感谢！[email protected]

Question about efficient memory sharing (prefix sharing)

> I have implemented a simple version of the prefix cache function, which shows significant performance improvement in specific scenarios. Do you require this feature? If so, I can prepare...

请问现在支持Yi-34B的awq 4bit部署吗？

> @xyfZzz 还不能很好的支持，一个是开源实现的triton int4weightonly gemm 算子性能不是很好。还有就是直接加载awq的权重需要去适配相关权重的加载。这个后续会继续优化提升。好的，请问，那4bit gptq目前是不是也暂时不支持？

请问现在支持Yi-34B的awq 4bit部署吗？

> @xyfZzz 目前只有一些量化计算的算子支持了，默认情况下是直接量化原始的权重，没有做PTQ等权重调整，也还没有适配gptq这种量化后权重的加载。好的，感谢大佬

[BUG]Qwen模型加载后NTK未生效

> @sunxichen qwen 目前没有支持完整的动态 ntk 和 logn_att, 所以太长的句子可能性能会有下降。而且不同模型的 config.json 在描述和使用 ntk 特性的时候，感觉很多都有一些魔改，实在是很难对齐所有实现。而且这个小模型的长句能力感觉也不能抱太大的期望。大佬有计划解决一下Qwen的ntk长度扩展吗？

[BUG]Qwen模型加载后NTK未生效

> @xyfZzz 其实实现过一个版本，但是魔改版本太多了，很多模型的 config.json 参数名称也是改来改去的，搞得很无语。下周定制修改一个 Qwen-7B 的版本吧，不过我尝试的效果来看，这种 7b 规模的小模型，其长句能力也就那样吧。不固定的参数是不是可以不使用config里的内容，而是从外部传呢？