forrestsocool

Results 7 comments of forrestsocool

做了,有个小坑:huggingface托管的baichaun-7b model代码没有使用flashattention,导致显存随seq_len 呈O(n^2)增长,A100上16K都会OOM,3090 8K 显存OOM;使用本repo基于xformer实现的flashattention O(n)复杂度,单卡最大长度有所增加,3090单张可以扩到8K

> @forrestsocool 有试过用这个repo提供的modeling_baichuan.py来sft吗,我的loss总是第一个step是3点几然后就一直是0,感觉是不是代码或者权重有点问题 你这个问题跟训练代码的实现、所用的数据多少、学习率、显卡类型等等都有可能有关系,可以说详细点

> @forrestsocool 请问效果怎么样?用的是哪个实现?我试了下确实能生成通顺的话,但是长距离的信息还是记不住。 没有严格测评,我是实现类似长文本摘要的任务,直观感觉还不错

> > > @forrestsocool 有试过用这个repo提供的modeling_baichuan.py来sft吗,我的loss总是第一个step是3点几然后就一直是0,感觉是不是代码或者权重有点问题 > > > > > > 你这个问题跟训练代码的实现、所用的数据多少、学习率、显卡类型等等都有可能有关系,可以说详细点 > > 我在实测中也遇到了同样的问题,用同样一份数据集,同样的显卡和配置,使用flash attention和原生attention 的初始loss完全不一样,且差距较大,前者为4,后者为1.2。flash attention尝试过xformer的库也尝试过torch2.0的scaled_dot_product_attention都没有解决。因此排除了因数据、学习率、显卡等的因素。 > > 我又单纯使用模型不用训练代码进行loss计算,发现flash atten又是正常的,大概可以猜测原因可能是训练环节的问题。 @EricLingRui 我用的这个repo的实现,使用qlora+bf16,训练时loss也是偏低,但结果还不错。说和显卡有关,是因为有些人训练代码启用了量化(int4 或者 int8)、同时权重使用fp16或者bf16,但是显卡是v100之类的上一代架构,没有对应的tensorcore,可能就会有问题。 另外,关于flash attention的实现,我在3090上测试torch2.0.1的scaled_dot_product_attention 比 xformer...

![image](https://user-images.githubusercontent.com/3960433/170246981-171050ac-da2d-4042-bdc5-88e469673a4b.png) 搜刮应该是没问题的,到了修改字幕这一步,好像jellyfin只能调用文件名? ![image](https://user-images.githubusercontent.com/3960433/170247163-c0fa03f1-30b7-49a9-9a61-6f3cd9e6a471.png)

[2022-05-26 20:18:24.314 +08:00] [INF] [107] Jellyfin.Plugin.MaxSubtitle.MastSubtitleProvider: [Max Subtitle] Search of [name]: "三个机器人" [2022-05-26 20:18:24.400 +08:00] [INF] [58] Jellyfin.Plugin.MaxSubtitle.MastSubtitleProvider: [Max Subtitle] Search Found Nothing... @caryyu 看了下日志,确实会搜刮削后的名字,对于剧集来说,方便加上剧的名字吗?比如这个情况命中单集的名字就搜不到