forrestsocool comments

Results 7 comments of


                                            forrestsocool

vfs: add ability to exclude files from being uploaded (eg for temporary files)

any news?

位置插值扩展context长度到8k或者32k

做了，有个小坑：huggingface托管的baichaun-7b model代码没有使用flashattention，导致显存随seq_len 呈O(n^2)增长，A100上16K都会OOM，3090 8K 显存OOM；使用本repo基于xformer实现的flashattention O(n)复杂度，单卡最大长度有所增加，3090单张可以扩到8K

位置插值扩展context长度到8k或者32k

> @forrestsocool 有试过用这个repo提供的modeling_baichuan.py来sft吗，我的loss总是第一个step是3点几然后就一直是0，感觉是不是代码或者权重有点问题你这个问题跟训练代码的实现、所用的数据多少、学习率、显卡类型等等都有可能有关系，可以说详细点

位置插值扩展context长度到8k或者32k

> @forrestsocool 请问效果怎么样？用的是哪个实现？我试了下确实能生成通顺的话，但是长距离的信息还是记不住。没有严格测评，我是实现类似长文本摘要的任务，直观感觉还不错

> > > @forrestsocool 有试过用这个repo提供的modeling_baichuan.py来sft吗，我的loss总是第一个step是3点几然后就一直是0，感觉是不是代码或者权重有点问题 > > > > > > 你这个问题跟训练代码的实现、所用的数据多少、学习率、显卡类型等等都有可能有关系，可以说详细点 > > 我在实测中也遇到了同样的问题，用同样一份数据集，同样的显卡和配置，使用flash attention和原生attention 的初始loss完全不一样，且差距较大，前者为4，后者为1.2。flash attention尝试过xformer的库也尝试过torch2.0的scaled_dot_product_attention都没有解决。因此排除了因数据、学习率、显卡等的因素。 > > 我又单纯使用模型不用训练代码进行loss计算，发现flash atten又是正常的，大概可以猜测原因可能是训练环节的问题。 @EricLingRui 我用的这个repo的实现，使用qlora+bf16，训练时loss也是偏低，但结果还不错。说和显卡有关，是因为有些人训练代码启用了量化（int4 或者 int8）、同时权重使用fp16或者bf16，但是显卡是v100之类的上一代架构，没有对应的tensorcore，可能就会有问题。另外，关于flash attention的实现，我在3090上测试torch2.0.1的scaled_dot_product_attention 比 xformer...

提升搜索结果泛化性能

![image](https://user-images.githubusercontent.com/3960433/170246981-171050ac-da2d-4042-bdc5-88e469673a4b.png) 搜刮应该是没问题的，到了修改字幕这一步，好像jellyfin只能调用文件名？ ![image](https://user-images.githubusercontent.com/3960433/170247163-c0fa03f1-30b7-49a9-9a61-6f3cd9e6a471.png)

提升搜索结果泛化性能

[2022-05-26 20:18:24.314 +08:00] [INF] [107] Jellyfin.Plugin.MaxSubtitle.MastSubtitleProvider: [Max Subtitle] Search of [name]: "三个机器人" [2022-05-26 20:18:24.400 +08:00] [INF] [58] Jellyfin.Plugin.MaxSubtitle.MastSubtitleProvider: [Max Subtitle] Search Found Nothing... @caryyu 看了下日志，确实会搜刮削后的名字，对于剧集来说，方便加上剧的名字吗？比如这个情况命中单集的名字就搜不到