Labmem009

Results 12 comments of Labmem009

> > 从文档推测,Base的上下文长度是4096么? 是否能给出不同的模型的上下文长度列表? Orion-14B-Base Orion-14B-Chat Orion-14B-LongChat: 320k. Orion-14B-Chat-RAG: Orion-14B-Chat-Plugin: Orion-14B-Base-Int4: Orion-14B-Chat-Int4: > > 感谢关注。除了LongChat的版本的上下文不是4096,其他模型的上下文都是4096。 RAG版本的上下文也是4k吗?请问下RAG使用方式和其他版本有没有什么区别?

我非常好奇Orion-14B-RAG模型这个版本,有木有什么其他的特性以及使用方法什么的?

用大佬git上的代码跑了CMeEE,参数都没有改,但是efficient版本验证集只能跑到65%,测试结果只有61.5%。初始版本的GP也只到66.1%,这是为啥啊QAQ我用的也是roberta-zh-large-bert

> 目前 XTuner 支持使用 8卡 80G A100 训练 8k上下文的 20b 模型(在 config 中设置 max_length = 8192 即可)。训练 32k 上下文的 20b 模型需要 32卡 zero3。 我们正在开发 200k 上下文训练 20b 模型的解决方案,近期会发布。 您好,目前我是根据项目给出的XTuner脚本改动为全量FT后进行微调,目前2k的上文需要8*80GA100加上ZeRO3进行微调,并且显存基本已经用满。我在internlm项目issue中提问得到的解答是100k上文可以通过设置tensor parallelism,pipeline...

> 方不方便问下,您有什么应用场景需要用到200k上下文呢? 类似于超长文本的信息抽取与理解,传统NER方法缺理解能力,短上文LLM会缺全局信息。

> DPO relies on the Bradley-Terry (BT) mode or the more general Plackett-Luce models, matching outcomes of pairwise comparisons directly with an implicit reward model. Therefore, the core DPO methodology...

> @SlongLiu When I want to draw a picture using LLaVA-Plus, for example by inputting "Draw a picture with a woman holding a dog by a leash" to the LLaVA-Plus...

Looking forward to SPAE code release +1

> Not a mistake. Some T2T type questions have placed text on images, for example, ![image](https://private-user-images.githubusercontent.com/62104945/313984814-a84cb1b0-21a1-4250-99c2-3fd3c063f3a7.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTA4Mzg3NDQsIm5iZiI6MTcxMDgzODQ0NCwicGF0aCI6Ii82MjEwNDk0NS8zMTM5ODQ4MTQtYTg0Y2IxYjAtMjFhMS00MjUwLTk5YzItM2ZkM2MwNjNmM2E3LnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDAzMTklMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwMzE5VDA4NTQwNFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTgxMGNkOTg5N2UzNDc2YmRmNWVkNWYyN2UzM2Y2NTU2NmZmYzU4N2RhMmM4MWY4OTQ3NDM0OTIyNjQ2ZDVmZmUmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.cMeKirOYQeLPAioTmRVVN3m0ENdBX250bn-zWFtfzAQ) But all the "T2T" lines have "null" question, I checked that there is no...

> @zhouzhoumd 请问你是运行2.6的模型微调后出错吗,我们正在check为什么会缺文件 metoo