skepsun

Results 7 issues of skepsun

参考微信阅读墨水屏版,尽量避免动画,包括:翻页动画,滑动动画。 前者可以简单去除,后者则可以在主ui(包括书架、发现、源管理等页面)里添加翻页(上/下页)按钮,可以视为一个全局的控件(可以的话再加上刷新按钮,如果当前页面存在刷新逻辑)。 个人的一点小建议哈~

扩充完之后,进行二次预训练的时候模型的embeddings应该需要resize。比如: ``` if len(tokenizer) != embedding_size: logger.info("resize the embedding size by the size of the tokenizer") model.resize_token_embeddings(len(tokenizer)) ``` 并且在peft_config里加入modules_to_save: ``` peft_config = LoraConfig( task_type=TaskType.CAUSAL_LM, target_modules=target_modules, inference_mode=False, r=lora_rank, lora_alpha=lora_alpha, lora_dropout=lora_dropout, modules_to_save=modules_to_save)...

用的是40g A100,总是跑了不到10个steps之后就报显存溢出的错误,改batch size=1才能跑,但是显存利用率有点低(20多g)。

pending

Hi, thanks for your excellent work. I tried to search hyperparameters for MLP+C&S on arxiv. The performance of base MLP model is: ``` Valid acc: 0.7289±0.0008 | Test acc: 0.7150±0.0012...

用的dev分支,examples/further_pretrain_llama里的脚本,运行指令是 ``` torchrun --rdzv_backend=c10d --rdzv_endpoint=localhost:29402 --nnodes=1 --nproc_per_node=8 expand_vocab.py ``` 只修改了llama的路径,包括config、tokenizer和model.from_pretrained。报错如下: ``` ╭──────────────────────────── Traceback (most recent call last) ────────────────────────────╮ │ /d2/data/chuxiong/collie/examples/further_pretrain_llama/expand_vocab.py:85 in │ │ │ │ 82 │ model.get_input_embedding()[1].weight.requires_grad = True...

bug

### Source name 拷贝漫画 (copymanga) ### Source link https://mangacopy.com/ ### Language Chinese ### Other details They have various mirrors: copymanga.tv copymanga.org copymanga.info copymanga.net xsskc.com copymanga.site ### Acknowledgements - [X] I...

source request

我在hh数据集上训练模型,并统计ppl,只基于回答计算ppl,发现ppl的方差特别大,一些特别短的回复,比如"270 votes",ppl可以达到35000多,我看RRHF论文中没有提及ppl的方差,想问一下是否也有类似的情况