LongWriter icon indicating copy to clipboard operation
LongWriter copied to clipboard

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

Results 29 LongWriter issues
Sort by recently updated
recently updated
newest added

requirements didn't have vllm==0.6.2 which is needed for the vllm script.

### System Info / 系統信息 我想知道long writer 的输入上下文长度,在整篇文章中,只写了输出的长度。麻烦作者告知,万分感谢。 第二个问题:微调训练,是否可以在windows 上使用LLaMA-Factory。 LLaMA-Factory上有标注支持glm4微调。如果不支持,还请给点相关信息。 ### Who can help? / 谁可以帮助到您? _No response_ ### Information / 问题信息 - [x] The official example scripts /...

### System Info / 系統信息 CUDA : 12.4 transformers: 4.44.2 Python: 3.12.4 操作系统:Windows11 64 ### Who can help? / 谁可以帮助到您? _No response_ ### Information / 问题信息 - [X] The official...

### System Info / 系統信息 I have installed the Longwriter and tried running it where i am getting the following error message GGML_ASSERT(!grammar->stacks.empty()) failed As well as sometimes i get...

因为国内所有大模型都不能输出超过8k只能接入chatgpt,希望给出大概的上架时间。

Any plans on releasing the DPO code, or a brief intro of how you conducted long-context DPO?

train成功了,分享一下环境: - 系统环境: - python==3.11.9 - transformers==4.33.0 - pytorch==2.2.0 - flash-attn==2.6.3 - ninja==1.11.1.1 - deepspeed==0.15.0 - wandb==0.17.8 - /glm-4-9b 目录下的 `modeling_chatglm.py`和 `tokenization_chatglm.py` 都已经替换 - 在 /ds_config/stage3.json 中设置 `"stage3_prefetch_bucket_size": 15099494` -...

documentation

### System Info / 系統信息 CUDA Version: 12.2 transformers Version: 4.44.2 Python: 3.12.4 Operating system: Windows Subsystem for Linux (WSL) in VS Code ### Who can help? / 谁可以帮助到您? _No...

`(ht240815) PS G:\project\ht\240815\LongWriter> python .\trans_web_demo.py Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00

### System Info / 系統信息 Transformer 4.43, 4.44, 4.33 都试了,modeling_chatglm.py 也替换了,运行最后的 .sh 文件是报了和其他人类似的错。 建议官方再把训练操作过程写的详细些。 ### Who can help? / 谁可以帮助到您? 。 ### Information / 问题信息 - [X] The official example...

bug