HoratioJSY
HoratioJSY
在我的模型中,paddle inference在启动TensorRT进行推断时存在大量CPU与GPU内存之间的拷贝,可以通过更新paddle inference 到 develop 的最新版解决。
PyTorch and TensorFlow official tutorials are good ways to learn how to code machine learning models as you are familiar with Python. PyTorch is easier and more commonly in research,...
预训练时是32K的序列长度,但是现在推理脚本并没有限制长度,可能需要自行限制长度。code_string和later_code 在完成分词后,可以将ID序列截断为小于32K,需要注意截断时不能把特殊词给截掉了,修改可以参考 [input_wrapper](https://github.com/aixcoder-plugin/aiXcoder-7B/blob/main/hf_mini/utils.py#L1097) 函数。
预训练是 32768 的BPE Token数,如果你需要微调的话,小于等于这个长度都没问题。code_string和later_code本身没有限制,但是它们加起来后需要限制在32768 Token数。只要过滤的时候,不删掉特殊词,大概率就没问题。
我们预训练中会采用多种并行方式,例如张量并行、pipeline并行、ZeRO、Recompute等,这样将模型拆到多台机器多张卡上才能进行长序列的预训练。我们建议您可以确认所使用的分布式训练框架支不支持多种并行方式,支不支持FlashAttention等,这样才能有可能跑起来。
Sorry, we currently do not support plugin-side integration with locally deployed models, as the aiXcoder plugin requires a corresponding server-side component. At the moment, we do not have plans to...
Thank you for your kind assistance. If you have downloaded model weights from HuggingFace or ModelScope through various methods, you can change the inference code to your local address for...