WeiHaoran
WeiHaoran
it is good if the clip-pretrained model has the interpolate_pos_encoding like vit,
maybe it is the conversation train bug, vicuna also does not support batch>1 inference
因为转markdown/latex太容易商业化了,所以Vary-toy在这方面,我们砍了一刀
线上demo是fp16运行的,目前还未支持4/8量化
不到9G,线上demo是11G的1080Ti运行的,运行run的时候,在加载模型的地方将device_map = "CUDA"删掉
这个问题我没法复现,你用的Vary-toy的代码还是Vary的?
你把错误crop长一点呢?
我又测试了一下,这个代码没问题,/workspace/envs/vary/ 这个是编译的Vary还是Vary-toy,Vary-toy需要重新编译
好的,谢谢你的建议
截图长一点试一下呢?我们没训练过crop的数据,而且Vary-toy弱化了OCR