geolvr
geolvr
> 不读图和ocr。就是直接把word里面有的部分插图,作为内容的一部分显示出来。 因为我看您的说明里面说是支持word格式的 请问现在知道如何把word文档中的图片显示出来了吗?我的需求和您一样,不要求理解图像内容,只需要知道文档的某某位置有图就行了。比如把图片作为一个特殊的token【PIC】,那文本可能就是 “如下图所示:【PIC】\n从以上图片中能看出...”。
非常期待对中文提示的支持。一些行业的特殊设备难以找到合适的英文翻译,导致识别不出。
使用tokenizer.add_tokens()后,encode后新增的词前边会自动加上一个空格(vocab中第5个token“▁”),导致与输入文本有出入; 且训练时,加入model.resize_token_embeddings(len(tokenizer))语句后,出现异常,loss巨大。 请问有正确的示例吗?
> 我是Django + gunicorn部署的,原先gunicorn配置的workers=1,发现只能同时响应一个请求。 > > 设置 workers = 2 的时候,就能并发2个请求了,但是显存也会翻倍。如果要支持高并发的话感觉就很费显卡了 > > 有办法让模型只加载一份,但是能实现并发吗?比如进程/线程间共享变量?
> 重参数化是自己写的,想知道有人LoRA+int4成功的吗? 原版官方的ChatGLM也是这样啊,int4和int8都比float16推理慢很多。很想知道怎么解决。
请问有解决办法了吗?这个特性会在做文本纠错、校验等任务时带来麻烦。
> 请问有解决办法了吗?这个特性会在做文本纠错、校验等任务时带来麻烦。 查了一下,应该是与sentencepiece的默认设置有关。在训练sentencepiece模型时,通过使用spm_train --normalization_rule_name=identity参数,可以避免把全角字符映射成半角字符。 但根据sentencepiece官方信息,这个normalization_rule只能在训练时指定。因为这个normalization_rule是写到模型文件中的,一旦模型训练完毕就无法更改了。所以除非作者提供新的ice_text.model文件,似乎没有别的办法。 参照: https://github.com/google/sentencepiece/issues/789 https://github.com/google/sentencepiece/issues/839