Dogvane Huang comments

Results 17 comments of


                                            Dogvane Huang

在 linux(ubuntu) .net core 2.2 版本下，Face接口调用操作超时。

我用WebClient组件改写了网络请求功能，现在能调用了。目前结论是，HttpWebRequest组件要么使用上有瑕疵，要么HttpWebRequest在linux下兼容不好。建议将组件在linux下做一下兼容性测试，再更新一个版本吧。

[Feature] 建了个分支，支持多GPU部署，自动平均分配显存。

多卡时，推理速度会有提升吗？

[BUG/Help] <title>请问目前输入最大支持多少字符？对应需要多少显存，另外内存共享给GPU的内存可以被调用吗？

代码审查这种非实时的，可以考虑走cpu，内存可以更多一些。不过，用这个模型代码审查的训练估计够呛吧。

[Vote]: Naming conventions in v1.0.0

目前的版本和python对比，还是差了很多方法的，目前阶段，命名规则还不建议切换到 c# 样式，这样不方便对照查找与修改。当然，如果是实验阶段，能出一个自动化工具，自动的将代码里的 python 样式，改为 c# 样式，并用新的独立包发布，也是可以的。但不能作为主版本发布。

用BELLE-2/Belle-whisper-large-v2-zh识别中文音频，效果还不如Systran/faster-whisper-large-v2？

我这边，使用 v2,v3转到 faster-whisper 的模型，好像也没有 vad 成功。 Name: whisperx Version: 3.1.2 Name: faster-whisper Version: 1.0.1 测试用视频：https://www.youtube.com/watch?v=we8vNy6DYMI v2 偶尔还会出现乱码 v3 的话，就算设置了 vad 也一样是30s 一个切片片段。 model = WhisperModel(model_size, device="cuda", compute_type="float16") model.feature_extractor.mel_filters = model.feature_extractor.get_mel_filters(model.feature_extractor.sampling_rate,...

请教一下如何在加载模型后实时更新lora？

我记得在公众号里看到过一篇文章，一个lora算法，推理时先在base模型走一遍，然后再在lora上走一遍，这样就可以适配一个基础模型搭配不同lora业务场景。

[BUG/Help] model = AutoModel.from_pretrained("D:\\ChatGLM\\model\\2", trust_remote_code=True).cuda() 没有报错直接退出

单独下载Q4的模型看看吧。未量化的版本，我在windows下启动完成后显存占用12.5。 mx250 的就不要过来凑热闹用gpu了，跑cpu吧。

どこに保存すればよいかわからない?

you can write code like `tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", cache_dir="G:/GPT/THUDM_chatglm-6b", trust_remote_code=True)`

推理速度有点慢，有什么好方法加速吗

同问，我一张1080的卡，问了一个旅游地点问题，都要50s才有结果返回。

是否有不同大小的模型在，在某个硬件上每秒钟可以处理多少个token的性能数据？

是不是考虑建立一个覆盖多种任务场景的 benchmark ，让拥有不用硬件的玩家都来试试，这样才好收集到不同环境下的执行速度。