Dogvane Huang
Dogvane Huang
我用WebClient组件改写了网络请求功能,现在能调用了。 目前结论是,HttpWebRequest组件要么使用上有瑕疵,要么HttpWebRequest在linux下兼容不好。 建议将组件在linux下做一下兼容性测试,再更新一个版本吧。
多卡时,推理速度会有提升吗?
代码审查这种非实时的,可以考虑走cpu,内存可以更多一些。 不过,用这个模型代码审查的训练估计够呛吧。
目前的版本和python对比,还是差了很多方法的,目前阶段,命名规则还不建议切换到 c# 样式,这样不方便对照查找与修改。 当然,如果是实验阶段,能出一个自动化工具,自动的将代码里的 python 样式,改为 c# 样式,并用新的独立包发布,也是可以的。但不能作为主版本发布。
我这边,使用 v2,v3转到 faster-whisper 的模型,好像也没有 vad 成功。 Name: whisperx Version: 3.1.2 Name: faster-whisper Version: 1.0.1 测试用视频:https://www.youtube.com/watch?v=we8vNy6DYMI v2 偶尔还会出现乱码 v3 的话,就算设置了 vad 也一样是30s 一个切片片段。 model = WhisperModel(model_size, device="cuda", compute_type="float16") model.feature_extractor.mel_filters = model.feature_extractor.get_mel_filters(model.feature_extractor.sampling_rate,...
我记得在公众号里看到过一篇文章,一个lora算法,推理时先在base模型走一遍,然后再在lora上走一遍,这样就可以适配一个基础模型搭配不同lora业务场景。
单独下载Q4的模型看看吧。未量化的版本,我在windows下启动完成后显存占用12.5。 mx250 的就不要过来凑热闹用gpu了,跑cpu吧。
you can write code like `tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", cache_dir="G:/GPT/THUDM_chatglm-6b", trust_remote_code=True)`
同问,我一张1080的卡,问了一个旅游地点问题,都要50s才有结果返回。
是不是考虑建立一个覆盖多种任务场景的 benchmark ,让拥有不用硬件的玩家都来试试,这样才好收集到不同环境下的执行速度。