geolvr

Results 18 comments of geolvr
trafficstars

> In my actual pytorch training, I take NCEloss as part of my loss function and observe the mutual information value calculated by sklearn's API (sklearn.metrics.mutual_info_score) during the training process....

> I think I figured it out. This method provided by sklearn cannot be used to calculate mutual information between continuous variables, thus leading to wrong results.

> model.save_weights(xx) > > # load > model.load_weights(xx) 是要加载别人用谷歌官方bert代码(tensorflow)训练好的ckpt格式权重。

> > > model.save_weights(xx) > > > # load > > > model.load_weights(xx) > > > 是要加载别人用谷歌官方bert代码(tensorflow)训练好的ckpt格式权重。 > > build_transformer_model(checkpoint_path=xxx,...) 这里已经load 了pre-train bert ckpt,你现在已经加了自己的dense 层并进行了fine-tune,此时你只需要把你自己训练的这个model 存下来,推理的时候把自己的模型load 进来 > > ps:...

> 您好,如果您只想 finetune bge-m3 的 dense embedding,二者没有区别,可以参照 bge-v1.5 的参数进行微调 https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#3-train 那如果我想finetune bge-m3的colbert部分呢?

求问chat方法,有办法实现批量推理吗?

慢是可以理解的,但为什么int4反而比fp16慢,还慢得很明显?

> > 慢是可以理解的,但为什么int4反而比fp16慢,还慢得很明显? > > 解决了吗? 我也发现了这个问题,量化的比float16慢 没解决,官方似乎不重视这个问题。我只能通过加大推理batchsize变相提速。。

> Hi, All. 速度和吞吐量上有需求,可以尝试: https://huggingface.co/TMElyralab/lyraChatGLM 。 这个是对 ChatGLM6B 的加速版本,已封装 Python 上层调用,兼容 A100, V100, A10, A30 等显卡。 这个好像只能用原版,不支持加载自己微调后的模型