OpenDelta icon indicating copy to clipboard operation
OpenDelta copied to clipboard

推理减速问题

Open susimonxu opened this issue 11 months ago • 0 comments

使用opendelta来微调cpmbee的10b后,使用加载lora的方式进行推理(如下所示)和原本进行推理速度相比会变慢(减慢50%),请问如何解决。 是否可以将lora与原权重进行合并。

    tokenizer = CPMBeeTokenizer()
    model = CPMBeeTorch(config=config)
    delta_model = LoraModel(backbone_model=model, modified_modules=["project_q", "project_v"], backend="hf")
    model.load_state_dict(torch.load(args.delta), strict=False)
    model.load_state_dict(torch.load(ckpt_path), strict=False)

susimonxu avatar Aug 02 '23 01:08 susimonxu