OpenDelta 推理减速问题

推理减速问题

Open susimonxu opened this issue 11 months ago • 0 comments

使用opendelta来微调cpmbee的10b后，使用加载lora的方式进行推理（如下所示）和原本进行推理速度相比会变慢（减慢50%），请问如何解决。是否可以将lora与原权重进行合并。

    tokenizer = CPMBeeTokenizer()
    model = CPMBeeTorch(config=config)
    delta_model = LoraModel(backbone_model=model, modified_modules=["project_q", "project_v"], backend="hf")
    model.load_state_dict(torch.load(args.delta), strict=False)
    model.load_state_dict(torch.load(ckpt_path), strict=False)

Aug 02 '23 01:08 susimonxu

OpenDelta OpenDelta copied to clipboard

推理减速问题

OpenDelta
OpenDelta copied to clipboard