ALin

Results 10 comments of ALin

卡太多的话,数据走PCI接口,速度会受影响

用cache_dir参数 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, cache_dir=cache_dir) model = AutoModel.from_pretrained(model_name, trust_remote_code=True, cache_dir=cache_dir)

用外接知识库,或者外接检索的方式比较好

一般是送去给chatGPT评价,可以参考下BELLE的数据集

用prompt的方式可以提取。例如: test_case = ": 提取下面文本中的人物和地址:\n" \ "复旦大学计算机科学技术学院教授MOSS系统负责人邱锡鹏表示:“这是国内第一个插件版对话语言模型,能使用搜索引擎、图像生成模型、方程求解器等外部工具,为用户提供越来越多的服务。GPT-4也能接入各种插件,这种能力在大模型落地应用过程中会很有价值。”\n" 如果要严格提取出关键词的位置、属性,需要做finetune

具体是什么错误?cuda 是什么版本的?

修改dtype moss_inference.py line:112 model = load_checkpoint_and_dispatch( raw_model, raw_model_dir, device_map="auto" if not device_map else device_map, no_split_module_classes=["MossBlock"], dtype=torch.float16 )

大概是用的旧的代码,之前也有人碰到过这个问题,是由于数据集被过滤后,变成空的了。用新的code02_训练模型全部流程.ipynb 不会碰到这个问题。