Fengshenbang-LM
Fengshenbang-LM copied to clipboard
使用Rangdeng-Pegasus系列,提示文件not found /cognitive_comp/dongxiaoqun/software/jieba/tmp/tmpk8ungvhc
使用Randeng-Pegasus-523M-Summary-Chinese
请问可以提供这份自定义jieba分词文件吗?
参考这里的解决方案 https://github.com/IDEA-CCNL/Fengshenbang-LM/issues/78
修改了jieba临时文件路径
但是结果并没有变化
@ganzhiruyi 请抽空帮忙看看,谢谢~
hi, @jiangliqin 你好,你tokenizer的使用代码能否贴详细一点,方便我帮你定位问题。目前看你的截图,jieba分词已经导入成功了。
你好,完全是示例代码 @dongxqm `from transformers import PegasusForConditionalGeneration from tokenizers_pegasus import PegasusTokenizer
model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese") tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese")
text = "据微信公众号“界面”报道,4日上午10点左右,中国发改委反垄断调查小组突击查访奔驰上海办事处,调取数据材料,并对多名奔驰高管进行了约谈。截止昨日晚9点,包括北京梅赛德斯-奔驰销售服务有限公司东区总经理在内的多名管理人员仍留在上海办公室内" inputs = tokenizer(text, max_length=1024, return_tensors="pt")
summary_ids = model.generate(inputs["input_ids"]) tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
上面的“老鼠老鼠……”是模型的输出?还是输入?有什么其他报错吗?是切词不对吗?
是输出,没有其他报错
![图片](https://user-images.githubusercontent.com/107237598/182084040-e693e0a4-a747-4def-93ea-b2fb68d4023a.png)
Randeng-Pegasus-238M-Summary-Chinese模型就结果正常,Randeng-Pegasus-523M-Summary-Chinese还是结果不对
![图片](https://user-images.githubusercontent.com/107237598/182276156-27d524e7-9aee-4eed-8852-e18bb3da0fe8.png)
model = PegasusForConditionalGeneration.from_pretrained(
"IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese",
output_hidden_states=True,
cache_dir= './test_pegasus_dir' # 指定hugging face缓存目录
)
我是在windows上将tokenizers_pegasus.py中的tmp.dir替换程一个本地文件夹,运行之后会自动下载。
@jiangliqin 问题解决了吗?