guwenbert icon indicating copy to clipboard operation
guwenbert copied to clipboard

GuwenBERT: 古文预训练语言模型(古文BERT) A Pre-trained Language Model for Classical Chinese (Literary Chinese)

Results 7 guwenbert issues
Sort by recently updated
recently updated
newest added

你好,我在调用你的guwenbert-tf的时候 会给我报错 如图 ![795c7cddecea5de7d833f6b7a61fd60](https://user-images.githubusercontent.com/82568786/189468244-c3375e58-3f5f-4363-b977-8a802adb9f86.jpg) 但是我用roberta的时候并不会

从Hugging Face使用了guwenbert,但是tokenization的结果仅仅是把一个句子分成一个个中文字符。想了解一下这是正常的吗。谢谢! ``` from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('ethanyt/guwenbert-base') text = '贪生养命事皆同,独坐闲居意颇慵。入夏驱驰巢树鹊,经春劳役探花蜂。石炉香尽寒灰薄,铁磬声微古锈浓。寂寂虚怀无一念,任从苍藓没行踪。' tokens = tokenizer.tokenize(text) ids = tokenizer.convert_tokens_to_ids(tokens) print(tokens) print(ids) ``` 结果: ``` `['贪', '生', '养', '命', '事', '皆',...

在做红楼梦对话的情感分析的时候找到了您的文章,想问一下,您这个项目在分词时有没有进行去停用词处理,如果用到了,方便参考一下您的去停用词表嘛。(本人纯小白,刚上手nlp方向,有较多疑惑,望您多包涵)

作者您好,真切的希望可以分享一下如何调用guwenbert实现对[MASK]预测的代码,我进行了一些尝试,但是输出的是随机的文字,而不是正确预测后的文字。万分感谢您。

您好,我想请教一下如果输入是一段很长的很长的古文(大于512),该如何处理序列呢

作者您好,我想请问一下如何使用这个模型来进行断句。