Weitang Liu
Weitang Liu
直接使用transformers包里面的就行了 ,将model加载的替换成该目录就行了
@Daemon-ser 日志发下看看
@Daemon-ser 模型代码文件是当前最新的吗?晚点我在调试下
@yuanjun1991 hi,in file "/pyernie/io/dataset.py", line 5 , changed to `from ..model.ernie.tokenization import BertTokenizer`
@Duanexiao 您好,我使用的是THUCNews数据中的一个子集(百度可以找到的,回头我上传下),该数据集比较小,所以很适合调试一个算法.。然后在转移到实际项目数据集中。
@Duanexiao 当前数据是multi-class,multi-label使用的是kaggke的toxic数据集,如https://github.com/lonePatient/Bert-Multi-Label-Text-Classification
@sunyh214 这个数据集很简单 其实就是每一行 “ label context“” 格式
@sunyh214 内存满了,或者进程满了,估计你使用cpu时限制下进程数或者内存吧.
@wzjj98 如果文本长度超过512的话,一般看你的具体任务了,如果是简单的分类任务的话,直接进行截断,可以截头+截尾 或者 截头+截中,这个需要进行实验. 如果是序列任务的话,一般而言使用窗口进行处理 根据窗口大小进行平移.
默认加的是判别器部分, 预训练时没有使用NSP,但是预处理部分直接使用的bert的,所以包含了NSP,但是在模型训练部分没有使用,现在huggingface已经支持了,建议使用huggingface(中文版同样适用),个人版本主要是当时huggingface还没出,自己转换的。