kepei1106 comments

Results 9 comments of


                                            kepei1106

计算图大作业相关问题

1. 没有多步计算的表达式 2. 不会出现这种情况 3. 按c++的变量名命名规则来处理 4. 保证由恰好一个空格隔开 5. 不会

pretrain部分缺少modeling_bert.py文件

您好，预训练使用的modeling_bert.py已加入至仓库

您好。数据整理成raw_data/sent/imdb下的格式，然后运行preprocess/prep_sent.py即可，多分类不需要改代码。 Fine-tune的时候需要改一下代码，因为我的imdb是2分类，你可以直接修改我的imdb数据处理类代码，或者可以仿照着自己写一个。具体参考finetune/sent_data_utils_sentilr.py中的line 143-line 169，主要是改get_labels函数中的类别标签集合。

关于数据预处理部分问题

请问您在我提供的raw_data数据上能跑通吗？我这边跑我提供的raw_data数据是没问题的。您提供的traceback看起来像是sentence transformers编码句子的时候内部出现了问题： File "prep_sent.py", line 117, in process_text corpus_embedding = model.encode(sent_list_str, batch_size=64) 我猜测可能是sentence transformers和huggingface transformers的版本不匹配导致的，我的预处理环境如下： transformers (huggingface) 2.3.0 sentence transformers 0.2.6 建议您先检查版本是否对应，然后再根据traceback信息进行debug。

关于数据预处理部分问题

sentence transformers 0.2.6的requirements.txt里写的是transformers==2.3.0，至少我下载的这版是这样，使用的时候也没有因为不兼容而报错。包稍后发到您的邮箱。您最后提到的这个问题： FileNotFoundError: [Errno 2] No such file or directory: 'sentence-transformers/bert-base-nli-mean-tokens/modules.json' 原因是您没有下载sentence transformers的模型bert-base-nli-mean-tokens，或者下载后读取路径设置有误。我的代码里是按我设置的路径写的，您需要改为您自己的路径。

kepei1106

计算图大作业相关问题

pretrain部分缺少modeling_bert.py文件

关于数据预处理部分问题

关于数据预处理部分问题

关于数据预处理部分问题

Pretraining code of Label-aware MLM

支持中文吗

fine tune on a new dataset

about stopword_utf8 and functionword_utf8