kepei1106
kepei1106
1. 没有多步计算的表达式 2. 不会出现这种情况 3. 按c++的变量名命名规则来处理 4. 保证由恰好一个空格隔开 5. 不会
您好,预训练使用的modeling_bert.py已加入至仓库
您好。数据整理成raw_data/sent/imdb下的格式,然后运行preprocess/prep_sent.py即可,多分类不需要改代码。 Fine-tune的时候需要改一下代码,因为我的imdb是2分类,你可以直接修改我的imdb数据处理类代码,或者可以仿照着自己写一个。具体参考finetune/sent_data_utils_sentilr.py中的line 143-line 169,主要是改get_labels函数中的类别标签集合。
请问您在我提供的raw_data数据上能跑通吗?我这边跑我提供的raw_data数据是没问题的。您提供的traceback看起来像是sentence transformers编码句子的时候内部出现了问题: File "prep_sent.py", line 117, in process_text corpus_embedding = model.encode(sent_list_str, batch_size=64) 我猜测可能是sentence transformers和huggingface transformers的版本不匹配导致的,我的预处理环境如下: transformers (huggingface) 2.3.0 sentence transformers 0.2.6 建议您先检查版本是否对应,然后再根据traceback信息进行debug。
sentence transformers 0.2.6的requirements.txt里写的是transformers==2.3.0,至少我下载的这版是这样,使用的时候也没有因为不兼容而报错。包稍后发到您的邮箱。 您最后提到的这个问题: FileNotFoundError: [Errno 2] No such file or directory: 'sentence-transformers/bert-base-nli-mean-tokens/modules.json' 原因是您没有下载sentence transformers的模型bert-base-nli-mean-tokens,或者下载后读取路径设置有误。我的代码里是按我设置的路径写的,您需要改为您自己的路径。
Hi, sorry for the late reply. We have released the pre-training codes. Feel free to contact us if you have other questions.
您好,目前暂不支持中文,因为中文领域缺少含情感标注的大规模预训练语料(类似英文的Yelp Dataset Challenge)和语言学知识的资源(类似英文的SentiWordNet)。
Hi, I suggest that you can follow these steps to adapt our codes to your own dataset: 1) Prepare your own dataset in the same format as our provided raw...
I have uploaded these two files to the dataset link. The wordseg_python is an external tool for word segmentation. You can ignore it or use your own tool if necessary.