Stanley
Stanley
> 最开始直接跑您的数据集是没问题的 所以我怀疑是我的数据集的问题 我的数据集是.data格式的 但是标注方式和您是一样的 我是通过submittext先将其转化为txt 然后用代码转为csv 再将多出来的双引号和多出来的行去掉 得到最后的数据集 这样会有问题么 请问您有没有好的方式将.data转化为.csv文件呢 数据集按照要求放进去后,token2id和label2id都是自己生成的 需要确保不是自己改的 .data和.csv 都可以用文本编辑器打开 确保数据集左边的一列token和右边的一列对用的标注中间的空格或者/t已经配置到配置文件了
希望作者大大看到能够解决下。
> Traceback (most recent call last): File "F:/Citation/code/ww/text_classifier_tf2-master/main.py", line 55, in train.train() File "F:\Citation\code\ww\text_classifier_tf2-master\engines\train.py", line 127, in train train_dataset = self.data_manager.get_dataset(train_df) File "F:\Citation\code\ww\text_classifier_tf2-master\engines\data.py", line 252, in get_dataset X, y =...
> Traceback (most recent call last): File "F:/Citation/code/ww/text_classifier_tf2-master/main.py", line 55, in train.train() File "F:\Citation\code\ww\text_classifier_tf2-master\engines\train.py", line 127, in train train_dataset = self.data_manager.get_dataset(train_df) File "F:\Citation\code\ww\text_classifier_tf2-master\engines\data.py", line 252, in get_dataset X, y =...
please offer more detail about your issue.
将爬取的url的md5记录在redis里面,每次重启爬取的时候做一次碰撞
>  在训练时使用预训练模型就不会生成token2id文件,那么预测时该使用哪个词表呢 预训练模型本身自己带有tokenizer,不需要生成token2id文件了。
> 和作者确认一个事情:在计算F1和准召指标时,是不是只用了【实体词】完全匹配即可,没有考虑【实体词,开始位置,结束位置】三者完全匹配,代码位置在train.py 中的 validate(self, model, dev_loader)方法中 > > ''' for text, logit, entity_result in zip(texts, logits, entity_results): p_results, p_results_detailed = self.data_manager.extract_entities(text, logit) for class_id, entity_set in entity_result.items(): p_entity_set = p_results.get(class_id)...
> 问题1、2、3已经解决,问题4不知道咋弄 看看能不能再改大一点batch_size?