Stanley

Results 9 comments of Stanley

> 最开始直接跑您的数据集是没问题的 所以我怀疑是我的数据集的问题 我的数据集是.data格式的 但是标注方式和您是一样的 我是通过submittext先将其转化为txt 然后用代码转为csv 再将多出来的双引号和多出来的行去掉 得到最后的数据集 这样会有问题么 请问您有没有好的方式将.data转化为.csv文件呢 数据集按照要求放进去后,token2id和label2id都是自己生成的 需要确保不是自己改的 .data和.csv 都可以用文本编辑器打开 确保数据集左边的一列token和右边的一列对用的标注中间的空格或者/t已经配置到配置文件了

希望作者大大看到能够解决下。

> Traceback (most recent call last): File "F:/Citation/code/ww/text_classifier_tf2-master/main.py", line 55, in train.train() File "F:\Citation\code\ww\text_classifier_tf2-master\engines\train.py", line 127, in train train_dataset = self.data_manager.get_dataset(train_df) File "F:\Citation\code\ww\text_classifier_tf2-master\engines\data.py", line 252, in get_dataset X, y =...

> Traceback (most recent call last): File "F:/Citation/code/ww/text_classifier_tf2-master/main.py", line 55, in train.train() File "F:\Citation\code\ww\text_classifier_tf2-master\engines\train.py", line 127, in train train_dataset = self.data_manager.get_dataset(train_df) File "F:\Citation\code\ww\text_classifier_tf2-master\engines\data.py", line 252, in get_dataset X, y =...

将爬取的url的md5记录在redis里面,每次重启爬取的时候做一次碰撞

> ![0001](https://private-user-images.githubusercontent.com/109461737/341918316-04964470-3feb-4299-84f2-c127f621d2b4.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MjUyNTc0MTYsIm5iZiI6MTcyNTI1NzExNiwicGF0aCI6Ii8xMDk0NjE3MzcvMzQxOTE4MzE2LTA0OTY0NDcwLTNmZWItNDI5OS04NGYyLWMxMjdmNjIxZDJiNC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwOTAyJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDkwMlQwNjA1MTZaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT1kZTU5NmM5YTAwOGU1MTM3NTQ2YjdhYjliN2Q4M2IxM2MzNDMxNDMzMTFiMDYwZTZlMjgxZjVlODM0YzNmYWU5JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.KMt02N5GJVxXw7aaXBRRGAo6zTZL6x059SP4vPLvbjc) 在训练时使用预训练模型就不会生成token2id文件,那么预测时该使用哪个词表呢 预训练模型本身自己带有tokenizer,不需要生成token2id文件了。

> 和作者确认一个事情:在计算F1和准召指标时,是不是只用了【实体词】完全匹配即可,没有考虑【实体词,开始位置,结束位置】三者完全匹配,代码位置在train.py 中的 validate(self, model, dev_loader)方法中 > > ''' for text, logit, entity_result in zip(texts, logits, entity_results): p_results, p_results_detailed = self.data_manager.extract_entities(text, logit) for class_id, entity_set in entity_result.items(): p_entity_set = p_results.get(class_id)...

> 问题1、2、3已经解决,问题4不知道咋弄 看看能不能再改大一点batch_size?