Stanley comments

Results 9 comments of


                                            Stanley

自己重新训练报错

> 最开始直接跑您的数据集是没问题的所以我怀疑是我的数据集的问题我的数据集是.data格式的但是标注方式和您是一样的我是通过submittext先将其转化为txt 然后用代码转为csv 再将多出来的双引号和多出来的行去掉得到最后的数据集这样会有问题么请问您有没有好的方式将.data转化为.csv文件呢数据集按照要求放进去后，token2id和label2id都是自己生成的需要确保不是自己改的 .data和.csv 都可以用文本编辑器打开确保数据集左边的一列token和右边的一列对用的标注中间的空格或者/t已经配置到配置文件了

代码存在一定的问题

希望作者大大看到能够解决下。

训练TextCNN分类器时使用word2vec词向量做特征增强，会出现以下错误。该错误发生在我重新训练了一次word2vec向量之后

> Traceback (most recent call last): File "F:/Citation/code/ww/text_classifier_tf2-master/main.py", line 55, in train.train() File "F:\Citation\code\ww\text_classifier_tf2-master\engines\train.py", line 127, in train train_dataset = self.data_manager.get_dataset(train_df) File "F:\Citation\code\ww\text_classifier_tf2-master\engines\data.py", line 252, in get_dataset X, y =...

训练TextCNN分类器时使用word2vec词向量做特征增强，会出现以下错误。该错误发生在我重新训练了一次word2vec向量之后

tensorflow.python.framework.errors_impl.InvalidArgumentError: indices[24,95] = -7 is not in [0, 100)出现这个问题应该怎么办

please offer more detail about your issue.

如何进行持久爬取呢

将爬取的url的md5记录在redis里面，每次重启爬取的时候做一次碰撞

无法生成lab2id和token2id两个文件

> ![0001](https://private-user-images.githubusercontent.com/109461737/341918316-04964470-3feb-4299-84f2-c127f621d2b4.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MjUyNTc0MTYsIm5iZiI6MTcyNTI1NzExNiwicGF0aCI6Ii8xMDk0NjE3MzcvMzQxOTE4MzE2LTA0OTY0NDcwLTNmZWItNDI5OS04NGYyLWMxMjdmNjIxZDJiNC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwOTAyJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDkwMlQwNjA1MTZaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT1kZTU5NmM5YTAwOGU1MTM3NTQ2YjdhYjliN2Q4M2IxM2MzNDMxNDMzMTFiMDYwZTZlMjgxZjVlODM0YzNmYWU5JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.KMt02N5GJVxXw7aaXBRRGAo6zTZL6x059SP4vPLvbjc) 在训练时使用预训练模型就不会生成token2id文件，那么预测时该使用哪个词表呢预训练模型本身自己带有tokenizer，不需要生成token2id文件了。

指标计算方式

> 和作者确认一个事情：在计算F1和准召指标时，是不是只用了【实体词】完全匹配即可，没有考虑【实体词，开始位置，结束位置】三者完全匹配，代码位置在train.py 中的 validate(self, model, dev_loader)方法中 > > ''' for text, logit, entity_result in zip(texts, logits, entity_results): p_results, p_results_detailed = self.data_manager.extract_entities(text, logit) for class_id, entity_set in entity_result.items(): p_entity_set = p_results.get(class_id)...

start evaluate engines...之后报错

> 问题1、2、3已经解决，问题4不知道咋弄看看能不能再改大一点batch_size？