Jingye Li comments

Results 26 comments of


                                            Jingye Li

Is it possible to run W2NER on CPU?

I have no idea what causes the issue because I've run W2NER on CPU and it worked when I modified all `.cuda()` to `.cpu()`. You can try to run W2NER...

用example时，torch.cat(label_result)出错

example只是为了展示数据格式，并没有在模型中运行过，可以改用readme中提供的数据集进行实验

关于随机种子不起作用的原因

感谢提醒，确实是CLN导致使随机种子失效，我们会进一步尝试解决这个问题

去掉CNN层遇到的一些小白问题,希望得到大佬的解答

用`conv_input_size`替换掉`config.conv_hid_size * len(config.dilation)`即可

数据集报错

从报错结果来看应该是输入超过了BERT的512长度限制

数据集报错

> > 从报错结果来看应该是输入超过了BERT的512长度限制 > > 对，我发现了一个超长的句子，删掉就好了，但是自己的数据集训练完全没有效果，想问一下需要怎么处理数据集。。。。是不是数据集和标签处理有问题呢

数据集报错

> 句子的长度尽量差不多，然后每个句子中的实体不要太多，这样处理比较好吗；还有一个问题就是，我的实体名字有中文也有英文，这样应该也会对训练造成影响吧? 中英文混杂的话需要处理好分词，中文数据集我采用的是字粒度，英文数据集采用的是词粒度，如果中英文混杂的话可能需要一些特殊处理

数据集报错

可以先尝试一下第二种方案，更容易实现一些。

模型训练中内存问题

你好，我们使用的配置文件就在`config`文件夹里，该模型因为需要在2维平面上进行卷积，因此显存占用是$n^2$的，输入文本越长占用越大。我们一般使用RTX3090(24G)或者V100(32G)进行训练。

模型句子输入长度问题

代码是根据batch中最长的sentence来补pad的，如果最长的句子为300，那么batch中其他的句子也会补pad到300的长度，这样做会节省计算时间。如果希望对数据的长度进行限制，需要在数据处理阶段对样本截断，也可以在`data_loader.py`中的`process_bert`函数中直接对数据进行处理。