lzf1024
lzf1024
> 很抱歉打扰您,但我无法在 en_conll2003 数据集上复制相同的分数。 我只复制到**92.12**,比你的**低 1.4 。** 我检查了我的数据集并确保标签与[conll2003 annotate software](https://www.clips.uantwerpen.be/conll2003/ner.tgz)相同。所以我认为我的 en_conll2003 是完整的。这个数据集是从[这里](https://github.com/yuanxiaosc/BERT-for-Sequence-Labeling-and-Text-Classification/tree/master/data/CoNLL2003_NER)下载的。 然后我编写了一个名为“ **data_process.py”(python3)**的脚本来将 conllx 格式转换为您的 dict 格式。我使用' **-DOCSTART- -X- -X- O'**来分割它。**我认为这个脚本没有问题,因为extract_feature.sh**和**evaluate.py**没有错误,我还检查了处理后的数据集。所以**我认为您的数据集和我的数据集之间的差异非常小**。 > > **环境:** > > ``` > cuda...
> 您能发一份中文示例数据给我吗,我想用自己的中文数据做实验,但是不清楚具体的数据格式,感谢
> 这个邮箱就是我的邮箱------------------ 原始邮件 ------------------ 发件人: "Juntao Yu"
> 我没有用中文的数据做实验,不过格式是一样的只是把英文换成中文而已 > […](#) > On 3 Sep 2022, at 03:52, lzf1024 ***@***.***> wrote: 这个邮箱就是我的邮箱------------------ 原始邮件 ------------------ 发件人: ***@***.***> 发送时间: 2021年2月7日(星期天) 晚上7:19 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [juntaoy/biaffine-ner]...
> 我看了苏神的一篇文章里面讲了cln,会随机初始化两个权重给ln,应该是这两个权重值的关系,想知道能怎么改进。。。 https://kexue.fm/archives/7124
> 我也看了,这里的实现两个线上变换初始化的权重给的是全0 torch.nn.init.constant_(self.beta_dense.weight, 0) torch.nn.init.constant_(self.gamma_dense.weight, 0) 我把这个权重初始化屏蔽了,还是同样的随机种子不起作用(苏神的博客说多层的不能为0,我就采用torch默认的权重初始化试试看) 我也就不知道怎么改进了 明白了,那就不是初始化权重的问题,是初始化向量的问题,就是保证这个cln的每次初始化都一致吧
> cln = word_reps.unsqueeze(2).repeat(1,1,word_reps.shape[1],1),这句话的repeat()不太明白,我看pytorch的repeat()方法只有三个参数,这个地方四个参数就代表4个维度吧;然后cln的输入应该是两个张量,不太明天怎么传入了两个张量。。。
> 从报错结果来看应该是输入超过了BERT的512长度限制 对,我发现了一个超长的句子,删掉就好了,但是自己的数据集训练完全没有效果,想问一下需要怎么处理数据集。。。。
句子的长度尽量差不多,然后每个句子中的实体不要太多,这样处理比较好吗; 还有一个问题就是,我的实体名字有中文也有英文,这样应该也会对训练造成影响吧?
> 明白了,需要不同处理方式,那我还是把英文的实体先去掉。。。。