Chinese_Coreference_Resolution
Chinese_Coreference_Resolution copied to clipboard
基于SpanBert的中文指代消解,pytorch实现
博主您好,您给的128的数据很正常,但是我用这个代码(https://github.com/mandarjoshi90/coref)处理v4_gold_conll数据得到的jsonlines文件里面很多UNK。您那边256的数据也有很多UNK嘛
关于生僻字问题
您好,我尝试了一下您的项目,发现有生僻字没在vocab.txt里面时,会报Keyerror,而尝试使用add_tokens发现没有这个方法,有什么办法可以解决吗
数据集处理
请问该怎么把我自己的txt数据集处理成项目里的这种格式呢? @troublemaker-r
跑训练的时候报错
请问大佬对span嵌入的时候,span的额外特征包括use_segment_len、 model_heads,其中model_heads表示什么意思?
什么时候 "Found too many repeated mentions (> 10) in the response, so refusing to score" 会出现呢? 改动fnn-size有用吗?之前为了足够多的现存就把fnn-size调低了。
不知有没有人遇到过这个问题,在ubuntu上跑的好好的,在一台windows上也跑得好好的,文件open时加的编码是utf-8,在另一台国外电脑上就报这个错 
我使用了一块RTX4090分别训练了中文和英文的OntoNote数据,得到下面的结果 中文:RoBERTa_zh_L12_PyTorch  英文:spanbert_base  使用参数如下: `# Computation limits. max_top_antecedents = 50 max_training_sentences = 11 top_span_ratio = 0.4 max_num_speakers = 20 max_segment_len = 128 # Learning bert_learning_rate = 1e-05 task_learning_rate...
看到不少人问这个问题,在下亲自实践,添加个issue吧 1. 打开这个文件目录,做如下设置  2. 我还执行了`sudo chmod 777 ./scorer.pl`不知是否是必要的,但是两步设置完跑通了  附:windows下没试过,想来更改读写权限,是一样的道理