Chinese_Coreference_Resolution icon indicating copy to clipboard operation
Chinese_Coreference_Resolution copied to clipboard

基于SpanBert的中文指代消解,pytorch实现

Results 23 Chinese_Coreference_Resolution issues
Sort by recently updated
recently updated
newest added

博主您好,您给的128的数据很正常,但是我用这个代码(https://github.com/mandarjoshi90/coref)处理v4_gold_conll数据得到的jsonlines文件里面很多UNK。您那边256的数据也有很多UNK嘛

您好,我尝试了一下您的项目,发现有生僻字没在vocab.txt里面时,会报Keyerror,而尝试使用add_tokens发现没有这个方法,有什么办法可以解决吗

请问该怎么把我自己的txt数据集处理成项目里的这种格式呢? @troublemaker-r

请问大佬对span嵌入的时候,span的额外特征包括use_segment_len、 model_heads,其中model_heads表示什么意思?

什么时候 "Found too many repeated mentions (> 10) in the response, so refusing to score" 会出现呢? 改动fnn-size有用吗?之前为了足够多的现存就把fnn-size调低了。

不知有没有人遇到过这个问题,在ubuntu上跑的好好的,在一台windows上也跑得好好的,文件open时加的编码是utf-8,在另一台国外电脑上就报这个错 ![image](https://user-images.githubusercontent.com/69768456/228180035-20d0f7f9-a67b-4f3f-8fca-0a86ed507f12.png)

我使用了一块RTX4090分别训练了中文和英文的OntoNote数据,得到下面的结果 中文:RoBERTa_zh_L12_PyTorch ![image](https://user-images.githubusercontent.com/69768456/228712981-f4b4357d-ba0f-4101-aaa3-74e44438d219.png) 英文:spanbert_base ![image](https://user-images.githubusercontent.com/69768456/228712779-6616aaf4-29b8-46ff-99c6-a1cd9f257f1a.png) 使用参数如下: `# Computation limits. max_top_antecedents = 50 max_training_sentences = 11 top_span_ratio = 0.4 max_num_speakers = 20 max_segment_len = 128 # Learning bert_learning_rate = 1e-05 task_learning_rate...

看到不少人问这个问题,在下亲自实践,添加个issue吧 1. 打开这个文件目录,做如下设置 ![image](https://user-images.githubusercontent.com/69768456/227858961-7a118e75-95a3-48b2-a936-bed9a9b3739c.png) 2. 我还执行了`sudo chmod 777 ./scorer.pl`不知是否是必要的,但是两步设置完跑通了 ![image](https://user-images.githubusercontent.com/69768456/227859367-4908f780-9a02-4400-ab4c-21d72e67d367.png) 附:windows下没试过,想来更改读写权限,是一样的道理