Violettttee comments

Results 16 comments of


                                            Violettttee

ner_seq.py", line 146, in convert_examples_to_features assert len(label_ids) == max_seq_length AssertionError

> > 有一些字符像‘’ 比如 x  x x 0 0 x 无法tokenize 这怎么处理 > > 这个倒还好，比如表情之类的评论可以直接删除，但我这边出现的情况是英文字符全部为[unk]该怎么办啊？您好，您现在解决这个问题了吗？可能是这个模型是针对中文的，但是我现在不太清楚在哪解决英文字符训练的问题。

您好，我想知道如何利用训练结果去预测新数据

> 把要预测的文章改成BIOS格式，然后把datasets/cner/test.char.bmes替换成你的数据（如果已经跑过的话记得把缓存删掉）。在运行脚本里加一个--do_predict选项运行。最后输出的结果在outputs/cner_output/bert/test_prediction.json里面，每句话一行 > > ~（似乎模型会忽略第一句话，不知道为什么，研究了半天）~ 请问文章改成bios格式是指训练集那样的数据格式吗？不能直接拿原始文章当作输入吗？还是我对BIOS格式的理解不对？（希望能解答一下，我是小白。）

您好，我想知道如何利用训练结果去预测新数据

> > > 把要预测的文章改成BIOS格式，然后把datasets/cner/test.char.bmes替换成你的数据（如果已经跑过的话记得把缓存删掉）。在运行脚本里加一个--do_predict选项运行。最后输出的结果在outputs/cner_output/bert/test_prediction.json里面，每句话一行 > > > ~（似乎模型会忽略第一句话，不知道为什么，研究了半天）~ > > > > > > 请问文章改成bios格式是指训练集那样的数据格式吗？不能直接拿原始文章当作输入吗？还是我对BIOS格式的理解不对？（希望能解答一下，我是小白。） > > 因为这部分是属于测试集，因此需要的是有监督的数据进行评估，test文件也需要标志的原因。如果我要直接预测，在test.char.bmes中不做bios标注是否可以？

Violettttee

ner_seq.py", line 146, in convert_examples_to_features assert len(label_ids) == max_seq_length AssertionError

您好，我想知道如何利用训练结果去预测新数据

您好，我想知道如何利用训练结果去预测新数据

如果我需要添加或修改标签的话，需要在哪些地方进行操作？

如果我需要添加或修改标签的话，需要在哪些地方进行操作？

自定义数据集训练的话，是不是只需要把数据集做成cluener的样子，放在dataset/cluener文件就可以了，需不需要为自己的数据集重写processor？

whats normallly configured config?

whats normallly configured config?

[Bug]:Question about logprobs output being 0.0 when using `vllm` sampling params

关于cot