Violettttee
Violettttee
> > 有一些字符像‘’ 比如 x x x 0 0 x 无法tokenize 这怎么处理 > > 这个倒还好,比如表情之类的评论可以直接删除,但我这边出现的情况是英文字符全部为[unk]该怎么办啊? 您好,您现在解决这个问题了吗?可能是这个模型是针对中文的,但是我现在不太清楚在哪解决英文字符训练的问题。
> 把要预测的文章改成BIOS格式,然后把datasets/cner/test.char.bmes替换成你的数据(如果已经跑过的话记得把缓存删掉)。在运行脚本里加一个--do_predict选项运行。最后输出的结果在outputs/cner_output/bert/test_prediction.json里面,每句话一行 > > ~(似乎模型会忽略第一句话,不知道为什么,研究了半天)~ 请问文章改成bios格式是指训练集那样的数据格式吗?不能直接拿原始文章当作输入吗?还是我对BIOS格式的理解不对?(希望能解答一下,我是小白。)
> > > 把要预测的文章改成BIOS格式,然后把datasets/cner/test.char.bmes替换成你的数据(如果已经跑过的话记得把缓存删掉)。在运行脚本里加一个--do_predict选项运行。最后输出的结果在outputs/cner_output/bert/test_prediction.json里面,每句话一行 > > > ~(似乎模型会忽略第一句话,不知道为什么,研究了半天)~ > > > > > > 请问文章改成bios格式是指训练集那样的数据格式吗?不能直接拿原始文章当作输入吗?还是我对BIOS格式的理解不对?(希望能解答一下,我是小白。) > > 因为这部分是属于测试集,因此需要的是有监督的数据进行评估,test文件也需要标志的原因。 如果我要直接预测,在test.char.bmes中不做bios标注是否可以?
我换成了另外一个模型,按理来说要修改的话修改ner_seq.py(你要用的模型对应的processors里面)的get_labels方法即可。
> 请问你知道在哪里操作了吗?我也遇到了·这个问题 我换成了另外一个模型,按理来说要修改的话修改ner_seq.py(你要用的模型对应的processors里面)的get_labels方法即可。
> 格式一样就不用重写processor吧, 我半年前在华为云modelart上训练过自己的数据, 格式一样直接用就行了 或者格式不一样的话可以试试写个脚本转化成一样的格式, 这样方便一点, 不用改processor 如果我的标签有所增加删减的话,在processor中需要添加我增加/删除的标签吗?
> book passages does the meaning of "baselines" means a model which has been trained on the train examples? and another question is that the total length of grammar_book.txt is...
excuse to ask another question, i read from the paper of gemini(https://arxiv.org/pdf/2403.05530),which says they use MTOB and mentions **three parts of data**,including **reference grammar, word list and parallel sentences**.I have...
> I have this issues too. My vllm version is 0.6.6.post1. it seems fixed in v 0.8 version
@bys0318 你好,收到~有一个小小的疑惑,我看第二次输出最终选择的时候,也有一个think step by step的prompt,但是昨天实际测试的时候发现第二次输出最终选择模型似乎不会再cot了,而是直接回复answer,这里和你们测试其他模型时遇到的情况是一样的吗?另外想请教下这种两次cot会比一次cot更好吗?(看了一下那部分相关的论文好像没有直接提到两次cot的方法,可以请教下出处吗。)