Zhongli Li issues

Results 1 issues of


                                            Zhongli Li

统一回复一些复现上的问题

1. 首先不要装官方的transformers库，因为我们魔改过代码，实验前请**一定**要`pip install --editable .`； 2. ACL anthology的supplementary matrrial里也有我们开源的代码和模型，也有README讲解怎么评测； 3. 模型训练过程中，虽然有每1000 step保存一次模型，但报的指标仍然是训练结束后最终的模型（直接取**最后一个checkpoint**，没用test set去挑）。论文中讲到的每个实验细节均是真实的。另外，我们有持续关注该任务，intern搞baseline时有对ReaLiSe在V100 (以前是P100) 上用相同的脚本进行重新实验，也能复现出 detection 79 F1， correction ~78 F1的指标结果，[并进一步提升了ReaLiSe ](https://arxiv.org/pdf/2203.00991.pdf)； 4. 关于标点符号的问题，预处理是有的，另外一些中文标点会被识别为UNK，为此我们修改了模型的vocab.txt（具体看google drive OR supplementary） 5. 拼音编码器的预训练语料和fine-tune数据一样，只是objective不同。拼音和图像encoder的预训练模型是根据下游任务指标去挑的。