Jason Zhang
Jason Zhang
您好!我想请问下ner任务上在构建char2id的字典映射时,这个除了使用训练集的语料构建,是否可以额外补充预训练char向量中的char到上面的char2id里面?正确的构建方法是什么呢?
您好!我在clone代码按照步骤运行的时候,报了代码溢出的错误,截图如下,请教下该如何让解决呢,非常感谢: 
loss函数
非常好的工作! 有个疑问,请问假设最后构建出来矩阵为:[batch_size, seq_lenth, seq_lenth, num_labels],是否考虑过使用多标签分类的loss来优化呢?
请问选择使用transformer当作encoder的时候,在输入的时候为什么没有做Mask操作呢?另外想问下做mask和不做mask对ner的影响是多大呢?
hi~yunfan: 请教一个问题, 训练时使用instance-loss 和cluster-loss,在推理的时候如果直接采用k-means的效果会比使用本文的cluster-head进行推理的效果相差很大吗?
 这个seg_feature我看在构造的时候是BIES对应id是[1,2,3,0]其长度是4,但是你在初始化的时候为什么选择初始化的矩阵是(vocab_size,seg_dim)也就是(4994*20)的矩阵,不应该是4*20的矩阵吗?另外请教下这个feature添加的参考源码地址?非常感谢🙏
非常感谢楼主开源代码!我换了自己的数据集跑代码的时候出现这个警告,尝试解决了很多方案仍没有解决,来求助您是否见过这个警告?寻求解决方案感谢🙏 Warning: masked_fill_ received a mask with dtype torch.uint8, this behavior is now deprecated,please use a mask with dtype torch.bool instead. (masked_fill__cuda at /opt/conda/conda-bld/pytorch_1579022060824/work/aten/src/ATen/native/cuda/LegacyDefinitions.cpp:19) 
请教
您好!非常好的开源复现工作! 我想问一下,我直接跑这份代码,分别测试了msra和resume两份数据集,参数使用的train.sh,仅对应数据集改变了epoch数量,跑出来指标都比较低,msra(f1=60左右)和resume(f1=78),请问有可能是什么原因呢?
bug请教
感谢开源非常好的工作! 我使用pytorch==1.7.1,两块V100跑这份代码,参数完全按照papers里面的设置,跑后的错误提示应该是分布式的错误,尝试解决没有解决该问题,特来请教!log日志如下: Namespace(batch_size=2, bert_output_size=768, bert_path='/home/data/bert-base-chinese', dev_path='../data/dev.json', device_name='cuda', dropout_rate=0.2, epoch_nums=60, eval_batch_size=2, ft_lr=2e-05, handle_abbr=True, local_rank=0, log_path='../logs/', lower=True, lr=0.0005, max_input_lens=512, max_seq_lens=725, max_utter_nums=42, mode='train', num_heads=12, offset=256, optimal_model_path='./model/best.pkl', output_path='../model/', preds_output_path='./results.json', rel_nums=36, report_every_batch=50, rule_nums=24, save_dir='../model/', seed=0,...