cxyccc comments

Results 6 comments of


                                            cxyccc

对中英文混合的文本分类

> 对中英文混合的文本分类（主要是中午，夹杂一些英文关键词，如：我喜欢用TensorFlow框架进行机器学习任务。），encode文本的时候有以下问题，请教下： > > 1. 当前任务，推荐是使用提供多语言版本模型还是使用chinese版本模型？ > 2. 中英文文本的token切分是char-level还是word-level，具体机制是什么？自己尝试的例子出现： > [['[CLS]', 'hell', '##o', 'world', '!', '[SEP]'], > ['[CLS]', '我', '在', '吃', '饭', '[SEP]']] > 3. 部分英文词汇属于重要的关键词，当前属于UNK，不能丢弃，请问该项目支持加自定义的词汇么？您好！请问您后来是怎么解决中英文混合的问题呢？谢谢！

关于预训练

> 我们的模型就是预训练出来的，你跑上面的language model pretrain有什么问题呢，可以发下错误截图。请问在run_mlm.py的预训练过程中，是要将 `tokenizer = AutoTokenizer.from_pretrained(model_args.model_name_or_path, **tokenizer_kwargs)` 和 `model = AutoModelForMaskedLM.from_pretrained( model_args.model_name_or_path, from_tf=bool(".ckpt" in model_args.model_name_or_path), config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, use_auth_token=True if model_args.use_auth_token else None, )` 分别替换为 `tokenizer = BertMaskDataset(vocab_file,...

Error when trying to run harvest.py

I have the same problem when I try to run harvest.py: Cannot run twarc-archive.py F:\twarc\twarc-report-master>python ./harvest.py projects/test C:\Program Files\MySQL\MySQL Server 8.0\bin\twarc-archive.py C:\Program Files (x86)\Common Files\Oracle\Java\javapath\twarc-archive.py C:\Program Files (x86)\Intel\iCLS Client\twarc-archive.py C:\Program...

cxyccc

对中英文混合的文本分类

关于预训练

Error when trying to run harvest.py

How to do a semi-supervised learning?

How to do a semi-supervised learning?

about reproducing the paper