cxyccc

Results 6 comments of cxyccc

> 对中英文混合的文本分类(主要是中午,夹杂一些英文关键词,如:我喜欢用TensorFlow框架进行机器学习任务。),encode文本的时候有以下问题,请教下: > > 1. 当前任务,推荐是使用提供多语言版本模型还是使用chinese版本模型? > 2. 中英文文本的token切分是char-level还是word-level,具体机制是什么?自己尝试的例子出现: > [['[CLS]', 'hell', '##o', 'world', '!', '[SEP]'], > ['[CLS]', '我', '在', '吃', '饭', '[SEP]']] > 3. 部分英文词汇属于重要的关键词,当前属于UNK,不能丢弃,请问该项目支持加自定义的词汇么? 您好!请问您后来是怎么解决中英文混合的问题呢?谢谢!

> 我们的模型就是预训练出来的,你跑上面的language model pretrain有什么问题呢,可以发下错误截图。 请问在run_mlm.py的预训练过程中,是要将 `tokenizer = AutoTokenizer.from_pretrained(model_args.model_name_or_path, **tokenizer_kwargs)` 和 `model = AutoModelForMaskedLM.from_pretrained( model_args.model_name_or_path, from_tf=bool(".ckpt" in model_args.model_name_or_path), config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, use_auth_token=True if model_args.use_auth_token else None, )` 分别替换为 `tokenizer = BertMaskDataset(vocab_file,...

I have the same problem when I try to run harvest.py: Cannot run twarc-archive.py F:\twarc\twarc-report-master>python ./harvest.py projects/test C:\Program Files\MySQL\MySQL Server 8.0\bin\twarc-archive.py C:\Program Files (x86)\Common Files\Oracle\Java\javapath\twarc-archive.py C:\Program Files (x86)\Intel\iCLS Client\twarc-archive.py C:\Program...

Thank you so much! As you mean, the input of the model is the features of all the data and a part of the labels, and the data corresponding to...

Thanks for your reply! So 'semi-supervised' means that the input of the model is the whole features instead of only the features of train set (which is usually used as...

> 我也遇到这个问题,但是我已经解决了; 我的pip包版本如下: torch 1.4.0 torch-cluster 1.5.2 torch-geometric 1.6.3 torch-scatter 2.0.3 torch-sparse 0.5.1 torch-spline-conv 1.2.0 torchvision 0.5.0 cuda version=10.0(使用conda直接安装的cudatootik) > > 希望可以帮到你 您好,请问您使用的python版本是什么呢?