clip-as-service
clip-as-service copied to clipboard
对中英文混合的文本分类
对中英文混合的文本分类(主要是中午,夹杂一些英文关键词,如:我喜欢用TensorFlow框架进行机器学习任务。),encode文本的时候有以下问题,请教下:
- 当前任务,推荐是使用提供多语言版本模型还是使用chinese版本模型?
- 中英文文本的token切分是char-level还是word-level,具体机制是什么?自己尝试的例子出现: [['[CLS]', 'hell', '##o', 'world', '!', '[SEP]'], ['[CLS]', '我', '在', '吃', '饭', '[SEP]']]
- 部分英文词汇属于重要的关键词,当前属于UNK,不能丢弃,请问该项目支持加自定义的词汇么?
你好,请问您后来是怎么解决中英文混合的问题的呢?
对中英文混合的文本分类(主要是中午,夹杂一些英文关键词,如:我喜欢用TensorFlow框架进行机器学习任务。),encode文本的时候有以下问题,请教下:
- 当前任务,推荐是使用提供多语言版本模型还是使用chinese版本模型?
- 中英文文本的token切分是char-level还是word-level,具体机制是什么?自己尝试的例子出现: [['[CLS]', 'hell', '##o', 'world', '!', '[SEP]'], ['[CLS]', '我', '在', '吃', '饭', '[SEP]']]
- 部分英文词汇属于重要的关键词,当前属于UNK,不能丢弃,请问该项目支持加自定义的词汇么?
对中英文混合的文本分类(主要是中午,夹杂一些英文关键词,如:我喜欢用TensorFlow框架进行机器学习任务。),encode文本的时候有以下问题,请教下:
- 当前任务,推荐是使用提供多语言版本模型还是使用chinese版本模型?
- 中英文文本的token切分是char-level还是word-level,具体机制是什么?自己尝试的例子出现: [['[CLS]', 'hell', '##o', 'world', '!', '[SEP]'], ['[CLS]', '我', '在', '吃', '饭', '[SEP]']]
- 部分英文词汇属于重要的关键词,当前属于UNK,不能丢弃,请问该项目支持加自定义的词汇么?
您好!请问您后来是怎么解决中英文混合的问题呢?谢谢!