clip-as-service icon indicating copy to clipboard operation
clip-as-service copied to clipboard

对中英文混合的文本分类

Open c0derm4n opened this issue 5 years ago • 2 comments

对中英文混合的文本分类(主要是中午,夹杂一些英文关键词,如:我喜欢用TensorFlow框架进行机器学习任务。),encode文本的时候有以下问题,请教下:

  1. 当前任务,推荐是使用提供多语言版本模型还是使用chinese版本模型?
  2. 中英文文本的token切分是char-level还是word-level,具体机制是什么?自己尝试的例子出现: [['[CLS]', 'hell', '##o', 'world', '!', '[SEP]'], ['[CLS]', '我', '在', '吃', '饭', '[SEP]']]
  3. 部分英文词汇属于重要的关键词,当前属于UNK,不能丢弃,请问该项目支持加自定义的词汇么?

c0derm4n avatar Apr 12 '19 08:04 c0derm4n

你好,请问您后来是怎么解决中英文混合的问题的呢?

对中英文混合的文本分类(主要是中午,夹杂一些英文关键词,如:我喜欢用TensorFlow框架进行机器学习任务。),encode文本的时候有以下问题,请教下:

  1. 当前任务,推荐是使用提供多语言版本模型还是使用chinese版本模型?
  2. 中英文文本的token切分是char-level还是word-level,具体机制是什么?自己尝试的例子出现: [['[CLS]', 'hell', '##o', 'world', '!', '[SEP]'], ['[CLS]', '我', '在', '吃', '饭', '[SEP]']]
  3. 部分英文词汇属于重要的关键词,当前属于UNK,不能丢弃,请问该项目支持加自定义的词汇么?

jimmy-walker avatar Jul 24 '19 02:07 jimmy-walker

对中英文混合的文本分类(主要是中午,夹杂一些英文关键词,如:我喜欢用TensorFlow框架进行机器学习任务。),encode文本的时候有以下问题,请教下:

  1. 当前任务,推荐是使用提供多语言版本模型还是使用chinese版本模型?
  2. 中英文文本的token切分是char-level还是word-level,具体机制是什么?自己尝试的例子出现: [['[CLS]', 'hell', '##o', 'world', '!', '[SEP]'], ['[CLS]', '我', '在', '吃', '饭', '[SEP]']]
  3. 部分英文词汇属于重要的关键词,当前属于UNK,不能丢弃,请问该项目支持加自定义的词汇么?

您好!请问您后来是怎么解决中英文混合的问题呢?谢谢!

cxyccc avatar Oct 19 '21 03:10 cxyccc