clip-as-service 对中英文混合的文本分类

对中英文混合的文本分类（主要是中午，夹杂一些英文关键词，如：我喜欢用TensorFlow框架进行机器学习任务。），encode文本的时候有以下问题，请教下：

当前任务，推荐是使用提供多语言版本模型还是使用chinese版本模型？
中英文文本的token切分是char-level还是word-level，具体机制是什么？自己尝试的例子出现： [['[CLS]', 'hell', '##o', 'world', '!', '[SEP]'], ['[CLS]', '我', '在', '吃', '饭', '[SEP]']]
部分英文词汇属于重要的关键词，当前属于UNK，不能丢弃，请问该项目支持加自定义的词汇么？

Apr 12 '19 08:04 c0derm4n

你好，请问您后来是怎么解决中英文混合的问题的呢？

对中英文混合的文本分类（主要是中午，夹杂一些英文关键词，如：我喜欢用TensorFlow框架进行机器学习任务。），encode文本的时候有以下问题，请教下：

当前任务，推荐是使用提供多语言版本模型还是使用chinese版本模型？

中英文文本的token切分是char-level还是word-level，具体机制是什么？自己尝试的例子出现： [['[CLS]', 'hell', '##o', 'world', '!', '[SEP]'], ['[CLS]', '我', '在', '吃', '饭', '[SEP]']]

部分英文词汇属于重要的关键词，当前属于UNK，不能丢弃，请问该项目支持加自定义的词汇么？

Jul 24 '19 02:07 jimmy-walker

对中英文混合的文本分类（主要是中午，夹杂一些英文关键词，如：我喜欢用TensorFlow框架进行机器学习任务。），encode文本的时候有以下问题，请教下：

当前任务，推荐是使用提供多语言版本模型还是使用chinese版本模型？

中英文文本的token切分是char-level还是word-level，具体机制是什么？自己尝试的例子出现： [['[CLS]', 'hell', '##o', 'world', '!', '[SEP]'], ['[CLS]', '我', '在', '吃', '饭', '[SEP]']]

部分英文词汇属于重要的关键词，当前属于UNK，不能丢弃，请问该项目支持加自定义的词汇么？

您好！请问您后来是怎么解决中英文混合的问题呢？谢谢！

Oct 19 '21 03:10 cxyccc

clip-as-service clip-as-service copied to clipboard

对中英文混合的文本分类

clip-as-service
clip-as-service copied to clipboard