CDial-GPT icon indicating copy to clipboard operation
CDial-GPT copied to clipboard

embedding average 计算中ground truth中存在英文,英文分词是如何处理的。

Open allyouneeds opened this issue 2 years ago • 2 comments

你还根据https://github.com/thu-coai/CDial-GPT/issues/53 和https://github.com/thu-coai/CDial-GPT/issues/55 两个issue的指导复现embedding average的计算,发现ground truth中有英文语句,中文分词方法不太适用英文的分词,请问你们是怎么处理的呢?直接丢弃还是适用英文分词方法对英文的ground truth进行分词。例如在STC_test.json中存在“"I f o n l y w e c o u l d s e e t h e w o r l d i n t h e e y e s o f a b a b y"”,这种是如何处理的呢 image

allyouneeds avatar Feb 08 '22 01:02 allyouneeds

实现中应该是把每个英文字母当作是一个token来处理

silverriver avatar Feb 08 '22 01:02 silverriver

感谢回复,中文和英文分词使用相同的分词方式吗?英文每个字母是一个token,中文是每个字,当做一个token?例如下图中的两种方式使用哪种呢? image

allyouneeds avatar Feb 08 '22 08:02 allyouneeds