text_scalpel
text_scalpel copied to clipboard
中文分词还是分字
我看你直接按字切了,中文不是应该按词切的吗?
我做中文任务一般都是用字的,业内也大多如此。因为分词的准确率较低,会产生级联误差。但是听说有些大厂也经常用分词的,可能是人家基于自己场景下大量语料定制的分词器吧。
我说业内大多如此 1.BERT,GPT在中文上都是用字粒度的 2.身边的同事也都用字粒度