FunASR icon indicating copy to clipboard operation
FunASR copied to clipboard

paraformer-large-vocab8404,给定seg_dict中,英文为bpe序列,对于不在seg_dict中的英文单词如何生成子词序列,有没有bpe.model?

Open yafuilee opened this issue 8 months ago • 1 comments

paraformer-large-vocab8404,给定seg_dict中英文为bpe序列,对于不在seg_dict中的英文单词如何生成子词序列,有没有bpe.model?

seg_dict部分:

<unk>	<unk>
.	. 
@	@ 
aaaaa	a@@ a@@ a@@ a@@ a
aaanthor	a@@ a@@ an@@ th@@ or
aabar	a@@ ab@@ ar
aace	a@@ ace
aachen	a@@ ach@@ en
aad	a@@ ad
aaden	a@@ ad@@ en
aadmi	a@@ ad@@ m@@ i
aaec's	a@@ a@@ e@@ c@@ 's
aaes	a@@ a@@ es
aaf	a@@ a@@ f
aafa	a@@ af@@ a
aafes	a@@ af@@ es
aafia	a@@ a@@ fi@@ a

yafuilee avatar Feb 27 '25 12:02 yafuilee