Linxiao ZENG issues

Results 5 issues of


                                            Linxiao ZENG

Fix Bug in getting random line

Get random sentence for next sentence prediction task, random sentence should be get in random_file rather than original file to iterate.

space/none mode potentiel issue with case_markup

When using `case_markup` in `space`/`none` mode, unexpected behavior happens: ```python >>> pyonmttok.Tokenizer("none", case_markup=True).tokenize("你好世界，这是一个Test。") ... (['｟mrk_case_modifier_C｠', '你好世界，这是一个test。'], None) >>> pyonmttok.Tokenizer("none", case_markup=True).detokenize(['｟mrk_case_modifier_C｠', '你好世界，这是一个test。']) ... '你好世界，这是一个test。' ``` As you can see, `.detokenize` can...

enhancement

Linxiao ZENG

Fix Bug in getting random line

space/none mode potentiel issue with case_markup

[won't merge - v1 codebase] Bert

Potentiel issue excluding silent speaker

fix Agg. Clustering ValueError with sample<2