juncaixinchi

Results 2 comments of juncaixinchi

同样遇到了这个问题,是词库导致的,默认使用的是`cache/vocab_small.txt`,里面13317个单词,包括各种符号,当样本量小的时候,结果就会有很多乱码。可以根据自己的data,生成vocab文件(当然这样的话,单词来源受限于样本了) 步骤如下: + 生成vocab_user.txt文件 ``` cd cache/ bash make_vocab.sh ``` + 根据vocab_user.txt内单词个数,调整配置文件`config/model_config_small.json`的vocab_size字段 + train ``` python train.py --raw --min_length 4 --tokenizer_path cache/vocab_user.txt ``` + generate ``` python ./generate.py --length=50 --nsamples=4...

@touhouzun 好吧,有空我看一下(其实我都弃坑啦