juncaixinchi comments

Repositories
Issues
Comments

Results 2 comments of


                                            juncaixinchi

生成的文本都是乱码

同样遇到了这个问题，是词库导致的，默认使用的是`cache/vocab_small.txt`，里面13317个单词，包括各种符号，当样本量小的时候，结果就会有很多乱码。可以根据自己的data，生成vocab文件(当然这样的话，单词来源受限于样本了) 步骤如下： + 生成vocab_user.txt文件 ``` cd cache/ bash make_vocab.sh ``` + 根据vocab_user.txt内单词个数，调整配置文件`config/model_config_small.json`的vocab_size字段 + train ``` python train.py --raw --min_length 4 --tokenizer_path cache/vocab_user.txt ``` + generate ``` python ./generate.py --length=50 --nsamples=4...

extra class icon need

@touhouzun 好吧，有空我看一下（其实我都弃坑啦