周文青

Results 21 comments of 周文青

I have successfully test the code in colab, and I found that the enviroment is: python: 2.7 tensorflow: 1.13.1 (can be installed in colab using commands below: ``` !python2 -m...

OS:Ubuntu18.04 我的也是,打开微信后出现一个黑框,很难受,更奇怪的是关闭不了 ![image](https://user-images.githubusercontent.com/15122811/59547741-3e8f4380-8f76-11e9-9002-a880224b08d8.png)

解决了问题,可是微信的中文字体变得好丑,有什么办法修改字体吗?

同问,一直搞不懂语料库的格式,能以斗破那个txt文件讲解一下吗?train.json内容是["文章1","文章2","文章3"],如果是自己的语料库的话应该如何组织呢

以weibo.txt语料库为例,总结一下如何训练自定义数据集(时间过得比较久,可能有些步骤忽略了) 1. 语料库是一行一段话,从train.py中的build_files函数可以看到‘\n’被替换成[SEP],[SEP],[MASK]是MML模型使用的token,weibo.txt就是这样子的结构; 2. 首先生成词汇表,使用cache/make_vocab.py,作者使用thulac进行分词,其实也可以用jieba(lines[i]=' '.join(list(jieba.cut(line))),修改第22行:`lines=f.readlines()`;注意`--vocab_size`参数,这个参数会在后面用到; 3. 进行训练。修改train.py中读取文件的方式,还是一样,将**第18行**改成`lines=f.readlines()`;注意参数--model_config,默认使用的是`model_config_test.json`这个配置,这里的vocab_size等于make_vocab.py中设置的vocab_size数量加5,一定要匹配,否则运行错误;不出意外的话可以正常训练了;注意模型默认保存在`output_dir`,--tokenizer_path是前面生成的词汇表路径; 4. 模型测试。使用generate.py文件,这个比较坑的就是--model_path这个参数,这个参数实际指向的是前面`output_dir/final_model`路径,所以这个参数改为·--model_dir·比较合适,--prefix是文字生成的开头部分,--length可以指定生成文本的长度;Q:为什么模型输入是一个文件夹而不是单独的权重文件?A:其实从生成的文件夹来看包含模型配置文件config.json和对应的权重文件pytorch_model.bin,一个模型肯定是需要这两个菜完整的。平时使用pytorch保存的模型torch.save()直接把这两个都同时保存至一个文件了,所以可以正常加载,如果知道网络结构的情况下,只保存权重就可以 了 5. 还有很多参数设置是可以修改的,这里就不再说明了,并且作者也说不再更新该库,transformers已经到3.2版本了,本库要求的是2.1.1才能运行。。。。

请问alphartbet.py和CHAR_FILE的内容在制作自己数据集的时候怎么更改呢?有详细说明吗

复制长段句子遇到换行就自带忽略了,可能是bash环境的原因,建议升级可以翻译段落

I have figured out why the font is not Times New Roman. In [https://matplotlib.org/3.1.1/tutorials/text/usetex.html](https://matplotlib.org/3.1.1/tutorials/text/usetex.html), the example is ``` font.family : serif font.serif : Times, Palatino, New Century Schoolbook, Bookman, Computer...