ReaLiSe
ReaLiSe copied to clipboard
phonetic预训练细节
论文里面说使用带错误的训练数据预训练phonetic Encoder, 但代码里面好像是用的纠正后的数据,不知道我有没有理解错,恳请解惑
你好,我这里没有遇到过这个错误,是否可以确认一下环境中包的版本能否对应上呢?
感谢已经解决,可以再请教一下您,预训练里的train.pkl,dev.pkl如何获得呢,谢谢!
可以直接从作者给出的地址下载处理好的数据,也可以使用data_process下的dataset.py 和 process_data.py手动处理,先使用dataset.py处理成pickle格式,再使用process_data.py处理成pkl格式
可以直接从作者给出的地址下载处理好的数据,也可以使用data_process下的dataset.py 和 process_data.py手动处理,先使用dataset.py处理成pickle格式,再使用process_data.py处理成pkl格式
您好,我想请教一下,使用dataset.py处理为pickle格式时,使用了两个词典,想请交一下这两个词典分别是作者提供的预训练后的vocab和微调后的vocab吗?
您好,我在转数据的时候没有用这个with_phonetics,因为作者把字符序列转换到拼音序列的部分是在训练加载batch的时候做的,所以这个地方不做拼音转换没有影响,也就没有关注到您说的这个问题
phonetics这个库我找了很久,结合@liuxin99 的提示,在src/utils.py->pho2_convertor = Pinyin2()这个是真正的phonetics使用的代码。
您好,我在转数据的时候没有用这个with_phonetics,因为作者把字符序列转换到拼音序列的部分是在训练加载batch的时候做的,所以这个地方不做拼音转换没有影响,也就没有关注到您说的这个问题
论文里面说使用带错误的训练数据预训练phonetic Encoder, 但代码里面好像是用的纠正后的数据,不知道我有没有理解错,恳请解惑
我也有这个疑问,你好,请问解决了吗
不好意思,后来没有解决。。