ReaLiSe phonetic预训练细节

论文里面说使用带错误的训练数据预训练phonetic Encoder，但代码里面好像是用的纠正后的数据，不知道我有没有理解错，恳请解惑

Jun 19 '22 02:06 liuxin99

你好，我这里没有遇到过这个错误，是否可以确认一下环境中包的版本能否对应上呢？

Sep 13 '22 08:09 liuxin99

感谢已经解决，可以再请教一下您，预训练里的train.pkl，dev.pkl如何获得呢，谢谢！

Sep 13 '22 13:09 Toddzhangwj

可以直接从作者给出的地址下载处理好的数据，也可以使用data_process下的dataset.py 和 process_data.py手动处理，先使用dataset.py处理成pickle格式，再使用process_data.py处理成pkl格式

Sep 13 '22 13:09 liuxin99

可以直接从作者给出的地址下载处理好的数据，也可以使用data_process下的dataset.py 和 process_data.py手动处理，先使用dataset.py处理成pickle格式，再使用process_data.py处理成pkl格式

您好，我想请教一下，使用dataset.py处理为pickle格式时，使用了两个词典，想请交一下这两个词典分别是作者提供的预训练后的vocab和微调后的vocab吗？

Sep 15 '22 12:09 ImXunan

您好，我在转数据的时候没有用这个with_phonetics，因为作者把字符序列转换到拼音序列的部分是在训练加载batch的时候做的，所以这个地方不做拼音转换没有影响，也就没有关注到您说的这个问题

Sep 16 '22 13:09 liuxin99

phonetics这个库我找了很久，结合@liuxin99 的提示，在src/utils.py->pho2_convertor = Pinyin2()这个是真正的phonetics使用的代码。

您好，我在转数据的时候没有用这个with_phonetics，因为作者把字符序列转换到拼音序列的部分是在训练加载batch的时候做的，所以这个地方不做拼音转换没有影响，也就没有关注到您说的这个问题

Mar 28 '23 08:03 wanbiguizhao

论文里面说使用带错误的训练数据预训练phonetic Encoder，但代码里面好像是用的纠正后的数据，不知道我有没有理解错，恳请解惑

我也有这个疑问，你好，请问解决了吗

Jan 20 '24 11:01 ouyanmei

不好意思，后来没有解决。。

Jan 20 '24 13:01 liuxin99

ReaLiSe ReaLiSe copied to clipboard