MoonCast
MoonCast copied to clipboard
position位置编码
text2semantic中的位置编码,是把一整个序列来位置编码吗,不区分文本序列和speech序列这样?
assistant_ids、user_ids、audio_ids还有两个说话人spk_0_ids、spk_1_ids的special token都是随机从文本token表里选择的吗