Xingchen Song(宋星辰)
Xingchen Song(宋星辰)
可以,那支持方案二
same issue here :(
cc @felixfuyihui
> > 可用 adapter , 谷歌有些modular的speech 的paper 就是这么嫁接模型的 ,llm也有些类似的 > > 顺别说下, 接whisper只是为了做识别, 接llm就走了speechLLM的路子了 可做语音理解等 > > 醍醐灌顶,llama pro的块扩展方案感觉也可以试试,好奇如果whisper微调的时候换了下采样层,然后冻结其他层,加几个encoder block在前部能不能保留泛化性,如果能用微调解决上下游不匹配的问题,羊毛就可以一直薅了,哈哈 > > speechLLM绝对是未来,跟着wenet学(赞赞赞) 周哥,你就是哦们滴神
可以用tsv把四个八这种转成8888
不太好整,建议--enable_standalone_number true, 转译成 “12点”
https://github.com/wenet-e2e/WeTextProcessing/blob/master/itn/chinese/data/number/digit.tsv 这里加,可以提个PR
https://github.com/wenet-e2e/WeTextProcessing/issues/185
你需要enable_0_to_9=True