Alan Fang

Results 35 comments of Alan Fang

> > 感觉效果不太行,我拿来训几百小时粤语,没有whisper+lora微调效果好,差了五六个点的cer,而且奇怪的是我拿https://huggingface.co/TencentGameMate/chinese-hubert-large 这个hubert模型微调的效果比w2vbert2要好,可能是中文数据预训练的不够多吧 > > hugface上有w2vbert2的fintune代码 有卡有时间的话 帮忙跑下aishell的 看下hg能到多少, 我过几天debug下 > > 先和hg上对齐下, 现在不确定实现是否有不一致 好咧,跟着周神做实验,我先跑个hugging face的

> 可用 adapter , 谷歌有些modular的speech 的paper 就是这么嫁接模型的 ,llm也有些类似的 > > 顺别说下, 接whisper只是为了做识别, 接llm就走了speechLLM的路子了 可做语音理解等 周神,我最近在做大模型的实验,我感觉adapter也需要大量数据训练,毕竟映射的LLM token好多也是byte pair的

端到端训练呗,asr去适应降噪模块,前端大佬们说任何软件层面的降噪都是对asr有损的

可以把两个任务分开呢吗,一个是可以听(降噪)的音频,一个是用于识别的音频,asr可以加一些线上数据(带噪)去训练