Dinghao Zhou
Dinghao Zhou
可以试试,需要考虑下 up主修音:比如加音乐这种,
IO这块 https://github.com/wenet-e2e/wenet/issues/2107 基于tf data的io虽然性能很好, 但是对于使用者比较重(难), 而且大模型领域 用tfdata的基本是google等tensorflw/jax项目 huggingface dataset 值得试一试, tf的一些特性 比如 map filter shuffle 都支持,而且很多fintune库也用到了 之后会 尝试用下 写一版 看性能怎么样 ref: - https://huggingface.co/docs/datasets/stream - https://github.com/huggingface/datasets/issues/5317#issuecomment-1333752503 - https://huggingface.co/blog/audio-datasets
可以通过继承的方式, 比如loara_conformer_encoder, lora_attention, 重写encoder 和attention, 目录如下: - wenet/fintune/lora/encoder.py - wenet/fintune/lora/attention.py 然后在init_model.py 里边初始化,这样对原始代码几乎无侵入,并且fintue的方式还有lora变种 adapter等方式,可以方便后续扩展
赞, 过两天看一下
> > > 谢谢大佬!whisper的多语种训练是近期会支持吗 > > > > 邀请你给wenet贡献一下librispeech+aishell的训练recipe,把我留的这个TODO解决了 https://github.com/wenet-e2e/wenet/blob/main/wenet/whisper/whisper.py#L69-L77 ,目前是写死的中文,改成可配置的话,多语种训练就解决了 > > 谢谢!那我自己试一下,让txt带着语种id进add_whisper_tokens或者其他的方法 > > dataset里改一下 加个task 和language的id
TODO - [ ] whisper extra large 8B TP demo - [ ] fsdp - [ ] Tp - [ ] shard and reshard https://pytorch.org/docs/stable/distributed.checkpoint.html - [ ] async checkpoint
Pytorch natively supports flash attention through sdpa, we do not need this line ‘with torch.backends.cuda.sdp_kernel(enable_math=False):’, pytorch will automatically select flash attention or memory efficenet attention you can check https://pytorch.org/docs/stable/generated/torch.nn.functional.scaled_dot_product_attention.html and...
Wenet's previous code implemented the attention calculation process by itself. This parameter is compatible with the previous one. When it is false, the previous implementation is used. When it is...
> 周哥可以针对这条路线,起草个计划,我们给你打工 大佬谦虚了 , 我给你打工 我先整理下这方面的最新成果, 看能不能抽出共性东西, 再写个TODO (现在功力不够)
## step1: support wenet llama2, Adhering to the principle of maximizing reuse of wenet code ## Features - [ ] [Parameter conversion] - [ ] [Hugging Face to wenet] -...