Dinghao Zhou comments

Results 152 comments of


                                            Dinghao Zhou

IO 重构，提升多机多卡训练效率 + 代码复用

目前torch官方已经提供了data chain 调用方式: https://github.com/pytorch/pytorch/tree/main/torch/utils/data/datapipes (非torchdata)，并且wenet已经升级到2.xx了所以倾向于使用torch官方的，下边是初步代码 @xingchensong @robin1001 ```python import io import json import tarfile import torch from torch.nn.utils.rnn import pad_sequence from torch.utils.data import DataLoader, IterDataPipe from torch.utils.data...

Supported features

any update on dpo?

Support data parallelism with a GPU cluster

Any progress for distributed training

[paraformer] When is ONNX GPU export supported.

关注一下cif那部分的转onnx

[paraformer] When is ONNX GPU export supported.

第一部分会重构下这个函数这个函数也会影响torch.compile等函数第二部分 onnx 是支持for 循环导出的这里我有时间整一下，你可以搜一下torch for loop to onnx；或者可以对齐下parallel cif的实现提个pr过来

[paraformer] When is ONNX GPU export supported.

@whisper-yu https://github.com/wenet-e2e/wenet/pull/2515 帮忙mask试下这个 🙏

[paraformer] When is ONNX GPU export supported.

> > 第二部分 onnx 是支持for 循环导出的这里我有时间整一下，你可以搜一下torch for loop to onnx；或者可以对齐下parallel cif的实现提个pr过来 > > 感谢！那我这里先试一下onnx for循环导出的问题，看能不能解决； > > 但是推理耗时不稳定的问题，会是CIF这块儿的问题吗？应该是其他结构都类transformer 推理应该很稳定

[WIP][wenet/LLM] support LLMs

为什么不把embeding和out 放到decoderonly里边？其他模态的注入是从embeding开始的，保持decoder only 有embeding的入参。如果embeing和out share weight，fsdp 需要embeding 和out 在同一个level上，我们经常会扩充词表，resize embed 和resize out，放最外层不影响decoderonly

[WIP][wenet/LLM] support LLMs

gemma 精度测试 ```python # configs = {"decoder": "decoder_only", "output_dim": 256000, "model_conf": {}} import torch from wenet.text.LLM.script.convert_gemma_to_wenet_config_and_ckpt import ( get_config_for_2b, get_config_for_7b) from wenet.utils.init_model import init_model from gemma.model import GemmaForCausalLM from gemma.config...