Dinghao Zhou
Dinghao Zhou
初步结论: info_dict 如果包含三部分: train/cv, model, metric 写的时候,可以指定具体字断就方便了
> 准备以后也是ckpt重命名的方式引入llm吗?(而不是import transformers) > > 是 后边会用fsdp/deepspeed 直接和transformers用有一堆奇奇怪怪的问题,而且也不方便做部署之类的工作
这里大致罗列下主流llm的一些情况,可能随版本变动 有些出入 | 模型名称 | 参数 | 隐藏层维度 | 层数 | 注意力头数 | 训练数据 | 位置编码 | 激活函数 | 归一化方法 | 注意力机制 | 词表大小 | 分词方法 | 最大长度 | linear...
还是这个配置:https://github.com/wenet-e2e/wenet/pull/2333#issuecomment-1925580753 | |batch size |data type | 训练时间 | att/rescore/ctc greedy/ctc beam wer| | ----------- | ----------- |----------- |----------- |---------- | |step 模式 avg 20 step 1000 save interval (no...
该pr会拆成若干pr 完成 - [x] enable bias https://github.com/wenet-e2e/wenet/pull/2394 - [x] gated-mlp https://github.com/wenet-e2e/wenet/pull/2395 - [x] rms norm https://github.com/wenet-e2e/wenet/pull/2396 - [x] norm eps https://github.com/wenet-e2e/wenet/pull/2397 - [x] multiquery attention https://github.com/wenet-e2e/wenet/pull/2403 - [x] rope https://github.com/wenet-e2e/wenet/pull/2458...
还缺个vad 和 对齐 之类的工具 vad 可以用东哥推荐的 或者@robin1001 https://github.com/wenet-e2e/wenet/issues/2069 里边提到的vad 打算用什么方法 对齐可以用torchaudio最新的 align 0 mos 计算 snr - https://pytorch.org/audio/main/tutorials/squim_tutorial.html 1 vad - https://github.com/snakers4/silero-vad - https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/summary 2 align and segment - https://pytorch.org/audio/master/tutorials/forced_alignment_for_multilingual_data_tutorial.html
这个代码 和 ctc segmentation基本一个原理 不过实现上 meta开了个gpu版的
some idea: - async save checkpoint - ema - PRNGKey (reproduce) - bfloat16 - efficient subsampling : https://browse.arxiv.org/pdf/2309.12963.pdf - parallel conformer/transformer && mulqi query etc - dataset interator checkpoint -...
@robin1001 @xingchensong @whiteshirt0429 https://github.com/openai/whisper/discussions/1762 whisper v3 开源了 是否可以考虑 支持这个的推理, 他看着有些粤语的方言 可以用用
> 如何保证数据不包含低质量的tts数据,以及考虑高质量的tts数据来进行更好的覆盖,这两个事情都比较重要,现在网络上低质量tts数据太多了 可以用声纹的方式, 提前找些常用角色(从原视频上着)