Dinghao Zhou

Results 152 comments of Dinghao Zhou

> 我在想,直接import transformers行不行,和自己重新实现一遍,各有什么pros & cons > > > 第一步先单纯imoort transformers 后边再看会有什么问题,上边那个列表先列那里了。 缺点是: 不好魔改,比如阿里的通义audio 会有个model parallel ,hugface封装过厚 fintune audio llm 如果需要对llm做些改动 需要去hug里去改。而且输入输出需要符合hg的接口

hg的llm模型 几乎是下边伪代码pattern ```python from transformers import CasulLM... tokenizer = from_pretrain tokenizer.add_special_tokens # 这里dataset 包含mask的计算 dataset = ... model = from_pretain # 这里可以构造和语音id或emb的input+ text 给model, 包含att mask output = model(....) calac...

> hg的llm模型 几乎是下边伪代码pattern > > ```python > from transformers import CasulLM... > > tokenizer = from_pretrain > > tokenizer.add_special_tokens > > # 这里dataset 包含mask的计算 > dataset = ... > >...

> 涉及到修改的可不可以通过下面的方式: > > ```py > from transformers import XXXModelForCasulLM > from wenet.transformer.asr_model import AsrModel > > class NewModel(nn.Module, AsrModel, XXXModelForCasulLM): > def __init__(self, ...): > # init father >...

[gemini](https://deepmind.google/technologies/gemini/) 是最近谷歌发布的多模态模型,支持语音输入 文中提到了语音输入还是经过”USM“化, 输入LLM 从头pretrain ![image](https://github.com/wenet-e2e/wenet/assets/4906435/aa2137c5-2c1e-4711-a396-363697ec8034) (NOTE: 区别图片patch, 无预训练比如vit, 直接patch 输入) 该形式和通义之类的实现是类似的(区别解释通义的mutli task),个人觉得咱们可以搞搞这类实现的代码框架 @robin1001 @xingchensong TODO: - [ ] add_special tokens https://github.com/wenet-e2e/wenet/pull/2186 - [ ] load huggingface model - [...

抱歉回复晚了,现在技术发展太快了,语音和大模型 大体可以分三类 语音理解 语音合成 对话系统 每种技术方案可能都不太一样 现在在底层开发验证中 未来一段时间可能都不会更新

感谢!! make pr?

w2vbert2.0 huggingface也支持了,但是倾向于使用原版https://github.com/facebookresearch/seamless_communication?tab=readme-ov-file#w2v-bert-20-speech-encoder 用于对齐结果 - [x] feats (fabank)对齐 - [x] 模型拓扑 https://github.com/wenet-e2e/wenet/pull/2392 - [x] weight rename - [ ] 支持asr fintune - [ ] 支持wenet/ssl/w2vbert continue pretrain - [ ] codebook...

https://www.atr-p.com/products/sdb.html#DIGI