Dinghao Zhou comments

Results 152 comments of


                                            Dinghao Zhou

［feats/llm］语音大模型背景下的llm集成

> 我在想，直接import transformers行不行，和自己重新实现一遍，各有什么pros & cons > > > 第一步先单纯imoort transformers 后边再看会有什么问题，上边那个列表先列那里了。缺点是：不好魔改，比如阿里的通义audio 会有个model parallel ，hugface封装过厚 fintune audio llm 如果需要对llm做些改动需要去hug里去改。而且输入输出需要符合hg的接口

［feats/llm］语音大模型背景下的llm集成

hg的llm模型几乎是下边伪代码pattern ```python from transformers import CasulLM... tokenizer = from_pretrain tokenizer.add_special_tokens # 这里dataset 包含mask的计算 dataset = ... model = from_pretain # 这里可以构造和语音id或emb的input+ text 给model，包含att mask output = model（....） calac...

［feats/llm］语音大模型背景下的llm集成

> hg的llm模型几乎是下边伪代码pattern > > ```python > from transformers import CasulLM... > > tokenizer = from_pretrain > > tokenizer.add_special_tokens > > # 这里dataset 包含mask的计算 > dataset = ... > >...

［feats/llm］语音大模型背景下的llm集成

> 涉及到修改的可不可以通过下面的方式： > > ```py > from transformers import XXXModelForCasulLM > from wenet.transformer.asr_model import AsrModel > > class NewModel(nn.Module, AsrModel, XXXModelForCasulLM): > def __init__(self, ...): > # init father >...

［feats/llm］语音大模型背景下的llm集成

[gemini](https://deepmind.google/technologies/gemini/) 是最近谷歌发布的多模态模型，支持语音输入文中提到了语音输入还是经过”USM“化，输入LLM 从头pretrain ![image](https://github.com/wenet-e2e/wenet/assets/4906435/aa2137c5-2c1e-4711-a396-363697ec8034) （NOTE：区别图片patch，无预训练比如vit，直接patch 输入）该形式和通义之类的实现是类似的（区别解释通义的mutli task），个人觉得咱们可以搞搞这类实现的代码框架 @robin1001 @xingchensong TODO: - [ ] add_special tokens https://github.com/wenet-e2e/wenet/pull/2186 - [ ] load huggingface model - [...

［feats/llm］语音大模型背景下的llm集成

https://arxiv.org/abs/2402.01831

［feats/llm］语音大模型背景下的llm集成

抱歉回复晚了，现在技术发展太快了，语音和大模型大体可以分三类语音理解语音合成对话系统每种技术方案可能都不太一样现在在底层开发验证中未来一段时间可能都不会更新

MOE支持多语种识别的问题

感谢！！ make pr？

[feats] 权重迁移计划

w2vbert2.0 huggingface也支持了，但是倾向于使用原版https://github.com/facebookresearch/seamless_communication?tab=readme-ov-file#w2v-bert-20-speech-encoder 用于对齐结果 - [x] feats （fabank）对齐 - [x] 模型拓扑 https://github.com/wenet-e2e/wenet/pull/2392 - [x] weight rename - [ ] 支持asr fintune - [ ] 支持wenet/ssl/w2vbert continue pretrain - [ ] codebook...

WeDataset: List of (OpenSource data) + (Crawler Resources)

https://www.atr-p.com/products/sdb.html#DIGI