Speech-AI-Forge
Speech-AI-Forge copied to clipboard
完善 ModelZoo
因为开始支持多种模型,并且模型还有不同版本,配置起来有点麻烦,想增加新模型有点繁琐。特别 gpt-sovits 很多自定义的模型也很需要不同模型的配置和加载流程。所以得重构下。
~~本来最好的是直接用 transformer 流水线,但是,貌似很多开源都不支持...~~
TODOs
- [ ] model config file
- [ ] refactor model zoo
- [ ] impl dl/loader/infer/runner
又来了个F5-TTS
这里我大概说下之后会如何支持多模型问题,以方便如果其他人有其他想法可以随时提出。
- 首先我们会以版本号+架构定位具体的推理代码
- 每个模型 (*.safetensors or *.pt) 需要一个一一对应的 *.yaml 文件,用于设定推理参数 (版本号、架构、默认参数之类的)
- 增加 models/custom 文件夹,这个文件夹用于放置除了官方提供的模型以外的模型
- webui 中增加切换模型的功能,可选择和加载模型
- api 中可以指定模型名称以
models/custom/xxx-tts-zh.safetensors这样的形式指定模型
关于其他的启停策略之类的,不是很重要,api中提供了卸载指定模型和全部模型的接口应该暂时够用了,启停策略将会延后实现