Speech-AI-Forge icon indicating copy to clipboard operation
Speech-AI-Forge copied to clipboard

完善 ModelZoo

Open zhzLuke96 opened this issue 1 year ago • 2 comments

因为开始支持多种模型,并且模型还有不同版本,配置起来有点麻烦,想增加新模型有点繁琐。特别 gpt-sovits 很多自定义的模型也很需要不同模型的配置和加载流程。所以得重构下。

~~本来最好的是直接用 transformer 流水线,但是,貌似很多开源都不支持...~~

TODOs

  • [ ] model config file
  • [ ] refactor model zoo
  • [ ] impl dl/loader/infer/runner

zhzLuke96 avatar Oct 14 '24 12:10 zhzLuke96

又来了个F5-TTS

wangfeng35 avatar Oct 14 '24 13:10 wangfeng35

这里我大概说下之后会如何支持多模型问题,以方便如果其他人有其他想法可以随时提出。

  1. 首先我们会以版本号+架构定位具体的推理代码
  2. 每个模型 (*.safetensors or *.pt) 需要一个一一对应的 *.yaml 文件,用于设定推理参数 (版本号、架构、默认参数之类的)
  3. 增加 models/custom 文件夹,这个文件夹用于放置除了官方提供的模型以外的模型
  4. webui 中增加切换模型的功能,可选择和加载模型
  5. api 中可以指定模型名称以 models/custom/xxx-tts-zh.safetensors 这样的形式指定模型

关于其他的启停策略之类的,不是很重要,api中提供了卸载指定模型和全部模型的接口应该暂时够用了,启停策略将会延后实现

zhzLuke96 avatar Feb 10 '25 06:02 zhzLuke96