Speech-AI-Forge icon indicating copy to clipboard operation
Speech-AI-Forge copied to clipboard

[Feature] 界面上增加一个生成音频格式选择功能

Open andywu188 opened this issue 1 year ago • 3 comments

确认清单

  • [X] 我已经仔细阅读项目文档,确认现有功能无法解决我的需求
  • [X] 我已经检索过现有issue,确认与现有issue的内容并不重复
  • [X] 确认并非问题讨论而是 Feature request

功能描述

界面上增加一个生成音频格式选择功能

可能的解决方案

希望在界面上增加一个格式设置下拉控件,mp3、wav

andywu188 avatar Oct 08 '24 02:10 andywu188

除此之外,希望生成的音频比特率和采样率也能界面上设置, 例如: 比特率:64Kbps、128Kbps、256Kbps 采样率:8kHz、‌22.05kHz、‌32kHz、‌44.1kHz、‌48kHz和‌96kHz

andywu188 avatar Oct 10 '24 04:10 andywu188

受限于 gradio 这个库,切换下载音频格式不太好实现

一个方法是把 audio 组件换成 file 组件,但是要是这样改就更难用了... 所以如果有文件封装格式的需求,建议还是用 api 调用来生成,api方便点

比特率倒是确实可以加一下

  • #171

采样率感觉没必要,这个是每个模型自己的设定,改了也只是重新编码一遍

zhzLuke96 avatar Oct 12 '24 15:10 zhzLuke96

是否可以退而求其次,把格式设置做为配置项,写在配置文件中?

andywu188 avatar Oct 12 '24 15:10 andywu188