PaddleSpeech icon indicating copy to clipboard operation
PaddleSpeech copied to clipboard

Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation a...

Results 289 PaddleSpeech issues
Sort by recently updated
recently updated
newest added

目前 paddlespeech asr 一次识别的音频长度是 50s,虽然可以通过 paddlespeech asr -d 批量识别提高识别效率。但整体效率还是较低,请问有没通用的解决方案,提高离线大文件音频的识别效率呢? 比如识别一段 10分钟 或者 30 分钟的音频。

S2T

PR types add zh_en mix example PR changes add zh_en mix example Describe add zh_en mix example, including train, inference, dynamic model to static model, static model to onnx model....

README
Example
T2S

### PR types Performance optimization ### PR changes APIs ### Describe add g2pW onnxruntime

Documentation
Installation
README
T2S

在zh_en_tts/tts3任务中,输入文字如果是15.58万元,它会念成一千五百五十八万元,自动去掉了.点号,有什么好的解决方法吗?谢谢。

T2S
good first issue

我执行程序 main.py 报错 **执行环境:** > python 3.8.9 > paddlepaddle 2.3.1 > paddlespeech 1.0.1 **执行代码:** ``` from paddlespeech.cli.asr.infer import ASRExecutor asr = ASRExecutor() result = asr(audio_file="zh.wav") print(result) ``` **报错:** /Users/petergu/workspace/python/paddle/venv/bin/python /Users/petergu/workspace/python/paddle/main.py...

S2T

自己做数据集,重新训练conformer,并实现音频和识别出的文本对齐功能。 问题描述:asr中,实现音频和文本对齐功能的alignment.py 源码是对整个测试集(batch_size强制为1)进行识别对齐(集成到了Tester中),这一过程需要加载测试集的数据(即align dataloader)和vocab.txt ,vocab.txt (数据集中字符的集合)和dataload (测试集是manifest.test)需要测试数据的wav音频文件和label(标注的txt文本) ,有两个疑问: 1.是不是实现音频和识别出的文本对齐功能,需要标注好测试音频 然后按照data.sh 处理数据,生成manifest文件和vocab文件,之后利用alignment.py实现功能? 2.想要实现像测试单个音频的test_wave.py一样,实现单个音频的识别与对齐功能,除了1说的方法之外,还有没有较为简便的方法(即就像test_wave.py一样,只需要vocab.txt,输入一个音频,就可以识别成文本)? 谢谢!

S2T

算法:fastspeech2, pwgan 服务部署:websocket 并发:2个并发 具体情况:并发1的文本,出来的语音确是并发2的结果;并发2的文本,出来的语音确是并发1的结果;即,两个结果搞串了。 情况追踪: 通过追踪发现,模型的输入是正常,但是输出不正常。 ![image](https://user-images.githubusercontent.com/27938135/183391346-7f89ca07-c9a4-42c3-8829-01ec7f21a4e2.png) `phones_handle`的输入正常,`am_output_data`的结果却不对。请问这情况是什么原因啊,这么解决这个问题。

T2S

### PR types [new feature] add sox effects, load audio, save audio ### PR changes ### Describe add sox effects, load audio, save audio

Installation
Audio
Test

目前的多音字使用 pypinyin 或者 g2pM,精度有限,想做一个基于 BERT (或者 ERNIE) 多音字预测模型,简单来说就是假设某语言有 100 个多音字,每个多音字最多有 3 个发音,那么可以在 BERT 后面接 100 个 3 分类器(简单的 fc 层即可),在预测时,找到对应的分类器进行分类即可。 参考论文: [tencent_polyphone.pdf](https://github.com/PaddlePaddle/PaddleSpeech/files/7821488/tencent_polyphone.pdf) 数据可以用 https://github.com/kakaobrain/g2pM 提供的数据 进阶:多任务的 BERT ![image](https://user-images.githubusercontent.com/24568452/148382039-170504db-dbde-4ade-bcfd-ac2ed484a72c.png)

T2S
good first issue