PaddleSpeech issues

asr 长录音识别

5

目前 paddlespeech asr 一次识别的音频长度是 50s，虽然可以通过 paddlespeech asr -d 批量识别提高识别效率。但整体效率还是较低，请问有没通用的解决方案，提高离线大文件音频的识别效率呢？比如识别一段 10分钟或者 30 分钟的音频。

jkluo

S2T

[tts] add zh_en mix example

1

PR types add zh_en mix example PR changes add zh_en mix example Describe add zh_en mix example, including train, inference, dynamic model to static model, static model to onnx model....

lym0302

README

Example

T2S

Add g2pW to Chinese frontend

4

### PR types Performance optimization ### PR changes APIs ### Describe add g2pW onnxruntime

BarryKCL

Documentation

Installation

README

T2S

关于zh_en_tts/tts3任务的问题

1

在zh_en_tts/tts3任务中，输入文字如果是15.58万元，它会念成一千五百五十八万元，自动去掉了.点号，有什么好的解决方法吗？谢谢。

70557dzqc

T2S

good first issue

请问一下输入的wav文件必须是16000hz的吗？.mp4之类的文件不能输入吗？

2

paddle有什么规范输入音频文件格式的程序吗？

jiweizhangxu

S2T

ValueError: `paddle.load` can not parse the file:/Users/petergu/.paddlespeech/models/conformer_wenetspeech-zh-16k/asr1_conformer_wenetspeech_ckpt_0.1.1.model.tar/exp/conformer/checkpoints/wenetspeech.pdparams.

1

我执行程序 main.py 报错 **执行环境：** > python 3.8.9 > paddlepaddle 2.3.1 > paddlespeech 1.0.1 **执行代码：** ``` from paddlespeech.cli.asr.infer import ASRExecutor asr = ASRExecutor() result = asr(audio_file="zh.wav") print(result) ``` **报错：** /Users/petergu/workspace/python/paddle/venv/bin/python /Users/petergu/workspace/python/paddle/main.py...

gubaoya123456

S2T

asr 对于ctc alignment.py 的一些疑问和问题

1

自己做数据集，重新训练conformer，并实现音频和识别出的文本对齐功能。问题描述：asr中，实现音频和文本对齐功能的alignment.py 源码是对整个测试集（batch_size强制为1）进行识别对齐（集成到了Tester中），这一过程需要加载测试集的数据（即align dataloader）和vocab.txt ，vocab.txt （数据集中字符的集合）和dataload （测试集是manifest.test）需要测试数据的wav音频文件和label（标注的txt文本），有两个疑问： 1.是不是实现音频和识别出的文本对齐功能，需要标注好测试音频然后按照data.sh 处理数据，生成manifest文件和vocab文件，之后利用alignment.py实现功能？ 2.想要实现像测试单个音频的test_wave.py一样，实现单个音频的识别与对齐功能，除了1说的方法之外，还有没有较为简便的方法（即就像test_wave.py一样，只需要vocab.txt，输入一个音频，就可以识别成文本）？谢谢！

wangdabee

S2T

服务多并发出现多个并发的结果相互串了的情况

2

算法：fastspeech2, pwgan 服务部署：websocket 并发：2个并发具体情况：并发1的文本，出来的语音确是并发2的结果；并发2的文本，出来的语音确是并发1的结果；即，两个结果搞串了。情况追踪：通过追踪发现，模型的输入是正常，但是输出不正常。 ![image](https://user-images.githubusercontent.com/27938135/183391346-7f89ca07-c9a4-42c3-8829-01ec7f21a4e2.png) `phones_handle`的输入正常，`am_output_data`的结果却不对。请问这情况是什么原因啊，这么解决这个问题。

Tian14267

T2S

[audio] add sox effects, load audio, save audio

### PR types [new feature] add sox effects, load audio, save audio ### PR changes ### Describe add sox effects, load audio, save audio

SmileGoat

Installation

Audio

Test

[tts] 基于 BERT 实现语音合成文本前端的多音字预测

5

目前的多音字使用 pypinyin 或者 g2pM，精度有限，想做一个基于 BERT (或者 ERNIE) 多音字预测模型，简单来说就是假设某语言有 100 个多音字，每个多音字最多有 3 个发音，那么可以在 BERT 后面接 100 个 3 分类器（简单的 fc 层即可），在预测时，找到对应的分类器进行分类即可。参考论文： [tencent_polyphone.pdf](https://github.com/PaddlePaddle/PaddleSpeech/files/7821488/tencent_polyphone.pdf) 数据可以用 https://github.com/kakaobrain/g2pM 提供的数据进阶：多任务的 BERT ![image](https://user-images.githubusercontent.com/24568452/148382039-170504db-dbde-4ade-bcfd-ac2ed484a72c.png)

yt605155624

T2S

good first issue

PaddleSpeech
PaddleSpeech copied to clipboard

Metadata

asr 长录音识别

[tts] add zh_en mix example

Add g2pW to Chinese frontend

关于zh_en_tts/tts3任务的问题

请问一下输入的wav文件必须是16000hz的吗？.mp4之类的文件不能输入吗？

ValueError: `paddle.load` can not parse the file:/Users/petergu/.paddlespeech/models/conformer_wenetspeech-zh-16k/asr1_conformer_wenetspeech_ckpt_0.1.1.model.tar/exp/conformer/checkpoints/wenetspeech.pdparams.

asr 对于ctc alignment.py 的一些疑问和问题

服务多并发出现多个并发的结果相互串了的情况

[audio] add sox effects, load audio, save audio

[tts] 基于 BERT 实现语音合成文本前端的多音字预测

← Metadata

Owner

Metadata

PaddleSpeech PaddleSpeech copied to clipboard

Metadata

← Metadata

Owner

Metadata

PaddleSpeech
PaddleSpeech copied to clipboard