PaddleSpeech icon indicating copy to clipboard operation
PaddleSpeech copied to clipboard

Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation a...

Results 289 PaddleSpeech issues
Sort by recently updated
recently updated
newest added

首先我录制了三段语音做为模版文件: zhao1.wav:说的是一句简短的中文; zhao2.wav:说的是0-9的数字; zhao3.wav:说的是另一句不同的中文; 然后我按照模版文件内容再生成三个录音: file1.wav和zhao1.wav,file2.wav和zhao2.wav,file3.wav和zhao3.wav的内容分别相同。 然后两两做score,得出的结果是: zhao1.wav(file1.wav):0.7422892451286316;zhao1.wav(filé.wav):0.6398638486862183;zhao1(file3.wav):0.6861986517906189 zhao2.wav(file1.wav):0.43911170959472656;zhao2.wav(filé.wav):0.7633090019226074;zhao2(file3.wav):0.4422371983528137 zhao3.wav(file1.wav):0.6625332236289978;zhao3.wav(filé.wav):0.6106154322624207;zhao3(file3.wav):0.7869642972946167 可以看到zhao1.wav(file1.wav),zhao2.wav(filé.wav),zhao3(file3.wav)得分最高。 这如何解释呢?

Question
Vector

说明: 1、我们分别采样了7个人的声音,每个人采样三段声音。将这些声音做为基础声音模版库; 2、第一句:说的是一句简短的中文;第二句:说的是0-9的数字;第三句:说的是另一句不同的中文; 3、然后将这21个声音分别从中找到最相似的声纹; 4、实际验证结果是非常不理想,请帮忙指出我们流程哪里出错了,以及如何进行改进。我们是真的希望能够将其应用到实际业务场景中。 5、总共21次比对,准确找到的:15;找错人的:6;准确率只有71%。 明细结果:每个语音声纹最相似的语音,以及score。(score 的计算方法:paddlespeech vector --task score --input ' ') zhao1.wav ---------------- 1 zhao3.wav 0.7540673613548279 zhao2.wav ---------------- 1 zhao1.wav 0.657843291759491 zhao3.wav ---------------- 1 zhao1.wav 0.7540673613548279 liu1.wav...

Question
Vector

本地用流式识别方式跑个长时间的音频文件,GPU利用率一直很低,怎么可以提升利用率啊?

Question
S2T

1、我生成了三个录音:tellong.wav作为原始录制的模版声音;teloriginal.wav是测试由真人说话生成的录音;recording.wav是播放真人录音形成的录音(模拟使用录音冒充他人声音); 2、我使用命令“paddlespeech vector --task score --input 'recording.wav tellong.wav'”,计算冒充人和模版声音的相似度,得到:0.5637418627738953; 3、我使用命令“paddlespeech vector --task score --input 'teloriginal.wav tellong.wav'“,计算真人说话和模版声音的相似度,得到: 0.5126219987869263 4、使用录音的相似度反而更高。这样对于系统就无法识别伪装者了。 请教这个过程有什么问题吗?

Vector

试图加载deepspeech2online_wenetspeech的onnx文件,代码如下 ``` # 动态图导出的ONNX模型测试 import time import numpy as np from onnxruntime import InferenceSession audio = np.random.randn(1, 498, 161).astype('float32') audio_len = np.random.randn(1).astype("int64") text = np.random.randn(1, 1, 1).astype('float32') text_len = np.random.randn(1,...

S2T

## General Question 如果支持的话,同时可以支持多少个并发

Question

## General Question E:\Anaconda\installation\envs\Audio\lib\site-packages\_distutils_hack\__init__.py:33: UserWarning: Setuptools is replacing distutils. warnings.warn("Setuptools is replacing distutils.") [2024-01-18 13:51:22,092] [ INFO] - Already cached C:\Users\47053\.paddlenlp\models\bert-base-chinese\bert-base-chinese-vocab.txt [2024-01-18 13:51:22,105] [ INFO] - tokenizer config file saved...

Question

页面图片 ![image](https://github.com/PaddlePaddle/PaddleSpeech/assets/118660349/45e7fae6-d422-424d-866d-63222a632fe9) 测试环境 win10 使用cpu 依赖版本 ![Snipaste_2024-02-06_16-32-12](https://github.com/PaddlePaddle/PaddleSpeech/assets/118660349/e659bfbb-51e2-4966-9d93-7f4b15f895cb) python版本 3.8.18 需求: 在不使用gpu的情况下 如何调整可以能让实时语音转写速度加快 因为现在的语音转写 还是有些延迟的 思路应该往哪个方面考虑 如果在 使用gpu的情况下 又该往哪个方面考虑取调整优化 期待回复 谢谢!!!

Question

如题。 背景:我想寻找一个能离线运行的粤语的语音识别(Speech2Text)解决方案,不需要Text2Speech功能。 请问之后会更新粤语的语音识别的功能吗? 另外,如果我想使用自己的语音数据,训练一个自己的粤语的语音识别模型,应该如何做呢? 可以直接使用PaddleSpeech的框架进行训练吗?

feature request