PaddleSpeech issues

Results 289 PaddleSpeech issues

Sort by recently updated

声纹识别和所说的话内容应该不相关吧，但是测试却发现不是这样的

首先我录制了三段语音做为模版文件： zhao1.wav:说的是一句简短的中文； zhao2.wav:说的是0-9的数字； zhao3.wav：说的是另一句不同的中文；然后我按照模版文件内容再生成三个录音： file1.wav和zhao1.wav,file2.wav和zhao2.wav,file3.wav和zhao3.wav的内容分别相同。然后两两做score，得出的结果是： zhao1.wav(file1.wav):0.7422892451286316;zhao1.wav(filé.wav):0.6398638486862183;zhao1(file3.wav):0.6861986517906189 zhao2.wav(file1.wav):0.43911170959472656;zhao2.wav(filé.wav):0.7633090019226074;zhao2(file3.wav):0.4422371983528137 zhao3.wav(file1.wav):0.6625332236289978;zhao3.wav(filé.wav):0.6106154322624207;zhao3(file3.wav):0.7869642972946167 可以看到zhao1.wav(file1.wav)，zhao2.wav(filé.wav)，zhao3(file3.wav)得分最高。这如何解释呢？

zhaoyiyong

Question

Vector

声纹识别的准确率问题，我们应用过程中只有71%，这是正常水平吗？

说明： 1、我们分别采样了7个人的声音，每个人采样三段声音。将这些声音做为基础声音模版库； 2、第一句:说的是一句简短的中文；第二句:说的是0-9的数字；第三句：说的是另一句不同的中文； 3、然后将这21个声音分别从中找到最相似的声纹； 4、实际验证结果是非常不理想，请帮忙指出我们流程哪里出错了，以及如何进行改进。我们是真的希望能够将其应用到实际业务场景中。 5、总共21次比对，准确找到的：15；找错人的：6；准确率只有71%。明细结果：每个语音声纹最相似的语音，以及score。（score 的计算方法：paddlespeech vector --task score --input ' ') zhao1.wav ---------------- 1 zhao3.wav 0.7540673613548279 zhao2.wav ---------------- 1 zhao1.wav 0.657843291759491 zhao3.wav ---------------- 1 zhao1.wav 0.7540673613548279 liu1.wav...

zhaoyiyong

Question

Vector

streaming asr GPU利用率不到4%

本地用流式识别方式跑个长时间的音频文件，GPU利用率一直很低，怎么可以提升利用率啊？

JaheimLee

Question

S2T

声纹识别安全性问题，能别录音欺骗

1、我生成了三个录音：tellong.wav作为原始录制的模版声音；teloriginal.wav是测试由真人说话生成的录音；recording.wav是播放真人录音形成的录音（模拟使用录音冒充他人声音）； 2、我使用命令“paddlespeech vector --task score --input 'recording.wav tellong.wav'”，计算冒充人和模版声音的相似度，得到：0.5637418627738953； 3、我使用命令“paddlespeech vector --task score --input 'teloriginal.wav tellong.wav'“，计算真人说话和模版声音的相似度，得到： 0.5126219987869263 4、使用录音的相似度反而更高。这样对于系统就无法识别伪装者了。请教这个过程有什么问题吗？

zhaoyiyong

Vector

试图加载deepspeech2online_wenetspeech的onnx文件，但是报错

试图加载deepspeech2online_wenetspeech的onnx文件，代码如下 ``` # 动态图导出的ONNX模型测试 import time import numpy as np from onnxruntime import InferenceSession audio = np.random.randn(1, 498, 161).astype('float32') audio_len = np.random.randn(1).astype("int64") text = np.random.randn(1, 1, 1).astype('float32') text_len = np.random.randn(1,...

zhijianli

S2T

流式ASR支持多并发吗？

## General Question 如果支持的话，同时可以支持多少个并发

xiaolei543

Question

请帮忙分析下报错：IndexError: (OutOfRange) The starting index 0 of slice is out of bounds in tensor 0-th axis, it shound be in the range of [0, 0). (at ..\paddle/fluid/pybind/slice_utils.h:214)

## General Question E:\Anaconda\installation\envs\Audio\lib\site-packages\_distutils_hack\__init__.py:33: UserWarning: Setuptools is replacing distutils. warnings.warn("Setuptools is replacing distutils.") [2024-01-18 13:51:22,092] [ INFO] - Already cached C:\Users\47053\.paddlenlp\models\bert-base-chinese\bert-base-chinese-vocab.txt [2024-01-18 13:51:22,105] [ INFO] - tokenizer config file saved...

quantbruce

Question

在win10上启动demos中的speech_web进行实时语音识别如何提高实时语音转写速度

页面图片 ![image](https://github.com/PaddlePaddle/PaddleSpeech/assets/118660349/45e7fae6-d422-424d-866d-63222a632fe9) 测试环境 win10 使用cpu 依赖版本 ![Snipaste_2024-02-06_16-32-12](https://github.com/PaddlePaddle/PaddleSpeech/assets/118660349/e659bfbb-51e2-4966-9d93-7f4b15f895cb) python版本 3.8.18 需求: 在不使用gpu的情况下如何调整可以能让实时语音转写速度加快因为现在的语音转写还是有些延迟的思路应该往哪个方面考虑如果在使用gpu的情况下又该往哪个方面考虑取调整优化期待回复谢谢!!!

777sfdf

Question

有可适配cpu不支持avx的版本吗

xhshdjdk

能否新增粤语的语音识别功能？应该如何训练粤语的语音识别模型？

如题。背景：我想寻找一个能离线运行的粤语的语音识别（Speech2Text）解决方案，不需要Text2Speech功能。请问之后会更新粤语的语音识别的功能吗？另外，如果我想使用自己的语音数据，训练一个自己的粤语的语音识别模型，应该如何做呢？可以直接使用PaddleSpeech的框架进行训练吗？

zhangqiqi1228

feature request

PaddleSpeech
PaddleSpeech copied to clipboard

Metadata

声纹识别和所说的话内容应该不相关吧，但是测试却发现不是这样的

声纹识别的准确率问题，我们应用过程中只有71%，这是正常水平吗？

streaming asr GPU利用率不到4%

声纹识别安全性问题，能别录音欺骗

试图加载deepspeech2online_wenetspeech的onnx文件，但是报错

流式ASR支持多并发吗？

请帮忙分析下报错：IndexError: (OutOfRange) The starting index 0 of slice is out of bounds in tensor 0-th axis, it shound be in the range of [0, 0). (at ..\paddle/fluid/pybind/slice_utils.h:214)

在win10上启动demos中的speech_web进行实时语音识别如何提高实时语音转写速度

有可适配cpu不支持avx的版本吗

能否新增粤语的语音识别功能？应该如何训练粤语的语音识别模型？

← Metadata

Owner

Metadata

PaddleSpeech PaddleSpeech copied to clipboard

Metadata

← Metadata

Owner

Metadata

PaddleSpeech
PaddleSpeech copied to clipboard