FunASR
FunASR copied to clipboard
字母大小写规则问题
昨天更新完modelscope和funasr后,发现解码结果对字母大小写的规则改变了。更新前,单词和单个字母都是小写,剩下的字母组合都是大写(例如三角形ABC,力FA,等),并且不会有大小写混合出现的情况。更新后,却会时常出现大小写混合的情况。如果我想恢复到更新前的状况,有办法吗?另外还发现标点符号也变了,中文和英文后面跟的标点不再统一是中文格式了。
下面是两个例子 1 他们有几种可能啊AA 去参加呢 Abaca 不去参加这BC 那不就三种可能嘛 2 来同样这里是什么 Sine sine 是奇函数 (这里的Sine明明是一个单词,但却首字母大写)
更新前的版本应该至少是2、3个月前的版本了,具体版本号由于更新覆盖,好像查不到了。 我想恢复到以前的状况,请问有办法吗?
Name Version Build Channel
_libgcc_mutex 0.1 conda_forge conda-forge
_openmp_mutex 4.5 2_gnu conda-forge
absl-py 1.4.0 pypi_0 pypi
addict 2.4.0 pypi_0 pypi
aiohttp 3.8.5 pypi_0 pypi
aiosignal 1.3.1 pypi_0 pypi
aliyun-python-sdk-core 2.13.36 pypi_0 pypi
aliyun-python-sdk-kms 2.16.1 pypi_0 pypi
aniso8601 9.0.1 pypi_0 pypi
annotated-types 0.5.0 pypi_0 pypi
anyio 3.7.1 pypi_0 pypi
async-timeout 4.0.2 pypi_0 pypi
attrs 23.1.0 pypi_0 pypi
audioread 3.0.0 pypi_0 pypi
bitstring 4.0.2 pypi_0 pypi
bottleneck 1.3.7 pypi_0 pypi
bzip2 1.0.8 h7f98852_4 conda-forge
ca-certificates 2023.7.22 hbcca054_0 conda-forge
cachetools 5.3.1 pypi_0 pypi
certifi 2023.7.22 pypi_0 pypi
cffi 1.15.1 pypi_0 pypi
charset-normalizer 3.2.0 pypi_0 pypi
click 8.0.4 pypi_0 pypi
cmake 3.27.0 pypi_0 pypi
coloredlogs 14.0 pypi_0 pypi
contourpy 1.1.0 pypi_0 pypi
crcmod 1.7 pypi_0 pypi
cryptography 41.0.2 pypi_0 pypi
cycler 0.11.0 pypi_0 pypi
cython 0.29.36 pypi_0 pypi
datasets 2.13.0 pypi_0 pypi
decorator 5.1.1 pypi_0 pypi
dill 0.3.6 pypi_0 pypi
distance 0.1.3 pypi_0 pypi
dnspython 2.4.0 pypi_0 pypi
edit-distance 1.0.6 pypi_0 pypi
editdistance 0.6.2 pypi_0 pypi
einops 0.6.1 pypi_0 pypi
espnet-tts-frontend 0.0.3 pypi_0 pypi
et-xmlfile 1.1.0 pypi_0 pypi
eventlet 0.33.3 pypi_0 pypi
exceptiongroup 1.1.2 pypi_0 pypi
ffmpeg 1.4 pypi_0 pypi
filelock 3.12.2 pypi_0 pypi
flask 2.1.3 pypi_0 pypi
flask-cors 4.0.0 pypi_0 pypi
flask-restful 0.3.10 pypi_0 pypi
flask-socketio 4.3.2 pypi_0 pypi
flask-talisman 1.0.0 pypi_0 pypi
fonttools 4.41.1 pypi_0 pypi
frozenlist 1.4.0 pypi_0 pypi
fsspec 2023.6.0 pypi_0 pypi
funasr 0.8.0 dev_0
使用功能是非流式离线长音频识别。vad asr timestamp punc都有用上。 inference_pipeline = pipeline( task=Tasks.auto_speech_recognition, model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch', model_revision="v1.2.4", output_dir=asr_outdir)
我看起来的感觉是句首字母被强制大写了。对于单词来说没什么问题,但对于非单词,如例子中给出的“他们有几种可能啊AA 去参加呢?Abaca 不去参加这BC,那不就三种可能嘛?“这里Abaca和AA和BC一样,显然不是单词,以前的规则下应该是ABACA的形式。
OS: linux
Python/C++ Version:Python 3.8.17
Package Version:pytorch、torchaudio、modelscope、funasr version(pip list) Package Version Editable project location
absl-py 1.4.0 addict 2.4.0 aiohttp 3.8.5 aiosignal 1.3.1 aliyun-python-sdk-core 2.13.36 aliyun-python-sdk-kms 2.16.1 aniso8601 9.0.1 annotated-types 0.5.0 anyio 3.7.1 async-timeout 4.0.2 attrs 23.1.0 audioread 3.0.0 bitstring 4.0.2 Bottleneck 1.3.7 cachetools 5.3.1 certifi 2023.7.22 cffi 1.15.1 charset-normalizer 3.2.0 click 8.0.4 cmake 3.27.0 coloredlogs 14.0 contourpy 1.1.0 crcmod 1.7 cryptography 41.0.2 cycler 0.11.0 Cython 0.29.36 datasets 2.13.0 decorator 5.1.1 dill 0.3.6 Distance 0.1.3 dnspython 2.4.0 edit-distance 1.0.6 editdistance 0.6.2 einops 0.6.1 espnet-tts-frontend 0.0.3 et-xmlfile 1.1.0 eventlet 0.33.3 exceptiongroup 1.1.2 ffmpeg 1.4 filelock 3.12.2 Flask 2.1.3 Flask-Cors 4.0.0 Flask-RESTful 0.3.10 Flask-SocketIO 4.3.2 flask-talisman 1.0.0 fonttools 4.41.1 frozenlist 1.4.0 fsspec 2023.6.0 funasr 0.8.0 /data2/lixin/project/FunASR future 0.18.3 g2p 1.1.20230511 g2p-en 2.1.0 gast 0.5.4 google-auth 2.22.0 google-auth-oauthlib 1.0.0 greenlet 2.0.2 grpcio 1.56.2 h11 0.14.0 h5py 3.9.0 hdbscan 0.8.33 httpcore 0.17.3 huggingface-hub 0.16.4 humanfriendly 10.0 HyperPyYAML 1.2.1 idna 3.4 importlib-metadata 6.8.0 importlib-resources 6.0.0 inflect 7.0.0 itsdangerous 2.1.2 jaconv 0.3.4 jamo 0.4.1 jedi 0.18.2 jieba 0.42.1 Jinja2 3.1.2 jmespath 0.10.0 joblib 1.3.1 kaldiio 2.18.0 kantts 1.0.1 kiwisolver 1.4.4 kwsbp 0.0.6 librosa 0.9.2 lit 16.0.6 llvmlite 0.40.1 lxml 4.9.3 Markdown 3.4.4 MarkupSafe 2.1.3 matplotlib 3.7.2 MinDAEC 0.0.2 mir-eval 0.7 modelscope 1.9.2 mpmath 1.3.0 msgpack 1.0.5 multidict 6.0.4 multiprocess 0.70.14 munkres 1.1.4 nara-wpe 0.0.9 networkx 2.8.4 nltk 3.8.1 numba 0.57.1 numpy 1.22.0 nvidia-cublas-cu11 11.10.3.66 nvidia-cuda-cupti-cu11 11.7.101 nvidia-cuda-nvrtc-cu11 11.7.99 nvidia-cuda-runtime-cu11 11.7.99 nvidia-cudnn-cu11 8.5.0.96 nvidia-cufft-cu11 10.9.0.58 nvidia-curand-cu11 10.2.10.91 nvidia-cusolver-cu11 11.4.0.1 nvidia-cusparse-cu11 11.7.4.91 nvidia-nccl-cu11 2.14.3 nvidia-nvtx-cu11 11.7.91 oauthlib 3.2.2 openpyxl 3.1.2 oss2 2.18.1 packaging 23.1 pandas 1.3.5 panphon 0.20.0 parso 0.8.3 pexpect 4.8.0 pickleshare 0.7.5 Pillow 10.0.0 pip 23.2.1 platformdirs 3.9.1 pooch 1.7.0 prompt-toolkit 3.0.39 protobuf 4.23.4 ptflops 0.7 ptyprocess 0.7.0 py-sound-connect 0.2.1 pyarrow 12.0.1 pyasn1 0.5.0 pyasn1-modules 0.3.0 pycparser 2.21 pycryptodome 3.18.0 pydantic 2.1.1 pydantic_core 2.4.0 Pygments 2.15.1 pyparsing 3.0.9 pypinyin 0.49.0 pysptk 0.1.21 python-dateutil 2.8.2 python-engineio 3.14.2 python-socketio 4.6.1 pytorch-wavelets 1.3.0 pytorch-wpe 0.0.1 pytz 2023.3 PyWavelets 1.4.1 PyYAML 6.0.1 regex 2023.6.3 requests 2.31.0 requests-oauthlib 1.3.1 resampy 0.4.2 rotary-embedding-torch 0.2.5 rsa 4.9 ruamel.yaml 0.17.28 ruamel.yaml.clib 0.2.7 scikit-learn 1.3.0 scipy 1.10.1 sentencepiece 0.1.99 setuptools 68.0.0 simplejson 3.19.1 six 1.16.0 sniffio 1.3.0 sortedcontainers 2.4.0 soundfile 0.12.1 sox 1.4.1 speechbrain 0.5.15 sympy 1.12 tensorboard 2.13.0 tensorboard-data-server 0.7.1 tensorboardX 2.6.1 text-unidecode 1.3 TextGrid 1.5 threadpoolctl 3.2.0 tomli 2.0.1 torch 2.0.1 torch-complex 0.4.3 torchaudio 2.0.2 tqdm 4.65.0 traitlets 5.9.0 triton 2.0.0 ttsfrd 0.2.1 typing_extensions 4.7.1 umap 0.1.1 unicodecsv 0.14.1 Unidecode 1.3.6 urllib3 1.26.16 wcwidth 0.2.6 Werkzeug 2.0.3 wheel 0.41.0 xxhash 3.2.0 yapf 0.40.1 yarl 1.9.2 zipp 3.16.2
Model: model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch',
Command: inference_pipeline = pipeline( task=Tasks.auto_speech_recognition, model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch', model_revision="v1.2.4", output_dir=asr_outdir) inference_pipeline(audio_in=wavfp)
Details: 昨天更新完modelscope和funasr后,发现解码结果对字母大小写的规则改变了。更新前,单词和单个字母都是小写,剩下的字母组合都是大写(例如三角形ABC,力FA,等),并且不会有大小写混合出现的情况。更新后,却会时常出现大小写混合的情况。如果我想恢复到更新前的状况,有办法吗?另外还发现标点符号也变了,中文和英文后面跟的标点不再统一是中文格式了。
下面是两个例子 1 他们有几种可能啊AA 去参加呢 Abaca 不去参加这BC 那不就三种可能嘛 2 来同样这里是什么 Sine sine 是奇函数 (这里的Sine明明是一个单词,但却首字母大写)
更新前的版本应该至少是2、3个月前的版本了,具体版本号由于更新覆盖,好像查不到了。 我想恢复到以前的状况,请问有办法吗?
PS:我看起来的感觉是句首字母被强制大写了。对于单词来说没什么问题,但对于非单词,如例子中给出的“他们有几种可能啊AA 去参加呢?Abaca 不去参加这BC,那不就三种可能嘛?“这里Abaca和AA和BC一样,显然不是单词,以前的规则下应该是ABACA的形式。
Error log: