ChatTTS-OpenVoice input audio is too short

Traceback (most recent call last):
  File "/root/miniconda3/envs/chattts/lib/python3.10/site-packages/gradio/queueing.py", line 624, in process_events
    response = await route_utils.call_process_api(
  File "/root/miniconda3/envs/chattts/lib/python3.10/site-packages/gradio/route_utils.py", line 323, in call_process_api
    output = await app.get_blocks().process_api(
  File "/root/miniconda3/envs/chattts/lib/python3.10/site-packages/gradio/blocks.py", line 2015, in process_api
    result = await self.call_function(
  File "/root/miniconda3/envs/chattts/lib/python3.10/site-packages/gradio/blocks.py", line 1562, in call_function
    prediction = await anyio.to_thread.run_sync(  # type: ignore
  File "/root/miniconda3/envs/chattts/lib/python3.10/site-packages/anyio/to_thread.py", line 56, in run_sync
    return await get_async_backend().run_sync_in_worker_thread(
  File "/root/miniconda3/envs/chattts/lib/python3.10/site-packages/anyio/_backends/_asyncio.py", line 2441, in run_sync_in_worker_thread
    return await future
  File "/root/miniconda3/envs/chattts/lib/python3.10/site-packages/anyio/_backends/_asyncio.py", line 943, in run
    result = context.run(func, *args)
  File "/root/miniconda3/envs/chattts/lib/python3.10/site-packages/gradio/utils.py", line 865, in wrapper
    response = f(*args, **kwargs)
  File "/root/ChatTTS-OpenVoice/app.py", line 88, in generate_audio
    source_se, audio_name = se_extractor.get_se(src_path, tone_color_converter, target_dir='processed', vad=True)
  File "/root/ChatTTS-OpenVoice/OpenVoice/se_extractor.py", line 144, in get_se
    wavs_folder = split_audio_vad(audio_path, target_dir=target_dir, audio_name=audio_name)
  File "/root/ChatTTS-OpenVoice/OpenVoice/se_extractor.py", line 104, in split_audio_vad
    assert num_splits > 0, 'input audio is too short'
AssertionError: input audio is too short

I uploaded a file which is not empty. However the assert fails.

Nov 14 '24 09:11 xy3xy3

same problem too..

Nov 22 '24 06:11 jiaohuix

That means too short.. Still need at least around 10 seconds audio to extract timbral features.

Nov 25 '24 12:11 HKoon