whisper.cpp No output after build with Visual Studio 2022 Community Edition

trafficstars

Hi, after I build this with VS 2022 Community Edition and then run "main.exe" I got these, but no output. What's wrong?

C:\Users\Toshiba\Documents\GitHub\whisper.cpp\out\build\x64-Debug\bin>main -t 4 -p 4 -m ggml-small.bin -l en -otxt -f sum.wav
whisper_init_from_file_no_state: loading model from 'ggml-small.bin'
whisper_model_load: loading model
whisper_model_load: n_vocab       = 51865
whisper_model_load: n_audio_ctx   = 1500
whisper_model_load: n_audio_state = 768
whisper_model_load: n_audio_head  = 12
whisper_model_load: n_audio_layer = 12
whisper_model_load: n_text_ctx    = 448
whisper_model_load: n_text_state  = 768
whisper_model_load: n_text_head   = 12
whisper_model_load: n_text_layer  = 12
whisper_model_load: n_mels        = 80
whisper_model_load: ftype         = 1
whisper_model_load: qntvr         = 0
whisper_model_load: type          = 3
whisper_model_load: mem required  =  743.00 MB (+   16.00 MB per decoder)
whisper_model_load: adding 1608 extra tokens
whisper_model_load: model ctx     =  464.68 MB
whisper_model_load: model size    =  464.44 MB
whisper_init_state: kv self size  =   15.75 MB
whisper_init_state: kv cross size =   52.73 MB

system_info: n_threads = 16 / 4 | AVX = 1 | AVX2 = 1 | AVX512 = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | VSX = 0 | COREML = 0 | OPENVINO = 0 |

main: processing 'sum.wav' (363346 samples, 22.7 sec), 4 threads, 4 processors, lang = en, task = transcribe, timestamps = 1 ...

whisper_init_state: kv self size  =   15.75 MB
whisper_init_state: kv cross size =   52.73 MB
whisper_init_state: kv self size  =   15.75 MB
whisper_init_state: kv cross size =   52.73 MB
whisper_init_state: kv self size  =   15.75 MB
whisper_init_state: kv cross size =   52.73 MB

Jul 10 '23 19:07 botbahlul

I just tried "main.exe" from this : https://github.com/Const-me/Whisper and IT HAS OUTPUT (I BUILD IT MY SELF WITH VISUAL STUDIO 2022 COMUNITY EDITION, NO OUTPUT WHEN I TRIED THE BUILD FROM ITS RELEASES PAGE)

C:\Users\Toshiba\Documents\GitHub\Whisper\x64\Debug>main -t 4 -m small.bin -l en -f sum.wav
Using GPU "AMD Radeon HD 7570M", feature level 11.0, effective flags Wave64 | UseReshapedMatMul
Loaded MEL filters, 62.8 kb RAM
Loaded vocabulary, 51865 strings, 3037.1 kb RAM
Loaded 479 GPU tensors, 464.445 MB VRAM
Computed CPU base frequency: 2.69389 GHz
Loaded model from "small.bin" to VRAM
Created source reader from the file "sum.wav"

[00:00:00.000 --> 00:00:03.000]   He never told me you were friends.
[00:00:03.000 --> 00:00:06.000]   Perhaps he didn't know you well enough.
[00:00:06.000 --> 00:00:11.000]   Cabot did tell me he had a source in Russia.
[00:00:11.000 --> 00:00:16.000]   To keep the back channels open?
[00:00:16.000 --> 00:00:20.000]   In hopes of staving off disaster.
[00:00:20.000 --> 00:00:22.000]   President Kennedy said...
    CPU Tasks
LoadModel       1.54761 seconds
RunComplete     59.8767 seconds
Run     59.7388 seconds
Callbacks       4.9925 milliseconds, 8 calls, 624.062 microseconds average
Spectrogram     1.88861 seconds, 5 calls, 377.722 milliseconds average
Sample  651.92 milliseconds, 61 calls, 10.6872 milliseconds average
Encode  51.4961 seconds, 2 calls, 25.748 seconds average
Decode  8.23404 seconds, 2 calls, 4.11702 seconds average
DecodeStep      7.58138 seconds, 61 calls, 124.285 milliseconds average
    GPU Tasks
LoadModel       400.852 milliseconds
Run     57.4399 seconds
Encode  50.9867 seconds, 2 calls, 25.4933 seconds average
EncodeLayer     39.5927 seconds, 24 calls, 1.6497 seconds average
Decode  6.45319 seconds, 2 calls, 3.22659 seconds average
DecodeStep      6.45319 seconds, 61 calls, 105.79 milliseconds average
DecodeLayer     4.84453 seconds, 732 calls, 6.61821 milliseconds average
    Compute Shaders
mulMatTiledEx   29.3794 seconds, 240 calls, 122.414 milliseconds average
mulMatTiled     6.31355 seconds, 290 calls, 21.7709 milliseconds average
mulMatByRowTiled        2.39239 seconds, 7139 calls, 335.116 microseconds average
addRepeatGelu   2.26745 seconds, 760 calls, 2.98349 milliseconds average
convolutionMain 2.18608 seconds, 2 calls, 1.09304 seconds average
convolutionMain2Fixed   1.80022 seconds, 2 calls, 900.11 milliseconds average
matReshapePanels        1.31724 seconds, 146 calls, 9.02222 milliseconds average
fmaRepeat1      1.21042 seconds, 2307 calls, 524.671 microseconds average
copyTranspose   1.20915 seconds, 1512 calls, 799.701 microseconds average
softMaxFixed    1.18434 seconds, 756 calls, 1.56659 milliseconds average
addRepeat       1.14237 seconds, 804 calls, 1.42086 milliseconds average
scaleInPlace    1.08718 seconds, 756 calls, 1.43807 milliseconds average
softMaxLong     821.583 milliseconds, 61 calls, 13.4686 milliseconds average
mulMatByRowTiledEx      711.794 milliseconds, 1416 calls, 502.679 microseconds average
norm    511.68 milliseconds, 2307 calls, 221.795 microseconds average
copyConvert     381.027 milliseconds, 1560 calls, 244.248 microseconds average
addRepeatEx     180.662 milliseconds, 2244 calls, 80.5091 microseconds average
softMax 95.8522 milliseconds, 732 calls, 130.946 microseconds average
addRepeatScale  75.6341 milliseconds, 1464 calls, 51.6626 microseconds average
convolutionPrep1        62.686 milliseconds, 4 calls, 15.6715 milliseconds average
convolutionPrep2        38.2248 milliseconds, 4 calls, 9.5562 milliseconds average
diagMaskInf     29.3873 milliseconds, 732 calls, 40.1466 microseconds average
add     2.8221 milliseconds, 2 calls, 1.41105 milliseconds average
addRows 737.2 microseconds, 61 calls, 12.0852 microseconds average
    Memory Usage
Model   859.685 KB RAM, 464.445 MB VRAM
Context 23.7503 MB RAM, 412.894 MB VRAM
Total   24.5898 MB RAM, 877.338 MB VRAM

When I tried "main.exe" from your repo IT HAS NO OUTPUT, BOTH on my self build and from this releases page.

I hope you can find the bug, I love this CPP because it's really FASTER!

Wait... "main.exe" from this : https://github.com/Const-me/Whisper now is very slow and just hung out .. what's wrong?

C:\Users\Toshiba\Documents\GitHub\Whisper\x64\Debug>main -t 4 -p 4 -m small.bin -l en -f sum.wav
Using GPU "AMD Radeon HD 7570M", feature level 11.0, effective flags Wave64 | UseReshapedMatMul
Loaded MEL filters, 62.8 kb RAM
Loaded vocabulary, 51865 strings, 3037.1 kb RAM

Jul 11 '23 12:07 botbahlul

It looks like these ".bin" models wont work smoothly on AMD GPU devices. Sometimes (very rarely) it can be loaded well, but many times it won't.

Jul 12 '23 18:07 botbahlul

AMD

We AMD users have no human rights in AI areas. https://github.com/Const-me/Whisper also stopped development.

Feb 04 '25 14:02 gsxgmpkt9020

AMD

We AMD users have no human rights in AI areas. https://github.com/Const-me/Whisper also stopped development.

that sucks!

Feb 08 '25 16:02 botbahlul

Vulkan supports AMD GPU well. My case: whisper.cpp runs happily on AMD 780M (7840HS).

Feb 09 '25 03:02 foldl

whisper.cpp whisper.cpp copied to clipboard

No output after build with Visual Studio 2022 Community Edition

whisper.cpp
whisper.cpp copied to clipboard