whisper.cpp
whisper.cpp copied to clipboard
Repeating parts of text instead of transcribing - more than an hour long files
It sometimes happpens that output looks like below. For some reason it stops transcribing and just repeats last part for 14 minutes, in this case. Any idea what can cause this? There is nothing special in the file that i could hear what could cause this. It is pretty weird because otherwise it is amazingly good, sometimes even detecting songs being played. Are there any settings to adjust to prevent this?
[01:30:45.000 --> 01:30:55.000] Und ich habe immer den iPod mit mir. Und ich habe immer den [01:30:55.000 --> 01:30:55.000] iPod mit mir. Und ich habe immer den iPod mit mir. Und ich [01:30:55.000 --> 01:30:55.000] habe immer den iPod mit mir. [01:30:56.000 --> 01:31:16.000] Und ich habe immer den iPod mit mir. Und ich habe immer den [01:31:16.000 --> 01:31:16.000] iPod mit mir. Und ich habe immer den iPod mit mir. Und ich [01:31:16.000 --> 01:31:16.000] habe immer den iPod mit mir. … … … [01:45:06.000 --> 01:45:06.000] iPod mit mir. Und ich habe immer den iPod mit mir. Und ich [01:45:06.000 --> 01:45:06.000] habe immer den iPod mit mir. [01:45:07.000 --> 01:45:17.950] Und ich habe immer den iPod mit mir. Und ich habe immer den [01:45:17.950 --> 01:45:20.590] iPod mit mir. Und ich habe immer den iPod mit mir. Und ich [01:45:20.590 --> 01:45:22.000] habe immer den iPod mit mir. [01:45:23.000 --> 01:45:32.000] Singen wir "O es ist Jesus, O es ist Jesus".
Again, this time after just a 2 minutes, the same text repeats all the way to the end of the 1 hour long file :
Ty si ku nám prehovoril a my chceme hovoriť k Tebe, Pane, a môžeme Ti len prinášať vďaky za to, že si tak moc nehovoril. A všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, … … …
facing similar issue. Any solution is there for this one?
I also noticed these repetitions.
I did some tests (using the ggml-medium.bin model) on some audio from an episode of an Italian TV series (about 32 minutes). There are ambient noises and music, sometimes even in the background during speeches. Maybe the problem could be traced back to this. It seems that the phrase following the noises (or the music, if it is not recognised as such) is repeated for all the duration of these noises (I can provide an audio sample for this). Maybe the repeating part starts in a similar situation and, for some reason, it continues for all the duration of the audio.
P.S. Another thing I noticed that I did not expect (but which may be normal, I don't know) is that the windows executable downloaded from this page and the one for AARM64 compiled for macOS by my colleague, do not produce exactly the same transcription when I use the same audio on the same model.
BTW I've seen this issue using upstream/pytorch Whisper on long video files.
Has anybody tried replicating the repeated lines problem with any up-to-date version of Whisper since OpenAI added this commit?
https://github.com/openai/whisper/commit/919a713499d4c4f76ecf448617ada8e9ac008fbb
This fix has been included since Whisper 20230307
.
The repeating/dupe line problems makes this very hard to use for anything non-English, and even then it can still break down and start looping very easily, so I would love to see if this fixes it.
Having the same problem, missing almost 5 minutes of the transcription i made of a 1 1/2h team meeting capture (from a mp4 files). Just to be clear, while the transcription is outputting a "text loop", the conversation in the video continued normally.
Example of the Problem
[01:13:07.000 --> 01:13:10.000] die ist eben so, dass man sich dann anmelden kann. [01:13:10.000 --> 01:13:13.000] Und das ist dann natürlich auch eine Möglichkeit, [01:13:13.000 --> 01:13:16.000] dass man sich dann auch an diese Plattformen anmelden kann. [01:13:16.000 --> 01:13:19.000] Und das ist dann natürlich auch ein Vorteil, [01:13:19.000 --> 01:13:21.000] weil man dann auch die Möglichkeit hat, [01:13:21.000 --> 01:13:23.000] sich dann auch an die Plattformen anzumelden. [01:13:23.000 --> 01:13:25.000] Und das ist dann natürlich auch ein Vorteil, [01:13:25.000 --> 01:13:27.000] weil man dann auch die Möglichkeit hat, [01:13:27.000 --> 01:13:29.000] sich dann auch an die Plattformen anzumelden. [01:13:29.000 --> 01:13:31.000] Und das ist dann natürlich auch ein Vorteil, [01:13:31.000 --> 01:13:33.000] weil man dann auch die Möglichkeit hat, [01:13:33.000 --> 01:13:35.000] sich dann auch an die Plattformen anzumelden. [01:13:35.000 --> 01:13:37.000] Und das ist dann natürlich auch ein Vorteil, [01:13:37.000 --> 01:13:39.000] weil man dann auch die Möglichkeit hat, [01:13:39.000 --> 01:13:41.000] sich dann auch an die Plattformen anzumelden. [01:13:41.000 --> 01:13:43.000] Und das ist dann natürlich auch ein Vorteil, [01:13:43.000 --> 01:13:45.000] weil man dann auch die Möglichkeit hat, [01:13:45.000 --> 01:13:47.000] sich dann auch an die Plattformen anzumelden. [01:13:47.000 --> 01:13:49.000] Und das ist dann natürlich auch ein Vorteil, [01:13:49.000 --> 01:13:51.000] weil man dann auch die Möglichkeit hat, [01:13:51.000 --> 01:13:53.000] sich dann auch an die Plattformen anzumelden. [01:13:53.000 --> 01:13:55.000] Und das ist dann natürlich auch ein Vorteil, [01:13:55.000 --> 01:13:57.000] weil man dann auch die Möglichkeit hat, [01:13:57.000 --> 01:13:59.000] sich dann auch an die Plattformen anzumelden. [01:13:59.000 --> 01:14:01.000] Und das ist dann natürlich auch ein Vorteil, [01:14:01.000 --> 01:14:03.000] weil man dann auch die Möglichkeit hat, [01:14:03.000 --> 01:14:05.000] sich dann auch an die Plattformen anzumelden. [01:14:05.000 --> 01:14:07.000] Und das ist dann natürlich auch ein Vorteil, [01:14:07.000 --> 01:14:09.000] weil man dann auch die Möglichkeit hat, [01:14:09.000 --> 01:14:11.000] sich dann auch an die Plattformen anzumelden. [01:14:11.000 --> 01:14:13.000] Und das ist dann natürlich auch ein Vorteil, [01:14:13.000 --> 01:14:15.000] weil man dann auch die Möglichkeit hat, [01:14:15.000 --> 01:14:17.000] sich dann auch an die Plattformen anzumelden. [01:14:17.000 --> 01:14:19.000] Und das ist dann natürlich auch ein Vorteil, [01:14:19.000 --> 01:14:21.000] weil man dann auch die Möglichkeit hat, [01:14:21.000 --> 01:14:23.000] sich dann auch an die Plattformen anzumelden. [01:14:23.000 --> 01:14:25.000] Und das ist dann natürlich auch ein Vorteil, [01:14:25.000 --> 01:14:27.000] weil man dann auch die Möglichkeit hat, [01:14:27.000 --> 01:14:29.000] sich dann auch an die Plattformen anzumelden. [01:14:29.000 --> 01:14:31.000] Und das ist dann natürlich auch ein Vorteil, [01:14:31.000 --> 01:14:33.000] weil man dann auch die Möglichkeit hat, [01:14:33.000 --> 01:14:35.000] sich dann auch an die Plattformen anzumelden. [01:14:35.000 --> 01:14:37.000] Und das ist dann natürlich auch ein Vorteil, [01:14:37.000 --> 01:14:39.000] weil man dann auch die Möglichkeit hat, [01:14:39.000 --> 01:14:41.000] sich dann auch an die Plattformen anzumelden. [01:14:41.000 --> 01:14:43.000] Und das ist dann natürlich auch ein Vorteil, [01:14:43.000 --> 01:14:45.000] weil man dann auch die Möglichkeit hat, [01:14:45.000 --> 01:14:47.000] sich dann auch an die Plattformen anzumelden. [01:14:47.000 --> 01:14:49.000] Und das ist dann natürlich auch ein Vorteil, [01:14:49.000 --> 01:14:51.000] weil man dann auch die Möglichkeit hat, [01:14:51.000 --> 01:14:53.000] sich dann auch an die Plattformen anzumelden. [01:14:53.000 --> 01:14:55.000] Und das ist dann natürlich auch ein Vorteil, [01:14:55.000 --> 01:14:57.000] weil man dann auch die Möglichkeit hat, [01:14:57.000 --> 01:14:59.000] sich dann auch an die Plattformen anzumelden. [01:14:59.000 --> 01:15:01.000] Und das ist dann natürlich auch ein Vorteil, [01:15:01.000 --> 01:15:03.000] weil man dann auch die Möglichkeit hat, [01:15:03.000 --> 01:15:05.000] sich dann auch an die Plattformen anzumelden. [01:15:05.000 --> 01:15:07.000] Und das ist dann natürlich auch ein Vorteil, [01:15:07.000 --> 01:15:09.000] weil man dann auch die Möglichkeit hat, [01:15:09.000 --> 01:15:11.000] sich dann auch an die Plattformen anzumelden. [01:15:11.000 --> 01:15:13.000] Und das ist dann natürlich auch ein Vorteil, [01:15:13.000 --> 01:15:15.000] weil man dann auch die Möglichkeit hat, [01:15:15.000 --> 01:15:17.000] sich dann auch an die Plattformen anzumelden. [01:15:17.000 --> 01:15:19.000] Und das ist dann natürlich auch ein Vorteil, [01:15:19.000 --> 01:15:21.000] weil man dann auch die Möglichkeit hat, [01:15:21.000 --> 01:15:23.000] sich dann auch an die Plattformen anzumelden. [01:15:23.000 --> 01:15:25.000] Und das ist dann natürlich auch ein Vorteil, [01:15:25.000 --> 01:15:27.000] weil man dann auch die Möglichkeit hat, [01:15:27.000 --> 01:15:29.000] sich dann auch an die Plattformen anzumelden. [01:15:29.000 --> 01:15:31.000] Und das ist dann natürlich auch ein Vorteil, [01:15:31.000 --> 01:15:33.000] weil man dann auch die Möglichkeit hat, [01:15:33.000 --> 01:15:35.000] sich dann auch an die Plattformen anzumelden. [01:15:35.000 --> 01:15:37.000] Und das ist dann natürlich auch ein Vorteil, [01:15:37.000 --> 01:15:39.000] weil man dann auch die Möglichkeit hat, [01:15:39.000 --> 01:15:41.000] sich dann auch an die Plattformen anzumelden. [01:15:41.000 --> 01:15:43.000] Und das ist dann natürlich auch ein Vorteil, [01:15:43.000 --> 01:15:45.000] weil man dann auch die Möglichkeit hat, [01:15:45.000 --> 01:15:47.000] sich dann auch an die Plattformen anzumelden. [01:15:47.000 --> 01:15:49.000] Und das ist dann natürlich auch ein Vorteil, [01:15:49.000 --> 01:15:51.000] weil man dann auch die Möglichkeit hat, [01:15:51.000 --> 01:15:53.000] sich dann auch an die Plattformen anzumelden. [01:15:53.000 --> 01:15:55.000] Und das ist dann natürlich auch ein Vorteil, [01:15:55.000 --> 01:15:57.000] weil wir dann auch die Möglichkeit haben, [01:15:57.000 --> 01:15:59.000] sich dann auch an die Plattformen anzumelden. [01:15:59.000 --> 01:16:01.000] Und das ist dann natürlich auch ein Vorteil, [01:16:01.000 --> 01:16:03.000] weil man dann auch die Möglichkeit hat, [01:16:03.000 --> 01:16:05.000] sich dann auch an die Plattformen anzumelden. [01:16:05.000 --> 01:16:07.000] Und das ist dann natürlich auch ein Vorteil, [01:16:07.000 --> 01:16:09.000] weil man dann auch die Möglichkeit hat, [01:16:09.000 --> 01:16:11.000] sich dann auch an die Plattformen anzumelden. [01:16:11.000 --> 01:16:13.000] Und das ist dann natürlich auch ein Vorteil, [01:16:13.000 --> 01:16:15.000] weil man dann auch die Möglichkeit hat, [01:16:15.000 --> 01:16:17.000] sich dann auch an die Plattformen anzumelden. [01:16:17.000 --> 01:16:19.000] Und das ist dann natürlich auch ein Vorteil, [01:16:19.000 --> 01:16:21.000] weil man dann auch die Möglichkeit hat, [01:16:21.000 --> 01:16:23.000] sich dann auch an die Plattformen anzumelden. [01:16:23.000 --> 01:16:25.000] Und das ist dann natürlich auch ein Vorteil, [01:16:25.000 --> 01:16:27.000] weil man dann auch die Möglichkeit hat, [01:16:27.000 --> 01:16:29.000] sich dann auch an die Plattformen anzumelden. [01:16:29.000 --> 01:16:31.000] Und das ist dann natürlich auch ein Vorteil, [01:16:31.000 --> 01:16:33.000] weil man dann auch die Möglichkeit hat, [01:16:33.000 --> 01:16:35.000] sich dann auch an die Plattformen anzumelden. [01:16:35.000 --> 01:16:37.000] Und das ist dann natürlich auch ein Vorteil, [01:16:37.000 --> 01:16:39.000] weil man dann auch die Möglichkeit hat, [01:16:39.000 --> 01:16:41.000] sich dann auch an die Plattformen anzumelden. [01:16:41.000 --> 01:16:43.000] Und das ist dann natürlich auch ein Vorteil, [01:16:43.000 --> 01:16:45.000] weil man dann auch die Möglichkeit hat, [01:16:45.000 --> 01:16:47.000] sich dann auch an die Plattformen anzumelden. [01:16:47.000 --> 01:16:49.000] Und das ist dann natürlich auch ein Vorteil, [01:16:49.000 --> 01:16:51.000] weil man dann auch die Möglichkeit hat, [01:16:51.000 --> 01:16:53.000] sich dann auch an die Plattformen anzumelden. [01:16:53.000 --> 01:16:55.000] Und das ist dann natürlich auch ein Vorteil, [01:16:55.000 --> 01:16:57.000] weil man dann auch die Möglichkeit hat, [01:16:57.000 --> 01:16:59.000] sich dann auch an die Plattformen anzumelden. [01:16:59.000 --> 01:17:01.000] Und das ist dann natürlich auch ein Vorteil, [01:17:01.000 --> 01:17:03.000] weil man dann auch die Möglichkeit hat, [01:17:03.000 --> 01:17:05.000] sich dann auch an die Plattformen anzumelden. [01:17:05.000 --> 01:17:07.000] Und das ist dann natürlich auch ein Vorteil, [01:17:07.000 --> 01:17:09.000] weil man dann auch die Möglichkeit hat, [01:17:09.000 --> 01:17:11.000] sich dann auch an die Plattformen anzumelden. [01:17:11.000 --> 01:17:13.000] Und das ist dann natürlich auch ein Vorteil, [01:17:13.000 --> 01:17:15.000] weil man dann auch die Möglichkeit hat, [01:17:15.000 --> 01:17:17.000] sich dann auch an die Plattformen anzumelden. [01:17:17.000 --> 01:17:19.000] Und das ist dann natürlich auch ein Vorteil, [01:17:19.000 --> 01:17:21.000] weil man dann auch die Möglichkeit hat, [01:17:21.000 --> 01:17:23.000] sich dann auch an die Plattformen anzumelden. [01:17:23.000 --> 01:17:25.000] Und das ist dann natürlich auch ein Vorteil, [01:17:25.000 --> 01:17:27.000] weil man dann auch die Möglichkeit hat, [01:17:27.000 --> 01:17:29.000] sich dann auch an die Plattformen anzumelden. [01:17:29.000 --> 01:17:31.000] Und das ist dann natürlich auch ein Vorteil, [01:17:31.000 --> 01:17:33.000] weil man dann auch die Möglichkeit hat, [01:17:33.000 --> 01:17:35.000] sich dann auch an die Plattformen anzumelden. [01:17:35.000 --> 01:17:37.000] Und das ist dann natürlich auch ein Vorteil, [01:17:37.000 --> 01:17:39.000] weil man dann auch die Möglichkeit hat, [01:17:39.000 --> 01:17:41.000] sich dann auch an die Plattformen anzumelden. [01:17:41.000 --> 01:17:43.000] Und das ist dann natürlich auch ein Vorteil, [01:17:43.000 --> 01:17:45.000] weil man dann auch die Möglichkeit hat, [01:17:45.000 --> 01:17:47.000] sich dann auch an die Plattformen anzumelden. [01:17:47.000 --> 01:17:49.000] Und das ist dann natürlich auch ein Vorteil, [01:17:49.000 --> 01:17:51.000] weil man dann auch die Möglichkeit hat, [01:17:51.000 --> 01:17:53.000] sich dann auch an die Plattformen anzumelden. [01:17:53.000 --> 01:17:55.000] Und das ist dann natürlich auch ein Vorteil, [01:17:55.000 --> 01:17:57.000] weil man dann auch die Möglichkeit hat, [01:17:57.000 --> 01:17:59.000] sich dann auch an die Plattformen anzumelden. [01:17:59.000 --> 01:18:01.000] Und das ist dann natürlich auch ein Vorteil, [01:18:01.000 --> 01:18:03.000] weil man dann auch die Möglichkeit hat, [01:18:03.000 --> 01:18:05.000] sich dann auch an die Plattformen anzumelden. [01:18:05.000 --> 01:18:07.000] Und das ist dann natürlich auch ein Vorteil, [01:18:07.000 --> 01:18:09.000] weil man dann auch die Möglichkeit hat, [01:18:09.000 --> 01:18:11.000] sich dann auch an die Plattformen anzumelden. [01:18:11.000 --> 01:18:13.000] Und das ist dann natürlich auch ein Vorteil, [01:18:13.000 --> 01:18:15.000] weil man dann auch die Möglichkeit hat, [01:18:15.000 --> 01:18:17.000] sich dann auch an die Plattformen anzumelden. [01:18:17.000 --> 01:18:19.000] Gut. So, jetzt zum Vorabend.
Same here
I am seeing the repeat problem even in English
Same here.
Model is hallucinating. You can improving the behavior by trying -bo 7
or some number larger than the default of 5. The other thing is to try building with a different optimization level. Try -O3 instead of -O2, or vice versa.
-bo 7
, -bo 10
, -bo 15
and changing from -O3
to -O2
did not do the trick for me
similar to #471
Should be resolved via f19e23fbd108ec3ac458c7a19b31c930719e7a94