whisper.cpp icon indicating copy to clipboard operation
whisper.cpp copied to clipboard

Repeating parts of text instead of transcribing - more than an hour long files

Open mirozahorak opened this issue 1 year ago • 9 comments

It sometimes happpens that output looks like below. For some reason it stops transcribing and just repeats last part for 14 minutes, in this case. Any idea what can cause this? There is nothing special in the file that i could hear what could cause this. It is pretty weird because otherwise it is amazingly good, sometimes even detecting songs being played. Are there any settings to adjust to prevent this?

[01:30:45.000 --> 01:30:55.000] Und ich habe immer den iPod mit mir. Und ich habe immer den [01:30:55.000 --> 01:30:55.000] iPod mit mir. Und ich habe immer den iPod mit mir. Und ich [01:30:55.000 --> 01:30:55.000] habe immer den iPod mit mir. [01:30:56.000 --> 01:31:16.000] Und ich habe immer den iPod mit mir. Und ich habe immer den [01:31:16.000 --> 01:31:16.000] iPod mit mir. Und ich habe immer den iPod mit mir. Und ich [01:31:16.000 --> 01:31:16.000] habe immer den iPod mit mir. … … … [01:45:06.000 --> 01:45:06.000] iPod mit mir. Und ich habe immer den iPod mit mir. Und ich [01:45:06.000 --> 01:45:06.000] habe immer den iPod mit mir. [01:45:07.000 --> 01:45:17.950] Und ich habe immer den iPod mit mir. Und ich habe immer den [01:45:17.950 --> 01:45:20.590] iPod mit mir. Und ich habe immer den iPod mit mir. Und ich [01:45:20.590 --> 01:45:22.000] habe immer den iPod mit mir. [01:45:23.000 --> 01:45:32.000] Singen wir "O es ist Jesus, O es ist Jesus".

mirozahorak avatar Mar 15 '23 08:03 mirozahorak

Again, this time after just a 2 minutes, the same text repeats all the way to the end of the 1 hour long file :


Ty si ku nám prehovoril a my chceme hovoriť k Tebe, Pane, a môžeme Ti len prinášať vďaky za to, že si tak moc nehovoril. A všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, a všetkým, ktorí sú tu, … … …

mirozahorak avatar Mar 15 '23 12:03 mirozahorak

facing similar issue. Any solution is there for this one?

godpod avatar Mar 16 '23 20:03 godpod

I also noticed these repetitions.

I did some tests (using the ggml-medium.bin model) on some audio from an episode of an Italian TV series (about 32 minutes). There are ambient noises and music, sometimes even in the background during speeches. Maybe the problem could be traced back to this. It seems that the phrase following the noises (or the music, if it is not recognised as such) is repeated for all the duration of these noises (I can provide an audio sample for this). Maybe the repeating part starts in a similar situation and, for some reason, it continues for all the duration of the audio.

P.S. Another thing I noticed that I did not expect (but which may be normal, I don't know) is that the windows executable downloaded from this page and the one for AARM64 compiled for macOS by my colleague, do not produce exactly the same transcription when I use the same audio on the same model.

bilo1967 avatar Mar 17 '23 12:03 bilo1967

BTW I've seen this issue using upstream/pytorch Whisper on long video files.

happycube avatar Mar 19 '23 12:03 happycube

Has anybody tried replicating the repeated lines problem with any up-to-date version of Whisper since OpenAI added this commit?

https://github.com/openai/whisper/commit/919a713499d4c4f76ecf448617ada8e9ac008fbb

This fix has been included since Whisper 20230307.

The repeating/dupe line problems makes this very hard to use for anything non-English, and even then it can still break down and start looping very easily, so I would love to see if this fixes it.

albino1 avatar Mar 19 '23 22:03 albino1

Having the same problem, missing almost 5 minutes of the transcription i made of a 1 1/2h team meeting capture (from a mp4 files). Just to be clear, while the transcription is outputting a "text loop", the conversation in the video continued normally.

Example of the Problem

[01:13:07.000 --> 01:13:10.000] die ist eben so, dass man sich dann anmelden kann. [01:13:10.000 --> 01:13:13.000] Und das ist dann natürlich auch eine Möglichkeit, [01:13:13.000 --> 01:13:16.000] dass man sich dann auch an diese Plattformen anmelden kann. [01:13:16.000 --> 01:13:19.000] Und das ist dann natürlich auch ein Vorteil, [01:13:19.000 --> 01:13:21.000] weil man dann auch die Möglichkeit hat, [01:13:21.000 --> 01:13:23.000] sich dann auch an die Plattformen anzumelden. [01:13:23.000 --> 01:13:25.000] Und das ist dann natürlich auch ein Vorteil, [01:13:25.000 --> 01:13:27.000] weil man dann auch die Möglichkeit hat, [01:13:27.000 --> 01:13:29.000] sich dann auch an die Plattformen anzumelden. [01:13:29.000 --> 01:13:31.000] Und das ist dann natürlich auch ein Vorteil, [01:13:31.000 --> 01:13:33.000] weil man dann auch die Möglichkeit hat, [01:13:33.000 --> 01:13:35.000] sich dann auch an die Plattformen anzumelden. [01:13:35.000 --> 01:13:37.000] Und das ist dann natürlich auch ein Vorteil, [01:13:37.000 --> 01:13:39.000] weil man dann auch die Möglichkeit hat, [01:13:39.000 --> 01:13:41.000] sich dann auch an die Plattformen anzumelden. [01:13:41.000 --> 01:13:43.000] Und das ist dann natürlich auch ein Vorteil, [01:13:43.000 --> 01:13:45.000] weil man dann auch die Möglichkeit hat, [01:13:45.000 --> 01:13:47.000] sich dann auch an die Plattformen anzumelden. [01:13:47.000 --> 01:13:49.000] Und das ist dann natürlich auch ein Vorteil, [01:13:49.000 --> 01:13:51.000] weil man dann auch die Möglichkeit hat, [01:13:51.000 --> 01:13:53.000] sich dann auch an die Plattformen anzumelden. [01:13:53.000 --> 01:13:55.000] Und das ist dann natürlich auch ein Vorteil, [01:13:55.000 --> 01:13:57.000] weil man dann auch die Möglichkeit hat, [01:13:57.000 --> 01:13:59.000] sich dann auch an die Plattformen anzumelden. [01:13:59.000 --> 01:14:01.000] Und das ist dann natürlich auch ein Vorteil, [01:14:01.000 --> 01:14:03.000] weil man dann auch die Möglichkeit hat, [01:14:03.000 --> 01:14:05.000] sich dann auch an die Plattformen anzumelden. [01:14:05.000 --> 01:14:07.000] Und das ist dann natürlich auch ein Vorteil, [01:14:07.000 --> 01:14:09.000] weil man dann auch die Möglichkeit hat, [01:14:09.000 --> 01:14:11.000] sich dann auch an die Plattformen anzumelden. [01:14:11.000 --> 01:14:13.000] Und das ist dann natürlich auch ein Vorteil, [01:14:13.000 --> 01:14:15.000] weil man dann auch die Möglichkeit hat, [01:14:15.000 --> 01:14:17.000] sich dann auch an die Plattformen anzumelden. [01:14:17.000 --> 01:14:19.000] Und das ist dann natürlich auch ein Vorteil, [01:14:19.000 --> 01:14:21.000] weil man dann auch die Möglichkeit hat, [01:14:21.000 --> 01:14:23.000] sich dann auch an die Plattformen anzumelden. [01:14:23.000 --> 01:14:25.000] Und das ist dann natürlich auch ein Vorteil, [01:14:25.000 --> 01:14:27.000] weil man dann auch die Möglichkeit hat, [01:14:27.000 --> 01:14:29.000] sich dann auch an die Plattformen anzumelden. [01:14:29.000 --> 01:14:31.000] Und das ist dann natürlich auch ein Vorteil, [01:14:31.000 --> 01:14:33.000] weil man dann auch die Möglichkeit hat, [01:14:33.000 --> 01:14:35.000] sich dann auch an die Plattformen anzumelden. [01:14:35.000 --> 01:14:37.000] Und das ist dann natürlich auch ein Vorteil, [01:14:37.000 --> 01:14:39.000] weil man dann auch die Möglichkeit hat, [01:14:39.000 --> 01:14:41.000] sich dann auch an die Plattformen anzumelden. [01:14:41.000 --> 01:14:43.000] Und das ist dann natürlich auch ein Vorteil, [01:14:43.000 --> 01:14:45.000] weil man dann auch die Möglichkeit hat, [01:14:45.000 --> 01:14:47.000] sich dann auch an die Plattformen anzumelden. [01:14:47.000 --> 01:14:49.000] Und das ist dann natürlich auch ein Vorteil, [01:14:49.000 --> 01:14:51.000] weil man dann auch die Möglichkeit hat, [01:14:51.000 --> 01:14:53.000] sich dann auch an die Plattformen anzumelden. [01:14:53.000 --> 01:14:55.000] Und das ist dann natürlich auch ein Vorteil, [01:14:55.000 --> 01:14:57.000] weil man dann auch die Möglichkeit hat, [01:14:57.000 --> 01:14:59.000] sich dann auch an die Plattformen anzumelden. [01:14:59.000 --> 01:15:01.000] Und das ist dann natürlich auch ein Vorteil, [01:15:01.000 --> 01:15:03.000] weil man dann auch die Möglichkeit hat, [01:15:03.000 --> 01:15:05.000] sich dann auch an die Plattformen anzumelden. [01:15:05.000 --> 01:15:07.000] Und das ist dann natürlich auch ein Vorteil, [01:15:07.000 --> 01:15:09.000] weil man dann auch die Möglichkeit hat, [01:15:09.000 --> 01:15:11.000] sich dann auch an die Plattformen anzumelden. [01:15:11.000 --> 01:15:13.000] Und das ist dann natürlich auch ein Vorteil, [01:15:13.000 --> 01:15:15.000] weil man dann auch die Möglichkeit hat, [01:15:15.000 --> 01:15:17.000] sich dann auch an die Plattformen anzumelden. [01:15:17.000 --> 01:15:19.000] Und das ist dann natürlich auch ein Vorteil, [01:15:19.000 --> 01:15:21.000] weil man dann auch die Möglichkeit hat, [01:15:21.000 --> 01:15:23.000] sich dann auch an die Plattformen anzumelden. [01:15:23.000 --> 01:15:25.000] Und das ist dann natürlich auch ein Vorteil, [01:15:25.000 --> 01:15:27.000] weil man dann auch die Möglichkeit hat, [01:15:27.000 --> 01:15:29.000] sich dann auch an die Plattformen anzumelden. [01:15:29.000 --> 01:15:31.000] Und das ist dann natürlich auch ein Vorteil, [01:15:31.000 --> 01:15:33.000] weil man dann auch die Möglichkeit hat, [01:15:33.000 --> 01:15:35.000] sich dann auch an die Plattformen anzumelden. [01:15:35.000 --> 01:15:37.000] Und das ist dann natürlich auch ein Vorteil, [01:15:37.000 --> 01:15:39.000] weil man dann auch die Möglichkeit hat, [01:15:39.000 --> 01:15:41.000] sich dann auch an die Plattformen anzumelden. [01:15:41.000 --> 01:15:43.000] Und das ist dann natürlich auch ein Vorteil, [01:15:43.000 --> 01:15:45.000] weil man dann auch die Möglichkeit hat, [01:15:45.000 --> 01:15:47.000] sich dann auch an die Plattformen anzumelden. [01:15:47.000 --> 01:15:49.000] Und das ist dann natürlich auch ein Vorteil, [01:15:49.000 --> 01:15:51.000] weil man dann auch die Möglichkeit hat, [01:15:51.000 --> 01:15:53.000] sich dann auch an die Plattformen anzumelden. [01:15:53.000 --> 01:15:55.000] Und das ist dann natürlich auch ein Vorteil, [01:15:55.000 --> 01:15:57.000] weil wir dann auch die Möglichkeit haben, [01:15:57.000 --> 01:15:59.000] sich dann auch an die Plattformen anzumelden. [01:15:59.000 --> 01:16:01.000] Und das ist dann natürlich auch ein Vorteil, [01:16:01.000 --> 01:16:03.000] weil man dann auch die Möglichkeit hat, [01:16:03.000 --> 01:16:05.000] sich dann auch an die Plattformen anzumelden. [01:16:05.000 --> 01:16:07.000] Und das ist dann natürlich auch ein Vorteil, [01:16:07.000 --> 01:16:09.000] weil man dann auch die Möglichkeit hat, [01:16:09.000 --> 01:16:11.000] sich dann auch an die Plattformen anzumelden. [01:16:11.000 --> 01:16:13.000] Und das ist dann natürlich auch ein Vorteil, [01:16:13.000 --> 01:16:15.000] weil man dann auch die Möglichkeit hat, [01:16:15.000 --> 01:16:17.000] sich dann auch an die Plattformen anzumelden. [01:16:17.000 --> 01:16:19.000] Und das ist dann natürlich auch ein Vorteil, [01:16:19.000 --> 01:16:21.000] weil man dann auch die Möglichkeit hat, [01:16:21.000 --> 01:16:23.000] sich dann auch an die Plattformen anzumelden. [01:16:23.000 --> 01:16:25.000] Und das ist dann natürlich auch ein Vorteil, [01:16:25.000 --> 01:16:27.000] weil man dann auch die Möglichkeit hat, [01:16:27.000 --> 01:16:29.000] sich dann auch an die Plattformen anzumelden. [01:16:29.000 --> 01:16:31.000] Und das ist dann natürlich auch ein Vorteil, [01:16:31.000 --> 01:16:33.000] weil man dann auch die Möglichkeit hat, [01:16:33.000 --> 01:16:35.000] sich dann auch an die Plattformen anzumelden. [01:16:35.000 --> 01:16:37.000] Und das ist dann natürlich auch ein Vorteil, [01:16:37.000 --> 01:16:39.000] weil man dann auch die Möglichkeit hat, [01:16:39.000 --> 01:16:41.000] sich dann auch an die Plattformen anzumelden. [01:16:41.000 --> 01:16:43.000] Und das ist dann natürlich auch ein Vorteil, [01:16:43.000 --> 01:16:45.000] weil man dann auch die Möglichkeit hat, [01:16:45.000 --> 01:16:47.000] sich dann auch an die Plattformen anzumelden. [01:16:47.000 --> 01:16:49.000] Und das ist dann natürlich auch ein Vorteil, [01:16:49.000 --> 01:16:51.000] weil man dann auch die Möglichkeit hat, [01:16:51.000 --> 01:16:53.000] sich dann auch an die Plattformen anzumelden. [01:16:53.000 --> 01:16:55.000] Und das ist dann natürlich auch ein Vorteil, [01:16:55.000 --> 01:16:57.000] weil man dann auch die Möglichkeit hat, [01:16:57.000 --> 01:16:59.000] sich dann auch an die Plattformen anzumelden. [01:16:59.000 --> 01:17:01.000] Und das ist dann natürlich auch ein Vorteil, [01:17:01.000 --> 01:17:03.000] weil man dann auch die Möglichkeit hat, [01:17:03.000 --> 01:17:05.000] sich dann auch an die Plattformen anzumelden. [01:17:05.000 --> 01:17:07.000] Und das ist dann natürlich auch ein Vorteil, [01:17:07.000 --> 01:17:09.000] weil man dann auch die Möglichkeit hat, [01:17:09.000 --> 01:17:11.000] sich dann auch an die Plattformen anzumelden. [01:17:11.000 --> 01:17:13.000] Und das ist dann natürlich auch ein Vorteil, [01:17:13.000 --> 01:17:15.000] weil man dann auch die Möglichkeit hat, [01:17:15.000 --> 01:17:17.000] sich dann auch an die Plattformen anzumelden. [01:17:17.000 --> 01:17:19.000] Und das ist dann natürlich auch ein Vorteil, [01:17:19.000 --> 01:17:21.000] weil man dann auch die Möglichkeit hat, [01:17:21.000 --> 01:17:23.000] sich dann auch an die Plattformen anzumelden. [01:17:23.000 --> 01:17:25.000] Und das ist dann natürlich auch ein Vorteil, [01:17:25.000 --> 01:17:27.000] weil man dann auch die Möglichkeit hat, [01:17:27.000 --> 01:17:29.000] sich dann auch an die Plattformen anzumelden. [01:17:29.000 --> 01:17:31.000] Und das ist dann natürlich auch ein Vorteil, [01:17:31.000 --> 01:17:33.000] weil man dann auch die Möglichkeit hat, [01:17:33.000 --> 01:17:35.000] sich dann auch an die Plattformen anzumelden. [01:17:35.000 --> 01:17:37.000] Und das ist dann natürlich auch ein Vorteil, [01:17:37.000 --> 01:17:39.000] weil man dann auch die Möglichkeit hat, [01:17:39.000 --> 01:17:41.000] sich dann auch an die Plattformen anzumelden. [01:17:41.000 --> 01:17:43.000] Und das ist dann natürlich auch ein Vorteil, [01:17:43.000 --> 01:17:45.000] weil man dann auch die Möglichkeit hat, [01:17:45.000 --> 01:17:47.000] sich dann auch an die Plattformen anzumelden. [01:17:47.000 --> 01:17:49.000] Und das ist dann natürlich auch ein Vorteil, [01:17:49.000 --> 01:17:51.000] weil man dann auch die Möglichkeit hat, [01:17:51.000 --> 01:17:53.000] sich dann auch an die Plattformen anzumelden. [01:17:53.000 --> 01:17:55.000] Und das ist dann natürlich auch ein Vorteil, [01:17:55.000 --> 01:17:57.000] weil man dann auch die Möglichkeit hat, [01:17:57.000 --> 01:17:59.000] sich dann auch an die Plattformen anzumelden. [01:17:59.000 --> 01:18:01.000] Und das ist dann natürlich auch ein Vorteil, [01:18:01.000 --> 01:18:03.000] weil man dann auch die Möglichkeit hat, [01:18:03.000 --> 01:18:05.000] sich dann auch an die Plattformen anzumelden. [01:18:05.000 --> 01:18:07.000] Und das ist dann natürlich auch ein Vorteil, [01:18:07.000 --> 01:18:09.000] weil man dann auch die Möglichkeit hat, [01:18:09.000 --> 01:18:11.000] sich dann auch an die Plattformen anzumelden. [01:18:11.000 --> 01:18:13.000] Und das ist dann natürlich auch ein Vorteil, [01:18:13.000 --> 01:18:15.000] weil man dann auch die Möglichkeit hat, [01:18:15.000 --> 01:18:17.000] sich dann auch an die Plattformen anzumelden. [01:18:17.000 --> 01:18:19.000] Gut. So, jetzt zum Vorabend.

tilllt avatar Mar 22 '23 08:03 tilllt

Same here

zhengchen1025 avatar Mar 24 '23 15:03 zhengchen1025

I am seeing the repeat problem even in English

adeelabbas avatar Mar 24 '23 19:03 adeelabbas

Same here.

wangmou20 avatar Mar 25 '23 17:03 wangmou20

Model is hallucinating. You can improving the behavior by trying -bo 7 or some number larger than the default of 5. The other thing is to try building with a different optimization level. Try -O3 instead of -O2, or vice versa.

heshpdx avatar Mar 28 '23 23:03 heshpdx

-bo 7, -bo 10, -bo 15 and changing from -O3 to -O2 did not do the trick for me

abelbabel avatar Apr 11 '23 12:04 abelbabel

similar to #471

abelbabel avatar Apr 11 '23 12:04 abelbabel

Should be resolved via f19e23fbd108ec3ac458c7a19b31c930719e7a94

ggerganov avatar Apr 15 '23 13:04 ggerganov