whisperX
whisperX copied to clipboard
In thailand language, whsiper-large-v3 could get word level timestamps, but whisperx could not! Why?
Using whisperx, I got final result after alignemnet:
{'segments': [{'start': 1.254, 'end': 6.66, 'text': 'มียุทธศาสตร์ในการศึกษาให้รัฐสภา มู่สู่ความเป็นรัฐสภาที่ทันสมัย', 'words': [{'word': 'มียุทธศาสตร์ในการศึกษาให้รัฐสภา', 'start': 1.254, 'end': 4.137, 'score': 0.292}, {'word': 'มู่สู่ความเป็นรัฐสภาที่ทันสมัย', 'start': 4.217, 'end': 6.66, 'score': 0.421}]}], 'word_segments': [{'word': 'มียุทธศาสตร์ในการศึกษาให้รัฐสภา', 'start': 1.254, 'end': 4.137, 'score': 0.292}, {'word': 'มู่สู่ความเป็นรัฐสภาที่ทันสมัย', 'start': 4.217, 'end': 6.66, 'score': 0.421}]}
Using original whisper large v3 I got final result after alignemnet:
{'text': 'มียุทธศาสตร์ในการศึกษาให้รัฐสภา มู่สู่ความเป็นรัฐสภาที่ทันสมัย', 'chunks': [{'text': 'ม', 'timestamp': (0.0, 1.3)}, {'text': 'ี', 'timestamp': (1.3, 1.44)}, {'text': 'ย', 'timestamp': (1.44, 1.58)}, {'text': 'ุ', 'timestamp': (1.58, 1.62)}, {'text': 'ท', 'timestamp': (1.62, 1.7)}, {'text': 'ธ', 'timestamp': (1.7, 1.72)}, {'text': 'ศ', 'timestamp': (1.72, 1.86)}, {'text': 'า', 'timestamp': (1.86, 2.04)}, {'text': 'ส', 'timestamp': (2.04, 2.04)}, {'text': 'ต', 'timestamp': (2.04, 2.1)}, {'text': 'ร', 'timestamp': (2.1, 2.1)}, {'text': '์', 'timestamp': (2.1, 2.1)}, {'text': 'ใ', 'timestamp': (2.1, 2.24)}, {'text': 'น', 'timestamp': (2.24, 2.26)}, {'text': 'ก', 'timestamp': (2.26, 2.32)}, {'text': 'าร', 'timestamp': (2.32, 2.48)}, {'text': 'ศ', 'timestamp': (2.48, 2.64)}, {'text': 'ึ', 'timestamp': (2.64, 2.7)}, {'text': 'ก', 'timestamp': (2.7, 2.7)}, {'text': 'ษ', 'timestamp': (2.7, 2.88)}, {'text': 'า', 'timestamp': (2.88, 3.0)}, {'text': 'ให', 'timestamp': (3.0, 3.14)}, {'text': '้', 'timestamp': (3.14, 3.38)}, {'text': 'ร', 'timestamp': (3.38, 3.52)}, {'text': 'ั', 'timestamp': (3.52, 3.56)}, {'text': 'ฐ', 'timestamp': (3.56, 3.64)}, {'text': 'ส', 'timestamp': (3.64, 3.64)}, {'text': 'ภ', 'timestamp': (3.64, 3.82)}, {'text': 'า', 'timestamp': (3.82, 4.02)}, {'text': ' ม', 'timestamp': (4.02, 4.18)}, {'text': 'ู่', 'timestamp': (4.18, 4.28)}, {'text': 'ส', 'timestamp': (4.28, 4.42)}, {'text': 'ู่', 'timestamp': (4.42, 4.58)}, {'text': 'ค', 'timestamp': (4.58, 4.76)}, {'text': 'ว', 'timestamp': (4.76, 4.76)}, {'text': 'าม', 'timestamp': (4.76, 4.88)}, {'text': 'เป', 'timestamp': (4.88, 5.12)}, {'text': '็', 'timestamp': (5.12, 5.16)}, {'text': 'น', 'timestamp': (5.16, 5.2)}, {'text': 'ร', 'timestamp': (5.2, 5.38)}, {'text': 'ั', 'timestamp': (5.38, 5.38)}, {'text': 'ฐ', 'timestamp': (5.38, 5.44)}, {'text': 'ส', 'timestamp': (5.44, 5.56)}, {'text': 'ภ', 'timestamp': (5.56, 5.72)}, {'text': 'า', 'timestamp': (5.72, 5.88)}, {'text': 'ท', 'timestamp': (5.88, 5.92)}, {'text': 'ี่', 'timestamp': (5.92, 6.06)}, {'text': 'ท', 'timestamp': (6.06, 6.14)}, {'text': 'ั', 'timestamp': (6.14, 6.2)}, {'text': 'น', 'timestamp': (6.2, 6.22)}, {'text': 'ส', 'timestamp': (6.22, 6.32)}, {'text': 'ม', 'timestamp': (6.32, 6.5)}, {'text': 'ั', 'timestamp': (6.5, 6.52)}, {'text': 'ย', 'timestamp': (6.52, 6.64)}]}
my first guess is that it has to do with the tokenizer