icefall
icefall copied to clipboard
Deletion occcurence
I'm getting 77% wer. %WER 77.58% [21709 / 27984, 465 ins, 13810 del, 7434 sub ] how to reduce the wer and what will be the reason for getting high wer
Could you please share some decoding examples? You can find them in the decoding output files.
Errors: 465 insertions, 13810 deletions, 7434 substitutions, over 27984 reference words (6740 correct) Search below for sections starting with PER-UTT DETAILS:, SUBSTITUTIONS:, DELETIONS:, INSERTIONS:, PER-WORD STATS:
PER-UTT DETAILS: corr or (ref->hyp) 002_Kannur_F_18_monologue_00293: (കലാമണ്ഡലം കല്യാണികുട്ടിയമ്മ കേരളത്തിലെ പ്രീശസ്തയായ മോഹിനിയാട്ട നർത്തകിയാആയിരുന്നു->കലാമടലം കല്യാണിക്കുട്ടിയമ്മ കേരളത്തിലെത്തി)_00924: എങ്കിലും (ഇൻട്രാനെറ്റ്വെയർ->ഇൻട്രാനറ്റ്) എന്ന (പേര് നെറ്റെവെയറിൻ്റെ അഞ്ചാംപതിപ്പിൽ ഉപേക്ഷിച്ചു->പേരിൽ നെറ്റ്)ur_F_18_monologue_01144: ഇപ്പോൾ (സ്റ്റീൽ കളിമണ്ണ് പ്ളാസ്റ്റിക് ഗ്ലാസ്സ് തുടങ്ങിയ സാധനങ്ങൾകൊണ്ട് തട്ടങ്ങൾ ഉണ്ടാക്കുക പതിവായിരിക്കുന്നുറ്റേറ്റ് ക്ലാസ് തുടങ്ങിയവയാണ്) 002_Kannur_F_18_monologue_01228: നേരത്തെ നന്നായി (കഴുകി ഉണക്കി ബ്രൌൺ പേപ്പറിൽ പൊതിഞ്ഞാണ് ചൂടാക്കാൻ വയ്ക്കുന്നത്->കഴിഞ്ഞുണയ്ക്കയും പ്രവര്ത്തി)_Kannur_F_18_monologue_01317: ഇവിടെ ബുദ്ധമതത്തിന്റെ (തെളിവുകളും അവശേഷിക്കുന്നു->) 003_Kannur_M_26_monologue_01607: ഈ അവസ്ഥയിൽ (ഉളള ഒരു ഗ്രഹം->രൂ) 003_Kannur_M_26_monologue_01641: (ചിവാർളി->ചിവാർലി) പ്രണയകാവ്യമായ (ഒർലാണ്ടോ->ഒർലാൻഡോ) ഇന്നാമോർട്ടോ (എന്നിവയുടെ പേരിലാണ് ഇദ്ദ->)പ്രധാനമായി ഓർമിക്കപ്പെടുന്നത് 003_Kannur_M_26_monologue_01746: (ബിഷപ്പ് ജെറോമിന്റെ ഭൗതികാവശിഷ്ടങ്ങൾ അടക്കം ചെയ്തതു ഇവിടെയാണ്->ബിഷബ് ജറോമിന്റെ ഭൗതികാവശ്യമായത്) 003_Kannur_M_26_monologue_01861: ഈ (സംഭവത്തിന് ശേഷം കുമാരപ്പണിക്കരടക്കമുള്ള സമര നേതാക്കൾക്ക് ഒളിവിൽ പോകേണ്ടതായി വന്നു->സംഭവത്തിനുശേത്) കുമാരപ്പണിക്കരടക്കുമുള്ള 007_Kannur_M_21_monologue_00975: (അപർണ ബാലൻ കോഴിക്കോദുനിന്നുള്ള ബാഡ്മിന്റൺ കാളിക്കാരിയാണു->അപർണബാലൻ കോഴിക്കോതു നിന്നുള്ള ആദ്യം) 007_Kannur_M_21_monologue_02076: മലബാർ (ജൂതന്മാരാണ് ഇത് നിർമ്മിച്ചത്->ജൂതരി)
Thanks. Could you please also show the loss curves from tensorboard logs?
The pruned_loss looks quite high. Your model seems underfitting. How much data are you using for training?
train -215 hrs of data
- What recipe are you using?
- How did you prepare the data?
Some remarks:
- Make sure you have pre-shuffled the whole manifest (see here).
- For a well converged model, pruned loss should ideally be ~0.1 or lower. Check the training logs for TED-LIUM here (which is ~400h so similar to your data size): https://tensorboard.dev/experiment/AKXbJha0S9aXyfmuvG4h5A/#scalars
I have used the below script to prepare the data prepare.txt