Soohwan Kim
Soohwan Kim
@jun-danieloh Of course, bigger memory is better. However, if it is not feasible, it is recommended to use a smaller model (deeppeech2, las etc.) or to reduce the batch size.
예전에는 RTX 2080ti로도 했었고, v100으로도 해봤습니다. RTX 2080ti의 경우 LAS 모델에 배치사이즈 4~6 정도로 작게 하거나 길이가 긴 오디오 데이터는 제외하고 학습을 진행하곤 했었습니다.
Thanks for letting us know. We'll check it. @hasangchun
There were many questions about the directory structure, so I thought I should document it. Please wait for a moment.
Sorry for too late response. We'll check. Thanks.
Thank you for letting us know. We'll check. cc. @upskyy
As far as I know, nn.CrossEntropy measure whether log_softmax is applied already and decide whether to apply or not.
안녕하세요. 에러 코드랑 같이 기록해주시겠어요? 그리고 해당 레포는 현재 개발은 중단된 상태이고 추가적인 개발은 https://github.com/openspeech-team/openspeech 에서 이루어지고 있습니다. 현재 레포에서 가지고 있는 많은 에러들을 보완하고, 모델, 언어도 추가된 형태로 릴리즈...
1. 네. 전처리 파일 돌리는 코드가 제공되고 있습니다. README 읽어보시면 됩니다. 보통 저희 답장이 느려서 직접 돌리시는게 낫습니다. 2. 약간의 차이점이 있어서 openspeech 기준으로 하시는걸 추천드려요. 3. KsponSpeech의 evaluation 셋이...
I tested `conformer-with-ctc` architecture. This architecture record 2.66 CER in LibriSpeech dataset. (Greedy Search, No Language Model, No Data Augmentation) Thank you.