openspeech
openspeech copied to clipboard
squeezeformer 모델 학습 및 추론
❓ Questions & Help
안녕하세요? 컴퓨터 비전만 하다가 음성인식쪽은 처음인 음성ai어린이입니다. 혼자 음성인식 프로젝트를 맡아 정말 막막하여 이렇게나마 질문을 드립니다. 우선 TUNiB의 김수환님의 유튜브 영상을 보면서 openspeech에 알게되었고, 해당 프레임워크를 활용해서 STT 모델을 개발하려합니다.
제가 활용할 모델은 Squeezeformer 입니다. 또한 모델 성능 목표는 이와 같습니다.
- cer : 0.1
- 추론 속도 : 2초 (5초 음성 입력)
Details
활용 pc 사양 : 3060 rtx, window 10
질문 1. 도메인 지식이 아예 없다보니 상기와 같은 목표를 달성하기에 Squeezeformer의 STT 모델만(언어모델 미적용)을 활용해서 성능을 달성할 수 있을지에 대한 질문을 우선적으로 드립니다.
질문 1-1. 언어 모델을 적용해야한다면, hydra_lm_train.py 소스코드를 활용하여 학습을하고 hydra_train.py 소스코드를 활용하여 STT 모델을 학습을 해야하는 것으로 알고 있습니다. 그런데 혹시 두 모델을 학습한 뒤 통합해서 evaluation하거나 inference 하는 코드는 보이지 않더라구요. 혹시 제가 직접 구현하려면 어떻게 해야할까요? 참고할만한 자료가 있으면 추천 부탁드립니다.
질문 2. Squeezeformer를 학습하는 config file의 파라미터를 알 수 있는 방법이 있을까요? 소스코드에서는 아무런 정보가 제공되지 않는 것 같아서요. EX (https://github.com/openspeech-team/openspeech/blob/main/openspeech/configs/train.yaml)
질문 3. 한국어 데이터셋인 KsponSpeech을 활용하려는데, Annotation 라벨 데이터는 kospeech에서 제공해주신 전처리 코드를 이용해서 Option1 : phonetic transcript형식으로 TEXT를 전처리하려합니다. 그러면 Character-Unit 형식으로 OUTPUT이 나올까요? 또한 squeezeformer 모델의 output은 어떻게 나오는지 궁금합니다.
질문 4. 최종적인 목표는 음성인식 모델을 만든 다음 python script를 통해 실시간 마이크 스트리밍으로 5초간 음성을 인식하여 2초내에 추론된 text를 기반으로한 이벤트 기능을 개발하는 것입니다. openspeech 프레임워크를 활용한다면 이러한 프로젝트 목표를 달성할 수 있을까요?