Bulgarian_Linguistic icon indicating copy to clipboard operation
Bulgarian_Linguistic copied to clipboard

Collection and resources for Bulgarian Corpus, Datasets and Models used in ASR, TTS or NLP tasks together with the links of corresponding tools/apps.

Collection and resources for Bulgarian Corpus, Datasets and Models used in ASR, TTS or NLP tasks together with the links of corresponding tools/apps.

You may find here publically available different Bulgarian datasets and models used for ASR, TTS, and NLP tasks together with open source tools and apps. I hope to publish also Multimedia Corpus of Spoken Bulgarian in different proffesional domains.

If you are having a publically available dataset and would like to share with us please let me know. It will be updated frequently. So please star this repo ;)


Систематизирани, публично отворени и достъпни готови модели и данни, които може да се открият в интернет пространство заедно с някои по известни програми за ASR, TTS, NLP и машинен превод за български език. Тук ще има и синхронизирани мултимедийни и текстови файлове нужни за ASR. Този архив съдържа всичко необходимо за да се направи гласов асистент на български език. В папката docs ще има коментар за всички приложения, които поддържат БГ език и работа с данни и модели на български.

  • Поради факта, че някои линкове с времето няма да са актуални, като бекъп ще ги качвам в моето репо тук и в gitlab. Приканвам всички колеги да се включат в инициативата за да актуализираме и попълним наличните до момента разработки и данни в тази посока.

Може да пишете на: "antouan.bg @ gmаil дот com" за повече информация или ако желаете да Ви включа като Collaborators. Ако пък ли не може да дадете звездичка защото отделям доста време за систематизиране.

Sofia, Sep, 2019

Антуан Ангелов