jarvis icon indicating copy to clipboard operation
jarvis copied to clipboard

Solutions STT actuellement utilisables

Open mbl-35 opened this issue 7 years ago • 6 comments

Bonjour à tous et encore merci pour tout le travail réalisé (alex, contributeurs et créateurs de plugins...).

Je reviens sur les solutions disponibles pour effectuer le STT avec openjarvis. Si l'on veut une solution où les plugins peuvent ajouter leur propres commandes, et si en plus on veut rendre ces commandes dynamiques (je pense au plugin rivescript), nous n'avons pas le choix que d'adopter une solution 'en ligne', soit BING (recommandée mais limitée à 1 mois d'utilisation gratuite), GoogleSpeach ou WIT... Hors, ces solutions deviennent toutes payantes (après un mois d'essais par exemple pour BING). Il faudrait mettre à jour la page des comparatif des reconnaissances vocales pour informer les utilisateurs de openjarvis au niveau du site openjarvis.com/content/stt

Ma question est alors: quelles sont les solutions que vous utilisez actuellement pour utiliser la reco vocale au niveau des serveurs (ou multi-room) jarvis ? Est-on destinés à n'utiliser que les applications smartphones ?? Ce qui est dommage car ce qui plaisait avec jarvis, c'était le mode de conversation 'à la volée' que l'on était capable de déclencher dans toutes les pièces ayant une instance de jarvis..

Ce n'est donc pas réellement une issue, mais c'est pour centraliser les retours d'expériences de chacun avec les nouvelles politiques des APIs de reco ... Merci par avance pour l'aide fournie, car pour ma part, je suis dans l’impasse... A+

mbl-35 avatar Jan 07 '18 12:01 mbl-35

Hello, perso je suis avec WIT mais c'est vraiment lent donc je n'utilise presque que mon appli mobile :(

Sh1n1x avatar Jan 07 '18 13:01 Sh1n1x

Salut,

Google Speech a 60 minutes gratuites tous les mois. J'ai mis à jour l'API pour mais c'est lent car on envoie toute la requête et après seulement il fait la reconnaissance. Il faudrait que je modifie pour envoyer en streaming... Bing, selon leur page il y a 5000/requêtes par mois gratuites, y'a de la marge :p Malheureusement les "gros" du secteur avaient une API totalement gratuite le temps de la tester, rien n'est gratuit, il y a aussi des gens à payer chez eux ;-)

Si vous voulez une solution gratuite je vous invite à contribuer au projet Mozilla Common voice en Anglais pour l'instant.

Pour le multi room il y a déjà pas mal de discutions sur les issue, je vous laisse regarder

Oliv4945 avatar Jan 07 '18 22:01 Oliv4945

salut,

suggestions en image:

selection_005

selection_006

alansan2017 avatar Jan 14 '18 11:01 alansan2017

Dialogflow va traiter les phrases suivant des modèles, donc ce n'est pas vraiment un service STT au sens propre du terme.

diyfr avatar Apr 26 '18 08:04 diyfr

Il faut suivre le projet Common Voice de Mozilla qui peut être combiné avec DeepSpeech.

DamienFontaine avatar Oct 23 '18 14:10 DamienFontaine

Je viens de publier un modèle Kaldi pour le français en licence CC BY-NC-SA. https://github.com/pguyot/zamia-speech/releases/tag/20190930

Il est possible de l'utiliser avec le script de demo publié par @gooofy https://github.com/gooofy/zamia-speech https://github.com/pguyot/zamia-speech

Pour info, j'arrive à le faire fonctionner avec une grammaire réduite sur un Pi Zero dans un contexte similaire à celui de Jarvis (mais sans détection de hotword).

pguyot avatar Oct 01 '19 21:10 pguyot