commonvoice-fr icon indicating copy to clipboard operation
commonvoice-fr copied to clipboard

Améiloration de documentation

Open Gaet81 opened this issue 6 years ago • 17 comments

Bonjour,

J'ai amélioré la documentation. Dites-moi ce que vous en pensez et si c'est bien correct.

J'ai également des questions:

  • Length.py: ne semble pas être utilisé, ne faut il pas supprimer ce fichier ou est-il en cours de développement?
  • Y a-t-il une vérification de doublon sur le sentence collector pour être certains que quelqu'un qui ferait tourner ces scripts sur des textes déjà parsés et les soumettraient dans le sentence collector serait d'office écarté?

Ne faut-il pas ouvrir des issues pour :

  • demander de créer un parseur pour le site http://www.cuisine-libre.fr/
  • demander de créer un parseur pour le site http://www.inlibroveritas.net/ (même si je m'interroge sur comment parser un PDF...)
  • Expliquer ce qu'il reste à faire pour le parseur http://libretheatre.fr/

Il faudrait également un wiki pour

  • Expliquer quelles sont les règles pour le parseur. (nombre de mots min/max par phrase, les abréviations à changer, etc)
  • Expliquer que faire des résultats, comment les soumettre.

Sur le projet Gutenberg il y a un lien vers librivox (https://librivox.org/search?primary_key=2&search_category=language&search_page=1&search_form=get_results). Est il possible de parser ces audio books qui sont dans le domaine public pour les incorporés à la validation common voice? Existe t'il déjà un tavail en ce sens pour d'autres langues?

Gaet81 avatar Apr 03 '19 21:04 Gaet81

Bonjour,

J'ai amélioré la documentation. Dites-moi ce que vous en pensez et si c'est bien correct.

Merci !

J'ai également des questions:

* Length.py: ne semble pas être utilisé, ne faut il pas supprimer ce fichier ou est-il en cours de développement?

En fait c'est utile pour vérifier la répartition des tailles et des mots par rapport à une référence (wikipedia)

* Y a-t-il une vérification de doublon sur le sentence collector pour être certains que quelqu'un qui ferait tourner ces scripts sur des textes déjà parsés et les soumettraient dans le sentence collector serait d'office écarté?

Bonne question, le dépôt date d'avant l'existence de Sentence Collector, et visait justement à centraliser l'origine du texte pour éviter des doublons.

Au pire, c'est une bonne contribution à faire à Sentence Collector s'il ne vérifie pas déjà ça

Ne faut-il pas ouvrir des issues pour :

* demander de créer un parseur pour le site http://www.cuisine-libre.fr/

Probablement

* demander de créer un parseur pour le site http://www.inlibroveritas.net/  (même si je m'interroge sur comment parser un PDF...)

Parser un PDF, j'ai déjà fait, c'est tellement pénible qu'à mon avis mieux vaut éviter

* Expliquer ce qu'il reste à faire pour le parseur http://libretheatre.fr/

Il reste normalement pas grand chose, à part vérifier la qualité du texte de ce qui sort, et produire d'autres textes

Il faudrait également un wiki pour

* Expliquer quelles sont les règles pour le parseur. (nombre de mots min/max par phrase, les abréviations à changer, etc)

C'est déjà fait / en cours sur Common Voice

* Expliquer que faire des résultats, comment les soumettre.

Peut-être plutôt dans README.md du coup ?

Sur le projet Gutenberg il y a un lien vers librivox (https://librivox.org/search?primary_key=2&search_category=language&search_page=1&search_form=get_results). Est il possible de parser ces audio books qui sont dans le domaine public pour les incorporés à la validation common voice? Existe t'il déjà un tavail en ce sens pour d'autres langues?

Il y a déjà @nicolaspanel qui fait ça: https://gitlab.com/nicolaspanel/TrainingSpeech

lissyx avatar Apr 04 '19 07:04 lissyx

Dernier point que tu peux vouloir améliorer @Gaet81, avec le temps je me suis rendu compte que l'extracteur de livres du projet Gutenberg nettoie assez mal les données. Il y aurait beaucoup de travail à faire pour l'améliorer (Projet Gutenberg est très lâche sur les contraintes de formattage, c'est un peu chacun fait comme il veut, du coup c'est assez pénible à parser).

lissyx avatar Apr 04 '19 07:04 lissyx

C'est pas mal mais du coup deux-trois petits changements. Faudrait éviter aussi le mélange anglais / français. Le code peut servir à d'autres communautés, donc à mon avis c'est pas mal de rester sur de l'anglais pour ça.

J'y ai réfléchis avant d'écrire la doc. Mais ce dépot est spécifique à la langue fançaise donc pour moi devrait rester en français. Vos issues sont en français également. Je comprends que les outils doivent être compréhensible pour d'autres mais pour l'utilisateur lambda la première page est la plus accessible. Si on veut une documentation plus techniques alors je suis d'accord que l'anglais devrait être la langue de la doc mais pour de la doc technique on peut faire le faire dans le wiki et mettre un lien dans le readme.

Gaet81 avatar Apr 08 '19 20:04 Gaet81

Dernier point que tu peux vouloir améliorer @Gaet81, avec le temps je me suis rendu compte que l'extracteur de livres du projet Gutenberg nettoie assez mal les données. Il y aurait beaucoup de travail à faire pour l'améliorer (Projet Gutenberg est très lâche sur les contraintes de formattage, c'est un peu chacun fait comme il veut, du coup c'est assez pénible à parser).

j'ai vu que Nicolas Panel dans son projet utilisait le format epub plutot que le texte brut. Je n'ai pas encore testé le code sur des livres du projet gutenberg mais ça peut éventuellement aider d'avoir des tags qui structurent le texte. Même si je reconnais qu'il n'y a pas de standardisation et que ça restera difficile.

Gaet81 avatar Apr 08 '19 20:04 Gaet81

Si on veut une documentation plus techniques alors je suis d'accord que l'anglais devrait être la langue de la doc mais pour de la doc technique on peut faire le faire dans le wiki et mettre un lien dans le readme.

À l'utilisation c'est pénible, le README c'est un fichier à part. On peut utiliser un autre fichier, CONTRIBUTING.md pour le côté code, si ça t'arranges de séparer les deux

lissyx avatar Apr 08 '19 20:04 lissyx

Je n'ai pas encore testé le code sur des livres du projet gutenberg mais ça peut éventuellement aider d'avoir des tags qui structurent le texte.

Possible mais quand j'avais regardé les bouquins par rapport à la licence, sur gutenberg en ePub y'avait pas grand chose de mémoire :/

lissyx avatar Apr 08 '19 20:04 lissyx

@Gaet81 du coup tu bouges la partie code dans un CONTRIBUTING.md et après je re-review ?

lissyx avatar Apr 08 '19 20:04 lissyx

@Gaet81 du coup tu bouges la partie code dans un CONTRIBUTING.md et après je re-review ?

Tu veux dire renommer readme du répertoire CommonVoice-Data vers contributing.md?

Gaet81 avatar Apr 11 '19 19:04 Gaet81

Je n'ai pas encore testé le code sur des livres du projet gutenberg mais ça peut éventuellement aider d'avoir des tags qui structurent le texte.

Possible mais quand j'avais regardé les bouquins par rapport à la licence, sur gutenberg en ePub y'avait pas grand chose de mémoire :/

Je ne comprends pas ce que tu dis ici...tous les livres me semblent en epub et si le livre est dans le domaine publique il y reste quelque soit le format ou je me trompe?

Gaet81 avatar Apr 11 '19 19:04 Gaet81

Tu veux dire renommer readme du répertoire CommonVoice-Data vers contributing.md?

Par ex

Je ne comprends pas ce que tu dis ici...tous les livres me semblent en epub et si le livre est dans le domaine publique il y reste quelque soit le format ou je me trompe?

J'ai appris que pour Gutenberg, chacun fait un peu comme il veut et du coup les bouquins sont pas forcément dans tous les formats.

Je suis pas contre l'idée de parser de l'ePub, mais faut juste voir le ratio travail / bénéfice :)

lissyx avatar Apr 11 '19 19:04 lissyx

Ok, j'ai renommé le fichier readme

Gaet81 avatar Apr 11 '19 20:04 Gaet81

Ok, j'ai renommé le fichier readme

Heu t'as renommé et tout mis en français ?

lissyx avatar Apr 12 '19 08:04 lissyx

@Gaet81 Faut que tu rebases, désolé :/

lissyx avatar Apr 12 '19 08:04 lissyx

@Gaet81 Dès que tu peux rebase sur master et corriger la partie qui doit rester en anglais, c'est bon pour moi :)

lissyx avatar Apr 18 '19 09:04 lissyx

Salut,

J'ai retiré les phrases en anglais. Pour le rebase je ne sais ni le faire depuis mon browser ni depuis github desktop... Il semble que ce soit à toi de le faire lorsque tu merges: https://github.blog/2016-09-26-rebase-and-merge-pull-requests/

Gaet81 avatar Apr 18 '19 17:04 Gaet81

Cette option ne fonctionne pas dans le cas de conflits comme actuellement 😕, je connais pas github desktop

lissyx avatar Apr 18 '19 17:04 lissyx

Mais il faut tout mettre en anglais et pas en français 😕

lissyx avatar Apr 18 '19 17:04 lissyx