New recipes for diarization (with pyannote embeddings) And a recipe to dump annotations into RTTM and UEM files https://github.com/pyannote/pyannote-audio/issues/821

Apr 11 '22 14:04 J-Petiot

Codecov Report

Base: 33.59% // Head: 29.92% // Decreases project coverage by -3.67% :warning:

Coverage data is based on head (64c4d20) compared to base (3147e2b). Patch has no changes to coverable lines.

Additional details and impacted files

@@             Coverage Diff             @@
##           develop     #950      +/-   ##
===========================================
- Coverage    33.59%   29.92%   -3.68%     
===========================================
  Files           63       63              
  Lines         3643     4090     +447     
===========================================
  Hits          1224     1224              
- Misses        2419     2866     +447

Impacted Files	Coverage Δ
pyannote/audio/pipelines/clustering.py	`0.00% <0.00%> (ø)`
pyannote/audio/pipelines/resegmentation.py	`0.00% <0.00%> (ø)`
pyannote/audio/pipelines/speaker_diarization.py	`0.00% <0.00%> (ø)`
pyannote/audio/pipelines/speaker_verification.py	`0.00% <0.00%> (ø)`

Help us with your feedback. Take ten seconds to tell us how you rate us. Have a feature suggestion? Share it here.

:umbrella: View full report at Codecov.
:loudspeaker: Do you have feedback about the report comment? Let us know in this issue.

Apr 11 '22 14:04 codecov[bot]

Tests effectués sous Chrome (macOS)

Problème #1

[H] affiche l'aide. [H] cache l'aide. [H] affiche l'aide. [ESC] cache aussi l'aide mais "skip" le "chunk" courant et passe au suivant. Il faudrait désactiver les raccourcis clavier quand l'aide est affichée (je ne sais pas si tu as le contrôle là dessus)

Problème #2

[SHIFT + left] et [SHIFT + right] fonctionnent (déplacement du temps de début) [CTRL + left] et [CTRL + right] ne fonctionnent pas.

Problème #3

SPEAKER 02 4

On peut rentrer une chaine de caractère vide quand on donne un nom à un SPEAKER_XX. Pour les "chunks" suivant, l'étiquette en haut et sur le segment est vide. Il faudrait vérifier que la chaine de caractère n'est pas vide (+ d'éventuelles autres vérifications auxquelles je ne pense pas pour l'instant).

Problème #4

Quand on crée un segment (que ce soit au clavier ou à la souris), il serait judicieux de recommencer à jouer l'audio à partir du début du segment créé, comme celà se produit déjà quand on active un segment existant en cliquant dessus. Même chose quand on active un segment grâce aux raccourcis clavier haut ou bas.

Problème #5

toto

Peut-on remplacer le titre des zones de texte par quelque chose qui clarifie ce qui est attendu? Ex. Assign a global tag to local SPEAKER_00 au lieu de SPEAKER_00

Problème #6

Quand on donne un nom à un SPEAKER_XX et qu'on appui sur "ENTER", l'absence de feedback utilisateur donne l'impression que le nom n'est pas pris en compte. Il faudrait au moins sortir le curseur de la zone de texte -- et éventuellement trouver un meilleur feedback (ex. passer au nom suivant s'il y en a plusieurs à nommer)

Problème #7

Serait-il judicieux de lancer le player dès qu'un nouveau chunk est chargé ? Y a-t-il des inconvénients à ça ?

Problème #8

Un "speaker" nommé devrait conserver la même couleur tout au long de l'annotation Ce n'est pas le cas actuellement. Cf ces deux screenshots issus de 2 chunks consécutifs. SHELDON est jaune dans le premier et bleu dans le second.

chunk1

SPEAKER 02

May 11 '22 13:05 hbredin

Problème #9

Il semble que l'audio snippet (qui est joué quand on passe la souris sur les étiquettes en haut) contient des extraits audio qui ne sont pas dans l'ordre chronologique d'apparition dans le fichier.

Problème #10

Le niveau sonore de l'audio snippet est plus bas que celui du player principal.

Problème #11

Pasted Graphic 6

Je suis tombé sur cet exemple où il y avait :

beaucoup trop de speaker_xx en haut
des zones de texte qui n'auraient pas dû être affichée

Un peu plus loin, la zone de texte de SPEAKER_03 n'est pas affichée quand je créé un segment SPEAKER_03

SPEAKER 06

Problème #12

Quand on commence à bien connaitre les locuteurs, on n'a plus vraiment besoin d'écouter l'audio snippet. Ça devient même perturbant parce qu'il s'overlappe par dessus le player principal. Je propose de changer un peu le comportement l'audio snippet ne commence à jouer que lorsqu'on clique sur l'étiquette du speaker nommé. Ou alors on ajoute une petite icône 🗣 sur laquelle il faut passer la souris pour jouer l'audio snippet.

May 11 '22 14:05 hbredin

Are you 100% sure this solves our problem?

I am not sure sorted does the same as networkx.topological_sort when examples are not fully ordered. What is the sorting algorithm used internally by sorted? Is there a documentation for that?

I'm not 100% sure, and yes it use timsort

Jun 03 '22 07:06 J-Petiot

This is to avoid conflict with new Q shortcut right? That is a great idea actually since undo is not available anyway with instant_submit = True.

Yes it originally was to avoid conflict with "q" but in the end I thought it was better to put "reset" on a shortcut and not "undo"

Jun 03 '22 07:06 J-Petiot

Can you explain what was the problem? I still don't understand why ("path", "chunk") is not enough.

I think there is something wrong with set_hashes, or how I use it. According to my tests, no matter what I put as a the key (or not at all, or a key that doesn't exist, but only one), the _input_hash in the db remains the same for the same file (and same chunk).

Jun 03 '22 08:06 J-Petiot

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.

Sep 28 '22 19:09 stale[bot]

Closing as this will be integrated into pyannotebook.

Jan 18 '23 11:01 hbredin

Diarization and Database recipes

Codecov Report