lodex icon indicating copy to clipboard operation
lodex copied to clipboard

(2) Admin : je souhaite visualiser les données pré-calculées

Open Alexmarmelab opened this issue 3 months ago • 9 comments

Pré-requis

  • 2 types de résultats de pré-calculs :
    • Données globales sur un corpus (ex : statistiques)
    • Données ligne par ligne (ex : mots-clés des ressources)
  • un format de résultat des pré-calculs : JSON (les formats GEFX seront convertis en JSON avant la réponse Lodex)

Problèmes

Tldr

  1. LDAClass et LDASegment nécessitent l'intervention de l'admin
  2. Ajouter le résultat des précalculs au dataset est indispensable et non pratique à réaliser actuellement

Détails : LDAClass Le pré-calcul LDAClass extrait un nombre de thématiques et pour chaque ressource indique quelles thématiques, elle correspond. Les thématiques sont nommées "Topic_1", "Topic_2", "Topic_3"... ce qui n'est pas explicite pour l'utilisateur final. L'admin souhaiterait avoir la main dessus pour renommer "Topic_N"...

Exemple de résultat Résultat complet : precomputed-data-deepspace.json Portion d'un résultat : Image

LDASegment Le pré-calcul LDASegment extrait un nombre de thématiques qu'il lie à des ressources du corpus. Le format de sortie est adapté à des formats "graphique". L'admin souhaiterait avoir la main dessus pour renommer "Topic_N"...

Exemple de résultat Portions d'un résultat : Image Image

Résultat complet : precomputed-data-deepspace-lda-segment.txt Exemple dans cet instance Image

Précalculs Ligne par ligne et nouvelle colonne Le résultat des pré-calculs n'est pas visible dans le dataset et donc non exploitable avec les facettes. Pour chaque pré-calculs, il est donc nécessaire de créer un enrichissement pour récupérer les données dans le dataset. La récupération des données nécessite de passer en mode avancé des enrichissements et de récupérer le terme technique, ce qui n'est pas trivial pour tous les utilisateurs.

Enrichissement avancé : Image

TopRefExtract et DataGraph Justine extrait les résultats pour décrire la problématique TopRefExtract : question, comment représenter les données, idées : graph réseau DataGraph n'est pas encore disponible dans Lodex. Les résultats sont uniquement exploitables par des graphiques

Solution

Admin > "Données" :

  • Ajouter deux onglets "Dataset" et "Pré-calculs"
  • "Dataset" est la valeur par défaut
  • L'onglet Pré-calculs contient un sélecteur qui liste: "Dataset" + les noms des précalculs qui ont le statut "Terminé" ou "En cours"
  • Désactiver les précalculs "en cours" et ajouter la mention "En attente des résultats".
  • A la sélection d'une source de données, afficher les données correspondantes sous forme de table (semblable à la page "Données" actuelle)

Hors scope :

Maquette

Image

Alexmarmelab avatar Sep 22 '25 16:09 Alexmarmelab

Une des solutions évoquées est de récupérer les pré-calculs et de le traiter en mode enrichissement, voici une instance où l'on peut voir comment procéder : https://instance-globale-15910.lodex-dev.inist.fr/instance/recup-pre-calculs

mais cette manière de faire pose 2 problèmes :

  • certains résultats de pré-calculs ne peuvent pas être reliés à chacune des données du dataset (comme déterminer une thématique à un corpus entier, les résultats n'ont de sens que par le volume des données), il n'est donc pas naturel de les stocker en données pour chaque ligne comme le font les enrichissement.

  • second problème, les enrichissements peuvent être lancés en une fois, mais les pré-calculs sont asynchrones, on peut donc lancer des traitements sur des pré-calculs avant même que ceux-ci soient terminés, les traitements échoueront donc.

AnaelKremer avatar Sep 23 '25 07:09 AnaelKremer

voir carte #2584 de la précédente prestation

AnaelKremer avatar Oct 17 '25 19:10 AnaelKremer

Une colonne apparaît avec une seule valeur pour le précalcul, dataHomogenise à quoi correspond cette colonne ?

Image

AnaelKremer avatar Nov 07 '25 14:11 AnaelKremer

Je poste ça ici car la visualisation des données précalculcuées impacte forcément la page "données".

Avant la version 11 on avait les options apparentes pour visualiser les données à l'écran (x colonnes chargées, nb de lignes etc)

Image

Désormais il faut scroller jusqu'au bas de page pour les voir

Image

Autre changement de comportement non demandé, quand on selectionnait des colonnes auparavant celles-ci s'affichaient à gauche comme là :

Image

Désormais l'affichage est comme ça

Image

Pour le coup je préfère car je peux voir l'entièreté des colonnes, avant elles était systématiquement tronquées.

A discuter donc

AnaelKremer avatar Nov 07 '25 19:11 AnaelKremer

testé en 16.1.2

  • même constat qu'Anaël (la barre du bas du tableau n'est plus apparente)
  • le nombre de colonnes varie : 2 ou 3 (voir vidéo jointe) dont une colonne avec des identifiants qui est présente ou non

https://github.com/user-attachments/assets/79e5383a-d310-40a2-b5e9-b5bd6b98d0f6

  • cette colonne d'identifiants contient uniquement une valeur pour la 1e ressource quel que soit le pré-calcul
  • les id des ressources ne sont pas présentés comme dans le jeu de données originel jeu de données originel : uri = ark:/67375/80W-H9FG4GB9-G
    jeu de données précalculées : id = uid:/ark:/67375/80W-H9FG4GB9-G

camilledesalabert avatar Nov 12 '25 14:11 camilledesalabert

Même observation que Camille, la colonne PID disparaît si l'on switche plusieurs fois entre "jeu de données" et "données précalulées", le PID en question est toujours une clé renseignée dans la 1ère ressource du dataset

Image Image

AnaelKremer avatar Nov 12 '25 14:11 AnaelKremer

Vu au daily :

  • PID ne doit pas être renvoyée par les pré-calculs
  • J'ai créé une carte pour fixer la barre du tableau et la prioriser
  • On conserve l'affichage des colonnes réparties sur la largeur
  • id des ressources ne sont pas présentés comme dans le jeu de données originel : nous ne faisons qu'afficher les résultats que nous renvoient les pré-calculs, nous n'agissons pas dessus

Alexmarmelab avatar Nov 13 '25 09:11 Alexmarmelab

v16.1.2 :

  • Le bouton "Ajouter plus de données", pour ajouter des données dans le dataset, est aussi présent quand on est positionné sur l'onglet "Données précalculées" : est-ce compréhensible ? (problème mineur)
Image
  • Serait-il possible d'ajouter une indication de date/heure de génération de données précalculées, selon le même principe que la colonne "lodexstamp" dans le dataset, avec éventuellement l'url du précalcul, ce qui permettrait de savoir quand et comment les données ont été créées/recréées ?
Image

nantonot avatar Nov 13 '25 14:11 nantonot

Nathalie, merci pour tes tests, J'ai fusionné tes retours à cette cartes, Pré-calculs : plusieurs améliorations UX

Alexmarmelab avatar Nov 14 '25 08:11 Alexmarmelab